Introducción a Big Data. Apuntes del curso por Marcelo Horacio Fortino. Versión 2.0.3. Octubre 2023.
Esta obra está sujeta a la licencia Reconocimiento-CompartirIgual 4.0 Internacional de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-sa/4.0/. Puede hallar permisos más allá de los concedidos con esta licencia en https://fortinux.com. Sugerencias y comentarios a info@fortinux.com.
Todas las marcas son propiedad de sus respectivos dueños. Apache Hadoop, Hadoop, Apache, the Apache feather logo, y el Apache Hadoop project logo son marcas registradas o marcas de la Apache Software Foundation en los Estados Unidos y otros países. Copyright © 2006-2022 The Apache Software Foundation.
Versión | Autor | Fecha | Observaciones |
---|---|---|---|
1.0 | Marcelo Horacio Fortino | 2020/Nov | Fundamentals of Big Data |
1.1 | Marcelo Horacio Fortino | 2022/Feb | Traducido al castellano, actualizado y convertido a markdown - ipynb |
1.2 | Marcelo Horacio Fortino | 2022/Mar | Convertido en Jupyter Book |
2.0 | Marcelo Horacio Fortino | 2023/Oct | Actualizados contenidos. Agregado Data Science |
Esta obra se distribuye con la esperanza de que sea útil, pero SIN NINGUNA GARANTÍA, incluso sin la garantía MERCANTIL implícita o sin garantizar la CONVENIENCIA PARA UN PROPÓSITO PARTICULAR. El autor no asume ninguna responsabilidad si el lector hace un mal uso de la misma.
- Estos apuntes se basan en:
- La bibliografía presentada al final de este documento, y
- Documentación propia recogida a lo largo de los años de diversas fuentes.
En el pasado solo las grandes organizaciones podían aprovecharse de Big Data. Empresas como Walmart, Google, y/o agentes financieros especializados. Actualmente con Hadoop, hardware de bajo coste (commodity) que utiliza el kernel de Linux, y el cloud computing, casi cualquier organización se lo puede permitir.
Basta considerar que hay una revolución de datos: los datos que se generan en el mundo aumentan anualmente un 40%. Se estima que para el 2025 se crearán más de 180 zetabytes. Fuente: https://es.statista.com/. En consecuencia, todos esos datos que obtenemos deben ser tratados para ser convertidos en información y poder así tomar decisiones estratégicas.
- Conocer las soluciones de Big Data presentes en el mercado como Apache Hadoop y Spark.
- Adquirir conocimientos para diseñar estrategias de business intelligence integrando data lakes y data warehouses.
- Desarrollar Machine Learning in-house usando Spark MLlib and TensorFlow.
- Introducción al Big Data y al análisis de datos.
- Mercado y tendencias del Big Data.
- Definición de Big Data e historia.
- Tipos de datos en Big Data.
- Ejemplos de casos de usos.
- Buenas prácticas en Big Data y análisis de datos.
- Procesos de Big Data: ingest, store, process/query, visualize.
- Hadoop: HDFS & MapReduce, YARN.
- Herramientas y tecnologías: Kafka, Mesos, Redis, CouchDB.
- Document stores: MongoDB.
- Column stores: HBase + Cassandra.
- Big Data analytics: Spark, Storm.
- Elastic Stack: Logstash, ElasticSearch y Kibana.
- Técnicas de Machine learning:
- Spark (MLlib, Streaming).
- TensorFlow.