Skip to content

fortinux/bigdata-book

Repository files navigation

Jupyter Book Badge Fortinux Book Badge

Introducción a Big Data

Apuntes del curso

Introducción a Big Data. Apuntes del curso por Marcelo Horacio Fortino. Versión 2.0.3. Octubre 2023.

Esta obra está sujeta a la licencia Reconocimiento-CompartirIgual 4.0 Internacional de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-sa/4.0/. Puede hallar permisos más allá de los concedidos con esta licencia en https://fortinux.com. Sugerencias y comentarios a info@fortinux.com.

Todas las marcas son propiedad de sus respectivos dueños. Apache Hadoop, Hadoop, Apache, the Apache feather logo, y el Apache Hadoop project logo son marcas registradas o marcas de la Apache Software Foundation en los Estados Unidos y otros países. Copyright © 2006-2022 The Apache Software Foundation.

Versión Autor Fecha Observaciones
1.0 Marcelo Horacio Fortino 2020/Nov Fundamentals of Big Data
1.1 Marcelo Horacio Fortino 2022/Feb Traducido al castellano, actualizado y convertido a markdown - ipynb
1.2 Marcelo Horacio Fortino 2022/Mar Convertido en Jupyter Book
2.0 Marcelo Horacio Fortino 2023/Oct Actualizados contenidos. Agregado Data Science

Esta obra se distribuye con la esperanza de que sea útil, pero SIN NINGUNA GARANTÍA, incluso sin la garantía MERCANTIL implícita o sin garantizar la CONVENIENCIA PARA UN PROPÓSITO PARTICULAR. El autor no asume ninguna responsabilidad si el lector hace un mal uso de la misma.

  • Estos apuntes se basan en:
    • La bibliografía presentada al final de este documento, y
    • Documentación propia recogida a lo largo de los años de diversas fuentes.

Introducción

En el pasado solo las grandes organizaciones podían aprovecharse de Big Data. Empresas como Walmart, Google, y/o agentes financieros especializados. Actualmente con Hadoop, hardware de bajo coste (commodity) que utiliza el kernel de Linux, y el cloud computing, casi cualquier organización se lo puede permitir.

bigdata Hadoop logo

Basta considerar que hay una revolución de datos: los datos que se generan en el mundo aumentan anualmente un 40%. Se estima que para el 2025 se crearán más de 180 zetabytes. Fuente: https://es.statista.com/. En consecuencia, todos esos datos que obtenemos deben ser tratados para ser convertidos en información y poder así tomar decisiones estratégicas.

Objetivos del curso

  • Conocer las soluciones de Big Data presentes en el mercado como Apache Hadoop y Spark.
  • Adquirir conocimientos para diseñar estrategias de business intelligence integrando data lakes y data warehouses.
  • Desarrollar Machine Learning in-house usando Spark MLlib and TensorFlow.

Temario

  • Introducción al Big Data y al análisis de datos.
  • Mercado y tendencias del Big Data.
  • Definición de Big Data e historia.
  • Tipos de datos en Big Data.
  • Ejemplos de casos de usos.
  • Buenas prácticas en Big Data y análisis de datos.
  • Procesos de Big Data: ingest, store, process/query, visualize.
  • Hadoop: HDFS & MapReduce, YARN.
  • Herramientas y tecnologías: Kafka, Mesos, Redis, CouchDB.
  • Document stores: MongoDB.
  • Column stores: HBase + Cassandra.
  • Big Data analytics: Spark, Storm.
  • Elastic Stack: Logstash, ElasticSearch y Kibana.
  • Técnicas de Machine learning:
  • Spark (MLlib, Streaming).
  • TensorFlow.