Introducción a Big Data

Apuntes del curso

Introducción a Big Data. Apuntes del curso por Marcelo Horacio Fortino. Versión 2.0.3. Octubre 2023.

Esta obra está sujeta a la licencia Reconocimiento-CompartirIgual 4.0 Internacional de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-sa/4.0/. Puede hallar permisos más allá de los concedidos con esta licencia en https://fortinux.com. Sugerencias y comentarios a info@fortinux.com.

Todas las marcas son propiedad de sus respectivos dueños. Apache Hadoop, Hadoop, Apache, the Apache feather logo, y el Apache Hadoop project logo son marcas registradas o marcas de la Apache Software Foundation en los Estados Unidos y otros países. Copyright © 2006-2022 The Apache Software Foundation.

Versión	Autor	Fecha	Observaciones
1.0	Marcelo Horacio Fortino	2020/Nov	Fundamentals of Big Data
1.1	Marcelo Horacio Fortino	2022/Feb	Traducido al castellano, actualizado y convertido a markdown - ipynb
1.2	Marcelo Horacio Fortino	2022/Mar	Convertido en Jupyter Book
2.0	Marcelo Horacio Fortino	2023/Oct	Actualizados contenidos. Agregado Data Science

Esta obra se distribuye con la esperanza de que sea útil, pero SIN NINGUNA GARANTÍA, incluso sin la garantía MERCANTIL implícita o sin garantizar la CONVENIENCIA PARA UN PROPÓSITO PARTICULAR. El autor no asume ninguna responsabilidad si el lector hace un mal uso de la misma.

Estos apuntes se basan en:
- La bibliografía presentada al final de este documento, y
- Documentación propia recogida a lo largo de los años de diversas fuentes.

Introducción

En el pasado solo las grandes organizaciones podían aprovecharse de Big Data. Empresas como Walmart, Google, y/o agentes financieros especializados. Actualmente con Hadoop, hardware de bajo coste (commodity) que utiliza el kernel de Linux, y el cloud computing, casi cualquier organización se lo puede permitir.

Basta considerar que hay una revolución de datos: los datos que se generan en el mundo aumentan anualmente un 40%. Se estima que para el 2025 se crearán más de 180 zetabytes. Fuente: https://es.statista.com/. En consecuencia, todos esos datos que obtenemos deben ser tratados para ser convertidos en información y poder así tomar decisiones estratégicas.

Objetivos del curso

Conocer las soluciones de Big Data presentes en el mercado como Apache Hadoop y Spark.
Adquirir conocimientos para diseñar estrategias de business intelligence integrando data lakes y data warehouses.
Desarrollar Machine Learning in-house usando Spark MLlib and TensorFlow.

Temario

Introducción al Big Data y al análisis de datos.
Mercado y tendencias del Big Data.
Definición de Big Data e historia.
Tipos de datos en Big Data.
Ejemplos de casos de usos.
Buenas prácticas en Big Data y análisis de datos.
Procesos de Big Data: ingest, store, process/query, visualize.
Hadoop: HDFS & MapReduce, YARN.
Herramientas y tecnologías: Kafka, Mesos, Redis, CouchDB.
Document stores: MongoDB.
Column stores: HBase + Cassandra.
Big Data analytics: Spark, Storm.
Elastic Stack: Logstash, ElasticSearch y Kibana.
Técnicas de Machine learning:
Spark (MLlib, Streaming).
TensorFlow.

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
_build		_build
.gitignore		.gitignore
BigData-es001.ipynb		BigData-es001.ipynb
BigData-es002.ipynb		BigData-es002.ipynb
BigData-es003.ipynb		BigData-es003.ipynb
BigData-es004.ipynb		BigData-es004.ipynb
BigData-es004MongoDB.ipynb		BigData-es004MongoDB.ipynb
BigData-es005.ipynb		BigData-es005.ipynb
BigData-es005Hadoop.ipynb		BigData-es005Hadoop.ipynb
BigData-es005Kafka.ipynb		BigData-es005Kafka.ipynb
BigData-es006.ipynb		BigData-es006.ipynb
BigData-es007.ipynb		BigData-es007.ipynb
BigData-es008.ipynb		BigData-es008.ipynb
BigData-es008sparkMLlib.ipynb		BigData-es008sparkMLlib.ipynb
FortinuxBook.svg		FortinuxBook.svg
README.md		README.md
_config.yml		_config.yml
_toc.yml		_toc.yml
hadoop-logo.jpg		hadoop-logo.jpg
intro.md		intro.md
logo.png		logo.png
references.bib		references.bib
requirements.txt		requirements.txt

fortinux/bigdata-book

Folders and files

Latest commit

History

Repository files navigation

Introducción a Big Data

Apuntes del curso

Introducción

Objetivos del curso

Temario

About

Topics

Resources

Stars

Watchers

Forks

Languages