Skip to content

Latest commit

 

History

History
261 lines (144 loc) · 14.7 KB

README.md

File metadata and controls

261 lines (144 loc) · 14.7 KB

Curso Ciencia de Datos

Versión 2

 

👉 Ingresa acá para unirte a la comunidad online del Bootcamp y comienza este viaje ahora!!

 

Accede de forma libre y gratuita a:
✅ +100 horas de clases pregrabadas
✅ +200 horas de recursos y material complementario
✅ Documentación seleccionada
✅ Talleres en vivo
✅ Tutorías
✅ Formato 100% online
✅ Nuevo material constantemente

 

Revisa un resumen (video) de lo que verás a lo largo del curso:

(Haz clic en la imagen)

 

Índice

  1. Bienvenida
  2. Objetivos
  3. Sobre el curso
  4. ¿A quién está dirigido?
  5. Programa del curso
  6. Módulos del curso
  7. Agradecimientos
  8. Dudas

 

❤️ ¿Nos ayudas?

Si encuentras interesante este proyecto y el contenido, te agradecemos mucho que marques la estrella del repositorio (busca la ⭐ de arriba y dale clic. Es como un clásico "me gusta" 👍).

Además, sigue a OSL en nuestras cuentas de Twitter, Instagram y LinkedIn.

Puedes visitarnos en opensaludlab.org

 

👋 Bienvenida

El presente curso de ciencia de datos (Data Science) busca entregar herramientas técnicas y metodológicas para que profesionales de las más diversas disciplinas puedan realizar procesos de análisis de datos, diseñar modelos matemáticos y estadísticos y generar aplicaciones que les permitan hacer inteligencia con los datos e información en diversos ámbitos del sector público de salud. La principal fortaleza de la ciencia de datos, es que no restringe su desarrollo sólo a matemáticos o informáticos, sus herramientas pueden ser de dominio de distintas áreas, favoreciendo el trabajo inter y multidisciplinario, pues aporta una visión sistémica para comprender el comportamiento de sistemas complejos. Del mismo modo, hemos diseñado este curso para el sector público, buscando suplir la brecha que existe a la hora de pensar en qué problemas de diseño y gestión de políticas públicas son adecuados de resolver con datos.

🥤 Objetivos

El objetivo es el desarrollo progresivo de tu nivel de conocimientos técnicos y especializados en análisis avanzado de datos, programación y gestión de proyectos de ciencias de datos.

Además, vemos como un elemento valioso el incorporar este tipo de metodologías y conocimientos al interior de las instituciones públicas de salud, no solo para mejorar sus procesos habituales, sino que fundamentalmente, para ayudar en la toma de las mejores decisiones basadas en evidencia.

🧭 Sobre el curso

Este repo fue usado como base del programa de formación que realizamos entre Diciembre 2020 y Junio 2021. Acá encontrarás practicamente todo el material (cerca del 85%) usado como los videos de las grabaciones de las sesiones en vivo, scripts, presentaciones y documentación complementaria.

En su versión original, el curso incluyó talleres y el desarrollo de proyectos de los alumnos, los cuales no están disponibles en esta versión.

De todas formas, tienes disponibles 24 clases con más de 70 horas de video en total. A eso, debes sumarle los videos complementarios, todos los ejercicios y lecturas, dando como resultado un curso bastante extenso, quizás el más grande en español actualmente, gratuito y de acceso libre.

No hemos querido ser demasiados exhaustivos en los temas. Usa este curso, más bien, como una guía de estudio (roadmap) y si necesitas profundizar en algo, tanto en la documentación complementaria como en otros recursos en internet seguramente podrás encontrar más información.

Pero debes saber algo desde ya!! Esto de la Ciencia de Datos (y la programación) es un constante aprendizaje. Siempre hay algo nuevo o cosas que aprender. Así que no te quedes solo con éste curso, ni con ningún otro solamente. Estudia mucho y practica, practica y practica...

Novedades de esta versión

En esta nueva versión del Bootcamp tendremos disponible una comunidad online (en Discord) para que puedas acceder a otros materiales, hacer consultas, resolver tus dudas y compartir con el resto de los miembros. Y por qué no, ayudar a otros.
Tendremos, también, nuevos talleres y sesiones en vivo para ir reforzando cada módulo.
Además, se agregarán otros temas que vimos relevantes en la versión anterior como webscraping, control de versiones con GIT, series de tiempo y profundizar más en el manejo del paquete Tidyverse que permite transformar, manipular y limpiar datos.

Esto hace que el Bootcamp sea un curso, principalmente, autoadminstrado, en donde se mezclan actividades sincrónicas (sesiones en vivo) con asincrónicas (videos grabados, comunidad online, documentación, prácticas y lecturas) para profundizar en ciertos temas, resolver dudas o realizar talleres.

¿Por qué hemos liberado todo el curso?

Porque queremos democratizar el acceso al conocimiento avanzado y nos gustaría que más personas usen este tipo de metodologías para mejorar el sistema público de salud en beneficio de la ciudadanía.

🦄 ¿A quién está dirigido?

El Bootcamp está dirigido a todas las personas interesadas en introducirse en el área de la Ciencia de Datos y que quieren comenzar a aplicarla dentro de instituciones de salud o de forma particular como freelance.

📅 Cronograma

La idea es realizar 1 sesión a la semana, con un tiempo de dedicación de unas 5 a 7 horas aprox. Esto implica ver los videos de clases, realizar los talleres y ver al bibliografía mencionada en cada clase.

Cada sesión y clase tiene una sección de documentación adicional o complementaria. Esta documentación está curada y seleccionada para que fortalezcas los puntos claves de la clase en cuestión. Pero no te vuelvas loco/a!!! Algunas sesiones tienen bastante documentación complementaria y, a veces, excede lo que necesitas para seguir avanzando. Hay mucha que está ahí para que la tengas como material extra para profundizar más adelante o en algún momento puntual. No te leas todo ni pretendas aprenderte todo. Eso es imposible. Es mejor ir lento y pausado, pero comprendiendo bien lo que haces a que ir a lo bestia. Trata de ir consolidando los aprendizajes de a poco y según ello, seguir construyendo tu ruta de estudio.

Eso, al menos, pues si quieres desarrollar de mejor forma tus habilidades, es altamente relevante que busques más recursos y practiques mucho. Es posible que necesites más tiempo al principio.

📢 Programa

El curso de Ciencia de Datos lo hemos dividido en 2 grandes áreas temáticas. El primero, llamado "Gestión y estrategia". Comprendemos que este tipo de temáticas están poco desarrolladas dentro de las organizaciones y por tanto, el grado de conocimientos específicos puede no ser muy elevado. Es en ese sentido, que este bloque tiene la finalidad de acercar al público a este tipo de proyectos e ir introduciendo paulatinamente a los participantes en ámbitos más técnicos y "duros", como pueden ser la programación y la estadística inferencial. Del mismo modo, abordaremos aspectos relevantes de estrategia, gestión y gobernanza de este tipo de proyectos.

Esperamos que con este bloque los participantes sean capaces de:

  1. Definir valor público
  2. Comprender el aporte de la ciencia de datos en la generación de valor público
  3. Entender los conceptos generales de la gestión de proyectos y su gobernanza
  4. Evaluar la factibilidad de usar la ciencia de datos para abordar un problema público
  5. Entender cómo definir los objetivos de un proyecto de ciencia de datos
  6. Comprender los desafíos éticos existentes en el diseño de un proyecto de datos

En la segunda área, llamada "Análisis de datos y programación", se abordará en detalle cómo diseñar un proyecto de datos y llevarlo a cabo. Se revisarán distintos aspectos metodológicos y técnicos para el desarrollo de este tipo de iniciativas, con un enfoque lo más práctico posible. Y si, acá revisaremos el uso de herramientas de software, programación** y de distintos modelos estadísticos. Si bien no buscamos que seas un experto desarrollador, si esperamos que entiendas la lógica detrás del código, sus implicancias y que seas capaz de leer y elaborar informes estadísticos en base al código.

El lenguaje de programación usado será R.

Esperamos que con este segundo enfoque los participantes sean capaces de:

  1. Diseñar y planificar un proyecto de ciencia de datos
  2. Definir los alcances y requerimientos de los proyectos de datos en las instituciones públicas
  3. Comprender el pensamiento y lógica de programación
  4. Aplicar técnicas avanzadas de análisis estadísticos, tanto descriptivos como inferenciales
  5. Utilizar código para la transformación, limpieza, análisis, visualización y publicación de datos
  6. Analizar críticamente distintos proyectos e iniciativas de ciencias de datos

 

🗒️Certificados

Tener un certificado no certifica nada muchas veces. Las empresas más valoradas no los solicitan y es mucho más relevante tener un portafolio interesante y documentar adecuadamente tus proyectos.

El Bootcamp no incluye certificado de finalización, pero de todas formas te ayudamos a aprobar los siguientes cursos y certificados de IBM Cognitive Class:

🗨️ Módulos del curso

En cada módulo...

  • Haz clic en [ 📙 Todo el material ] para acceder a todas las clases, documentación, bibliografía complementaria y scripts.

  • Haz clic en [ ✅ Playlist ] para ver los videos de las clases grabadas en una lista de reproducción de YouTube.

Nota: A lo largo del Bootcamp se agregarán más contenidos, talleres y temas. Varios de ellos son sugeridos por la comunidad online de Discord. Por lo que te recomendamos estar revisando constantemente este repositorio.

👋 Antes de partir...


MODULO 1: Nivelación y fundamentos

Playlist / :orange_book: Todo el material

  • Aspectos generales curso

  • Introducción a R y RStudio

  • Estructura de datos y operadores

  • Importación de datos

  • Análisis prefactibilidad y valor público

MODULO 2: Data wrangling y análisis exploratorio de datos

Playlist / :orange_book: Todo el material

En colaboración con R-Ladies Concepción

  • Definición de problemáticas y objetivos

  • Transformación de datos

  • Manipulación y limpieza de datos

  • Análisis exploratorio de datos

MODULO 3 : Visualización

Playlist / :orange_book: Todo el material

En colaboración con R-Ladies Concepción

  • Visualización de datos con ggplot2

  • Visualización de datos con otras librerías

MODULO 4: Modelos estadísticos y Machine learning

Playlist / :orange_book: Todo el material

En colaboración con Data UC

  • Gestión ética de datos

  • Modelos estadísticos

  • Introducción al Machine Learning

  • Modelos de clasificación

  • Modelos de regresión

MODULO 5: Gestión de procesos

Playlist / :orange_book: Todo el material

  • Conceptos generales de los procesos

  • Mejora de procesos

  • Modelamiento BPMN

MODULO 6: Comunicación y replicabilidad

Playlist / :orange_book: Todo el material

En colaboración con Patricio Araneda.

  • R Markdown

  • Shiny

  • FlexDashboard

  • Reportes replicables

Curso GIT (control de versiones + GitHub)

Playlist / :orange_book: Todo el material

🤗 Agradecimientos

Este curso se hizo gracias a la ayuda y colaboración de muchas personas 💪

Queremos agradecer a:

La comunidad de R-Ladies Concepción (Chile), en especial a: Macarena Valenzuela, Camila Molina, Luisa Reyes y Natalia Riquelme.

Data UC y la Facultad de Matemáticas de la Pontificia Universidad Católica de Chile, en especial a: Sebastián Massa, Ricardo Aravena y Alexis Alvear.

También agradecemos enormemente a Patricio Araneda.

Y por supuesto, a los más de 100 inscritos en el curso en su primera versión, a la comunidad de OpenSalud LAB y a todos los que, con su apoyo, difusión y energía, ayudaron a que este proyecto fuese posible.

❓ Dudas

Si tienes dudas sobre el Bootcamp, escríbenos a contacto@opensaludlab.org