Skip to content

Latest commit

 

History

History
85 lines (51 loc) · 5.87 KB

README.md

File metadata and controls

85 lines (51 loc) · 5.87 KB

Ciência de dados antes da programação

Este repositório foi pensado para quem não sabe programar, mas trabalha ou quer trabalhar com ciência de dados 🙃

Outro repositório bem legal pra isso é o ds-zero 👍

Se você já programa e quer um repo em um ritmo acelerado, dê uma olhada nesse aqui 😎

Disclaimer

Este é um repositório colaborativo, criado pelos alunos do Instituto Metrópole Digital da UFRN.

O autor de cada material está devidamente creditado e agradecido 😉

Escolhendo a ferramenta

Existem várias ferramentas disponíveis pensadas para este perfil.

Em geral, elas se dividem entre ferramentas GUI e ferramentas CLI:

  • GUI (interface gráfica de usuário): Toda a interação com o usuário é feita de forma gráfica. São programas como o Google Spreadsheets e o Orange3.
  • CLI (interface de linha de comando): A interação com o usuário é feita através de uma linguagem de programação. As principais linguagens gratuitas usadas em ciência de dados são Python, R e Julia.

Um alternativa bem legal que combina um pouco dos dois mundos são os notebooks interativos, originalmente do projeto Jupyter e atualmente suportados também pelo Google Colaboratory.

Esse post traz uma discussão sobre as principais linguagens suportadas.

Neste repo, usaremos notebooks com o ecossistema Python e sua biblioteca principal, o Pandas.

Todo o material foi pensado para que você não precise aprender a programar, mas se você quiser aprender, dê uma olhada nesse repositório.

Conhecendo o Pandas

[jonathanjalles] Primeiros passos

Open In Colab Binder

[natanlimas] Dataframes como bancos de dados

Open In Colab Binder

[kallil12] Análise e apresentação de dados

Open In Colab Binder

[mildo] Extração, transformação e carga de dados (ETL)

Open In Colab Binder

Os notebooks acima foram originalmente criados pelos autores indicados e posteriormente revisados com a adição de conteúdos de múltiplos autores deste repositório.

Trabalhando com múltiplas bases de dados

Uma das possibilidades que ferramentas CLI abre é trabalhar com múltiplas bases de dados ao mesmo tempo.

Os notebooks abaixo são alguns exemplos de análises que agregam informações espalhadas em múltiplas bases.

[leobezerra] Unindo informações de múltiplas bases

Open In Colab Binder

[leobezerra] Cruzando informações de múltiplas bases

Open In Colab Binder

Explorando seus dados

Uma parte essencial do processo de ciência de dados é investigar de forma exploratória os seus dados.

Os notebooks a seguir apresentam conceitos importantes sobre distribuições, relações entre dados e análise interativa de dados.

[kallil12] Visualizando e identificando distribuições

Open In Colab Binder

[mildo] Relações entre características

Open In Colab Binder

[jonathanjalles] Interagindo visualmente com dados

Open In Colab Binder