PA2 2029/2020 – TPC2 – trabalho em grupo Ciência de dados com Python: nesta tarefa, irão explorar conjuntos de dados, operações para o seu processamento e visualização.
Criem uma conta no Github e criem um repositório para cada bloco de respostas, onde devem colocar todos os ficheiros (Readme, dados, Jupyter Notebook, doc, pdf, etc). Cada grupo partilha comigo o seu URL, para ir acompanhando o trabalho e efetuar a avaliação. No fim, fazem um ZIP com tudo e “colocam” no Nonio.
A – 2 valores Escolham um conjunto de dados nos imensos repositórios disponíveis (dados abertos, públicos), sobre o tema que entenderem. O único requisito é que esse conjunto de dados possa ser “puxado” (download) como um arquivo CSV (valor separado por vírgula). Respondam as seguintes questões num (novo) Jupyter Notebook:
- O URL para o conjunto de dados;
- Fundamentem a escolha deste conjunto de dados;
- Escrevam um explicação do conjunto de dados, um Dicionário dos dados, que deve ficar no Readme do repositório.
- Escrevam o código que carrega o conjunto de dados usando a função read_csv e mostrem as 10 primeiras linhas do conjunto de dados.
- Qual é o tipo de dados de cada atributo? Atenção: “tudo” tem de ser bem documentado, ie com comentários adequados (texto, imagens, etc), ao longo do Notebook.
B – 5 valores Conjuntos de dados e IPYNB (Jupyter Notebook) em https://github.com/jgorvalho/PA2_2019-2020_TPC2 Questões e respostas (devidamente fundamentadas com comentários) no Jupyter Notebook: tpc2_tarefa2.ipynb
C – 9 valores Visualização de Dados …
VER DOCUMENTO PA2_2019-2020_TPC2_v2
Alguns exemplos de repositórios públicos de dados
COVID-19 Data Repository by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University https://github.com/CSSEGISandData/COVID-19