Skip to content

laurelianox/ETL_EtapasProcessamento

Repository files navigation

Etapas do Processamento do Big Data

Prática para agrupamento de pessoas de acordo com o grupo de risco que se encontra baseado no peso e no colesterol.

O que é ?

Aqui será explorado a Coleta, Preparação, Análise e Visualização de dados.

Versões:

ETL_EtapasProcessamento - versão com comentários sobre as bibliotecas e métodos usados. Aconselhado para estudantes.
ETL_ClearVersion - versão só com a aplicação.

Nesta prática utilizamos:

Python
Pandas
Matlotlib
Scikit-learn
LabelEncoder
KMeans
Plotly

Processo

  1. Coleta dos Dados
  2. Preparação dos dados:
    2.1. Analisando as bases
    2.2. Analisando os dados ausentes
    2.2.1. Eliminar dados
    2.2.2. Alterando dados
    2.2.3. Substituindo por váriavel categorica
    2.3. Analisando distribuição dos Dados
    2.4. Junção dos dataframe
    2.5. Organizando base de dados
    2.6. Alterando a disposição da tabela
  3. Análise de Dados
    3.1. KMeans
    3.2. Gráfico do Cotovelo
    3.3. Cálculo de Centroides
    3.4. Visualizando e Alterando Layout do Gráfico
    3.5. Criando Função para Gerar gráficos
    3.6. Segmentando os clientes baseado na análise dos clusters
    3.7. Análises dos clusters criados
    4.0. Exportando dados
    5.0. Dashboard usando PowerBI

Documentação

.isna(): https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html#pandas.DataFrame.isna
.sum(): https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html
.isnull(): https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html
.dropna: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html
Guia de como tratar dados ausentes: https://pandas.pydata.org/docs/user_guide/missing_data.html#missing-data
.fillna(): https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html
Histograma: https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html
LabelEncoder(): https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html
.merge(): https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html?highlight=merge#pandas.DataFrame.merge
KMeans (repositório): https://github.com/laurelianox/KMeans
Atualizando gráficos: https://plotly.com/python/reference/layout/ https://plotly.com/python/creating-and-updating-figures/
.query: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html
.groupby: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas.DataFrame.groupby
Exportar como csv: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html?highlight=to_csv#pandas.DataFrame.to_csv

Final

Agradecimento ao Prof Leandro Lessa pelo aprendizado. Repositório original: https://github.com/ProfLeandroLessa/CDD-material-video-aulas

Aulas ofertadas pela IGTI (atual XP Educação) em parceria com o Banco Pan

Alterações e acréscimos: Lidiane Aureliano https://github.com/laurelianox