Esse projeto tem como objetivo construir um modelo capaz de prever a sobrevivência dos pacientes e, em seguida ranquear as características clínicas (riscos fatores) mais importantes incluídas nos prontuários médicos que podem indicar a insuficiência cardíaca, ajudando em seu diagnóstico.
-
Pandas: para leitura e manipulação de dados
-
https://matplotlib.org/: para criar o gráfico de barras
-
Seaborn: para criar o gráfico de barras
-
Pycaret: para realizar o AutoML
-
sklearn: para criação de modelos de machine learning
-
numpy: para realizar calculos e operações de manipulação de estrutura de dados
-
scipy: para realizar testes estatísticos
-
imblearn: para realizar o método de balanceamento de classes
-
Alibi: para realizar o método de explicabilidade dos modelos
-
imblearn: para realizar o método de balanceamento de classes
-
Pandas Profilling: para realizar o método de análise de dados automática
- Untitled.ipynb: notebook com os códigos das análises, insights extraídos e construção do modelo.
- Desafio_Dataset.csv: arquivo com os dados
- environment.yml: arquivo yml para instalar as bibliotecas
- Apresentação.pdf: arquivo explicando os insights extraídos, linha de raciocínio e conclusão.
- Baixar o projeto
- Dentro do terminal do anaconda rodar:
conda env create -f environment.yml --name env_desafio
- Ativar o ambiente virtual
conda activate env_desafio
- Após a ativação é necessário rodar o seguinte comando:
jupyter notebook
-
Acessar a pasta do projeto e abrir o arquivo .ipynb
-
Rodar os códigos na ordem mostrada no tópico "Etapas de execução do notebook"
- Age: Idade dos pacientes
- Anaemia: Se o paciente tem anemia (0- Não 1- Sim)
- CPK: Nível de enzima CPK no sangue do paciente
- BP: Se o paciente tem hipertensão (0- Não 1- Sim)
- Diabetes: Se o paciente tem diabetes (0- Não 1- Sim)
- Ejection.Fraction: Porcentagem que o sangue sai do coração a cada contração
- Gender: Genero do paciente (0-Mulher 1- Homem)
- Platelets: Quantidade de plaquetas no sangue do paciente
- Creatinine: Nível de creatinina no sangue do paciente
- SodiumL Nível de sódio no sangue do paciente
- Smoking: Se o paciente fuma (0- Não 1- Sim)
- TIME: Quantidade de dias que o paciente ficou em observação
- Event: Se o paciente morreu naquele período ou não (0- Sobreviveu 1- Morreu)