- Descrição do Projeto
- Funcionalidades e Demonstração da Aplicação
- Pré requisitos
- Execução
- Bibliotecas
Este repositório é um projeto Python de ciência de dados. O objetivo deste projeto foi, a partir de uma base de dados de vôos de empresas aéreas indianas obtida pelo site “Ease My Trip”, conduzir vários testes estatísticos a fim de conseguir informações relevantes. Com isso, por meio da ciência de dados, buscou-se criar um modelo de previsão capaz de prever com elevada precisão o preço de um vôo.
Previsão do valor do ticket de um vôo a partir das principais características influenciadoras dos preços da base de dados.
Métricas de avaliação dos modelos de previsão testados:
Deploy do projeto (via streamlit):
- Sistema operacional Windows
- IDE de python (ambiente de desenvolvimento integrado de python)
- Base de dados (planilha csv)
- Prompt de comando do programa python (onde será executado o comando do streamlit para visualizar o deploy do projeto e, consequentemente, a previsão do valor do vôo)
- Navegador web (para o download de um arquivo utilizado no projeto que não está disponibilizado aqui no Github, em razão do tamanho deste arquivo acima de 100MB)
1. executar o arquivo 'Semana Cientista de Dados.py', no qual faz-se toda a análise de dados estatística, ciência de dados, machine learning e definição do melhor modelo de previsão;
2. fazer o download do arquivo joblib referente ao modelo de previsão no link público do Google Drive: https://drive.google.com/drive/folders/1kLskd-JorZkvHk9cedesA45qR9FtoE7F?usp=share_link ;
3. executar o arquivo 'DeployStreamlitFlight.py', onde será gerado o deploy do modelo de previsão;
4. dentro do prompt de comando do programa python escolhido (no meu caso, utilizei o Anaconda Prompt (anaconda3)), encontrar a pasta onde se encontra o arquivo "DeployStreamlitFlight.py" e executar o comando "streamlit run DeployStreamlitFlight.py" para visualizar, no navegador padrão do computador, o modelo preditivo do valor do vôo.
- pandas: biblioteca que permite, no caso, a integração de arquivo excel
- seaborn, matplotlib.pyplot, plotly.express: bibliotecas de visualização gráfica
- time: biblioteca de gerenciamento de tempo no código
- sklearn: biblioteca de predição de dados (machine learning/inteligência artificial)
- joblib: biblioteca de criação do deploy do modelo de previsão
- streamlit: biblioteca de visualização do deploy do modelo de previsão no navegador padrão