Skip to content

A portfolio with the latest projects I have been working on (v1).

Notifications You must be signed in to change notification settings

luizhenriqueds/luizhenriqueds.github.io

Repository files navigation

Portifólio de projetos em Data Science

Esse repositório reúne alguns dos projetos de Data Science e Machine Learning que participei, desde projetos adaptados de cursos, projetos profissionais, até projetos pessoais para resolver problemas do meu cotidiano. Os projetos nessa seção foram divididos em categorias para melhor organização.

Nesse repositório, iremos abordar as seguintes categorias de problemas:

  • Big Data: Essa seção reúne projetos relacionados à área de Big Data. Essa categoria possui projetos envolvendo MapReduce, Apache Spark MLlib, Sistemas de Recomendação com ALS (Filtro Colaborativo) e códigos executados na plataforma de Analytics como serviço Databricks;

  • Classification: Essa seção reúne projetos relacionados ao Aprendizado de Máquina Supervisionado, com problemas do tipo Classificação. Nessa categoria, abordamos tópicos como: Modelos Supervisionados (Random Forest, Logistic Regression, Support Vector Machines, Árvores de Decisão, etc.), técnicas de ajustes de hiperparâmetros, normalização de dados, validação cruzada, tratamento de dados desbalanceados, validação de performance, Gridsearch, etc.;

  • Clustering: Essa seção reúne projetos relacionados ao Aprendizado de Máquina Não Supervisionado. Essa categoria aborda projetos utilizando técnicas de Agrupamento (Clustering) com diversos algoritmos (Kmeans, DBSCAN, GMM, etc), técnicas de Redução da Dimensionalidade dos dados (ICA e PCA), seleção de features e visualização e normalização de dados;

  • Data Visualization: Nessa seção, temos um projeto de visualização de dados. Esse projeto apresenta as melhores práticas de representação de dados e visualização da informação, baseado nos princípios do The Truthful Art, de Alberto Cairo;

  • Exploratory Data Analysis (EDA): Nessa seção iremos abordar projetos sobre Análise Exploratória de Dados (EDA). Os projetos nessa seção abordam tópicos como manipulação de dados, visualização e análise multivariada de dados, criação de relatório com as descobertas da análise, testes de hipóteses e comuicação dos resultados;

  • Natural Language Processing (NLP): Nessa seção iremos apresentar projetos utilizando técnicas de Processamento de Linguagem Natural (PLN). Os projetos nessa seção abordam tópicos como: modelagem de tópicos, normalização de texto, frequência de palavras, similaridades de palavras e documentos, web scrapping e análise de sentimento;

  • Network Analysis: Nessa seção apresentamos um projeto de análise de uma rede de troca de e-mails em uma empresa. Esse projeto aborda tópicos como análise de grafo, engenharia de features e aprendizado supervisionado;

  • Public Data Analysis: Nesse seção apresentamos um artigo sobre a análise de dados abertos de pedidos de reembolso de Parlamentares em 2017. Nesse projeto, abordamos tópicos como coleta e manipulação de dados, análise exploratória e modelagem preditiva utilizando uma biblioteca do Facebook;

  • Recommender Systems: Nessa seção iremos apresentar projetos utilizando técnicas de filtro colaborativo para criar mecanismos de recomendação de produtos para usuários;

  • Regression: Nessa seção iremos apresentar um exemplo de criação de modelos preditivos com Regressão Linear. Adicionalmente, tópicos como Overfitting e Underfitting serão demonstrados na prática.

Observação

Alguns projetos nesse repositório foram adaptados de cursos online em que participei ao longo dos meus estudos. Alguns projetos encontrados aqui fazem parte do Nanodegree Data Scientist e Applied Data Science with Python Specialization.

Licença

Copyright 2018 Luiz Henrique

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.