Trabalho do curso de Big Data sobre processamento paralelo utilizando Python, conceitos de crawling, MongoDB e Hadoop (HDFS, MapReduce e Hive).
O sistema monitora tweets com o termo "assistindo" que são posteriormente processados para identificar os filmes mencionados.
Foi utilizado datasets de filmes da Ancine e do IMDB. O dataset final gerado pelo sistema possui informações sobre a data e hora do tweet e título, ano, gênero, elenco, nota e votos do filme mencionado no tweet.
Este dataset pode ser importado em uma ferramenta de BI para análise das informações.
Sequência de documentações a serem seguidas para a execução do sistema:
- Configuração no Linux
- Instalação do MongoDB
- Execução do crawler
- Instalação o Docker
- Importar imagem Docker do Cloudera Quickstart
- Criação dos datasets e tabelas no Hive
- Execução do MapReduce e geração do dataset final
Qualquer dúvida entre em contato: yoshiodeveloper@gmail.com