Skip to content

Latest commit

 

History

History
79 lines (55 loc) · 3.61 KB

README.md

File metadata and controls

79 lines (55 loc) · 3.61 KB

Classificador de Poemas do Fernando Pessoa

Binder

Projeto desenvolvido pelo Grupo Turing para classificar poemas do Fernando Pessoa de acordo com o heterônimo que os escreveu. Nesse classificador, foram considerados os quatro principais heterônimos com mais textos disponíveis: Bernardo Soares, Alberto Caeiro, Ricardo Reis e Álvaro de Campos.

Mais informações estão disponíveis no post do medium sobre o projeto: Como Machine Learning consegue diferenciar heterônimos de Fernando Pessoa.

Pré-requisitos

Esse projeto foi desenvolvido utilizado Python 3 e Jupyter notebooks. Ele pode ser visualizado online em um binder.

Alternativemente, as dependências desse projeto estão listadas em requirements.txt. Para instalá-las, utilize o comando:

pip install -r requirements.txt

Guia de Uso

Extração de Dados

Os dados foram extraídos do site arquivopessoa.net utilizando scrapy e estão disponíveis no arquivo fernando_pessoa.csv. As colunas do dataset estão exemplificadas abaixo:

id autor titulo tipo texto data bibliografia
4 Ricardo Reis Diana através dos ramos poesia Diana através dos ramos
Espreita a vinda de Endymion...
16-6-1914 Poemas de Ricardo Reis. Fernando Pessoa. (Edição Crítica de...
5 Fernando Pessoa A REFORMA DO CALENDÁRIO E AS SUAS CONSEQUÊNCIAS COMERCIAIS prosa A REFORMA DO CALENDÁRIO E AS SUAS CONSEQUÊNCIAS COMERCIAIS... 10-3-1933 Páginas de Pensamento Político. Vol II. Fernando Pessoa...

Para rodar o scraper, basta executar:

scrapy crawl ArquivoPessoa -o fernando_pessoa.csv

Análise de Dados

A análise de dados está disponível no arquivo analise.ipynb e pode ser visualizada diretamente no github. Para modificar e executar o código, o notebook deve ser aberto no binder ou no jupyter notebook.

Créditos

Esse projeto depende das seguintes bibliotecas:

Além disso, a análise de dados foi feita em jupyter notebooks.

Autores

Desenvolvido pela área de PLN (processamento de linguagem natural) do Turing USP:

Licença

Distribuído sob a licença MIT. Veja LICENSE para mais informações.