Skip to content

turing-usp/fernando-pessoa

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Classificador de Poemas do Fernando Pessoa

Binder

Projeto desenvolvido pelo Grupo Turing para classificar poemas do Fernando Pessoa de acordo com o heterônimo que os escreveu. Nesse classificador, foram considerados os quatro principais heterônimos com mais textos disponíveis: Bernardo Soares, Alberto Caeiro, Ricardo Reis e Álvaro de Campos.

Mais informações estão disponíveis no post do medium sobre o projeto: Como Machine Learning consegue diferenciar heterônimos de Fernando Pessoa.

Pré-requisitos

Esse projeto foi desenvolvido utilizado Python 3 e Jupyter notebooks. Ele pode ser visualizado online em um binder.

Alternativemente, as dependências desse projeto estão listadas em requirements.txt. Para instalá-las, utilize o comando:

pip install -r requirements.txt

Guia de Uso

Extração de Dados

Os dados foram extraídos do site arquivopessoa.net utilizando scrapy e estão disponíveis no arquivo fernando_pessoa.csv. As colunas do dataset estão exemplificadas abaixo:

id autor titulo tipo texto data bibliografia
4 Ricardo Reis Diana através dos ramos poesia Diana através dos ramos
Espreita a vinda de Endymion...
16-6-1914 Poemas de Ricardo Reis. Fernando Pessoa. (Edição Crítica de...
5 Fernando Pessoa A REFORMA DO CALENDÁRIO E AS SUAS CONSEQUÊNCIAS COMERCIAIS prosa A REFORMA DO CALENDÁRIO E AS SUAS CONSEQUÊNCIAS COMERCIAIS... 10-3-1933 Páginas de Pensamento Político. Vol II. Fernando Pessoa...

Para rodar o scraper, basta executar:

scrapy crawl ArquivoPessoa -o fernando_pessoa.csv

Análise de Dados

A análise de dados está disponível no arquivo analise.ipynb e pode ser visualizada diretamente no github. Para modificar e executar o código, o notebook deve ser aberto no binder ou no jupyter notebook.

Créditos

Esse projeto depende das seguintes bibliotecas:

Além disso, a análise de dados foi feita em jupyter notebooks.

Autores

Desenvolvido pela área de PLN (processamento de linguagem natural) do Turing USP:

Licença

Distribuído sob a licença MIT. Veja LICENSE para mais informações.

About

Classificador de poemas do Fernando Pessoa de acordo com os seus heterônimos

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published