[ERAMIA 2020] Quem é Estamira? Uma análise da coerência dos discursos através de combinação de medidas para classificação de texto

¹ Centro de Matemática, Computação e Cognição (CMCC), Universidade Federal do ABC (UFABC), Rua Arcturus, 03. Jardim Antares, São Bernardo do Campo, CEP 09606-070, SP, Brasil.

Cartaz de Divulgação: Estamira (2004).

Esse repostitório é a implementação oficial do artigo apresentado no evento. [Artigo] [Citação] [Avaliação]

Abstract: This article investigates disorders in natural speech through natural language processing techniques. We analyze the possible incoherent/schizophrenic speech using the Latent Semantic Analysis method and connectivity measures of the co-occurrence graph. Using these measures as attributes, we selected 4 classifiers to distinguish illogical speech patterns. The chosen corpus comes from the lines of characters from the film Estamira (2004), which tells the life of a garbage collector from Rio de Janeiro. This choice is justified by the fact that the narrative is anchored in complex talks of its main character, Estamira, who for long periods conducts obscure dialogues. There is also a discursive clash between the character's lines and the eloquence of her family.

Resumo: Este artigo investiga os distúrbios no discurso natural através de técnicas de processamento de linguagem natural. O discurso incoerente é um sintoma cardinal associado a condições psiquiátricas e neurológicas, e. g., esquizofrenia e bipolar. Essa categoria de distúrbio afeta a comunicação verbal tornando o discurso vago, confuso e ilógico. Analisamos o discurso incoerente/esquizofrênico através do método de Análise Semântica Latente e de medidas de conectividade do grafo de co-ocorrência. Combinando essas medidas como atributos, empregamos 4 classificadores para distinguir padrões de fala ilógicos. O corpus escolhido é oriundo das falas de personagens do filme Estamira (2004), que conta a vida de uma catadora de lixo do Rio de Janeiro. A escolha da obra justifica-se por uma narrativa ancorada em discursos complexos de sua personagem principal, Estamira, que durante longos períodos conduz diálogos abstrusos. Há, também, choque discursivo entre as falas da personagem e a lógica na eloquência de seus familiares.

Pré-requisito para Reprodução

Clone esse repositório

!git clone https://github.com/bruAristimunha/estamira-coerencia-discursos

Instale a biblioteca Conda, recomendamos o tutorial. Crie uma variável de sistema no conda, conforme instruções abaixo:

conda create --name estamira python=3.7 pip --yes
conda activate estamira

Instale os pacotes necessários:

pip install -r requirements.txt

Treino e Avaliação

Você pode avaliar os resultados reportados seguindo o tutorial disponível no jupyter-notebook, ou então, empregar a ferramenta colab para reprodução em uma máquina virtual gratuita.

Ainda em implementação essa parte. Além do formato em jupyter-artigo, você também pode reproduzir via linha de comando cada das etapas: análise exploratória do conjunto de dados, extração de atributos, classificação e avaliação dos resultados. Ou então, executar toda a avaliação.

python src/eda.py 
python src/feature_extract.py 
python src/classification.py 
python src/eval.py 
python src/complete_proce.py

Licença

Este trabalho está licenciado com CC-BY-NC 1.0.

Citação

Em formato plano:

Aristimunha, Bruno. Quem é Estamira? Coerência dos discursos através de combinação de medidas para classificação de texto. Em: Anais da 1ª Escola Regional de Aprendizado de Máquina e Inteligência Artificial de São Paulo (ERAMIA-SP), 2020, São Paulo. v. 1. p. 1-4.

Em formato latex:

@InProceedings{aristimunha:2020,
 author   = {Aristimunha, Bruno},
 booktitle = {1ª Escola Regional de Aprendizado de Máquina e Inteligência Artificial de São Paulo (ERAMIA-SP)},
 title    = {Quem é Estamira? Coerência dos discursos através de combinação de medidas para classificação de texto},
 year     = {2020},
 note     = {[para aparecer]},
}

Passos Futuros

Avaliar a importância do que os classificadores estão aprendendo, visando um melhor entendimento dos padrões do discurso.
Extração de atributos, com modelos de linguagem, \textit{e. g.}, BERT e FastText.
Avaliar o contexto da detecção de anomalia, com classificação de uma classe.
Incluir de atributos mais relacionados às características da doença, como contagem de pronomes e análise de sentimentos.
Recorte de fala diferente, como o reconhecimento por timbre/imagem,

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
data/processed		data/processed
notebooks		notebooks
reports		reports
src		src
.gitignore		.gitignore
AUTHORS.md		AUTHORS.md
LICENSE		LICENSE
README.md		README.md
Reviews.html		Reviews.html
Reviews.md		Reviews.md
requirements.txt.		requirements.txt.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data/processed

data/processed

notebooks

notebooks

reports

reports

src

src

.gitignore

.gitignore

AUTHORS.md

AUTHORS.md

LICENSE

LICENSE

README.md

README.md

Reviews.html

Reviews.html

Reviews.md

Reviews.md

requirements.txt.

requirements.txt.

Repository files navigation

[ERAMIA 2020] Quem é Estamira? Uma análise da coerência dos discursos através de combinação de medidas para classificação de texto

Esse repostitório é a implementação oficial do artigo apresentado no evento. [Artigo] [Citação] [Avaliação]

Pré-requisito para Reprodução

Treino e Avaliação

Licença

Citação

Passos Futuros

About

Releases

Packages

Languages

License

bruAristimunha/estamira-coerencia-discursos

Folders and files

Latest commit

History

Repository files navigation

[ERAMIA 2020] Quem é Estamira? Uma análise da coerência dos discursos através de combinação de medidas para classificação de texto

Esse repostitório é a implementação oficial do artigo apresentado no evento. [Artigo] [Citação] [Avaliação]

Pré-requisito para Reprodução

Treino e Avaliação

Licença

Citação

Passos Futuros

About

Topics

Resources

License

Stars

Watchers

Forks

Languages