Skip to content

furrutiav/data-mining-2022

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Proyecto Minería de Datos

Grupo 1 - Predicción de emojis en tweets

El Dataset

El dataset Multilingual Emoji Prediction (Barbieri et al. 2010, test y trial sets descargables con este link, train set descargable con este otro link) contiene alrededor de 500k tweets, todos conteniendo un emoji, de un conjunto de 20 comúnmente usados. El desafío de base es predecir el emoji en cuestión desde el texto del tweet. Esta tarea puede ser interpretada como una de análisis de sentimiento multimodal puesto a que el emoji comúnmente denota información no verbal del mensaje o contexto, muchas veces emocional.

Barbieri, F., Camacho-Collados, J., Ronzano, F., Espinosa Anke, L., Ballesteros, M., Basile, V., ... & Saggion, H. (2018). Semeval 2018 task 2: Multilingual emoji prediction. In 12th International Workshop on Semantic Evaluation (SemEval 2018) (pp. 24-33). Association for Computational Linguistics. http://dx.doi.org/10.18653/v1/S18-1003

Instalación

Versión de python: 3.8.13

Para clasificador basado en transformers se necesita la librería pytorch. Los comandos de instalación dependen de cada computador y se pueden encontrar en este link.

Para el resto de las bibliotecas ejecutar

pip install -r requirements.txt

Organización

Hito 1

Hito 2

Hito 3

Notebooks

Exploración

Clasificador con Naive Bayes

Clasificador con Transformers (Hito 3):

Resumen clasificadores

Clustering (Hito 3)

Resumen clustering

Análisis con regresiones lineales

Clasificadores version Hashtags

Entregables

Hito 1

Hito 2

Hito 3