Skip to content

fredyrodrigors/tesis-phd

Repository files navigation

Diseño y desarrollo de un modelo de desambiguación léxica automática (Núñez, 2021)

Este repositorio contiene los archivos .txt, .csv, .xml y .xsl correspondientes a los recursos lingüísticos, los experimentos y los resultados de la implementación de un modelo de desambiguación léxica automática (presentado en el programa de Doctorado en Lingüística de la Facultad de Letras de la Pontificia Universidad Católica de Chile). La presente investigación tiene como objetivo general desarrollar un modelo más robusto de medida para la similitud y relación semántica que los disponibles actualmente para resolver el problema de la desambiguación léxica automática, aplicado al procesamiento del lenguaje natural (PLN).

Mis estudios doctorales fueron patrocinados por la Agencia Nacional de Investigación y Desarrollo (ANID) del Ministerio de Ciencia, Tecnología, Conocimiento e Innovación del Gobierno de Chile, en el marco del Programa de Formación de Capital Humano Avanzado, Beca de Doctorado Nacional 2016 (folio Nº 21160361). La tesis se encuentra disponible en el Repositorio ANID.

logo ANID digital

Los resultados de esta tesis doctoral están vinculados con el desarrollo del módulo de PLN en el proyecto de investigación "Planificación y gestión de recursos hídricos a partir de análisis de datos de IoT (WATERoT)" (RTC 2017-6389-5), financiado por el Ministerio de Economía, Industria y Competitividad (MINECO), Agencia Estatal de Investigación (AEI) y el Fondo Europeo de Desarrollo Regional (FEDER).

logo

Experimento piloto Senseval-3

El corpus utilizado para la tarea de muestra léxica del español en SENSEVAL-3 (Evaluating Word Sense Disambiguation Systems) está formado por 12.625 ejemplos etiquetados, que cubren 25.875 frases y 1.506.233 palabras en total. El contexto considerado para cada ejemplo incluye la palabra objetivo, más una ventana contextual. Todos los ejemplos han sido extraídos desde el corpus del año 2000 de la Agencia Española de Noticias EFE, que incluye 289.066 noticias (2.814.291 frases y 95.344.946 palabras), de enero a diciembre de 2000. Para cada palabra, un mínimo de 200 ejemplos han sido etiquetados manualmente por tres anotadores humanos expertos independientes. Los casos de desacuerdo han sido resueltos por otro lexicógrafo (asignando un sentido único a cada ejemplo). Para la ejecución del experimento de prueba de aprendizaje automático utilizando el algoritmo bayesiano ingenuo, se seleccionaron 120 instancias de la muestra léxica para la palabra objetivo «partido», extraída desde el corpus SENSEVAL-3.

Resultados de experimento SENSEVAL-3 para las medidas de reducción de dimesión

  1. "partido.1" = Organización política cuyos miembros comparten la misma ideología
  1. "partido.2" = Prueba deportiva en la que se enfrentan dos equipos o jugadores
  1. Sistema "partido"

Experimento CODICACH

Se seleccionó una submuestra desde subcorpora Periodismo, perteneciente al corpus CODICACH (Corpus Dinámino del Castellano de Chile) con un conteo de 534.921.215 unidades léxicas disponibles. Cada una de las columnas a partir de las que se organizó el corpus corresponde a las variables corpusID (identificador de la instancia en un archivo digital de CODICACH); source (fuente desde la que se extrae la instancia en el corpus, correspondiente a un medio de comunicación escrito chileno, como periódico o revista); context (ventana de palabras en la que aparece la palabra objetivo); senseID (etiqueta para el sentido de la palabra objetivo en la ventana contextual correspondiente, que a su vez se relaciona con el concepto en COREL extraído desde la base de conocimiento FunGramKB). Todos los sentidos para las 120 instancias correspondientes a cada una de las unidades léxicas en análisis fueron etiquetados manualmente.

Minidiccionarios desde la base de conocimiento FunGramKB

Colecciones de documentos etiquetados para cada unidad léxica

Tareas de procesamiento (archivos .zip para descargar)

Resultados de experimento CODICACH

1. Matrices de confusión para los sentidos de la unidad léxica «cabeza»

Sentido +CHIEF_00 = A person who is in charge; "the head of the whole operation"

+(e1: +BE_00 (x1: +CHIEF_00)Theme (x2: +RULER_00)Referent)
+(e2: +CONTROL_00 (x1)Theme (x3: +COMPANY_00 ^ +ORGANIZATION_00)Referent)

Sentido +HEAD_00 = The upper or front part of the body in animals, contains the face and brains; "he stuck his head out the window"

+(e1: +BE_00 (x1: +HEAD_00)Theme (x2: +EXTERNAL_ORGAN_00)Referent)
+((e2: +BE_02 (x3: 1 +FACE_00)Theme (x4: +FRONT_00)Location)(e3: +BE_02 (x4)Theme (x1)Location)) 
*((e4: +BE_02 (x5: +HAIR_01)Theme (x6: +TOP_00)Location)(e5: +BE_02 (x6)Theme (x1)Location)(e6: +COMPRISE_00 (x7: +HUMAN_00)Theme (x1)Referent)) 
*(e7: +BE_02 (x8: 1 +BRAIN_00)Theme (x1)Location (f1: +IN_00)Position) 
*(e8: +BE_02 (x9: 2 +EAR_00)Theme (x1)Location)

Sentido +INTELLIGENCE_00 = Your ability to think feel and imagine things

+(e1: +BE_00 (x1: +INTELLIGENCE_00)Theme (x2: +COGNITIVE_ATT_00)Referent) 
*(e2: +THINK_00 (x3)Theme (x4)Referent (f1: x1)Means)

Sentido +LEADER_00 = A person who rules or guides or inspires others

+(e1: +BE_00 (x1: +LEADER_00)Theme (x2: +ADULT_00)Referent) 
+(e2: +CONTROL_00 (x1)Theme (x3)Referent)

2. Matrices de confusión para los sentidos de la unidad léxica «cara»

Sentido +FACE_00 = The front of the head from the forehead to the chin and ear to ear; "he washed his face"

+(e1: +BE_00 (x1: +FACE_00)Theme (x2: +BODY_AREA_00)Referent)
*(e2: +BE_02 (x3: 2 +CHEEK_00 & 1 +CHIN_00 & 2 +EYE_00 & 1 +NOSE_00 & 1 +FOREHEAD_00)Theme (x1)Location)

Sentido +SIDE_00 = A surface forming part of the outside of an object; "he examined all sides of the crystal"

+(e1: +BE_00 (x1: +SIDE_00)Theme (x2: +SURFACE_00)Referent)

3. Matrices de confusión para los sentidos de la unidad léxica «carta»

Sentido +CARD_00 = A small piece of thick stiff paper with numbers or pictures on them used to play a particular game

+(e1: +BE_00 (x1: +CARD_00)Theme (x2: +PAPER_00)Referent) 
*(e2: +BE_01 (x1)Theme (x3: +SMALL_00)Attribute)

Sentido +LETTER_00 = A written message addressed to a person or organization; "wrote an indignant letter to the editor"

+(e1: +BE_00 (x1: +LETTER_00)Theme (x2: +DOCUMENT_00)Referent)
+(e2: +WRITE_00 (x3: +HUMAN_00)Theme (x1)Referent) 
*(e3: +PUT_00 (x3)Agent (x1)Theme (x4)Origin (x5: +ENVELOPE_00)Goal (f1: +IN_00)Position (f2: (e3: +SEND_00 (x3)Agent (x1)Theme (x6)Origin (x7)Goal))Purpose)

Sentido $MENU_00 = A list of dishes available at a restaurant; "the menu was in French"

+(e1: +BE_00 (x1: $MENU_00)Theme (x2: +LIST_00)Referent)
+(e2: +KNOW_00 (x3: +HUMAN_00)Theme (x4: (e3: +SELL_00 (x5: +RESTAURANT_00)Agent (x6: +FOOD_00)Theme (x5)Origin (x3)Goal))Referent 
(f1: x1)Instrument)

4. Macro-promedios para los sistemas de desambiguación léxica automática

Sistema Macro-prom precisión Macro-prom cobertura Macro-prom puntaje-F
cabeza 37.15% 37.75% 41.15%
cara 50.55% 48.95% 48.15%
carta 61.07% 59.27% 58.3%

DAMIEN (Data Mining Encountered)

Todos los experimentos fueron realizados utilizando el entorno infomático DAMIEN (DAta MIning ENcountered), que integra técnicas de múltiples disciplinas dentro de análisis de texto (lingüística de corpus, estadística y minería textual) para apoyar la investigación lingüística. La herramienta ha sido desarrollada por Carlos Periñán Pascual (Departamento de Lingüística Aplicada, Universitat Politècnica de València). Es de uso libre, y se encuentra disponible en http://www.fungramkb.com/nlp.aspx. Para más información, se recomienda el artículo Bridging the gap within text-data analytics: a computer environment for data analysis in linguistic research (Periñán-Pascual, 2017).


Diseño y desarrollo de un modelo de desambiguación léxica automática para el procesamiento del lenguaje natural by Fredy Núñez Torres (2021) is licensed under CC BY-NC 4.0

About

Propuesta de un modelo de desambiguación léxica automática para PLN (corpus y experimentos)

Topics

Resources

Stars

Watchers

Forks