Aplicación del análisis de regresión logística multinomial en la clasificación de textos académicos: Biometría, Filosofía y Lingüística informática

Beltrán, Celina

Aplicación del análisis de regresión logística multinomial en la clasificación de textos académicos: Biometría, Filosofía y Lingüística informática

Archivos

INFOSUR-Nro5-2011-Beltran.pdf (217.65 KB)

Fecha

2011

Autores

Beltrán, Celina

Editor

Grupo Infosur

Resumen

Este trabajo pretende continuar la aplicación del análisis estadístico multivariado llevada a cabo en Beltrán (2010). Se utiliza la información resultante del análisis automático de textos académicos provenientes de distintas áreas científicas (Biometría, Filosofía y Lingüística informática) para conformar una base de datos sobre la cual se aplica la técnica de regresión logística multinomial. Mientras en un trabajo anterior se utilizó regresión logística para variable respuesta dicotómica para clasificar dos tipos de textos, en este trabajo se generaliza el análisis para tres categorías. El estudio permite un análisis en el cual se evidencian aquellas características que discriminan los corpus de textos analizados trabajando con las frecuencias absolutas de las distintas categorías morfosintácticas. Las variables significativas que conforman el modelo propuesto corresponden a tres categorías: adverbios, nombres, determinantes, verbos, clíticos y la interacción de estas dos últimas categorías. Los odds ratio estimados para comparar cada corpus con el de Biometría (corpus de referencia en el modelo) evidencian: • La chance de clasificar a un texto dentro del corpus de Filosofía versus Biometría se incrementa en un 43% al aumentar en número de adverbios en una unidad, mientras que la chance de clasificarlo en el corpus de Biometría versus Lingüística aumenta un 18% al incrementarse en una unidad el número de adverbios. • La chance de clasificar a un texto dentro del corpus de Biometría versus Lingüística se incrementa en un 16% al aumentar en número de nombres en una unidad. El número de nombres no discrimina los corpus de Biometría y Filosofía. • La chance de clasificar a un texto dentro del corpus de Filosofía versus Biometría se incrementa en un 11% al aumentar en número de determinantes en una unidad, mientras que la chance de clasificarlo en el corpus de Biometría versus Lingüística aumenta un 15% al incrementarse en una unidad el número de determinantes. • La chance de clasificar un texto dentro del corpus de Filosofía versus Biometría respecto al número de clíticos se ve afectado por el número de verbos (interacción). Cuando la frecuencia de verbos en el texto es superior al 15%, la chance de clasificar en Filosofía versus Biometría se incrementa con el número de clíticos. Sin embargo, cuando el texto presenta una frecuencia baja de verbos, el efecto es inverso. Con respecto a la clasificación en Lingüística versus Biometría la situación es la misma. La tasa de error global estimada por validación cruzada es del 14%.