Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos

Beltrán, Celina; Barbona, Ivana

Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos

dc.citation.title	Revista de epistemología y ciencias humanas	es
dc.citation.volume	AÑO 2017 NUMERO 9	es
dc.creator	Beltrán, Celina
dc.creator	Barbona, Ivana
dc.date.accessioned	2018-12-11T14:02:37Z
dc.date.available	2018-12-11T14:02:37Z
dc.date.issued	2017
dc.description	El presente artículo es una revisión de tema cuyo objetivo es el examen de técnicas de análisis multivariado usadas para clasificar unidades. En este trabajo se compara el desempeño de los métodos de clasificación: Vecino más Cercano, Sistema Bagging, Árboles de Clasificación, Support Vector Machine, Sequential Minimal Optimization, Regresión Logística, Redes Neuronales y Análisis Discriminante. Para todos los métodos se presenta su funcionalidad y desmpeño en la clasificación de textos describiendo cómo es posible utilizarlos para clasificar y eventualmente caracterizar textos de distintos géneros o disciplinas. El criterio de clasificación es el género al que pertenece el texto (Científico / No Científico). La caracterización de los textos está basada en la distribución de frecuencias de las categorías morfo-sintácticas. Los textos se clasificaron teniendo en cuenta simultáneamente las mediciones realizadas sobre ellos. Se considera como medida para la comparación entre métodos el error de mala clasificación calculada sobre una muestra de textos no incluidos en el proceso de construcción de la regla de clasificación. De los métodos aplicados, Redes Neuronales presenta el mejor desempeño (3% de mala clasificación). El siguiente en buen desempeño es el del Vecino más Cercano (13% de mala clasificación) teniendo como principales ventajas la simpleza de su aplicación y la estabilidad de su comportamiento. También presentaron desempeños aceptables los métodos Árboles de Clasificación (14% de mala clasificación) y Análisis Discriminante Cuadrático (16,67 % de mala clasificación). Cabe destacar, que debido que los grupos presentan estructuras de covariancias distintas, es de esperar que el Análisis Discriminante Cuadrático clasifique mejor que el Análisis Discriminante Lineal (18% de mala clasificación). Por otro lado, no es posible conocer en de qué manera afecta la presencia de estructuras de covariancias distintas entre los grupos para los métodos restantes.	es
dc.description.fil	Facultad de Ciencias Agrarias. UNR	es
dc.format	application/pdf
dc.format.extent	78-90	es
dc.identifier.issn	1852-625X	es
dc.identifier.uri	http://hdl.handle.net/2133/13776
dc.language.iso	spa	es
dc.publisher	Grupo IANUS	es
dc.relation.publisherversion	https://www.revistaepistemologi.com.ar/	es
dc.rights	openAccess	es
dc.rights.holder	Autores	es
dc.subject	Clasificación	es
dc.subject	Supervisada	es
dc.subject	Textos	es
dc.title	Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos	es
dc.type	article
dc.type	artículo
dc.type	publishedVersion
dc.type.collection	articulo
dc.type.version	publishedVersion	es

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: trabajo de rev epist_r09-6.-beltran-barbona.pdf
Tamaño:: 366.33 KB
Formato:: Adobe Portable Document Format
Descripción:

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.59 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

FCA - Artículo de Revista con Referato