Comparación de sistemas para la detección de límites de oraciones
No Thumbnail Available
Date
2007
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Grupo Infosur
Abstract
Description
Se plantea la obtención de límites de oraciones (LO) mediante tres sistemas:
-Mx terminator: modela las decisiones que se toman al recorrer un texto y clasificar los elementos de S{., ?, !} en LO o no (sistema estadístico).
-SMORPH/MPS: distingue la separación de párrafos y de oraciones y la separación entre párrafos de la separación dada por nueva línea cuando no hay LO.
-XFST/Tokenize: agrega la detección de títulos a las funcionalidades del anterior.
Para evaluar los tres sistemas se utilizó un corpus de 277 oraciones.
Con el primero se obtiene 100% de cobertura y 96.9% de precisión en límite de oración (no discrimina final de párrafo y final de oración no final de párrafo). Con el segundo se obtiene 100% y 98,8% para precisión y cobertura de límites de párrafo, y 100% para precisión y cobertura de límites de oración que no finalizan párrafo. Con el tercero se detecta final de párrafo, final de oración no final de párrafo y títulos. Los valores de cobertura y precisión son 100% y 100% respectivamente para títulos, 100% y 100% para finales de párrafos y 100% y 99.5% para finales de oración no finales de párrafos.
Keywords
oraciones, limites, estadístico