se-term: sistema de extracción de términos híbrido...
Post on 03-Oct-2018
215 Views
Preview:
TRANSCRIPT
SE-Term: Sistema de extracción de términos híbrido independiente del dominio
Yusney Marrero García
DEPARTAMENTO DE LENGUAJES Y SISTEMAS INFORMÁTICOS
ESCUELA POLITÉCNICA SUPERIOR
SE-Term: Sistema de extracción de términos híbridoindependiente del dominio
YUSNEY MARRERO GARCÍA
Tesis presentada para aspirar al grado de
DOCTOR POR LA UNIVERSIDAD DE ALICANTE
PROGRAMA DE DOCTORADO APLICACIONES DE LA INFORMÁTICA
Dirigida por:
Dra. MARÍA PALOMA MOREDA POZO
Dedicatoria
A Valeria
A mi Esposa
A mis padres y mi hermana
Agradecimientos
Primeramente agradecerle a mi pequeña princesita Valeria, por haber sidomi fuente de inspiración, por haberte hecho pasar estos meses extrañado atu papi, te amo mucho mi niña.
A mi nene por darme el regalo más grande que nadie pudo haberme dado,nuestra Princesita, por apoyarme y darme fuerzas en todo momento, porcompartir tantos sueños juntos, incluso, hasta este día tan importante, teAmo.
A mis padres y mi hermana por ver realizado en mi todos sus sueños, porsiempre apoyarme y quererme como lo han hecho,
A mi abuelos, especialmente a mi abuelita linda por ser ese ángel que mecuida desde el cielo, siempre te tengo presente.
A todo mis tíos y primos por toda su preocupación y cariño y por todos losmomentos juntos compartidos.
A mis suegros por tenerme como un hijo más, gracias por toda su ayuda yapoyo. A Cuqui y Congo porque en vez de 4 he tenido la suerte de tenerdos abuelos más.
A mi directora de tesis Paloma Moreda Pozo, muchas gracias por toda laayuda en todo este camino, sus consejos, por ese poder de organizarme lascosas y sobre todo por el trabajo intensivo de estos últimos meses. MilGracias!
A Rafael Muñoz Guillena por brindarme este tema de investigación, porofrecerme a Paloma como directora de tesis, por toda la ayuda y losconocimientos brindados en todos estos años. Muchas Gracias!
A Yoan por toda su ayuda y preocupación en estos 3 meses en laUniversidad de Alicante.
A Florido por toda su ayuda, su preocupación y siempre que lo necesitéestar ahí y decir si.
A mi querida Jefa de Departamento, Mercedes Albelo Martínez, tu sabesque este resultado en gran medida es gracias a ti.
A los profesores del Departamento de Informática de la UNAH, a los queestán y a los que ya no están, gracias por su amistad. Neili fue laprimera en decir !Sí se puede! y hoy estamos aquí Lili, Aponte y yo.Reydi en unos meses esperamos estar leyendo los agradecimientos tuyos, yate toca!.
A la facultad de Ciencias Técnicas, por el apoyo y por siempre decir quesi podíamos lograrlo, gracias a todos.
A los muchachos del Grupo de Procesamiento de Lenguajes y SistemasInformáticos de la Universidad de Alicante por estos meses compartidos,por brindarme su amistad y por su preocupación por la culminación de mitrabajo, desearle muchos éxitos a todos especialmente a M.A., Antonio,Fernando y Javi que pronto les toca el turno.
A los profesores Evangelos E. Milios y Axel Soto de la Universidad deDalhousie por toda su ayuda y sus consejos certeros.
A Berta y Yunier, Haliuska y Jesús por hacerme sentir parte de susfamilias cuando no tenía a la mía cerca físicamente. Muchas Gracias!.
A los estudiantes con los que he trabajado en todos estos años, ustedestambién aportaron su granito de arena en este resultado, a Yanet y Migue,Yusleydi y Rayza, Raciel y Eidel y a Ransel.
A mis amigos, los de la infancia, los de la UCI, a los de siempre y atodos los que de una forma u otra han ayudado a obtener este resultado.Muchas Gracias!.
Agradezco a Encuentros NOW y a la empresa SolidQ la aportación dela beca que ha permitido financiar parcialmente mi estancia en laUniversidad de Alicante dando como resultado la finalización de esta tesisdoctoral.
"Las metas por escrito son sueños con fecha límite"
Brian Tracy
Índice general
1. Introducción ................................................................................................................ 1
1.1 Planteamiento del Problema.................................................................................... 4
1.2 Objetivos ................................................................................................................. 5
1.3 Organización de la tesis .......................................................................................... 6
2. Estado de la Cuestión ................................................................................................ 7
2.1 Diferentes enfoques de la Extracción de Términos.................................................. 7
2.1.1 Enfoque estadístico .......................................................................................... 7
2.1.1.1 Propuesta de Enguehard y Pantera...........................................................11
2.1.1.2 Tabla resumen de propuestas estadísticas ...............................................13
2.1.2 Enfoque Lingüístico .........................................................................................14
2.1.2.1 Propuesta de Golik et al. ...........................................................................15
2.1.2.2 Propuesta de Heid et al. ............................................................................19
2.1.2.3 Tabla resumen de propuestas lingüísticas.................................................21
2.1.3 Enfoque Híbrido ...............................................................................................22
2.1.3.1 Propuestas que combinan un enfoque lingüístico y estadístico .................24
2.1.3.1.1 Propuesta de Vivaldi y Rodríguez .......................................................25
2.1.3.1.2 Propuesta de Cajal y Rodríguez .........................................................28
2.1.3.1.3 Propuesta de Lossio Ventura et al. ....................................................29
2.1.3.1.4 Propuesta de Jiang et al. ....................................................................30
2.1.3.1.5 Propuesta presentada por Macken. ....................................................33
2.1.3.2 Propuestas que utilizan Aprendizaje Automático .......................................34
2.1.3.2.1 Propuesta presentada por Conrado et al............................................34
2.1.3.3 Tabla resumen de las propuestas híbridas presentadas............................37
2.2 Conclusiones..........................................................................................................38
3. Sistema de Extracción de Términos. Propuesta y Evaluación ...............................41
3.1 Utilizando Patrones Básicos .................................................................................. 41
3.1.1 Proceso de obtención de PB ........................................................................... 43
3.1.2 Proceso de extracción de términos a partir de los PB...................................... 44
3.1.3 Evaluación y discusión de los resultados......................................................... 45
3.1.3.1 Selección del corpus................................................................................. 45
3.1.3.2 Proceso de evaluación y discusión de los resultados................................ 46
3.2 Utilizando los Patrones Verbales Definitorios......................................................... 48
3.2.1 Proceso de obtención de las estructuras para extraer términos utilizando PVD
................................................................................................................................. 50
3.2.2 Proceso de extracción de términos a partir de las estructuras definidas
utilizando PVD.......................................................................................................... 52
3.2.3 Evaluación y discusión de los resultados......................................................... 52
3.3 Utilizando Aprendizaje Automático......................................................................... 56
3.3.1 Etapa de Entrenamiento.................................................................................. 57
3.3.2 Etapa de Extracción de Términos.................................................................... 62
3.3.3 Evaluación y discusión de los resultados......................................................... 63
3.4 Enriquecimiento al sistema propuesto en Marrero & González, 2013 .................... 66
3.4.1 Evaluación y discusión de los resultados......................................................... 67
3.4.1.1 Corpus Ampliado ...................................................................................... 68
3.4.1.2 Proceso de evaluación y discusión de los resultados................................ 68
3.5 Híbrido de todas las propuestas anteriores............................................................ 70
3.5.1 Etapa de Entrenamiento.................................................................................. 71
3.5.2 Etapa de Extracción de Términos.................................................................... 74
3.5.3 Evaluación y discusión de los resultados......................................................... 78
3.5.3.1 Evaluación de la etapa de Entrenamiento. ................................................ 79
3.5.3.2 Proceso de selección de características ................................................... 80
3.5.3.3 Evaluación de la etapa de Extracción de Términos................................... 84
3.5.3.4 Incluyendo los PVD................................................................................... 86
3.6 Comparación entre las diferentes propuestas presentadas.................................... 88
3.7 Conclusiones..........................................................................................................90
4. Evaluación del proceso de extracción de palabras clave.......................................91
4.1 Caracterización de los documentos utilizados ........................................................91
4.2 Descripción del proceso de evaluación ..................................................................96
4.3 Evaluación y análisis de los resultados ..................................................................97
4.4 Conclusiones..........................................................................................................97
5. Conclusiones y trabajos futuros ..............................................................................99
5.1 Conclusiones..........................................................................................................99
5.2 Principales Aportaciones ......................................................................................102
5.3 Trabajos Futuros ..................................................................................................103
6. Publicaciones relacionadas con este trabajo de tesis ..........................................105
7. Anexos......................................................................................................................107
Anexo 1. TermExt: Herramienta de Anotación semiautomática de términos ..............107
Anexo 2. Freeling .......................................................................................................110
Anexo 3. Weka...........................................................................................................112
8. Referencias Bibliográficas ......................................................................................127
Índice de figuras
Figura 2.1 Interpretación de los términos candidatos (Enguehard & Pantera, 1994)........13
Figura 2.2 Arquitectura propuesta por (Vivaldi & Rodríguez 2012) para la extracción de
terminología utilizando Wikipedia.....................................................................................26
Figura 2.3 Arquitectura propuesta por (Cajal & Rodríguez 2014) para extracción de
terminología.....................................................................................................................28
Figura 2.4 Arquitectura propuesta por (Conrado et al., 2013) para la extracción de
terminología.....................................................................................................................35
Figura 3.1 Arquitectura de la extracción de términos a partir de los PB ...........................42
Figura 3.2 Estructura de un contexto definitorio (Alarcón et al., 2007) .............................48
Figura 3.3 Arquitectura de la extracción de términos a partir de estructuras que utilizan los
PVD.................................................................................................................................50
Figura 3.4 Arquitectura de la Etapa de Entrenamiento.....................................................57
Figura 3.5 Arquitectura de la Etapa de Extracción de Términos.......................................62
Figura 3.6 Fragmento del archivo .arff generado para el dominio de la Informática .........65
Figura 3.7 Arquitectura de la Etapa de Entrenamiento.....................................................72
Figura 3.8 Arquitectura de la etapa de Extracción de Términos .......................................74
Figura 3.9 Pasos para la selección de atributos...............................................................81
Figura 7.1 Ejemplo de un fragmento de texto anotado...................................................107
Figura 7.2 Términos mapeados por patrones ................................................................108
Figura 7.3 Contexto de término seleccionado ................................................................109
Figura 7.4 Interfaz Principal de Weka ............................................................................113
Figura 7.5 Evaluadores para selección de atributos en Weka........................................121
Figura 7.6 Evaluadores en Weka...................................................................................123
Índice de tablas
Tabla 2.1 Resumen de las principales características en la evolución de los sistemas de
extracción de términos estadísticos (P-Precisión y C-Cobertura).....................................14
Tabla 2.2 Reglas basadas en contexto para la desambiguación de etiquetas POS
participios. [ing*= ing and not stop-list].............................................................................18
Tabla 2.3 Evaluación de los resultados en el corpus farmacológico.................................19
Tabla 2.4 Resumen de las principales características en la evolución de los sistemas de
extracción de términos lingüísticos (P-Precisión y C-Cobertura)......................................21
Tabla 2.5 Resumen de las principales características de las propuestas híbridas (P-
Precisión, C-Cobertura y MF-Medida F en %)..................................................................37
Tabla 2.6 Resumen de los principales resultados de las diferentes propuestas analizadas
(P-Precisión, C-Cobertura y MF-Medida F)......................................................................39
Tabla 3.1 Ejemplo del listado de patrones ordenados según su frecuencia de aparición .44
Tabla 3.2 Principales características de los corpus en los diferentes dominios utilizados 46
Tabla 3.3 Patrones Básicos obtenidos para el dominio de la Informática.........................46
Tabla 3.4 Valores de precisión, cobertura y medida F obtenidos en los Patrones Básicos
para el dominio de la Informática. ....................................................................................47
Tabla 3.5 Valores de precisión, cobertura y medida F obtenidos en los Patrones Básicos
para los dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía .......................47
Tabla 3.6 Estructuras capaces de identificar los PVD......................................................51
Tabla 3.7 Valores de precisión y cobertura y medida F de los PVD para el dominio de la
Informática.......................................................................................................................55
Tabla 3.8 Valores de precisión y cobertura y medida F de los PVD para los dominios
Ingeniería Agrícola, Medicina Veterinaria y Agronomía....................................................55
Tabla 3.9 Ejemplos de no-términos anotados en los diferentes dominios ........................64
Tabla 3.10 Ejemplo de instancias con algunas de sus características .............................64
Tabla 3.11 Resultados obtenidos para la extracción de términos utilizando Machine
Learning en el dominio de la Informática..........................................................................65
Tabla 3.12 Resultados obtenidos para la extracción de términos utilizando Machine
Learning en los dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía. .......... 66
Tabla 3.13 Principales características del corpus ampliado para los diferentes dominios
utilizados. ........................................................................................................................ 68
Tabla 3.14 Comparación entre los resultados obtenidos al aplicar las características
propuestas en (Marrero & González, 2013) al corpus ampliado. ..................................... 69
Tabla 3.15 Comparación entre los resultados obtenidos en (Marrero & González, 2013) y
los resultados obtenidos al utilizar las características refinadas. ..................................... 69
Tabla 3.16 Comparación de los resultados obtenidos en (Marrero & González, 2013) y el
proceso de enriquecimiento realizado. ............................................................................ 69
Tabla 3.17 Resultados del enriquecimiento realizado a la propuesta de (Marrero &
González, 2013) en los dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía
........................................................................................................................................ 70
Tabla 3.18 Términos candidatos obtenidos a partir de los PB ......................................... 76
Tabla 3.19 Conjunto de términos candidatos con algunas de sus características............ 77
Tabla 3.20 Resultados de los diferentes clasificadores utilizando todas las características
........................................................................................................................................ 80
Tabla 3.21 Atributos seleccionados por los diferentes métodos de búsqueda. ................ 82
Tabla 3.22 Atributos de mayor influencia ordenados según la frecuencia con que se
seleccionaron. ................................................................................................................. 83
Tabla 3.23 Resultados de los diferentes clasificadores utilizando las características
seleccionadas ................................................................................................................. 83
Tabla 3.24 Resultados obtenidos utilizando todo el conjunto de características y utilizando
las características seleccionadas .................................................................................... 84
Tabla 3.25 Caracterización de los documentos de prueba utilizados............................... 84
Tabla 3.26 Resultados obtenidos del procesamiento de los nuevos documentos............ 85
Tabla 3.27 Resultados obtenidos en las etapas de Entrenamiento y Extracción de
Términos ......................................................................................................................... 85
Tabla 3.28 Resultados obtenido al incluir los términos obtenidos con los PVD al listado de
términos extraídos utilizando Aprendizaje Automático..................................................... 87
Tabla 3.29 Comparación entre los resultados obtenidos por las diferentes aproximaciones
para el dominio de la Informática..................................................................................... 87
Tabla 3.30 Media obtenida para los diferentes documentos evaluados por cada dominio
........................................................................................................................................88
Tabla 3.31 Resultados obtenidos por las diferentes propuestas presentadas..................89
Tabla 4.1 Documentos utilizados para la evaluación del dominio de la Informática. ........92
Tabla 4.2 Documentos utilizados para la evaluación del dominio Ingeniería Agrícola......93
Tabla 4.3 Documentos utilizados para la evaluación del dominio Medicina Veterinaria ...94
Tabla 4.4 Documentos utilizados para la evaluación del dominio Agronomía ..................94
Tabla 4.5 Resultados obtenidos en el proceso de extracción de palabras clave ..............96
Tabla 7.1 Servicios disponibles en Freeling para el análisis de cada Idioma. ................111
Introducción
[1]
1. Introducción
En la actualidad existe un gran volumen de textos en formato digital debido a los avances
científico técnicos que tienen lugar en disímiles esferas y ramas de la ciencia, lo que
provoca un gran interés por parte del personal académico, investigadores, científicos,
profesores, estudiantes y comunidades virtuales en general. De hecho, el volumen es tan
grande que sobrepasa la capacidad de una persona para obtener información útil, en pos
de sus intereses ya sean de un tipo u otro, haciendo cada vez más compleja la labor de
recuperación de información.
Debido al rápido avance de la tecnología, los revolucionarios sistemas de cómputo y la
inesperada velocidad de expansión de las redes de computadoras han facilitado el
procesamiento, la distribución y la explotación de este tipo de información. Día a día,
nuestras actividades se involucran más con la tecnología, y el intercambio de información
se ha convertido en una necesidad primaria de muchos sectores (Perissé, 2000).
Esta evolución informática ha provocado una revolución en los conceptos tradicionales
que se tenían de libros, bibliotecas, investigación y aprendizaje. No es difícil imaginarse
que en un futuro toda la información será procesada y adquirida a través de medios
electrónicos. La introducción de las computadoras en el ámbito educativo de todos los
niveles y el importante auge que ha tenido la educación a distancia, con investigadores,
profesores y alumnos distribuidos geográficamente, hace inminente la necesidad de tener
acceso a espacios electrónicos de información ordenada, distribuida, común, compartida
y que pueda ser recuperada en cualquier momento (Perissé, 2000).
Según (Perissé, 2000), el campo de las bibliotecas digitales cada vez toma mayor
importancia dentro de las áreas de la información, éstas representan una interesante
combinación entre aplicaciones, sistemas y longevas teorías tradicionales del manejo de
información ordenada y estructurada. Asimismo, representan amplias oportunidades para
el campo de la educación al extender y mejorar el acceso a nuevas formas de acercarnos
al conocimiento, especialmente en áreas de ciencia y tecnología.
Las bibliotecas que han sido automatizadas están siendo transformadas o
complementadas implementando bibliotecas digitales, bajo el concepto general de
recopilar, almacenar y organizar información de manera digital, para poder realizar
búsquedas, recuperaciones y procesamientos vía las redes de cómputo; todo bajo un
ambiente sencillo para el usuario y tomando en cuenta factores fundamentales como la
Introducción
[2]
presentación y la representación de la información, los mecanismos de almacenamiento y
recuperación, la interacción humano-computadora, la plataforma tecnológica y el ancho
de banda de la red (Perissé, 2000).
En este contexto las bibliotecas universitarias toman un papel importante. Esta situación,
que afecta a toda la Comunidad Universitaria, implica un nuevo paradigma tanto para el
docente, como para el bibliotecario y exige la introducción de nuevos modelos de
aprendizaje donde la cooperación entre los participantes y la necesidad de aprender a
aprender a lo largo de la vida se sitúan en primer plano.
Un factor de transformación en el entorno de las bibliotecas universitarias es la progresiva
"vitalización" de la propia universidad. El Campus virtual, la e-universidad, la e-
administración, el e-aprendizaje (e-learning), son términos que señalan la intensiva
utilización de las tecnologías en todos los ámbitos de actividad de la universidad. En este
contexto, se están generando un número cada vez mayor de contenidos digitales (audio,
video, objetos de aprendizaje, documentos textuales, revistas digitales, teleconferencias)
que se crean desde diferentes sistemas, que necesitan diferentes plataformas de
visualización y que deberían ser utilizados y reutilizados en diferentes contextos,
materiales que el estudiante utilizará en el proceso de autogestión de su aprendizaje. Aún
sigue siendo, en muchos casos, un problema latente la necesidad de mecanismos para
acceder y recuperar eficientemente estos recursos (López & Zorita, 2008).
Las universidades cubanas, dentro de las transformaciones que se vienen llevando a
cabo por orientaciones y directrices del Ministerio de Educación Superior en Cuba, una
de ellas está dirigida a la informatización de los diferentes procesos y servicios dentro de
las universidades.
En el caso de la Universidad Agraria de La Habana (UNAH) se encuentra inmersa en el
proceso de la informatización de los procesos que se llevan a cabo en diferentes áreas,
dentro de los cuales se encuentra la Biblioteca General de la UNAH, así como de los
servicios que brinda.
Para poder mantener una correcta organización de los diferentes recursos digitales con
que cuenta la institución, así como para facilitar su recuperación por parte de los usuarios
interesados en una determinada temática, se hace necesario, además del documento
digital, contar con una serie de metadatos, es decir, un conjunto de datos que permitirán
describir cada uno de estos recursos.
Introducción
[3]
Uno de los metadatos almacenados para cada uno de los documentos son las palabras
clave, es decir, las palabras que caracterizan dicho documento, las cuales serán
utilizadas más tarde en el proceso de recuperación. El proceso para obtener estas
palabras clave de cada uno de los documentos digitales, actualmente en la biblioteca de
la UNAH, se realiza de forma manual.
Para tratar de resolver esta problemática es necesario contar con un mecanismo que
permita comprender el lenguaje utilizado en cada uno de estos documentos para así
extraer automáticamente las palabras que los caracteriza. Precisamente el área de
investigación encargada de darle respuesta a esta problemática es el Procesamiento del
Lenguaje Natural.
El Procesamiento del Lenguaje Natural (NLP, del inglés Natural Language Processing) es
un área de investigación y aplicación de la inteligencia artificial, que explora cómo las
computadoras pueden ser utilizadas para entender y manipular textos en lenguaje
natural. La investigación del NLP tiene como objetivo, reunir conocimientos sobre cómo
los seres humanos entienden y usan el lenguaje, para modelar computacionalmente
estos patrones y reducir el umbral entre la comunicación humano–computadora
(Chowdhury, 2003).
Una de las aplicaciones más destacadas dentro del NLP, es la Extracción de Información
(IE, del inglés Information Extraction), la cual según (Gaizauskas & Wilks, 1998) es la
actividad de extraer automáticamente un tipo de información pre-especificada desde
textos.
La IE se aplica tradicionalmente en situaciones en las que se conoce de antemano la
clase de información que debe ser extraída. A su vez tiene diversas tareas como es el
caso de la Extracción de Terminología.
Una de las aplicaciones más importantes dentro de la Extracción de Información es la
Extracción de Terminología (TE del inglés Terminology Extraction), la cual, según
(Macken et al., 2013), se puede definir como el estudio de los términos abarcando
diversas actividades como la recopilación, descripción y estructuración de los términos.
Puede ser utilizada en el desarrollo de herramientas lexicográficas, como diccionarios y
glosarios, en el análisis diacrónico de la lengua (para encontrar el momento en que un
término surge en una disciplina), además de mejorar la clasificación y recuperación
automática de documentos, en mecanismos de traducción, indexación de libros,
Introducción
[4]
categorización de textos así como para generar ontologías que den soporte a la web
semántica, sólo por dar algunos ejemplos.
Los términos son representaciones lingüísticas de los conceptos de un área en particular,
pueden estar formados por una sola palabra, llamados “términos simples” o también
pueden estar formados por dos o más palabras, llamados “términos complejos” (Frantzi &
Ananiadou, 1997). Estos términos cuando son extraídos por una herramienta son
llamados también “términos candidatos”, es decir, grupos de palabras que pueden en
cierto caso revelar cierto conocimiento tratado en un documento dado (L'Homme, 2001).
Las palabras clave son el tema o motivo central del contenido de cualquier documento,
que en el caso de una biblioteca digital serían las frases o términos de búsqueda con las
que un usuario puede recuperar dicho documento, es por ello que se ha considerado
utilizar la extracción de terminología para abordar esta tarea a través de un proceso
automático.
1.1 Planteamiento del ProblemaActualmente los servicios bibliotecarios en la Universidad Agraria de La Habana no
cuentan con un sistema automatizado capaz de efectuar la extracción de las palabras
clave a cada uno de los documentos digitales, y así, poder clasificar los documentos y
ubicarlos en una determinada rama del conocimiento y en alguna de las carreras de las
que se estudian en la universidad; luego estas palabras clave podrán ser utilizadas en
procesos como el de la recuperación de documentos. Actualmente este proceso se
realiza por un operario que lee y le asigna una serie de palabras clave a los documentos,
permitiendo así un agrupamiento temático útil para lograr la optimización durante la
búsqueda y recuperación, insuficiente aún porque reclama mucho tiempo y trabajo.
Cuando llega algún material nuevo a la biblioteca este tiene que pasar por un proceso de
catalogación y posteriormente se clasifica, procesos que se hacen muy lentos y hasta
que no hayan culminado, estos materiales no pueden ser puestos a disposición de los
usuarios de la biblioteca.
Hoy en la biblioteca de la Universidad Agraria de La Habana (UNAH) se procesan un
gran número de documentos manualmente de cada una de las carreras que se imparten
en la universidad para extraer sus palabras clave, clasificarlos y poder ubicarlos en una
determinada rama del conocimiento.
Introducción
[5]
La extracción manual de los conceptos que caracterizan un documento es una tarea larga
y complicada ya que se necesita tener conocimiento del área de especialidad. Cuando se
tienen pocos documentos a evaluar tal vez la extracción manual sea una tarea factible,
sin embargo, al evaluar grandes cantidades de documentos se precisa que el proceso se
lleve a cabo de manera automática o semiautomática.
El análisis de esta problemática ubica como problema científico: A partir de una
colección de documentos digitales, pertenecientes a las diferentes carreras que se
estudian en la UNAH, que existen en la biblioteca de la Universidad Agraria de La
Habana, ¿cómo extraer automáticamente los términos que caracterizan a cada uno de
estos documentos?
La determinación del problema científico situó como objeto de estudio los diferentes
enfoques existentes de la extracción de términos.
Este trabajo parte de la hipótesis de que con un método de extracción de términos que
utilice un enfoque híbrido se pueden obtener los términos que caracterizan un documento
independientemente del dominio al que pertenezcan.
1.2 ObjetivosPara orientar el trabajo en la solución del problema de investigación se plantea como
objetivo general: elaborar una propuesta híbrida para obtener los términos que
caracterizan los documentos digitales de la biblioteca de la UNAH, utilizando las técnicas
del NLP, IE y TE.
Para la solución del problema científico y dar cumplimiento al objetivo general, se
plantearon los siguientes objetivos específicos:
1. Revisar el estado de la cuestión en cuanto a las diferentes técnicas que brindan el
NLP, IE, así como los diferentes enfoques existentes en la TE, que sustentan
teóricamente el sistema propuesto.
2. Elaborar un sistema de extracción de términos que permita extraer, dado un
conjunto de documentos digitales de un dominio, los términos que lo caracterizan.
3. Validar el método propuesto para diferentes dominios.
4. Validar el proceso de extracción de palabras clave a partir del sistema de
extracción de términos obtenido.
Introducción
[6]
1.3 Organización de la tesisLa principal aportación de esta tesis se centra en proponer un sistema de extracción de
términos que sea independiente del dominio, basado en las técnicas existentes del NLP.
Para ello primeramente se realizará un estudio del los principales enfoques de extracción
de términos existentes, las ventajas y desventajas de cada uno de ellos así como las
propuestas que han obtenido importantes resultados en cada uno de esto enfoques
(capítulo 2).
En el capítulo 3 se presenta el método propuesto, así como las diferentes aproximaciones
obtenidas a partir de los enfoques existentes. De cada una de estas aproximaciones se
muestra su arquitectura, así como la evaluación realizada, una comparación con la
aproximación precedente y se realiza una discusión de los resultados obtenidos,
demostrando la independencia del dominio de la propuesta presentada en la valoración
de los resultados del método para cada uno de los dominios evaluados.
En el capítulo 4 se lleva a cabo un proceso para evaluar el uso de la herramienta en una
de sus aplicaciones, en este caso, a la extracción de palabras clave, para ello se realiza
una evaluación a partir de un conjunto de documentos de diferentes dominios y sus
palabras clave, se presenta una caracterización de los documentos utilizados así como
una descripción del proceso de evaluación y una valoración de los resultados obtenidos.
Seguidamente, se presentará, en el capítulo 5, un resumen de las principales
conclusiones de este trabajo así como las principales aportaciones y los trabajos futuros.
A continuación las publicaciones más destacadas relacionadas con la presente
investigación (capítulo 6) y finalmente en el capítulo 7 se presentarán los Anexos. Como
primer anexo se muestra la herramienta TermExt, herramienta semiautomática para la
anotación de términos y no-términos desarrollada en el marco de esta investigación, la
cual constituye uno de los aportes de esta tesis. En los anexos 2 y 3 se muestran
Freeling y Weka, herramientas utilizadas en el método propuesto, analizando de cada
una los principales componentes utilizados en la investigación.
Estado de la Cuestión
[7]
2. Estado de la Cuestión
En este capítulo se realiza un estudio del estado de la cuestión de los sistemas de
extracción automática de términos, los principales enfoques, las medidas utilizadas y
diferentes propuestas existentes. Inicialmente, en la sección 2.1 se presentan los
diferentes enfoques en los que se basan los sistemas de extracción automática de
términos. En la sección 2.2 se muestra una tabla resumen de las principales
características de las propuestas presentadas y finalmente, en la sección 2.3 las
conclusiones del capítulo.
2.1 Diferentes enfoques de la Extracción deTérminosDiversos autores como (Cabré & Vivaldi, 2001), (Pazienza et al., 2005) y más
recientemente (Vivaldi & Rodríguez, 2012), (Cajal & Rodríguez 2014), (Lossio Ventura et
al., 2014) y (Jiang et al., 2015) plantean que la extracción automática de términos
tradicionalmente se basa en uno de los tres enfoques: estadístico, lingüístico, o híbrido.
Estos enfoques se caracterizan por el tipo primordial de conocimiento utilizado en cada
propuesta ya sea basado en medidas estadísticas, propiedades lingüísticas o una
combinación de ambas respectivamente.
A continuación se presentan cada uno de estos enfoques así como propuestas
destacadas basadas en cada uno de ellos:
2.1.1 Enfoque estadísticoEl enfoque puramente estadístico utiliza el conocimiento obtenido mediante la aplicación
de medidas estadísticas. Para este propósito, el corpus se somete a una etapa de pre-
procesamiento, que generalmente implica la identificación de tokens, la eliminación de
stop words o palabras vacías, y la representación de los textos en tablas. En estas tablas,
cada fila representa un documento (di) y cada columna representa un n-gram del
documento (nj), donde la célula di nj puede llenarse con una cierta medida, por ejemplo,
la frecuencia absoluta de n-gram nj en documento di. Tal representación de texto se
denomina bolsa de palabras (en inglés BOW, Bag of Word). En este sentido, el uso de
medidas estadísticas por medio de un BOW ignora cualquier información estructural
sobre las frases de los textos, como el orden en que ocurren los n-gramas. A partir de los
Estado de la Cuestión
[8]
valores obtenidos por la medida elegida, los términos candidatos se clasifican. Se
considera que los candidatos con mayores valores tienen mayor probabilidad de ser
términos de dominio (Pazienza et al., 2005).
Según (Kageura & Umino, 1996), el objetivo de las medidas estadísticas es identificar dos
propiedades terminológicas: unithood y termhood. Las medidas que expresan unithood
revelan la fuerza o estabilidad de expresiones complejas (es decir, formado por dos o
más elementos separados por espacios en blanco). Las medidas que expresan termhood
revelan, a su vez, el grado o la relación entre una expresión lingüística y un conocimiento
de dominio. En otras palabras, termhood expresa cuanto una expresión lingüística (si se
trata de un simple, como "computadora" o complejas, como "programación paralela" y
"lenguaje de programación"), está relacionada con un determinado dominio.
En (Conrado et al., 2014) se plantean diferentes medidas para la identificación de las
propiedades denominadas unithood y termhood. Para la identificación de la propiedad
denominada unithood, se utilizan generalmente las siguientes medidas estadísticas:
Log likelihood (lg)
Utilizando el coeficiente Log likelihood la detección de términos complejos se
realiza mediante la aplicación de la razón de verosimilitud, la cual mide la
probabilidad de que un término complejo aparezca con una determinada
frecuencia a partir de su frecuencia de aparición y la de cada una de los términos
que lo componen. Por ejemplo teniendo un término candidato "programación
paralela" se calculará la razón de verosimilitud a partir de las frecuencia de
aparición de "programación" y "paralela" por separado sobre la frecuencia del
término complejo "programación paralela" en el texto. (Dunning, 1993)( , ) = 2 ∗ [log ( 1, 1, 1) + logl( 2, 2, 2) − log ( , 1, 1) − log ( , 2, 2)]Donde: ( , , ) = ∗ + ( − ) ∗ (1 − )1 = ( , ) 2 = ( ) − 11 = ( ) 2 = − 11 = 1/ 1 2 = 2/ 2= ( 1 + 2)/( , ): frecuencia absoluta de aparición en el texto del término compuesto ( , ),
donde la primera parte es ( ) y la segunda es ( ).
Estado de la Cuestión
[9]
( ): frecuencia absoluta de aparición en el texto de la parte ( ) del término
compuesto.( ): frecuencia absoluta de aparición en el texto de la parte ( ) del término
compuesto.
: número de palabras en el texto.
: número de palabras que forman el término compuesto ( , ). Información Mutua (MI del inglés Mutual Information).
El concepto de Información Mutua representa la cantidad de información que nos
da un evento acerca de la ocurrencia de un evento (Church & Hanks, 1989).
MI( , ) = log ( , )( ) ∗ ( )Donde , son los tokens que componen un término candidato de un corpus de
palabras. ( ) y son las probabilidades de y respectivamente, y
corresponden a las frecuencias de estos tokens en el mismo corpus, mientras que( , ) es la probabilidad de que y ocurran de forma conjunta.
Coeficiente Dice (dc del inglés Dice Coeficient)
El coeficiente (Dice, 1945) presenta una interpretación similar a la MI. Como
explica (Teline, 2004), la diferencia entre estas medidas es que, contrariamente a
la MI, el coeficiente Dice no depende del tamaño de la muestra (el corpus) sino
que depende solamente de las frecuencias de aparición y no de las
probabilidades de ocurrencias como la MI, siendo así dc se define como se
muestra en la siguiente ecuación.
( , ) = 2 ∗ ,+Donde y son muestras de un corpus de tamaño , donde y son las
frecuencias de y en el corpus, respectivamente, y , es la frecuencia en la
cual y ocurren por completo.
En el caso de las medidas utilizadas para expresar termhood se encuentran:
Frecuencia del término (tf del Inglés Term frequency).
Esta medida considera la frecuencia absoluta de un determinado candidato en un
corpus la cual se define formalmente por la siguiente ecuación:
Estado de la Cuestión
[10]
= ,Donde , es la frecuencia de (candidato ) en (documento ℎ).
Frecuencia Relativa (rf del inglés Relative Frequency).
Es la frecuencia relativa de un candidato en un corpus dividido entre el número de
palabras en el mismo corpus, se obtiene a partir de la ecuación:
=Donde es la frecuencia absoluta de (candidato j) y es el número de
palabras en ese corpus.
Frecuencia del Término - Frecuencia inversa del documento (tf-idf del inglés term
frequency-inverse document frequency) (Salton & Buckley, 1987)
Considera la frecuencia de un término candidato ( ) de acuerdo con su
distribución en la colección de documentos, atribuyendo menor peso a los
candidatos que aparecen en muchos documentos ( ).
− , = , × logparte tf parte idfDonde , es la frecuencia de (candidato ) en (documento ) y es la
frecuencia de documentos del candidato .
Entre las definiciones disponibles en la literatura, se destacan la definición de
(Witten et al., 1999) ya que evita que el valor − caiga a 0 si se produce un
candidato en todos los documentos de un corpus, como se observa en la
siguiente ecuación.
− , = 1 + log , × log 1 +parte tf parte idf
Donde , es la frecuencia de (candidato ) en el (documento ) y es
la frecuencia del documento del candidato .
Estado de la Cuestión
[11]
Las medidas adoptadas, por lo general, para el desarrollo de extractores automáticos de
acuerdo con el enfoque estadístico son independientes del idioma. La independencia del
lenguaje es una característica ventajosa desde el punto de vista computacional, como el
uso de medidas que no requieren la especificación (manual o automática) de cualquier
tipo de conocimiento (por ejemplo: morfológico, sintáctico, etc.) en el idioma del texto bajo
procesamiento, lo que hace la extracción automática más simple y rápida.
Sin embargo en (De Clercq et al., 2015) se plantea que los sistemas basados puramente
en este enfoque tienden a producir mucho ruido debido a que hay muchas palabras que
usualmente tiene una alta frecuencia de aparición en los textos pero que no forman parte
de la terminología propia de ese dominio.
Varias propuestas se han presentado siguiendo un enfoque estadístico dentro de las que
se encuentran la de (Salton & Buckley, 1988), ANA (Enguehard & Pantera, 1994) y
(Ventura & Ferreira da Silva, 2008), siendo ANA una de las mas referenciadas por los
resultados obtenidos. A continuación se presentarán brevemente los aspectos más
significativos sobre su funcionamiento.
2.1.1.1 Propuesta de Enguehard y PanteraLa propuesta ANA (Adquisición Automática Natural) presentada por (Enguehard &
Pantera, 1994) fue desarrollada de acuerdo con dos principios de diseño: la no utilización
de conocimientos lingüísticos (No utilizar ningún analizador o diccionario) y la tolerancia a
los errores sintácticos.
La arquitectura de ANA se compone de dos módulos: un módulo de familiaridad y un
módulo de descubrimiento. El primer módulo, mediante el uso de procedimientos
estadísticos, extrae algunas piezas de conocimiento que son principalmente sobre el
lenguaje que se utiliza (podría ser Inglés o francés u otro), y el tema que se trata. Este
conocimiento se encuentra en tres listas.
a) Palabras funcionales (a veces llamadas, stop word), que por lo general son los
artículos, pronombres y algunos verbos como por ejemplo: "a", "any", "for", "in",
"is", "may", "of", "or", "the", "this", "to", etc.
Tienen entre 60 y 100 elementos de la lista de "palabras funcionales" llamadas
Wfonc.
Estado de la Cuestión
[12]
b) Palabras esquemas. Algunas palabras funcionales indican una relación semántica
entre las palabras, por ejemplo, en la expresión "box of nails" "of" indica una cierta
relación entre "box" y "nails". En "colours of paintings" nos encontramos con la
misma palabra "of" entre "colours", y "paintings" (incluso si la relación no es la
misma, lingüísticamente hablando).
El sistema es capaz de seleccionar algunas de estas "palabras esquema" y
utilizarlas para determinar algunos términos.
Por lo general, hay menos de 10 palabras esquema.
c) Bootstrap. Conjunto de términos del dominio que constituyen el núcleo del sistema
y el punto de partida para la detección de términos.
Plantean que de 20 a 30 artículos son suficiente para iniciar el descubrimiento de
nuevos términos. Por ejemplo, en el dominio "Do It Yourself", se podrían encontrar
términos como "hammer", "shelf", "screw", "painting", "brush".
Los procedimientos que determinan automáticamente estas listas se detallan en
(Enguehard, 1992) (Pág. 110-128).
El segundo módulo consiste en un proceso de adquisición gradual de nuevos términos a
los obtenidos en el módulo familiaridad. Además, los vínculos entre términos detectados
se generan automáticamente para crear una red semántica. Este módulo se basa en la
co-ocurrencia de palabras que puede tener tres tipos de interpretaciones:
Expresión: 2 o más términos obtenidos en el módulo familiaridad de alta
frecuencia ( ) de aparición de conjunto en la misma ventana. La nueva palabra
se considera un nuevo término y por lo tanto está incluida en la red semántica.
Por ejemplo, si el sistema tiene a diesel y engine como términos conocidos y
encuentra a secuencias como: ... the diesel engine is... o... this diesel engine
has... a continuación, la secuencia diesel engine es aceptada como un nuevo
término y se incluye en la red semántica como un nuevo nodo con enlaces a
diesel y engine (ver Figura 2.1).
Candidato: un término obtenido en el módulo familiaridad aparece con frecuencia
( ) junto con otra palabra y una palabra esquema como en:
... any shade of wood... o... this shade of color...
Shade sería el término que aparece con frecuencia ( ), of sería la palabra
esquema y y wood y color serían las otras palabras.
Aquí shade se convierte en un nuevo término y es colocado en un nuevo nodo de
la red semántica (ver Figura 2.1).
Estado de la Cuestión
[13]
Expansión: un término obtenido en el módulo familiaridad aparece con frecuencia
( ) en la misma secuencia de palabras, sin incluir ninguna palabra esquema:
... use any soft woods to... o...this soft woods or... Como resultado, soft woods se
incorpora a la lista de términos y a la red semántica como un nuevo nodo con un
enlace a woods (ver Figura 2.1).
Figura 2.1 Interpretación de los términos candidatos (Enguehard & Pantera, 1994)
El sistema sigue recursivamente en busca de elementos con las tres interpretaciones ya
mencionadas hasta que no encuentre un nuevo término. Probaron mediante el
procesamiento de un documento en Inglés de alrededor de 25 000 palabras dentro de
ellas 2 palabras esquemas, 34 palabras funcionales y 29 términos de referencia
(bootstrap). El sistema logró extraer 200 términos con una tasa de error del 25%.
Un aspecto negativo del sistema es que esas unidades terminológicas que añaden a la
lista de términos válidos después de cada ciclo no se validan. Así ANA permite la
inclusión de términos no válidos que se suman a la lista de términos. Por ejemplo "been
set" or "experiment has shown" son erróneamente extraídos por el sistema como
términos.
2.1.1.2 Tabla resumen de propuestas estadísticasEn la Tabla 2.1 se presentan a modo de resumen la evolución que han tenido las
propuestas que siguen un enfoque estadístico teniendo en cuenta los resultados
obtenidos.
Estado de la Cuestión
[14]
Tabla 2.1 Resumen de las principales características en la evolución de los sistemas de extracción
de términos estadísticos (P-Precisión y C-Cobertura)
Propuesta MedidasUtilizadas
Corpus Resultados(%)
Puntos Fuertes Debilidades
(Salton &
Buckley,
1988)
-Frecuencia
del término
-Frecuencia
de la
colección
CACM, CISI,
CRAN,
INSPEC,
MED
P=27.52 Resume hasta
ese momento lo
más importante
en extracción de
términos
Bajos
resultados, solo
extrae
unigramas
ANA,
(Enguehard &
Pantera,
1994)
Se basa en
la
Frecuencia
de aparición
de los
términos.
Artículos
científi-cos
sobre la
acústica
P=75 Funciona en los
textos de baja
calidad, sin
gramática o
diccionario, y sin
la intervención
de especialistas
para el trabajo a
gran escala.
Bajos resultados
debido a que
aprende a
través de un
proceso de
inducción de
textos
(Ventura &
Ferreira da
Silva, 2008)
-Frecuencia
del término
-Tf-idf
-Método
Zhou &
Slater
Portal for the
Access to
the
European
Union Law
Inglés:
P=81.5
C=55.4
Español:
P=78.2
C=60.8
Logra elevados
valores de
cobertura y
precisión en
ambos idiomas
Solo extrae
unigramas
2.1.2 Enfoque LingüísticoSegún este enfoque, los términos candidatos se identifican y se extraen a partir de un
corpus en base a sus características o propiedades lingüísticas, que puede ser de
diferentes tipos o niveles.
En general, la extracción de términos de acuerdo a una aproximación lingüística utiliza
información a un nivel de conocimiento morfosintáctico (Pazienza et al., 2005). En este
caso, el objetivo es mejorar la extracción automática de términos teniendo en cuenta (i) la
categoría sintáctica de los n-gramas, por ejemplo dentro de las más utilizados se
encuentran (verbo, sustantivo, adjetivo) en el corpus, y/o (ii) patrones morfosintácticos,
dentro de los que se destacan por ejemplo (sustantivo + adjetivo y sustantivo +
preposición + sustantivo). En cuanto a las categorías sintácticas (i), muchas
aproximaciones se basan en la idea que los términos de dominios o son sustantivos o
están compuestos en muchos casos por algún sustantivo en su estructura. Los patrones
Estado de la Cuestión
[15]
morfosintácticos (ii) en cambio son frecuentemente utilizados porque la terminología
tiende a concentrar un gran volumen de términos que presentan una estructura interna tal
y como se plantea en (Nakagawa & Mori, 2002) que alrededor del 85% de los términos de
dominio son términos complejos. Ejemplo de ellos tenemos los términos ilustrados por los
patrones (sustantivo + adjetivo) por ejemplo: ‘programación paralela’ y (sustantivo +
preposición + sustantivo) por ejemplo: ‘lenguaje de programación’.
Independientemente del tipo de conocimiento adoptado, los resultados obtenidos por
cada propuesta son, en general, mejores que los resultados obtenidos por los sistemas
estadísticos (Conrado et al., 2012) (Ver Tablas 2.1 y 2.4).
Sin embargo, las aproximaciones lingüísticas no están libres tampoco de problemas. En
este caso, la extracción es dependiente del lenguaje ya que la identificación de los
candidatos requiere la especificación de algunos tipos de conocimiento lingüístico (por
ejemplo la categoría sintáctica de las palabras) que son obtenidas por herramientas,
como parsers, lematizadores, etc. Por otra parte estas herramientas generan errores que
pueden afectar a la tarea de identificación y extracción de candidatos a términos. Cuando
es realizada manualmente, supone realizar un conjunto de especificaciones lingüísticas
que hacen la extracción de candidatos más costosa.
En general, los principales problemas de los sistemas desarrollados acorde solamente al
enfoque lingüístico están relacionadas con el "silencio", y el "ruido". Varios autores como
(Estopà, 1999), (Vivaldi & Rodríguez, 2007) y (McEnery et al., 1997) plantean que el
"ruido" ocurre cuando el extractor propone candidatos a término que no son válidos en un
determinado dominio. Por el contrario, el "silencio" consiste en la omisión en la extracción
de algunos términos propios del dominio. El estudio de estos dos fenómenos es
importante para la mejora de las herramientas de extracción automática.
En la bibliografía se pueden encontrar diversas propuestas que se basan en un enfoque
lingüístico, dentro de las que se encuentran (Heid et al., 1996), (Basili et al., 1997),
(Gaizauskas et al., 2000) y (Golik et al., 2013). A continuación se presentan las
características más relevantes de algunas de las propuestas más destacadas en este
enfoque teniendo en cuenta las medidas utilizadas y los resultados obtenidos.
2.1.2.1 Propuesta de Golik et al.En (Golik et al., 2013) se propone un método para la extracción de términos para el
idioma inglés, enfocados en un análisis lingüístico de textos biomédicos. La extracción es
Estado de la Cuestión
[16]
basada en patrones lingüísticos más un filtrado de participios, reforzados adicionalmente
con reglas basadas en el contexto para manejar frases preposicionales específicas y
participios.
En el estudio realizado al corpus han constatado que las preposiciones más frecuentes
son utilizadas bien como argumentos de los verbos (como in y by) o son complementos y
partes de sintagmas nominales como (of, to y at). Su propuesta se centra es estas
últimas y como la preposición of ha sido tratada en trabajos anteriores se concentran en
el trabajo con at y to. Por ejemplo, sintagmas con la preposición at a menudo contienen
información acerca del nivel, condición o período (por ejemplo: age at parturition, body
weight at birth). Sintagmas que contienen to denotan una reacción a diferentes estímulos
y situaciones (por ejemplo: susceptibility to mastitis, response to fish oil supplementation).
La extracción de términos que contienen at y to la realizan en dos pasos: (i) la aplicación
de patrones de extracción que incluyen las preposiciones (por ejemplo: NN to NN o NN at
JJ NN) y (ii) el filtrado de vínculos irrelevantes por un conjunto de cinco reglas basadas
en el contexto.
Su objetivo es activar la extracción de preposiciones relevantes o evitar la extracción de
las irrelevantes. Por ejemplo, para candidatos que contienen to, la primera regla chequea
si la estructura NN to NN está precedida por from o by (por ejemplo, from mother to
young), en cuyo caso el candidato no se extrae debido a que to está directamente
relacionada con from y no con el sustantivo. Las reglas propuestas son genéricas con el
objetivo de ser aplicable a diferentes corpus.
Las 5 reglas aplicadas son: [from |by] [not SENT] [to], [not NN] [not V] [to], [not V|VVN]
[to], [NN|VVN and not stop-list] [to], [stop-list] [not SENT] [at]. Un Ejemplo sería: weight at
birth.
Para los términos candidatos obtenidos anteriormente realizan dos filtrados. El objetivo
del filtro es eliminar términos que estén gramaticalmente bien formados pero que no son
útiles para ninguna aplicación de dominio. Muy a menudo son expresiones referenciales
donde se necesita el contexto para interpretar el término o términos que reflejan el estilo
de escritura y no se transmiten los conocimientos de dominio. En primer lugar términos
que son estructuralmente incoherentes (es decir, inválidos) y en segundo lugar, términos
que son estructuralmente coherente, pero son referenciales o demasiado imprecisos (es
decir, semánticamente pobres).
Estado de la Cuestión
[17]
Para el filtrado de términos inválidos, dicho filtro captura formas superficiales que
comienzan o terminan con caracteres no válidos (por ejemplo, +, ~, *, \,.); formas
superficiales que comienzan con marcas de coordinación (por ejemplo, and, or); sólo
contienen paréntesis o corchetes (e .g., B2 (lipid source)); empiezan o terminan con una
unidad de medida (por ejemplo, kg clozapine, 9 mm); o contienen sólo números (por
ejemplo, 1,666 o 1673). El filtrado se utiliza también para manejar palabras de función
que tradicionalmente se filtran debido a su alta frecuencia y su falta de información
semántica, como los artículos definidos e indefinidos, demostrativos y determinantes (por
ejemplo, the, these, which, each).
Para el filtrado de los términos semánticamente pobres se realiza un refinamiento
preliminar semántico de los términos candidatos. Para ello se identifican los sintagmas
extraídos que no deben ser considerados como verdaderos términos desde un punto de
vista semántico. Se pueden dividir en cuatro tipos principalmente:
-Sintagmas que generalmente contienen modificadores no discriminatorios (por
ejemplo, important, particular, useful, various, certain, amount of).
-Sintagmas que dependen del contexto con el fin de ser correctamente
interpretados (por ejemplo, day 33, position 1978) o que a menudo incluyen
comparativas (por ejemplo: greater DMI, higher number of assays).
-Sintagmas directamente relacionados a la naturaleza y estilo del corpus (por
ejemplo: embodiment, point of view, above-mentioned feature, present
experiment).
-Entidades nombradas relacionadas con las referencias presentadas en el
documento (por ejemplo: Smith et al., November 1986).
La última parte del método se centra en el etiquetado de los participios, ya que es un
problema común en el NLP, más aún en el dominio biomédico. Teniendo en cuenta el
contexto, los participios pueden jugar el rol de verbos, adjetivos o sustantivos (Por
ejemplo: binding), estas tres etiquetas son difíciles de distinguir y el contexto es
generalmente discriminante. El etiquetado erróneo de los participios generalmente trae
consigo la omisión de términos relevantes. El número de preposiciones con ed e ing es
alto en la mayoría de los corpus biomédicos. Si bien hay POS taggers1 que han sido
adaptados al dominio biomédico, el problema persiste. En esta propuesta no consideran
1 part-of-speech: Es el proceso de asignar (o etiquetar) a cada una de las palabras de un texto sucategoría gramatical.
Estado de la Cuestión
[18]
un re entrenamiento del tagger por dos razones, en primer lugar un proceso de este tipo
requiere datos manualmente anotados y en segundo lugar porque el tagger se vería
influenciado por los corpus utilizados para el entrenamiento.
Para mejorar la integridad de la extracción proponen supervisar la fase de etiquetado
usando cinco reglas basadas en el contexto (Tabla 2.2). en esta tabla muestran un la
primera columna las reglas que han sido definidas para el etiquetado de los participios y
en la otra columna las etiquetas utilizadas en cada caso. Estas reglas tienen en cuenta
las palabras que rodean las formas -ing o -ed y sus etiquetas de etiquetado POS.
Adicionalmente, las reglas utilizan una stop list de formas que son siempre verbos (por
ejemplo, being, using, getting). La lista fue elaborada a partir del corpus tratado y se
probó utilizando el criterio propuesto en (Santorini, 1990). Por ejemplo, una forma -ing
(que no esté en la stop list) precedido por of y que no esté seguido de un verbo o un
signo de puntuación será etiquetado como NN (por ejemplo, day of calving, role of
farming).
Tabla 2.2 Reglas basadas en contexto para la desambiguación de etiquetas POS participios.
[ing*= ing and not stop-list]
Reglas Relevantesetiquetas POS
[DT|JJ|SENT] [–ing*)][NN|NNS|NP|,]
e.g. eating quality; a training period
NN
[DT|JJ][–ing*][JJ]
e.g. increasing perinatal mortality
JJ
[of][-ing*][not V|,|SENT]
e.g. day of calving ; role of farming
NN
[of][-ing*][DT|JJ|PP|WDT]
e.g. accuracy of predicting the percentage
VVG
[-ed][NN|NP|JJ|NNS]
e.g. autumn saved pasture; immunized animals
JJ
Como resultado plantean el positivo impacto que ha tenido el uso de los filtros en la
propuesta. Han realizado pruebas utilizando tres versiones del sistema YaTeA, YaTeA
con filtros y BioYaTeA (es decir, YaTeA con filtros y reglas). En la Tabla 2.3 se muestran
los resultados de precisión (P), cobertura (C) y medida F (MF) obtenidos en cada una de
las versiones del sistema.
Estado de la Cuestión
[19]
Tabla 2.3 Evaluación de los resultados en el corpus farmacológico
Corpus Medidas YaTeA(%) YaTeA+filtros(%) BioYaTeA(%)
C3P 34.2 48.0 52.9
C 33.1 29.4 29.1
MF 33.7 36.4 37.5
CAP 46.2 56.7 55.5
C 37.3 33.9 33.9
MF 41.3 42.4 42.1
2.1.2.2 Propuesta de Heid et al.
En (Heid et al., 1996) basan su propuesta en dos etapas: primero un análisis lingüístico y
la anotación del texto y en la segunda etapa la realización de consultas al corpus, siendo
capaces de reconocer abreviaturas, términos simples y términos complejos.
Evalúan el sistema para el idioma Alemán, así como las traducciones Alemán-Francés y
Alemán-Inglés en el campo de la Ingeniería Automotriz.
En la primera etapa realizan los procesos de tokenización, análisis morfosintáctico,
etiquetado de las partes de la oración y lematización.
Para la segunda etapa han utilizado una herramienta para la extracción de términos que
no ha sido diseñada exclusivamente para la terminología sino más bien como una interfaz
de recuperación de texto general (Christ, 1994), donde sus principales componentes son:
un procesador de consultas al corpus, un macro procesador para el lenguaje de consulta
y una interfaz gráfica de usuario para el procesador de consultas al corpus.
Términos simples:
Las consultas para la extracción de términos simples (así como su aparición en términos
complejos) se basan en la suposición que muchos términos contienen prefijos y sufijos
típicos del idioma. Algunos ejemplos de términos candidatos extraídos mediante una
consulta para términos nominales con sufijos son: (partikelfilter, hinterachse,
motorleistung, motormodul) que traducidos al inglés serían: (particulate filter, rear axle,
engine performance, engine module). Ejemplos típicos de ruido extraído por esta regla se
muestran: (verwendung, geschichte, wirklichkeit) los cuales traducidos al inglés serían:
(use, history, reality). Esta consulta produjo alrededor de un 8% de ruido utilizando 35.000
palabras de textos del corpus.
Estado de la Cuestión
[20]
Sin embrago detectaron que muchos términos del dominio de la ingeniería automotriz
pertenecen a un conjunto de decenas de familias derivativas. Esto implica que se pueda
encontrar no sólo los afijos que se repiten, sino también otros morfemas recurrentes en
los términos, por lo que las consultas han sido formuladas para que contengan tales
componentes léxicos específicos del dominio.
Para extraer los términos candidatos del texto, se realiza una búsqueda en todo el texto
lematizado, con la condición de que los términos candidatos deben contener uno o más
de estos elementos específicos de dominio. La lista de los componentes o bien se puede
extraer de un banco de términos o producida por medio de procedimientos estadísticos
para la identificación de las palabras que se repiten con frecuencia en los componentes.
Términos complejos: colocaciones
Para colocaciones sustantivo-verbo, se podría aplicar un conjunto de etiquetas POS
diseñadas en el proyecto DECIDE (Gérardy, 1996). Este consultas mantienen un
seguimiento, entre otros, un modelo para el orden de las palabras en alemán (el verbo
inicial, verbo-segundo, verbo-finales) y de las diferencias en el comportamiento
morfosintáctico de las colocaciones verbales.
Los mejores resultados se obtienen en la identificación de términos sustantivos simples
(por lo general ruido inferior al 10%), siendo los sustantivos el mayor subconjunto de los
términos candidatos. También extraen adjetivos y verbos aumentando en estos el número
de ruido.
Ejemplo de términos correctamente extraídos son : (hinterachse, vollgas, gefiltert,
dachluke, einspritzen) que traducidos al inglés sería (rear axle, full throttle, filtered,
skylight, injecting) respectivamente.
Ejemplos de ruido extraído para adjetivos son: unterschiedlich, vorhanden, bestimmt,
einfach que en inglés sería (different, available, certainly, easy).
El procedimiento de extracción de términos que utilizan no es nuevo, anteriormente se
habían desarrollado propuestas similares por (Bourigault et al., 1995) y (Otman, 1991). La
diferencia de esta propuesta con las anteriores como la de (Bourigault et al., 1995) es que
en esta propuesta se definen etiquetas POS para los términos potenciales, mientras que
Bourigault define etiquetas POS a aquellos elementos que definitivamente no pertenecen
al término candidato, extrayendo así los términos candidatos en los complementos
identificados por consultas al corpus.
Estado de la Cuestión
[21]
Han comparado sus resultados con los obtenidos en el mismo corpus utilizando la
medida estadística Ahmad (Ahmad et al., 1992) la cual mide de la frecuencia relativa de
los candidatos en un corpus de lenguaje general y especializado. Realizaron una prueba
con todos los términos simples en un corpus de automóviles de 35.000 palabras,
comparándolas con 36 millones de palabras de un corpus de periódicos en alemán. La
comparación muestra que los resultados producidos por las consultas lingüísticas al
corpus, están todos contenidos dentro de la salida ofrecida por los procedimientos
estadísticos (utilizando la medida estadística Ahmad). Sin embargo las consultas
lingüísticas son mucho más selectivas: los métodos estadísticos producen mucho más
ruido, es decir extraen elementos que nunca serían extraídos por métodos lingüísticos.
2.1.2.3 Tabla resumen de propuestas lingüísticas
En la Tabla 2.4 se muestra un resumen de las principales características abordadas por
diferentes propuestas lingüísticas destacando los procesos lingüísticos realizados en
cada una de ellas así como los resultados obtenidos.
Tabla 2.4 Resumen de las principales características en la evolución de los sistemas de extracción
de términos lingüísticos (P-Precisión y C-Cobertura)
Propuesta Procesosrealizados
Corpus Resultados(%)
PuntosFuertes
Debilidades
Heid et al.,
1996
-tokenización
- análisis
morfosintáctico
-etiquetado de las
partes de la
oración
-lematización
35000
palabras del
dominio de
Ia Ingeniería
Automóvil.
Mejor
resultado
obtenido:
ruido inferior
al 10% para
sustantivos
Idioma Alemán
aunque puede
adaptarse a
otros idiomas
Obtiene mucho
ruido en el resto
de las
estructuras.
Basili et al.,
1997
-tokenización
-análisis
morfosintáctico
-ENEA
Sole24Oore
P=71.0
C=68.0
Puede ser
portable a
otros dominios
y/o corpus.
Necesita de
intervención
humana para
identificar los
términos
Gaizauskas
et al., 2000
-Análisis
Morfológico
-SWISS
-PROT
-CATCH
-SCOP
P=86.0
C=68.0
Puede ser
adaptado a
otros
subdominios
médicos y/o
biológicos
Requiere de un
gran corpus
anotado para
su
funcionamiento.
Estado de la Cuestión
[22]
Golik et al.,
2013
-Análisis
Morfológico
-Animal
Journal
(Cambridge
University
Press)
P=56.7
C=33.9
Muy eficiente
cuando se trata
de gerundios y
modificadores
preposiciona-
les
Validación
manual.
Anotación
manual de
participios
2.1.3 Enfoque HíbridoPara tratar de aprovechar las ventajas así como tratar de darle solución a los
inconvenientes al utilizar tanto las estrategias lingüísticas como estadísticas por
separado, en los últimos años ha proliferado la inclinación por las propuestas híbridas.
Dentro de los sistemas basados en un enfoque híbrido se pueden encontrar dos grupos:
los que combinan los enfoques lingüísticos y estadísticos para la extracción de términos,
generalmente primero utilizan una etapa de procesamiento lingüístico y los candidatos
obtenidos se refinan utilizado diferentes medidas estadísticas; y los sistemas que utilizan
aprendizaje automático (ML, del inglés Machine Learning) para extraer los términos
teniendo en cuenta tanto características lingüísticas como estadísticas.
En este enfoque, el orden de uso del conocimiento puede variar. En algunos sistemas, el
conocimiento estadístico es utilizado primero que el lingüístico, mientras que en otros, el
concomiendo estadístico es utilizado después que el conocimiento lingüístico. De
acuerdo con (Teline, 2004) y (Pazienza et al., 2005), los mejores resultados se obtienen
cuando las medidas estadísticas son aplicadas a la lista de candidatos previamente
extraídos mediante el uso de propiedades lingüísticas. Una de las razones de esto es que
los términos usualmente muestran patrones pre definidos por cada dominio (sustantivos
fundamentalmente). Estos patrones son identificados durante el análisis morfosintáctico a
partir de los términos candidatos, sin embargo, los patrones pueden ser diferentes
dependiendo del contexto y del dominio en que los candidatos aparezcan como por
ejemplo (sustantivo, sustantivo + adjetivo, sustantivo + preposición + sustantivo, entre
otros). Los métodos estadísticos generalmente no consideran dichos contextos por lo que
si se aplican primero se perdería ese análisis lingüístico que resulta tan importante para
definir si es o no un término del dominio y en segundo lugar los métodos estadísticos son
más rígidos y pueden eliminar términos con baja frecuencia, pero que sean muy
importantes para el dominio en cuestión.
Se han encontrado diferentes medidas híbridas utilizadas para la extracción de
terminología en el estado de la cuestión, es decir medidas que utilizan tanto conocimiento
Estado de la Cuestión
[23]
lingüístico como estadístico. En (Conrado et al., 2014) se plantean ejemplos de algunas
de estas medidas híbridas:
C-Value
Para la medida c-value (Frantzi et al., 1998), el recurso lingüístico apoya la
generación de una lista de términos candidatos de acuerdo con un filtro lingüístico
basado en la búsqueda de patrones sintácticos predeterminados. A continuación,
se calcula el potencial de cada candidato a ser un término o no, y, a tal efecto, la
longitud de cada candidato se considera, en dependencia la cantidad de palabras
por las que está compuesto (si es bigrama, trigrama, etc.), así como su frecuencia
en el corpus. (A mayor valor de c-value mayor probabilidad de ser un término)
− = ⎩⎪⎨⎪⎧ × , ∉ ;
log − 1 ( )∈otherwise.,
Para la descripción formal de la c-value, se considera como el término
candidato (sintagma nominal), como la longitud en palabras de ,
como la frecuencia de en el corpus, como el conjunto de candidatos con
longitud en palabras más grandes que y que contiene , como el número
de tales candidatos (tipos) incluyendo el tipo de , ∑ ( ) como el número total
de como una sub cadena del candidato para que < | |, y como el
conjunto de vecinos de .
La medida c-value fue inicialmente propuesta para expresar la propiedad
unithood, en trabajos con expresiones complejas. (Barrón-Cedeño et al., 2009)
adaptó esta medida con el objetivo de hacer posible expresar el termhood y luego
aplicarlos a los unigramas.
− = ⎩⎪⎨⎪⎧ × log × tf t , if t ∉ ;× log − 1 ( )∈ℎ
Donde = + log . Los autores afirman que mediante el uso de = 1, es
posible obtener experimentalmente mejores resultados.
Estado de la Cuestión
[24]
nc-value
La medida nc-value (Frantzi et al. 1998) expresa tanto unithood como termhood.
Esta medida supone que el concepto en el que aparecen los candidatos es
significativo para determinar si estos son términos o no. En este sentido el nc-
value considera como la vecindad de cada candidato puede favorecer la calidad
de dicha determinación. Esta vecindad consiste en las palabras cercanas al
candidato llamadas palabras de contexto. Para identificarlos, es necesario
previamente definir el tamaño de la ventana y considerar solo las palabras que
tengan la clase gramatical sustantivo, adjetivo o verbo. En este sentido, para cada
una de las palabras su peso es calculado como weightw.ℎ = ( )Donde ( ) es el número de candidatos donde la palabra aparece y es el
total número de candidatos considerados en el corpus.
En la secuencia seleccionada, es posible calcular la medida nc-value, la cual es
formalmente expresada como:nc − value = 0.8 − + 0.2 ∈ ( ) ℎEn esta ecuación, es el término candidato, es el conjunto de palabras del
contexto del candidato , es una palabra de contexto del candidato , ( ) es
la frecuencia de ocurrencia de como una palabra de contexto del candidato yℎ es el peso calculado para como una palabra de contexto.
A continuación se presentan varias propuestas híbridas que utilizan tanto un enfoque
lingüístico como estadístico.
2.1.3.1 Propuestas que combinan un enfoquelingüístico y estadísticoComo ya se ha comentado anteriormente (sección 2.1.3) varias propuestas se han
presentado en los últimos años que combinan tanto las ventajas de los enfoques
lingüísticos como estadísticos, dentro de ellos se encuentran (Vivaldi & Rodríguez, 2012),
(Conrado et al., 2013), (Cajal & Rodríguez 2014) (Lossio Ventura, et al., 2014) (Jiang et
al., 2015). A continuación se presentarán los aspectos más importantes de cada una de
estas propuestas.
Estado de la Cuestión
[25]
2.1.3.1.1 Propuesta de Vivaldi y RodríguezEn (Vivaldi & Rodríguez, 2012) se presenta un nuevo enfoque para la obtención de la
terminología de dominio utilizando las categorías y estructura de las páginas de Wikipedia
de manera independiente del idioma/dominio. Los resultados obtenidos mostraron que
este enfoque se ha aplicado con éxito a algunos dominios e idiomas aunque el
rendimiento varía teniendo en cuenta estos parámetros idioma/dominio.
Anteriormente habían desarrollado dos métodos alternativos para la extracción de
terminología de dominio utilizando categorías y páginas de Wikipedia (Vivaldi &
Rodríguez, 2010a y Vivaldi & Rodríguez, 2010b).
En (Vivaldi & Rodríguez, 2010a) sigue una estrategia de Top-down a partir de una Top
category manualmente definida para el dominio. El problema de este enfoque fue su
limitada cobertura debido a la dependencia absoluta de los términos candidatos extraídos
en dicha categoría.
En (Vivaldi & Rodríguez, 2010b) siguen una estrategia de bottom up. Se inicia con una
lista de términos candidatos, obtenidos a partir de un texto específico de dominio. En este
enfoque tanto la precisión como la cobertura se ven afectados: i) el conjunto de términos
candidatos se reducen a la lista y ii) requiere una Top category que condiciona el proceso
como en el enfoque anterior.
En esta nueva propuesta proponen combinar ambos enfoques para superar estas
limitaciones.
Como taxonomía de dominio utilizan los códigos de los Dominios de Magnini (MDC del
inglés Magnini Domain Codes) (Magnini & Cavaglia, 2000).
Estado de la Cuestión
[26]
Figura 2.2 Arquitectura propuesta por (Vivaldi & Rodríguez 2012) para la extracción determinología utilizando Wikipedia
El proceso que siguen como indica la Figura 2.2, primeramente obtienen un listado inicial
de términos de Wikipedia en el idioma especificado, seleccionando todas las variantes de
los synset que se encuentren etiquetados con el código del dominio de Magnini (dc)
perteneciente al dominio seleccionado. Este resultado sería su primer conjunto de
términos candidatos .En el segundo paso consiste en mapear dc con un conjunto de categorías de Wikipedia.
Primero analizan si dc se produce en el grafo de categorías de Wikipedia (CG). Si es el
caso (que es cierto para el 90% de dc para Inglés), entonces se selecciona el conjunto
{dc}. De lo contrario se observa si dc ocurre en el grafo de las páginas de Wikipedia. Si es
el caso se obtienen las categorías a las que pertenecen las páginas. De lo contrario se
realiza una asignación manual sobre la base de una inspección a Wikipedia. El resultado
de este paso sería un conjunto inicial de categorías .
contiene principalmente una categoría única, pero cuando se ha construido a
partir de una página puede contener categorías ruidosas.
En el tercer paso se limpia mediante la eliminación de categorías neutrales y
categorías unidas a los códigos de dominio colocados por encima de dc en la taxonomía
de MDC.
Para comprender los restantes pasos es importante conocer que la base de este enfoque
consiste en localizar dos sub grafos, donde CatSet en CG y PageSet en PG tienen una
Estado de la Cuestión
[26]
Figura 2.2 Arquitectura propuesta por (Vivaldi & Rodríguez 2012) para la extracción determinología utilizando Wikipedia
El proceso que siguen como indica la Figura 2.2, primeramente obtienen un listado inicial
de términos de Wikipedia en el idioma especificado, seleccionando todas las variantes de
los synset que se encuentren etiquetados con el código del dominio de Magnini (dc)
perteneciente al dominio seleccionado. Este resultado sería su primer conjunto de
términos candidatos .En el segundo paso consiste en mapear dc con un conjunto de categorías de Wikipedia.
Primero analizan si dc se produce en el grafo de categorías de Wikipedia (CG). Si es el
caso (que es cierto para el 90% de dc para Inglés), entonces se selecciona el conjunto
{dc}. De lo contrario se observa si dc ocurre en el grafo de las páginas de Wikipedia. Si es
el caso se obtienen las categorías a las que pertenecen las páginas. De lo contrario se
realiza una asignación manual sobre la base de una inspección a Wikipedia. El resultado
de este paso sería un conjunto inicial de categorías .
contiene principalmente una categoría única, pero cuando se ha construido a
partir de una página puede contener categorías ruidosas.
En el tercer paso se limpia mediante la eliminación de categorías neutrales y
categorías unidas a los códigos de dominio colocados por encima de dc en la taxonomía
de MDC.
Para comprender los restantes pasos es importante conocer que la base de este enfoque
consiste en localizar dos sub grafos, donde CatSet en CG y PageSet en PG tienen una
Estado de la Cuestión
[26]
Figura 2.2 Arquitectura propuesta por (Vivaldi & Rodríguez 2012) para la extracción determinología utilizando Wikipedia
El proceso que siguen como indica la Figura 2.2, primeramente obtienen un listado inicial
de términos de Wikipedia en el idioma especificado, seleccionando todas las variantes de
los synset que se encuentren etiquetados con el código del dominio de Magnini (dc)
perteneciente al dominio seleccionado. Este resultado sería su primer conjunto de
términos candidatos .En el segundo paso consiste en mapear dc con un conjunto de categorías de Wikipedia.
Primero analizan si dc se produce en el grafo de categorías de Wikipedia (CG). Si es el
caso (que es cierto para el 90% de dc para Inglés), entonces se selecciona el conjunto
{dc}. De lo contrario se observa si dc ocurre en el grafo de las páginas de Wikipedia. Si es
el caso se obtienen las categorías a las que pertenecen las páginas. De lo contrario se
realiza una asignación manual sobre la base de una inspección a Wikipedia. El resultado
de este paso sería un conjunto inicial de categorías .
contiene principalmente una categoría única, pero cuando se ha construido a
partir de una página puede contener categorías ruidosas.
En el tercer paso se limpia mediante la eliminación de categorías neutrales y
categorías unidas a los códigos de dominio colocados por encima de dc en la taxonomía
de MDC.
Para comprender los restantes pasos es importante conocer que la base de este enfoque
consiste en localizar dos sub grafos, donde CatSet en CG y PageSet en PG tienen una
Estado de la Cuestión
[27]
alta probabilidad de referirse a términos del dominio, la idea planteada es que los títulos
de ambos conjuntos son términos del dominio.
En el paso 4 se construye el conjunto inicial de categorías, , ampliando el Top. A
partir de la categoría Top de dc, CG es atravesado Top-down, evitando ciclos y limpiando
como en el paso 3. Las categorías de esta configuración inicial son anotadas, utilizando
sólo los enlaces a las categorías de los padres, luego todas las categorías con
calificaciones inferiores a 0,5 se eliminan del conjunto resultante del conjunto inicial
.
En el paso 5 se construye el conjunto inicial de páginas, . De cada categoría en
el conjunto de páginas, siguiendo enlaces categoría-páginas, es almacenado en
. Cada categoría se califica de acuerdo a los puntajes de las páginas que
contiene y cada página se puntúa de acuerdo tanto al conjunto de categorías a las que
pertenece así como el conjunto de páginas que apunta a/de ella. Se utilizan tres
mecanismos umbral: Microstrict (acepta una categoría si el número de páginas miembros
con puntuación positiva es mayor que el número de páginas con puntuación negativa),
Microloose (de manera similar con mayor o igual prueba) y Macro (utilizando los
componentes de tales puntajes, es decir, las puntuaciones de las categorías y de las
páginas).
En el siguiente paso se explora iterativamente cada categoría. De esta forma el conjunto
de páginas bien marcadas y categorías se refuerzan mutuamente. Las categorías y
páginas menos puntuadas son eliminadas de cada lista respectivamente. A partir de
estas puntuaciones eligieron un árbol de decisión como clasificador utilizando estas
puntuaciones como las características. El proceso se repite en cada iteración para
y hasta su convergencia. Para todas las iteraciones se recogen todos
los conjuntos y para realizar el siguiente paso.
En el paso 7 se lleva a cabo un filtrado final para la selección, dentro de todos los
y correspondientes a todas las iteraciones, el que tiene mejor medida F. Antes
de calcular la medida F, tanto los conjuntos de categorías ( ) como de páginas
( ) se fusionan en un único conjunto de términos candidatos para cada iteración.
Han evaluado la propuesta en dos idiomas inglés y español y en 6 dominios (Turismo,
Arquitectura, Música, Agricultura, Antropología y Medicina). Los resultados los han
expresado teniendo en cuenta los valores de cobertura y precisión obtenidos
independientes para las categorías y para las páginas. Los mejores resultados de
Estado de la Cuestión
[28]
precisión han sido de un 100,0% en los dominios de Turismo en idioma Español para las
categorías, y Medicina tanto en inglés como español utilizando el corpus SNOMED-CT (a
partir también de las categorías). A su vez el mejor valor de cobertura fue obtenido en el
dominio de Medicina con un 54,51% en el idioma español utilizando en este caso las
páginas.
No obstante a estos resultados se han detectado, algunos problemas para la detección
de términos, tales como:
Término complejo: algunos términos en SNOMED son términos coordinados.
Véase por ejemplo (enfermedades hereditarias y degenerativas del sistema
nervioso central). El sistema no es capaz de reconocer estos términos.
Existen algunas entradas que existen sólo como especializadas. Véase por
ejemplo en español (glándula), sólo existe como términos más especializados
como (glándula esofágica) o (glándula lagrimal), en este caso el sistema reconoce
glándula como un término del dominio, cuando realmente se debería considerar
solo cuando se encuentre especializada.
Discrepancias entre una categoría de Wikipedia y la entradas relacionadas en
SNOMED.
2.1.3.1.2 Propuesta de Cajal y RodríguezEn (Cajal & Rodríguez 2014) se presenta una propuesta de mejora de la extracción de
terminología usando recursos translingües y concretamente la Wikipedia y en el uso de
una variante de PageRank (Haveliwala, 2002) para valorar los candidatos a término.
Figura 2.3 Arquitectura propuesta por (Cajal & Rodríguez 2014) para extracción de terminología
Estado de la Cuestión
[28]
precisión han sido de un 100,0% en los dominios de Turismo en idioma Español para las
categorías, y Medicina tanto en inglés como español utilizando el corpus SNOMED-CT (a
partir también de las categorías). A su vez el mejor valor de cobertura fue obtenido en el
dominio de Medicina con un 54,51% en el idioma español utilizando en este caso las
páginas.
No obstante a estos resultados se han detectado, algunos problemas para la detección
de términos, tales como:
Término complejo: algunos términos en SNOMED son términos coordinados.
Véase por ejemplo (enfermedades hereditarias y degenerativas del sistema
nervioso central). El sistema no es capaz de reconocer estos términos.
Existen algunas entradas que existen sólo como especializadas. Véase por
ejemplo en español (glándula), sólo existe como términos más especializados
como (glándula esofágica) o (glándula lagrimal), en este caso el sistema reconoce
glándula como un término del dominio, cuando realmente se debería considerar
solo cuando se encuentre especializada.
Discrepancias entre una categoría de Wikipedia y la entradas relacionadas en
SNOMED.
2.1.3.1.2 Propuesta de Cajal y RodríguezEn (Cajal & Rodríguez 2014) se presenta una propuesta de mejora de la extracción de
terminología usando recursos translingües y concretamente la Wikipedia y en el uso de
una variante de PageRank (Haveliwala, 2002) para valorar los candidatos a término.
Figura 2.3 Arquitectura propuesta por (Cajal & Rodríguez 2014) para extracción de terminología
Estado de la Cuestión
[28]
precisión han sido de un 100,0% en los dominios de Turismo en idioma Español para las
categorías, y Medicina tanto en inglés como español utilizando el corpus SNOMED-CT (a
partir también de las categorías). A su vez el mejor valor de cobertura fue obtenido en el
dominio de Medicina con un 54,51% en el idioma español utilizando en este caso las
páginas.
No obstante a estos resultados se han detectado, algunos problemas para la detección
de términos, tales como:
Término complejo: algunos términos en SNOMED son términos coordinados.
Véase por ejemplo (enfermedades hereditarias y degenerativas del sistema
nervioso central). El sistema no es capaz de reconocer estos términos.
Existen algunas entradas que existen sólo como especializadas. Véase por
ejemplo en español (glándula), sólo existe como términos más especializados
como (glándula esofágica) o (glándula lagrimal), en este caso el sistema reconoce
glándula como un término del dominio, cuando realmente se debería considerar
solo cuando se encuentre especializada.
Discrepancias entre una categoría de Wikipedia y la entradas relacionadas en
SNOMED.
2.1.3.1.2 Propuesta de Cajal y RodríguezEn (Cajal & Rodríguez 2014) se presenta una propuesta de mejora de la extracción de
terminología usando recursos translingües y concretamente la Wikipedia y en el uso de
una variante de PageRank (Haveliwala, 2002) para valorar los candidatos a término.
Figura 2.3 Arquitectura propuesta por (Cajal & Rodríguez 2014) para extracción de terminología
Estado de la Cuestión
[29]
Como se muestra en la Figura 2.3 primeramente obtienen en Wikipedia la categoría
superior para el dominio dado y a partir de ahí obtienen las principales categorías de
otros idiomas a través de las relaciones inter lingüísticas interviniendo en este proceso un
experto humano. Luego para cada lenguaje obtienen las categorías haciendo un recorrido
top-down, seguidamente obtienen un conjunto inicial de páginas para cada categoría.
Construyen un grafo a partir de los conjuntos obtenidos en los pasos anteriores para cada
dominio incluyendo todos los idiomas. Los nodos del grafo son anotados utilizando el
algoritmo de PageRank. Finalmente el conjunto de nodos correspondientes a cada idioma
están ordenadas según la puntuación descendiente dando el resultado final del sistema.
El sistema fue aplicado a 4 idiomas (Inglés, Español, Catalán y Árabe) y dos dominios
(Medicina y Finanzas).
Han realizado una evaluación utilizando SNOMED y otra manual, finalmente han
comparado los resultados donde se puede apreciar que la evaluación manual de los
resultados son muy superiores, debido que en SNOMED por ejemplo para el idioma
inglés, solamente se encontraron el 62% de los términos, los resultados lo comparan con
el sistema propuesto por (Vivaldi & Rodríguez 2012) donde se aprecia que se han
superado mostrando valores de cobertura del 80% para el inglés y 90% para el español.
2.1.3.1.3 Propuesta de Lossio Ventura et al.BIOTEX2 (Lossio Ventura et al., 2014), es una aplicación web que implementa medidas
del estado de la cuestión para la extracción automática de términos biomédicos de texto
libre en Inglés y Francés. Ofrece varias baseline y nuevas medidas para clasificar
términos candidatos para un corpus de texto dado. Para la extracción de términos
primeramente realizan un proceso de etiquetado POS extraen los candidatos que
coincidan con una serie de patrones pre establecidos (por ejemplo sustantivo, sustantivo
+ adjetivo) etc. Luego a este listado de términos candidatos le aplican un conjunto de
características estadísticas mediante las cuales completan el proceso de extracción.
Se puede utilizar ya sea como una aplicación Web teniendo un archivo de texto como
entrada, o como una biblioteca de Java.
Cuando se utiliza como una aplicación web, se produce un archivo con un máximo de
1200 términos candidatos ordenados. Utilizado como una biblioteca de Java, produce
2 http://tubo.lirmm.fr/biotex/
Estado de la Cuestión
[30]
cuatro archivos con los términos candidatos clasificados que se encuentran en el corpus,
respectivamente, unigramas, bigramas, 3-gramas y todos los términos de + 4 gramas.
BIOTEX cuenta con dos procesos principales:
(1) Extracción de términos y las medidas de resultados:
- Seleccionar el lenguaje del corpus (Inglés, Español o Francés).
- Seleccionar un número de patrones para filtrar los términos candidatos. Estos
patrones de referencia (por ejemplo, sustantivo + sustantivo, sustantivo +
preposición + sustantivo, etc.) se construyeron con términos tomados de UMLS
para inglés y MeSH-fr para el francés. Se ordenan por frecuencia de mayor a
menor.
- Seleccionar el tipo de términos a extraer (por ejemplo, todos los términos o solo
términos complejos).
- Seleccionar las medidas de clasificación para aplicar (L-value, C-value, LIDF-
value, F-Ocapi, F-TFIDF-C, Okapi y TFIDF).
(2) Validación de los candidatos a términos:
Después del proceso de extracción, BIOTEX valida automáticamente los términos
extraídos mediante el uso de UMLS (Eng) y MeSH-fr (Fr). Estos términos validados se
muestran en verde, especificando la fuente de conocimiento utilizado y los otros en rojo.
Por lo tanto, BIOTEX permite que alguien pueda distinguir las clases anotando el corpus
original (en verde) y los términos que a lo mejor también consideran relevantes para sus
datos, pero necesitan ser tratados (en rojo). Los últimos pueden ser considerados
candidatos para el enriquecimiento de ontologías.
Comparando sus resultados con dos propuestas de extracción de términos desarrolladas
previamente (Lossio Ventura et al., 2014a) y (Lossio Ventura et al., 2014b) teniendo en
cuenta la precisión (P) han obtenido mejores resultados en los top k términos extraídos (P
@ k) en varios corpus (LabTestOnline, GENIA, PubMed). Por ejemplo, en un corpus
GENIA, LIDF-value alcanza un 82% para P@100, mejorando así la precisión de C-value
en un 13%, y 66% para P@2000, con una mejora del 11%. BIOTEX permite a los
usuarios evaluar el rendimiento de las medidas con diferentes corpus.
2.1.3.1.4 Propuesta de Jiang et al.En esta propuesta (Jiang et al., 2015) se presenta un método para extraer términos de
trabajos de investigación, para ello utilizan Word2vec (Mikolov et al., 2013a) y (Mikolov et
Estado de la Cuestión
[31]
al., 2013b) la cual es una herramienta de código abierto lanzado por Google para el
cálculo de las representaciones vectoriales de palabras utilizando técnicas de aprendizaje
profundas. Se necesita un corpus de texto como entrada y calcula un vector numérico
para cada palabra w, word2vec puede calcular y producir una lista de palabras que son
similares a w (por ejemplo, teniendo contexto similar) y sus valores de similitud coseno.
Para el proceso de la extracción de términos primeramente realizan un procesamiento
lingüístico, luego de realizar un proceso de POS tagging identifican los sintagmas
nominales presentes en los títulos de los trabajos de investigación, utilizan estas palabras
como términos semillas y partir de un conjunto de características estadísticas va a ir
incrementando el listado de términos.
El algoritmo propuesto, dado un conjunto de trabajos de investigación , serían los
sintagmas nominales en los títulos de , las palabras clave en los títulos de y sería∪ .
1- Utilizar una herramienta de POS Tagging para identificar los sintagmas nominales
de los títulos de los trabajos de investigación en .
2- Junto con las palabras clave de los trabajos de investigación en , se añaden los
sintagmas nominales a un conjunto .
3- Utilizan los top-k palabras/frases en como un conjunto de términos semilla ,
donde es un parámetro de algoritmo que será elegido empíricamente. Para
elegir los top-k palabras/frases, clasifican las palabras/frases en por su longitud
(número de palabras contenidas por una frase) y la frecuencia en . Como lo
sugerido por (Jones et al., 1990) y (Krenn, 2000), estas dos medidas han sido
fiables en la identificación de los términos verdaderos. Dada una palabra/frase∈ , utilizan la siguiente ecuación empírica para calcular su puntuación de
clasificación:
− ( ) = log( )Aquí, fw denota la frecuencia de w y denota la longitud de w. Intuitivamente,
palabras/frases de frecuencia mayor o longitud tienen una mayor probabilidad de
ser verdaderos términos.
4. Para cada término semilla ∈ , utilizan word2vec para calcular una lista de
palabras/frases que son similares a .
Estado de la Cuestión
[32]
5. Si una palabra/frase aparece en al menos listas devueltas por word2vec, la
añaden al conjunto de términos candidatos . Aquí es un parámetro del
algoritmo que será elegido empíricamente.
6. Para cada término candidato ∈ , se busca en los trabajos de investigación
pertenecientes a para ver si se puede encontrar en dichos trabajos de
investigación. Si es así, lo añaden al conjunto de términos semilla . De lo
contrario, simplemente se elimina .
7. Se repiten los pasos 4 al 6 hasta que no haya más términos que se puedan
encontrar. Entonces devuelven como el conjunto de respuestas.
En comparación a otros enfoques existentes, este enfoque tiene la ventaja de que no
requiere ningún conocimiento de dominio. En el estudio experimental se analizan los
falsos positivos y falsos negativos observando que:
(i) los falsos positivos son principalmente las palabras que se usan como
términos en los corpus de dominio abierto sin embargo no deben ser
obtenidos como los términos en los trabajos de investigación.
(ii) los falsos negativos son los términos que tienen muy baja frecuencia de
aparición en el corpus-dominio.
Realizan varias pruebas al corpus valorando varios aspectos como el efecto del número
de términos semillas inicial (k), donde el mejor valor de cobertura (C) se observó que a
medida que aumenta el número de términos semillas mejora la cobertura (para k = 10,C = 56,69% mientras que para k = 40, C = 74,30%), al contrario mientas aumenta k los
valores de precisión (P) disminuyen (para k = 10, P = 40,21% mientras que para k = 40,P = 30,35%).
Otras de las pruebas realizadas fue para comprobar el efecto del tamaño de las listas de
palabras similares Word2vec (ρ). Para (para ρ = 15, C = 74,30% mientras que paraρ = 240, C = 83,08%) en el caso de la precisión (para ρ = 10, P = 30,35% mientras que
para ρ = 240, P = 25,92%). En los resultados se puede apreciar que los valores de Caumentan a medida que se aumenta ρ.
La última prueba fue para medir el efecto del umbral de poda (α) de los términos
candidatos. En este caso a medida que aumenta α los valores de cobertura disminuyen y
los valores de precisión se incrementan, (para α = 2, C = 77,82% y P = 28,14% mientras
que para α = 6, C = 75,35% y P = 30,36%).
Estado de la Cuestión
[33]
De forma general en esta propuesta no consiguen obtener un punto medio en que
permita obtener un equilibrio entre los valores de cobertura y precisión, sin embargo cabe
destacar que no necesita conocimiento de dominio y el proceso para la extracción de
terminología propuesto es completamente automático.
2.1.3.1.5 Propuesta presentada por Macken.En esta propuesta (Macken et al., 2013) se presenta TExSIS, un sistema híbrido que
combina la información lingüística y estadística. Es un sistema de extracción de
terminología bilingüe flexible que utiliza un método chunk-based alignment para la
generación de términos candidatos, luego la especificidad de los términos candidatos se
determina mediante la combinación de varios filtros estadísticos.
Para el análisis lingüístico, TExSIS realiza el proceso de tokenización, POS tagging,
lematización y fragmentación de los datos utilizando el kit de herramientas LeTs
Preprocess toolkit (Van de Kauter et al., 2013). Posteriormente, todas las palabras y
frases que coincidan con los patrones después del proceso de POS (es decir, los
sustantivos y sintagmas nominales) son considerados como términos candidatos. Con el
fin de determinar la especificidad de la cohesión entre estos términos candidatos, se
combinaron varios filtros estadísticos para representar los termhood y unithood de los
términos candidatos (Kageura & Umino, 1996). Para este fin, se emplearon Log-likelihood
(Rayson & Garside, 2000), C-value (Frantzi et al., 2000) y termhood (Vintar, 2010). Todos
estos filtros estadísticos se calculan utilizando el corpus de la Web 1T 5- grams (Brants &
Franz, 2006) como corpus de referencia.
En el estudio realizado plantean que el patrón (sustantivo) y el (sustantivo + adjetivo) o
(adjetivo + sustantivo) o sus variaciones (sustantivo + sustantivo) dependiendo del
idioma, son los más frecuentes de los patrones POS y representan más del 50% de todos
los términos.
Los resultados son mostrados por pares de idiomas, donde los mejores valores de
precisión fueron obtenidos en los idiomas Francés-Inglés con un 66,65%, los mejores
valores de cobertura y medida F fueron obtenidos en los idiomas Francés-Italiano con un
42,12% y 50,15% respectivamente.
Estado de la Cuestión
[34]
2.1.3.2 Propuestas que utilizan AprendizajeAutomáticoOtras propuestas como las de (Zhang et al., 2008), (Foo & Merkel, 2010), (Zhang et al.,
2010), (Loukachevitch, 2012) y (Conrado et al., 2013) entre otras han utilizado el
Aprendizaje Automático como una vía para mejorar los resultados en la extracción
automática de términos haciendo uso de combinaciones de información lingüística y
estadística a través de características. Un ejemplo de una propuesta que se basa en este
enfoque y ha obtenido buenos resultados es la propuesta de (Conrado et al., 2013) de la
cual a continuación se presentarán sus aspectos más importantes.
2.1.3.2.1 Propuesta presentada por Conrado et al.En (Conrado et al., 2013) se propone un enfoque de extracción automática de términos
que utiliza el Aprendizaje Automático incorporando un conjunto de características de
términos candidatos. En los experimentos preliminares, se muestran diferentes métodos
de selección de atributos para verificar qué características son más relevantes para la
extracción automática de términos. La propuesta está dirigida a la extracción de
unigramas del portugués brasileño.
Utilizan un conjunto de 19 características tanto lingüísticas como estadísticas e híbridas.
A continuación se muestran dichas características:
Lingüísticas:
Sintagmas Verbales y Preposicionales (S)
Head de la frase (N-S)
Categoría gramatical (POS)
Frase indicativa (IP)
Número de sustantivos (N_nouns)
Número de adjetivos (N_adj)
Número de verbos (N_verb)
Total de palabras del término candidato (N_PO
Estadísticas
Longitud de los n-gramas (SG)
Frecuencia del Término (TF)
Estado de la Cuestión
[35]
Frecuencia del documento (DF)
Frecuencia de término-Frecuencia inversa del documento (TF-IDF)
Contribución del término (TCo)
Varianza del término (TV)
Calidad de la varianza del término (QTV)
Híbridas
Ocurrencia del término candidato en el corpus general (GC)
Frecuencia de término candidato en el corpus general (Frec-GC)
Potencial de un término candidato a ser un término (C-value)
Contexto del término candidato (NC_value)
La arquitectura propuesta con cada uno de los pasos para dicha tarea se muestra en la
Figura 2.4. A partir de un texto de entrada le realizan un proceso de POS tagging y
normalización a las palabras del texto. A partir de este proceso de normalización obtienen
un conjunto de candidatos que le extraen las características lingüísticas, estadísticas e
híbridas. A partir de los candidatos con su conjunto de características utilizan dos filtros o
punto de corte. El primero, que todos los candidatos que no se encuentren al menos en
dos documentos se eliminan y el segundo que solamente se mantendrán los candidatos
que sean sustantivos o sintagmas nominales compuestos por nombres, nombres
propios, verbos, adjetivos. A partir de este conjunto de candidatos y sus características
generan un modelo que validan a través de la herramienta Weka. Con los términos
extraídos llevan a cabo un proceso de evaluación mostrando finalmente los resultados
obtenidos.
Figura 2.4 Arquitectura propuesta por (Conrado et al., 2013) para la extracción de terminología
Para la generación del modelo a utilizar en el Aprendizaje Automático realizan un proceso
de selección de características mostrando que TF-IDF es una característica esencial en
el proceso de extracción de términos. El 90,9% de los métodos seleccionan al número de
Estado de la Cuestión
[36]
sustantivos así como la calidad de la varianza del término y sólo uno de estos métodos
eligieron Frec_GC, y ninguno de ellos eligieron la característica S_G. También se
observó que los mejores valores de medida F se obtuvieron cuando se utiliza en una
misma función tanto características lingüísticas como estadísticas validando la premisa
que la mezcla de ambas obtendría buenos resultados.
Realizan una comparación de sus mejores resultados, que son la frecuencia se aparición
de los términos y TF-IDF, utilizando su lista de palabras irrelevantes. Se consideraron
todas las palabras raíz de estos corpus como términos candidatos, excepto las stopword,
y se calculó la precisión, cobertura, y medida F para estas palabras. Comparan sus
resultados con un sistema que solamente extrae unigramas (Zavaglia et al., 2007), el cual
está desarrollado para la extracción de unigramas en Portugués, por lo que para poder
realizar su comparación implementaron este método nuevamente. En esta prueba, para
todos los corpus utilizados, han obtenido mejores resultados de precisión y medida F que
la propuesta baseline, en cuanto a la precisión la mejora estuvo dada par el corpus EaD
en once veces, de un 6.1% a un 66.66%. En el caso de corpus N&N de un 35.4% a un
61.3% utilizando en ambos casos en la comparación el valor de TF-IDF. Para el corpus
ECO han mejorado los resultados de un 12.9% a un 60% comparando en este caso la
característica de la frecuencia. En el caso de la medida F, para el corpus EaD de un
10.93% han mejorado hasta un 17.58%, para el corpus ECO de un 20.64% a un 24.26%
y para el corpus N&N de un 28.12% a un 54.04% basándose en los mejores valores de
medida F utilizando TF-IDF. En el caso de la cobertura el método baseline obtuvo para
todos los corpus mejores resultados de un 89%, aunque comparando con su cobertura y
medida F de un 2% y un 4%, de forma general en esta propuesta se obtuvieron mejores
resultados.
En esta propuesta se resumen, de forma general, los principales problemas que
presentan actualmente los sistemas de extracción automático de terminología con
independencia del enfoque utilizado (lingüístico, estadístico o híbrido). Como primer
problema plantean que todavía los sistemas extraen términos que no son términos del
dominio (“ruido”) o no se extraen términos del dominio (“silencio”). El segundo es el
problema de trabajar con un elevado número de términos candidatos y de características,
también conocido como el problema de la (alta dimensionalidad de los datos). El tercero
de los problemas es el tiempo y esfuerzo humano requerido en validar los candidatos a
términos que generalmente se realiza de forma manual y el cuarto es que los resultados
obtenidos por los diferentes sistemas todavía no son satisfactorios, es decir, teniendo en
cuenta los valores de cobertura, precisión y medida F obtenidos.
Estado de la Cuestión
[37]
2.1.3.3 Tabla resumen de las propuestas híbridaspresentadasEn la Tabla 2.5 se presenta un resumen de las propuestas analizadas anteriormente
teniendo en cuenta el enfoque utilizado, las medidas utilizadas para la extracción de los
términos, el corpus utilizado, los resultados que muestran en cada caso así como algunos
puntos fuertes y debilidades detectadas.
Tabla 2.5 Resumen de las principales características de las propuestas híbridas (P-Precisión, C-
Cobertura y MF-Medida F en %)
Propuesta Medidas Corpus Resultados Fortalezas Debilidades
Vivaldi &Rodríguez,2012
Categorías yestructuras delas páginas deWikipedia
WikipediaSNOMED
-P=100 en(Tur-Esp yMed. Esp eIng.)
-C=54.51 enMed-Esp
Independientedel dominio ylenguaje
-Problemas parareconocer términoscomplejos-Bajos resultadospara medicina enInglés
Conrado etal., 2013
ling.(S,NS,POS,IP, N_Noun,N_Adj,N_Verb,N_PO) est.(SG,TF, DF,TFIDF,TCo,TV,TVQ) híb. (GC,req_GC,C-Value,NC-Value)
EaD, ECOy N&N
EaD-P= 66.66-C= 89.70
N&N-MF= 54.04
Crean 4característicasproponen 4que no habíansido probadaspara la TE-Análisis de elproceso deselección decaracterísticas
-Solo trabajan conunigramas
-Idioma Portugués.
Macken etal., 2013
-Log-likelihood-C-value-FreqRatio
Web 1T 5-grams
Fr.-It.-P=61.95-C=42.12Fr.-Ing.-P=65.55-C=25.23Fr. -Hol.-P=62.60-C=24.57
Demuestranque chunk-basedextensionpuede mejorarla cobertura sinafectar laprecisión.
Se ha desarrolladopara los pares deidiomas (Fr-It, Fr-Ing y Fr-Hol)
Cajal &Rodríguez2014
-Topic-Sensitive-PageRank
WikipediaSNOMED
Inglés-C= 80.0Español-C= 90.0
Independientedel dominio ylenguaje
Aceptan todas lasrelacionesinterlinguas comocorrectas
LossioVentura etal., 2014
-F-TFIDF-F-OCapi-LIDF-value
LabTestOnlineGENIAPubMed
C. GeniaLIDF-value
-P= 82.0P@100-P=66. en
P@2000
Idiomas Inglésy francés ypara el dominiomédico.
No esindependiente delidioma
Jiang et al.,2015
-word2vec Wikipedia200 art. deinvest.med
-P: baja-C= 90.14
-No requiereconocimientode dominio-Es automático
-Ruido.-No reconocetérminos con loscuales no se haentrenado
Estado de la Cuestión
[38]
En síntesis, como se ha podido apreciar en la tabla anterior, a pesar de las diversas
propuestas para la extracción de términos que se han desarrollado en los últimos años,
las cuales utilizan varias medidas, corpus y recursos, todavía los valores de precisión y
cobertura no son los esperados, en otras palabras, estos sistemas ofrecen como términos
un conjunto de sentencias que no lo son y a su vez omiten algunos que si deberían ser
considerados, siendo este uno de los grandes problemas actualmente de los sistemas de
extracción de términos según (Conrado et al., 2013).
2.2 ConclusionesEn este capítulo se presentó una panorámica general del estado de la cuestión
destacando los distintos enfoques existentes de los sistemas de extracción de términos,
como son el estadístico, lingüístico e híbrido. Se analizaron propuestas destacadas por
sus resultados de cada una de los enfoques existentes con sus ventajas y principales
limitaciones las cuales se han tenido en cuenta para la presente investigación. En la
Tabla 2.6 se muestra un resumen de los principales resultados de las diferentes
propuestas analizadas.
El estado de la cuestión muestra que los trabajos desarrollados en los últimos años para
la extracción de términos se basan fundamentalmente en un enfoque híbrido ya que
utilizando tanto las ventajas de las aproximaciones lingüísticas como de las estadísticas
obtienen mejores resultados.
Otro punto importante en esta investigación lo constituye la identificación del uso del
Aprendizaje Automático en las nuevas propuestas que han proliferado en materia de
extracción de término debido a los resultados obtenidos en las mismas.
Se han identificado los patrones lingüísticos más utilizados como son los sustantivos y los
términos formados por sustantivos (por ejemplo, sustantivo + adjetivo, sustantivo +
preposición + sustantivo).
Se ha podido apreciar la diversidad de características que pueden ser utilizadas tanto
lingüísticas como estadísticas e híbridas así como las que han proporcionado mejores
resultados según las evaluaciones realizadas en las diferentes propuestas como son (Tf-
idf, IM, Log likelihood) entre otras, elementos que permitirán crear una base para la nueva
propuesta presentada.
Es importante destacar que se han identificado los problemas que presenta, de forma
general, la extracción automática de términos (ruido, silencio, alta dimensionalidad de los
Estado de la Cuestión
[39]
datos, validación manual de expertos y resultados no satisfactorios) (Conrado et al.,
2013).
Tabla 2.6 Resumen de los principales resultados de las diferentes propuestas analizadas (P-
Precisión, C-Cobertura y MF-Medida F)
Enfoque utilizado Propuesta Principales Resultados (%)
Estadístico
(Salton & Buckley, 1988) P=27.52
ANA, (Enguehard & Pantera,1994)
P=75.0
(Ventura & Ferreira da Silva,2008)
Inglés (P=81.5, C=55.4)
Español (P=78.2, C=60.8)
Lingüístico
Heid et al., 1996 -mejor resultado obtenido: ruido
inferior al 10% para sustantivos
Basili et al., 1997 P=71.0, C=68.0
Gaizauskas et al., 2000 P=86.0, C=68.0
Golik et al., 2013 P=56.7 C=33.9
Híbrido
Vivaldi & Rodríguez, 2012 P=100 en (Tur-Esp y Med. Espe Ing.)C=54.51 en Med-Esp
Conrado et al., 2013 EaD (P= 66.66, C= 89.70)N&N (MF= 54.04)
Macken et al., 2013 Fr.-It. (P=61.95, C=42.12)Fr.-Ing.(P=65.55, C=25.23)Fr. -Hol.(P=62.60, C=24.57)
Cajal & Rodríguez, 2014 Inglés (C= 80.0)Español (C= 90.0)
Lossio Ventura et al., 2014 C. Genia (LIDF-value)(P= 82.0 para P@100)(P=66.0 para P@2000)
Jiang et al., 2015 P: bajaC= 90.14
Sistema de Extracción de Términos. Propuesta y Evaluación
[41]
3. Sistema de Extracción de
Términos. Propuesta y Evaluación
El objetivo que se persigue en este capítulo es obtener un sistema de extracción de
términos que obtenga resultados comparables con el estado de la cuestión actual. Para
ello se han realizado 5 aproximaciones las cuales se presentarán a continuación.
Para afrontar la tarea de la extracción de terminología, según el estado de la cuestión
analizado (sección 2.1) existen básicamente tres enfoques por los cuales se rigen las
diferentes propuestas de extracción de términos (lingüísticos, estadísticos o híbridos). En
este trabajo se presentan 5 aproximaciones para esta tarea. Primeramente en la sección
3.1 una propuesta basada en Patrones Básicos, el objetivo de esta propuesta lingüística
es obtener un baseline y a partir de ella construir una estructura que permita la extracción
de términos con buenos resultados, en la sección 3.2 se presenta la segunda propuesta
lingüística, esta vez, utilizando estructuras lingüísticas más complejas basadas en
Patrones Verbales Definitorios, en las secciones 3.3 y 3.4 dos propuestas que utilizan
Aprendizaje Automático, donde la propuesta presentada en el epígrafe 3.4 es un
enriquecimiento a la propuesta presentada en la sección anterior. En la sección 3.5 se
presenta una propuesta híbrida, la cual integra las diferentes aproximaciones
anteriormente abordadas. De cada una de estas aproximaciones se presenta su
arquitectura, la evaluación realizada así como los resultados obtenidos realizado una
valoración de los mismos. Finalmente en el epígrafe 3.6 se realiza una comparación de
los principales resultados obtenidos en cada una de ellas.
3.1 Utilizando Patrones BásicosEn (Marrero et al., 2015) se presenta una propuesta lingüística para la extracción de
términos basada en Patrones Básicos (PB). Como bien se ha mencionado anteriormente
el primer objetivo trazado en esta propuesta es obtener un baseline para el proceso de
extracción de términos, para ello se ha decidido utilizar un enfoque lingüístico (sección
2.1.2) debido a las ventajas que ofrece el mismo en la identificación de términos a partir
de los patrones lingüísticos de la terminología especializada de un determinado dominio y
como segundo objetivo que la propuesta pueda ser fácilmente adaptable a otros
dominios.
Sistema de Extracción de Términos. Propuesta y Evaluación
[42]
En la Figura 3.1 se muestra el proceso de extracción de términos a partir de los PB, su
arquitectura se ha dividido en dos procesos, primeramente se muestra el proceso de
obtención de los PB y luego el proceso de extracción de términos a partir de los PB
obtenidos.
Figura 3.1 Arquitectura de la extracción de términos a partir de los PB
Para entender claramente el funcionamiento de esta propuesta se explicará mediante un
ejemplo.
Sistema de Extracción de Términos. Propuesta y Evaluación
[43]
3.1.1 Proceso de obtención de PBEl primer paso sería a partir de un conjunto de documentos que pertenezcan al dominio
deseado, se selecciona el corpus a utilizar. Para este proceso es necesario tener en
cuenta varios aspectos como los descritos en (Dubuc & Lauriston, 1997).
Para este ejemplo a partir del conjunto de documentos del dominio de la Informática se
ha seleccionado, siguiendo los criterios descritos en Debuc y Lauriston, un subconjunto
de ellos que constituirá el corpus a utilizar. A continuación se muestra un ejemplo de
fragmento de texto correspondiente a uno de estos documentos seleccionados.
... Java: es un lenguaje de programación ...
El segundo paso sería realizar el proceso de anotación a los términos, para este proceso
se ha elaborado la herramienta TermEt (anexo 1) mediante la cual, dado un texto,
permitirá a un experto marcar los términos correspondiente al dominio en cuestión con las
etiquetas (term) (/term). Para el ejemplo en cuestión el texto anotado quedaría de la
siguiente manera:
...(term) Java (/term): es un (term) lenguaje de (term) programación(/term) (/term)
Seguidamente se le realiza el análisis morfológico al texto utilizando la herramienta
Freeling (Anexo 2).
Java[xaba]javoNCFS000
:[:]:Fd
Es[es]serVSIP3S0
un[un]unoDI0MS0
lenguaje[lenguaxe]lenguajeNCMS000
de[de]deSPS00
programación[programaTjon]programaciónNCFS000
Como resultado de estos dos procesos se obtiene el corpus debidamente anotado y
analizado morfológicamente.
En el siguiente paso se obtienen un conjunto de patrones candidatos (pc) a partir de los
términos etiquetados por el experto luego de realizarle el análisis morfológico.
Para este ejemplo el conjunto de pc que siguen los términos que han sido anotados sería:
sustantivo (Java)
sustantivo + preposición + sustantivo (lenguaje de programación)
sustantivo (programación)
Sistema de Extracción de Términos. Propuesta y Evaluación
[44]
A partir de estos pc se obtienen los Patrones Básicos (PB), primeramente se simplifica la
lista de pc obtenidos en el paso anterior eliminando los duplicados, almacenando para
cada uno su frecuencia de aparición. La lista de pc simplificada es ordenada en orden
ascendente según la frecuencia de aparición de cada pc. La frecuencia de aparición para
cada pc se calcula mediante la siguiente ecuación:
ó = ( )Donde: es 1 cada vez que aparezca el patrón en la lista de pc y es igual a
cantidad total de patrones obtenidos en la lista de pc.
Siguiendo con el ejemplo que se está desarrollando se tendría una lista de pc ordenados
por su frecuencia de aparición en orden decreciente (es decir de primero aparecerá el
patrón que más se repite además de su frecuencia de aparición y así sucesivamente), los
resultados para este ejemplo se muestran en la Tabla 3.1.
Tabla 3.1 Ejemplo del listado de patrones ordenados según su frecuencia de aparición
Patrón Frecuencia de apariciónsustantivo 2
sustantivo + preposición + sustantivo 1
Luego el experto podrá definir un umbral (puede ser diferente para cada dominio), y todos
los patrones que su frecuencia de aparición sea menor a dicho umbral serán
desestimados como patrones de dicho dominio.
Como salida de este proceso se obtiene el conjunto de PB, que serían todos los patrones
de la lista de pc que sobrepasaron el umbral definido por el experto. En el ejemplo en
cuestión si el umbral seleccionado fuese 2, solamente tendíamos al patrón sustantivo
(sustantivo) como el Patrón Básico para dicho dominio.
Una vez obtenido el conjunto de PB para ese dominio, se pueden extraer los términos de
un documento dado.
3.1.2 Proceso de extracción de términos a partir delos PBEl primer paso en este proceso sería seleccionar los documentos a los cuales se le
desean extraer los términos a partir de los PB.
Sistema de Extracción de Términos. Propuesta y Evaluación
[45]
A cada uno de estos documentos se le realiza el análisis morfológico utilizando la
herramienta Freeling y se mapean con los PB obtenidos donde todas las cadenas de
etiquetas que coincidan con dichos PB constituirán el listado de términos candidatos.
Este listado de términos candidatos obtenidos se simplifica eliminando los términos
duplicados dando lugar al listado final de términos que se devolverá como salida.
3.1.3 Evaluación y discusión de los resultadosEl primer objetivo que se persigue a través de este proceso de evaluación es comprobar
el funcionamiento del baseline desarrollado para el proceso de extracción de términos
utilizando un enfoque lingüístico, es decir, determinar en qué medida esta propuesta es
capaz de identificar términos a partir de los patrones lingüísticos de los términos de un
determinado dominio para, partiendo de ese punto, poder mejorar los resultados que se
obtengan. El segundo objetivo es poder determinar si la propuesta puede ser aplicable a
otros dominios.
Para la evaluación de los resultados resulta necesario contar con un corpus, a
continuación se describen los criterios seguidos para su selección así como una
caracterización del corpus utilizado.
3.1.3.1 Selección del corpusEn el ámbito de la lingüística computacional los corpus se han perfilado como uno de los
recursos por excelencia: "Corpus date are, for many applications, the raw fuel of NLP,
and/or the testbed on which an NLP application is evaluated " (McEnery, 2003).
En el ámbito concreto de la terminología, los corpus son, por naturaleza, especializados
y, dentro de esta clasificación, se trata, más concretamente, de corpus de un ámbito
científico, técnico y/o profesional.
Es por ello que la selección del corpus a utilizar es una tarea difícil, pero muy importante
para cualquier aplicación del PLN. Según lo planteado por (Dubuc y Lauriston, 1997),
para la elección del corpus se ha de tener en cuenta que:
El texto ha de ser representativo. El documento objeto de escaneo ha de reflejar
el uso de los expertos en un campo de especialidad.
La naturaleza de la publicación determina en gran medida la importancia de los
contextos que contiene. Los libros de texto, manuales, monografías, son fuentes
Sistema de Extracción de Términos. Propuesta y Evaluación
[46]
excelentes que proporcionan información explícita sobre conceptos y términos. El
análisis de muestras aleatorias de textos dentro de una publicación puede
determinar la utilidad de la misma para la investigación terminológica.
Hay que perseguir un mínimo de presentación y fiabilidad. En general, los textos
escritos de forma deficiente, con errores tipográficos y fallos gramaticales,
proporcionan una base poco sólida de análisis terminológico.
Siguiendo las recomendaciones de Dubuc y Lauriston, se ha seleccionado como corpus
un conjunto de documentos para los dominios de la Informática, Ingeniería Agrícola,
Medicina Veterinaria y Agronomía del acervo digital de la Biblioteca General de la
Universidad Agraria de La Habana.
En la tabla 3.2 se muestran las principales características de cada uno de los corpus
seleccionados en los diferentes dominios.
Tabla 3.2 Principales características de los corpus en los diferentes dominios utilizados
Dominio Cantidad de Textos Cantidad de palabras
Informática 28 40354
Ingeniería Agrícola 20 30492
Medicina Veterinaria 18 28345
Agronomía 16 27654
Total 82 126927
3.1.3.2 Proceso de evaluación y discusión de losresultadosA partir del corpus correspondiente al dominio de la Informática se realizó el proceso de
extracción de PB, en la Tabla 3.3 se muestra el listado final de PB resultantes luego de
realizar el proceso de filtrado teniendo en cuenta la frecuencia de aparición de cada uno
de los patrones utilizando un umbral del 80%.
Tabla 3.3 Patrones Básicos obtenidos para el dominio de la Informática
Patrones
N Sustantivo
NJ Sustantivo + Adjetivo
NPN Sustantivo + Preposición+ Sustantivo
Sistema de Extracción de Términos. Propuesta y Evaluación
[47]
En la Tabla 3.4 se muestran los resultados obtenidos del proceso de extracción de
términos a partir del conjunto de PB validados en el dominio de la Informática.
Tabla 3.4 Valores de precisión, cobertura y medida F obtenidos en los Patrones Básicos para el
dominio de la Informática.
Patrón Precisión(%) Cobertura(%) Medida F(%)
PB 38,23 97,43 43,51
Con el objetivo de verificar si es posible generalizar este proceso se seleccionaros tres
nuevos dominios (Ingeniería Agrícola, Medicina Veterinaria y Agronomía) y se le realizó a
cada uno de ellos el mismo proceso que el realizado para el dominio de la informática
(sección 3.1.1). Para ello se utilizaron los corpus correspondientes a cada uno de estos
dominios descritos en la sección 3.1.3.1. En el proceso realizado para cada uno de estos
dominios se obtuvieron en este caso los mismos PB que para el dominio de la
Informática. En la Tabla 3.5 se muestran los resultados obtenidos para cada uno de los
dominios evaluados.
Tabla 3.5 Valores de precisión, cobertura y medida F obtenidos en los Patrones Básicos para los
dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía
Dominio Patrón Precisión(%) Cobertura(%) Medida F(%)
IngenieríaAgrícola
PB 36.34 96.32 67.83
MedicinaVeterinaria
PB 39.65 98.24 68.94
Agronomía PB 35.08 96.45 66.94
Los resultados obtenidos para los diferentes dominios evaluados demuestran que la
propuesta presentada es fácilmente aplicable a cualquier dominio.
Como se puede apreciar de forma general en esta propuesta, para cada uno de los
dominios evaluados, los valores de precisión son bajos y los valores de cobertura son
elevados, estos resultados se deben principalmente a que como los patrones obtenidos
son tan básicos son capaces de extraer la mayoría de los términos del dominio (es por
ello la buena cobertura obtenida) pero a su vez permiten que se extraigan muchas
estructuras que coinciden con ellos que no deberían ser consideradas términos del
dominio (baja precisión). Luego de analizar estos resultados resulta necesaria la
búsqueda de nuevas vías o estructuras que permitan mejorar estos valores de precisión
obtenidos.
Sistema de Extracción de Términos. Propuesta y Evaluación
[48]
3.2 Utilizando los Patrones Verbales DefinitoriosDesde el enfoque lingüístico, no solo a la identificación de las categorías gramaticales
(sustantivo, adjetivos, verbos, etc.) se han limitado los estudios realizados, sino que se ha
tratado de ir más allá e identificar estructuras de mayor complejidad desde el punto de
vista lingüístico. Tal es el caso de las investigaciones realizadas para identificar contextos
definitorios en textos de especialidad.
Actualmente existe un creciente interés por el desarrollo de sistemas para la identificación
automática de información sobre términos que sea útil para describir su significado.
Diversos estudios coinciden en la idea de que en textos especializados, cuando se define
un término, se suelen emplear ciertos patrones léxicos y metalingüísticos recurrentes, los
cuales pueden ser reconocidos de manera automática (Pearson 1998, Meyer 2001).
Partiendo de esta idea, en (Alarcón et al., 2007) se presenta una propuesta para la
extracción de contextos definitorios (CD).
Alarcón et al. entienden por CD a todo aquel fragmento textual de un documento
especializado donde se define un término. Los CD están formados por un término (T) y
una definición (D), los cuales se encuentran conectados mediante un patrón definitorio
(PD). Opcionalmente pueden incluir un patrón pragmático (PP), esto es, estructuras que
aportan condiciones de uso del término o que matizan su significado (Figura 3.2).
Figura 3.2 Estructura de un contexto definitorio (Alarcón et al., 2007)
En (Alarcón, 2009) se plantea que existen patrones sintácticos que sirven para conectar
el término (T) con su definición (D), cuando dichos conectores tienen como núcleo un
verbo, se tiene entonces un Patrón Verbal Definitorio (PVD). En este sentido se pueden
encontrar en textos de especialidad PVD como:
Ejemplo1:
Sistema de Extracción de Términos. Propuesta y Evaluación
[49]
Así, se define el estándar XML como el formato universal para documentos y datos
estructurados en Internet y podemos explicar las características de su funcionamiento a
través de 7 puntos importantes, tal y como la propia W3C recomienda.
Ejemplo2:
cliente servidor: Es una tendencia de los actuales sistemas de operación que consiste en
instrumentar la mayoría de las funciones en procesos usuarios, construyendo un “kernel”
mínimo.
En los ejemplos anteriores se puede apreciar que la información definida está compuesta
por los verbos define y es. También, la ocurrencia del pronombre se para el verbo define,
y el adverbio como para formar el patrón se define como. En el ejemplo 2, se tiene la
combinación es un, estructura prototípica para definir un término.
La hipótesis de la que se parte en esta propuesta es que utilizando los PVD para
identificar los términos que se están definiendo en los documentos especializados
permitirá mejorar los resultados de precisión obtenidos a partir de los PB (Tablas 3.4 y
3.5).
En (Marrero et al., 2015) se presenta una propuesta de extracción de términos utilizando
los PVD, se ha definido la arquitectura mostrada en la Figura 3.3, la misma se ha dividido
en dos etapas, una primera etapa de obtención de las estructuras para definir términos
utilizando los PVD y una segunda etapa que sería el proceso de extracción de términos a
partir de las estructuras definidas utilizando PVD.
Sistema de Extracción de Términos. Propuesta y Evaluación
[50]
Figura 3.3 Arquitectura de la extracción de términos a partir de estructuras que utilizan los PVD
3.2.1 Proceso de obtención de las estructuras paraextraer términos utilizando PVDEl primer paso de este proceso sería a partir de un conjunto de documentos de diferentes
dominios se seleccionan el conjunto que conformarán el corpus con el cual se va a
trabajar.
A parir del corpus seleccionado se localizan las definiciones de términos presentes en
estos documentos observando las estructuras por las que están compuestas las mismas.
Sistema de Extracción de Términos. Propuesta y Evaluación
[51]
Luego de dicho proceso de observación se formulan una serie de estructuras que sean
capaces de identificar los términos definidos en los documentos. Para la formulación de
dichas estructuras se le incorporan los PVD propuestos en (Alarcón, 2009).
Según Alarcón et al., en los PVD los verbos más utilizados en la definición de términos
son concebir, definir además del prototípico es un/es una siguiendo las siguientes
estructuras (tabla 3.6).
Tabla 3.6 Estructuras capaces de identificar los PVD
Donde:
SE = Pronombre impersonal se
VAux = Verbo auxiliar
VDef_Inf = Verbo definitorio forma impersonal infinitivo
VDef_Par = Verbo definitorio forma impersonal participio
VDef_Con = Verbo definitorio forma personal conjugada
Pron = Pronombre
En la tabla anterior los verbos auxiliares (VAux) pueden ser formas personales o
impersonales de cualquiera de los verbos y los elementos entre paréntesis son optativos.
Estas estructuras con los PVD incluidos pueden ser utilizadas básicamente para
cualquier dominio ya que las mismas han sido seleccionadas teniendo en cuenta las
definiciones de términos presentes en diferentes dominios; en el caso de los términos que
son definidos dentro de las estructuras, como estos pueden seguir diferentes PB en
Formas impersonales en infinitivo Ejemplo
SE (Pron) VAux VDef_Inf | VAux VDef_Inf
(SE | Pron) | VDef_Inf (Pron)
Ejemplo: se puede definir
SE: se, VAux: puede, VDef_Inf: definir
Ejemplo: puede definir (se | lo)
VAux: puede, VDef_Inf (SE | Pron): definir
(se | lo)
Ejemplo: definirlo
VDef_Inf (Pron): definirlo
Formas impersonales en participio
(SE VAux | Vaux) Vdef_Par
Ejemplo: se ha definido
SE: se, VAux: ha, Vdef_Par: definido
Formas personales conjugadas
(SE) VDef_Con
Ejemplo: se define
SE: se, VDef_Con: define
Sistema de Extracción de Términos. Propuesta y Evaluación
[52]
dependencia del dominio al que pertenecen, entonces se le incluyen a cada una de las
estructuras obtenidas los PB, luego en la fase de extracción de términos estos PB
tomarán valor en dependencia el dominio al que pertenezca el corpus a evaluar. De esta
forma quedan elaboradas las estructuras para definir términos utilizando los PVD.
3.2.2 Proceso de extracción de términos a partir delas estructuras definidas utilizando PVDEl primer paso en este proceso sería seleccionar los documentos a los cuales se le
desean extraer los términos a partir de los PVD.
A cada uno de estos documentos se le realiza el análisis morfológico utilizando la
herramienta Freeling. Luego se incluyen a las estructuras definidas en la sección 3.2.1
los PB obtenidos para el dominio en cuestión.
Seguidamente se mapean los documentos analizados morfológicamente con las
estructuras obtenidas. A partir de definiciones de términos que coincidan con dichas
estructuras se identificarán los términos que se encuentran definidos en ellas, obteniendo
así un conjunto de términos candidatos.
Este conjunto de términos candidatos obtenidos se simplifica eliminando los términos
duplicados dando lugar al listado final de términos que se devolverá como salida.
3.2.3 Evaluación y discusión de los resultadosPara la evaluación de esta propuesta se han seleccionado a partir de un conjunto de
documentos de los dominios Informática, Agronomía, Ingeniería Agrícola y Medicina
Veterinaria (sección 3.1.3.1), un sub conjunto de documentos de cada uno de estos
dominios.
Se realizó un proceso exhaustivo de identificación y observación de los términos
definidos en dichos documentos donde se encontraron ejemplos tales como:
Algunas definiciones detectadas en el corpus del dominio de la Informática:
o Inteligencia Artificial: es una ciencia que intenta la creación de
programas para máquinas que imiten el comportamiento y la comprensión
humana.
Sistema de Extracción de Términos. Propuesta y Evaluación
[53]
o se define como sistema operativo al software o conjunto de programas
dedicados al funcionamiento interno del computador e interpretación de las
órdenes dadas por el usuario.
Algunas definiciones detectadas en el corpus del dominio de la Agronomía:
o se define como biocida al agente físico o químico que puede matar
organismos.
o Ecotipo: Es una variedad de cultivo adaptada a un rango particular de
condiciones climáticas y de suelo.
Algunas definiciones detectadas en el corpus del dominio de la IngenieríaAgrícola:
o se define como fertilizante a cualquier material orgánico o inorgánico de
origen natural o sintético que se agrega al suelo para proporcionarle
nutrientes, incluyendo nitrógeno, fósforo y potasio, necesario para
mantener el crecimiento de las plantas.
o se define fumigantes como pesticida o desinfectante usado en forma de
gas, vapor, emanaciones, o humo.
Algunas definiciones detectadas en el corpus del dominio de la MedicinaVeterinaria:
o se define como absceso a la cavidad que contiene pus debido a una
infección localizada.
o Buche: Es un divertículo caudal del esófago de los pollos, utilizado para el
almacenamiento temporal de alimentos.
Luego de dicho proceso de observación se formularon dos estructuras que incluyendo los
PB y PVD son capaces de generalizar las diferentes formas en que se han definido los
términos observados:
1. (PB) PVD + (PB) + "como" + (PB) + definición + (PB)2. PB + (" : ") + PVD + definición
Donde:
PB: son los patrones obtenidos en (sección 3.1.1)
PVD: son los patrones presentados en la Tabla 3.6
Ejemplos de algunas frases que se podrán identificar siguiendo dichos patrones:
- Lenguaje de programación: es un lenguaje diseñado para describir el conjunto de
acciones consecutivas que un equipo debe ejecutar
Sistema de Extracción de Términos. Propuesta y Evaluación
[54]
Esta secuencia sigue la estructura sintáctica: PB + (" : ") + PVD + definiciónDonde:
PB: lenguaje de programación (PB: sust + prep + sust). Siempre se obtiene el PB
de mayor longitud.
PVD: es un
definición: lenguaje diseñado para describir el conjunto de acciones consecutivas
que un equipo debe ejecutar
- Así, se define sistema operativo como: el conjunto de programas informáticos que
permite la administración eficaz de los recursos de una computadora
Esta otra secuencia sigue la estructura sintáctica: (PB) PVD + (PB) + "como" + (PB)+ definición + (PB)Donde:
PVD: se define
PB: sistema operativo (PB: sust + adj)
"como": como
definición: el conjunto de programas informáticos que permite la administración
eficaz de los recursos de una computadora
Una vez obtenidas las estructuras para extraer términos utilizando PVD se ha procedido a
evaluar la segunda etapa de la metodología.
El objetivo de esta prueba es validar la hipótesis de partida elaborada la cual plantea que
utilizando los PVD para identificar los términos que se están definiendo en los
documentos especializados permitirá mejorar los resultados de precisión obtenidos a
partir de los PB (Tablas 3.4 y 3.5).
Para la evaluación de la propuesta se utilizó el mismo corpus correspondiente al dominio
de la Informática (sección 3.1.3.1) para luego poder realizar la comparación entre ambas
propuestas, a cada uno de estos documentos se le realizó el análisis morfológico
utilizando la herramienta Freeling y se incluyeron en las estructuras para definir términos
utilizando PVD los PB correspondientes al dominio de la Informática obtenidos en la
sección 3.1.
Luego se mapearon los documentos analizados morfológicamente con estas estructuras
y se obtuvo un conjunto de términos candidatos, a partir de todas las cadenas de
Sistema de Extracción de Términos. Propuesta y Evaluación
[55]
etiquetas que coincidieron con los PB del dominio de la Informática presentes en las
definiciones detectadas.
Se simplificó el listado de términos candidatos eliminando los duplicados y finalmente se
obtuvo el listado de términos del dominio. En la Tabla 3.7 se muestran los resultados a
partir del listado de términos del dominio de la Informática obtenidos.
Tabla 3.7 Valores de precisión y cobertura y medida F de los PVD para el dominio de la
Informática
Aproximación Precisión(%) Cobertura(%) Medida F(%)
Estructuras
utilizando PVD 98.35 18.23 52.34
Con el objetivo de evaluar si la metodología era posible utilizarla en otros dominios se
seleccionaron un conjunto de documentos de los dominios Ingeniería Agrícola, Medicina
Veterinaria y Agronomía (diferentes a los utilizados para obtener las estructuras) y luego
de realizar el proceso de extracción términos los resultados obtenidos son los mostrados
en la Tabla 3.8.
Tabla 3.8 Valores de precisión y cobertura y medida F de los PVD para los dominios Ingeniería
Agrícola, Medicina Veterinaria y Agronomía
Dominio Patrón Precisión(%) Cobertura(%) Medida F(%)
Ingeniería
Agrícola
PVD 97.47 20.18 55.19
Medicina
Veterinaria
PVD 98.06 19.56 54.39
Agronomía PVD 96.43 17.18 50.15
Al observar los resultados obtenidos se pueden plantear fundamentalmente dos
conclusiones:
1- Mediante esta propuesta ha quedado validada la hipótesis de partida elaborada, es
decir, que incluir los PVD para identificar los términos que se están definiendo en los
documentos especializados ha permitido mejorar los resultados de precisión obtenidos en
el proceso de extracción de términos utilizando los PB (Tablas 3.4 y 3.5).
2. El proceso puede ser perfectamente adaptado a cualquier dominio, siempre y cuando
primeramente se hayan obtenido los PB correspondientes a dicho dominio.
Sistema de Extracción de Términos. Propuesta y Evaluación
[56]
Sin embrago los valores de cobertura obtenidos son muy bajos debido a que son muy
escasos los términos que se encuentran definidos en el corpus procesado.
Hasta este momento, utilizando diferentes variantes lingüísticas, se han obtenido por una
parte PB con muy buenos resultados de cobertura y bajos resultados de precisión (Tablas
3.4 y 3.5) y por otra parte estructuras para definir términos utilizando PVD que han
obtenido muy buenos valores de precisión pero bajos valores de cobertura (Tablas 3.7 y
3.8), estos resultados conllevan a plantearse nuevas estrategias a seguir para tratar de
mejorar los resultados de precisión y cobertura utilizando una única propuesta.
3.3 Utilizando Aprendizaje AutomáticoDebido a la proliferación en los últimos años de la utilización de Aprendizaje Automático
en la tarea de extracción de terminología así como los resultados obtenidos por estas
propuestas (Tabla 2.5), se ha decidido elaborar una nueva hipótesis la cual básicamente
plantea que utilizando Aprendizaje Automático a partir de un conjunto de características
lingüísticas y estadísticas se puede obtener una propuesta capaz de nivelar los
resultados de precisión y cobertura y que la misma pueda ser utilizada para cualquier
dominio (Marrero & González, 2013).
Por tanto el objetivo de esta nueva aproximación es demostrar que combinando
propiedades lingüísticas y características estadísticas y que utilice además Aprendizaje
Automático se podrá obtener una propuesta independiente del dominio con resultados
equilibrados en cuanto a precisión, cobertura y medida F.
Para la extracción de términos utilizando Aprendizaje Automático se ha dividido el
proceso en dos etapas, una primera etapa en la cual se realizará todo el proceso de
entrenamiento y una segunda etapa que representará el proceso de extracción de
términos.
En la Figura 3.4 se muestra la arquitectura de la etapa de Entrenamiento.
Sistema de Extracción de Términos. Propuesta y Evaluación
[57]
Figura 3.4 Arquitectura de la Etapa de Entrenamiento.
3.3.1 Etapa de EntrenamientoEl objetivo que se persigue en esta primera etapa es llevar a cabo el proceso de
entrenamiento. Para ello se necesitará un corpus así como una herramienta de
Aprendizaje Automático. La herramienta de Aprendizaje Automático seleccionada ha sido
Weka (Hall et al., 2009), debido entre otras características a ser una de las herramientas
de ML más utilizadas en la actualidad y poseer una amplia gama de algoritmos
Sistema de Extracción de Términos. Propuesta y Evaluación
[58]
implementados a los cuales se permite acceder tanto a través de su API como de su GUI
(más detalles en el Anexo 3). Además se va a necesitar de un corpus para llevar a cabo
el proceso. En la (sección 3.1.3.1) se presentan las principales características del corpus
utilizado.
Una vez seleccionado el corpus, el siguiente paso sería realizar un proceso de anotación.
Para este proceso se utilizará la herramienta de anotación TermExt (Anexo 1), la cual
permitirá anotar los términos pertenecientes al dominio D detectados en el corpus,
utilizando las etiquetas (term) (/term).
Se le realiza el análisis morfológico al corpus utilizando la herramienta Freeling y se
obtienen las cadenas de etiquetas para cada uno de los términos anotados.
Las cadenas de etiquetas para cada uno de los términos anotados pasan a formar el
listado de patrones candidatos.
Este listado de patrones candidatos se simplifica eliminado los duplicados y se almacena
la frecuencia de aparición de cada uno de los patrones. Luego el experto define un
umbral y todos los patrones que superen dicho umbral conformarán el conjunto de
Patrones Básicos para (D).
Como la herramienta Weka necesita para su proceso de entrenamiento y validación datos
de al menos dos clases diferentes, es por ello que se hace necesario contar no
solamente con ejemplos de términos sino además con ejemplos de no-términos 3 para el
entrenamiento.
Utilizando la herramienta TermExt (Anexo 1), el experto introduce el conjunto de PB
obtenidos para ese dominio, y teniendo en cuenta todas las estructuras que se obtengan,
marcará un conjunto de no-términos utilizando para ello las etiquetas (no-term) (no-/term).
De esta forma se obtendrá como salida un corpus anotado con términos y no-términos
pertenecientes al dominio D.
3 Frases que morfológicamente coinciden con los PB, pero que no deberían ser considerados términos deldominio.
Sistema de Extracción de Términos. Propuesta y Evaluación
[59]
Para cada uno de los términos y no-términos anotados en el corpus se extraerán un
conjunto de características. Se han seleccionado un conjunto de características
lingüísticas y estadísticas a extraer de cada instancia.
Características lingüísticas:
Patrón utilizado para seleccionar la instancia como término candidato (ptc)
Longitud del patrón utilizado para seleccionarlo como TC (lptc)*
Número de sustantivos (se calcula teniendo en cuenta la cantidad de sustantivos
que tiene el PB para esa instancia) (nsp)
Palabra anterior a la instancia que sea (sustantivo, adjetivo, adverbio o verbo)
(pansw)*
Palabra posterior a la instancia que sea (sustantivo, adjetivo, adverbio o
verbo)(ppnsw)*
Ventana de 10 palabras por delante de cada instancia (Vivaldi & Rodríguez,
2001)(vpdl)
Ventana de 10 palabras por detrás de cada instancia (Vivaldi & Rodríguez, 2001)
(vpdt)
En el caso de estas dos características de ventana por delante y por detrás de la
instancia se ha decidido contar como una palabra a las stopword es decir
(artículo, preposición, conjunción) debido a que si se eliminaran se correría el
riesgo de perder términos complejos en dicha ventana que luego puedan ayudar a
definir si ese término pertenece o no al dominio.
Características estadísticas:
Frecuencia de aparición de la instancia en el documento (fatc)
Rangos de frecuencia de aparición de la instancia en el documento (rfatc)*
Los rangos de frecuencia de aparición de la instancia son calculados para cada
corpus o documento (dependiendo de la etapa si es en la Etapa de Entrenamiento
se utilizará el corpus, si es en la Etapa de Extracción de Términos será el
documento) a partir del término con mayor frecuencia de aparición siguiendo los
siguientes pasos:
1. Se calcula el porciento que representa la frecuencia de aparición del
término más repetido respecto al total de términos obtenidos del corpus
siguiendo el básico cálculo porcentual.
Sistema de Extracción de Términos. Propuesta y Evaluación
[60]
= ∗ 100∑Donde es la frecuencia del término más repetido y es la frecuencia de
aparición del término .
2. Se divide el resultado obtenido entre 4 (para establecer 4 rangos).
= 43. Se establecen los rangos ( ) a partir de las siguientes reglas definidas.
0 < ≤ | || | < ≤ | | ∗ 2| | ∗ 2 < ≤ | | ∗ 3≥ | | ∗ 3 Frecuencia de aparición del patrón utilizado para seleccionar la instancia como
término candidato (Es la frecuencia obtenida por cada PB cuando se simplifica la
lista de patrones candidatos) (sección 3.1.1) (faptc)
Información Mutua (im)
Información Mutua Cúbica (imc)
Coeficiente Log likehood (lg)
Las características marcadas con (*) no conocemos que han sido utilizadas en otras
propuestas anteriores para la tarea de la extracción de términos, por tanto son
características nuevas que se han incluido para comprobar si aportarían alguna mejora a
la tarea de la extracción de términos.
El conjunto de términos y no-términos con sus correspondientes características se
almacenan en un base de datos, permitiendo concentrar todos los datos que se necesiten
para llevar a cabo el proceso de entrenamiento.
Una vez procesados todos los documentos a utilizar para el entrenamiento y que en la
base de datos se encuentren todas las instancias con sus correspondientes
características se lleva a cabo el proceso de entrenamiento.
Como la herramienta de aprendizaje seleccionada ha sido Weka, la misma requiere que
los datos de entrada, sobre los que operarán las técnicas implementadas, deben estar
codificados en un formato específico, denominado Attribute-Relation File Format
Sistema de Extracción de Términos. Propuesta y Evaluación
[61]
(extensión "arff") (Anexo 3). Este formato está compuesto por una estructura claramente
diferenciada en tres partes: @relation, @attribute y @data. Por tal motivo a partir de la
información almacenada en la base de datos se genera un fichero .arff para llevar a cabo
la etapa de entrenamiento.
Para construir el archivo primeramente se coloca @relation <relation-name> y se define
el nombre de dicha relación.
Luego se generará para cada una de las características almacenadas en la base de
datos para los términos y no-términos, un apartado del tipo atributo siguiendo la siguiente
estructura @attribute <attribute-name> <datatype>, donde @attribute es una palabra
reservada seguido de un espacio se pondrá el nombre del primer atributo y a
continuación el tipo de datos que se almacenará en dicho atributo. En este caso los
ficheros .arff soportan 4 tipos de atributos: numeric (expresa números reales), integer
(expresa números enteros), string (expresa cadenas de texto), date [<date-format>]
(expresa fechas). En <date-format> se indicará el formato de la fecha, que será del tipo
"yyyy-MM-dd'T'HH:mm:ss" y <nominal-specification>, estos son tipos de datos auto
definidos y que pueden tomar una serie de valores que se indican entre llaves.
Generalmente al finalizar el listado de atributos, se coloca un nuevo atributo que indicará
la clase a la cual se quiere realizar el proceso de entrenamiento/evaluación. En este caso
después de la última característica almacenada en la base de datos se incluirá en el
fichero el atributo:
@attribute termino {si,no}
El cual es un atributo llamado término y el mismo podrá tomar los valores { , } en este
caso todas las instancias etiquetadas en el corpus como términos el valor de este atributo
será si y todas las instancias etiquetadas como no-términos tendrán el valor no.
Finalmente se construye la última parte del archivo, el apartado @data. En este apartado,
para cada candidato, se van colocando separadas por coma, los valores de cada una de
las características en el mismo orden en que se encuentran declaradas en apartado
@attribute.
Una vez generado el fichero se procede a la llamada al método seleccionado para el
proceso de entrenamiento donde se le pasa como parámetro los datos del archivo .arff
generado.
Sistema de Extracción de Términos. Propuesta y Evaluación
[62]
Una vez entrenado el sistema, se puede llevar a cabo el proceso de Extracción de
Términos.
3.3.2 Etapa de Extracción de TérminosEn la Figura 3.5 se puede observar la arquitectura definida para esta etapa.
Figura 3.5 Arquitectura de la Etapa de Extracción de Términos
El objetivo de esta etapa es el proceso de extracción de términos en sí. Para ello, a partir
de un conjunto de documento de un dominio dado, se seleccionan los documentos a los
que se les desea extraer los términos.
Se realiza el análisis morfológico a cada documento utilizando la herramienta Freeling y
se mapea con el conjunto de PB obtenidos en la etapa de Entrenamiento.
Todas las estructuras que coincidan con los PB pasan a formar parte del conjunto de
términos candidatos, para cada uno de estos términos candidatos se le extrae el mismo
conjunto de características con las cuales fue entrenado el sistema.
Sistema de Extracción de Términos. Propuesta y Evaluación
[63]
A partir del conjunto de términos candidatos obtenidos con sus características se genera
el archivo .arff de la misma forma que en la etapa de Entrenamiento. El atributo que
indica la clase, en este caso el atributo término, como es la clase que se intenta predecir,
en el lugar que corresponde el valor de dicho atributo se coloca un signo de interrogación
(?).
A continuación se realiza el proceso de validación utilizando el fichero .arff generado a
partir del evaluador seleccionado.
Finalmente se obtienen el listado de términos.
3.3.3 Evaluación y discusión de los resultadosEn los apartados (3.3.1 y 3.3.2) se ha detallado la arquitectura de las dos etapas en las
que se ha divido la propuesta. A continuación se realizará el proceso de evaluación
donde se valorará si se ha cumplido con el objetivo trazado el cual pretende demostrar
que, combinando propiedades lingüísticas y características estadísticas en una única
propuesta que utilice además Aprendizaje Automático, se podrán obtener resultados
equilibrados en cuanto a precisión y cobertura y además pueda ser utilizada en diferentes
dominios.
Para la evaluación de esta propuesta se ha seleccionado el corpus detallado en la
(sección 3.1.3.1).
El proceso llevado a cabo para obtener los PB en cada uno de estos dominios así como
los resultados obtenidos se encuentran descritos en las secciones 3.1.1 y 3.1.2.
Una vez obtenidos los PB se llevó a cabo el proceso de anotación de los no-términos
utilizando la herramienta TermExt (Anexo 1).
En total, para el dominio de la Informática, fueron anotados 678 términos y 345 no-
términos. De cada una de las clases (términos y no-términos) se anotaron 175 y 84
instancias respectivamente del patrón (sustantivo), 503 y 163 instancias respectivamente
del patrón (sustantivo + adjetivo) y 331 y 98 instancias respectivamente del patrón
(sustantivo + preposición + sustantivo). En la Tabla 3.9 se muestran algunos ejemplos de
no-términos anotados en los diferentes dominios.
Sistema de Extracción de Términos. Propuesta y Evaluación
[64]
Tabla 3.9 Ejemplos de no-términos anotados en los diferentes dominios
PB Informática IngenieríaAgrícola
MedicinaVeterinaria
Agronomía
N oración puntuación proceso texto
NA puntos
suspensivos
archivo verde mesa circular caja negra
NPN cantidad de
documentos
referentes a
artículos
instrumentos de
precisión
hoja de
clases
Para cada uno de los términos y no-términos anotados se le extrajeron el conjunto de
características anteriormente descritas.
En la Tabla 3.10 se muestran ejemplos de instancias con algunas de sus características.
Tabla 3.10 Ejemplo de instancias con algunas de sus características
Términos
candidatos
Patrón Fatc Faptc Pansw Ppnsw Término
base de datos NPN 5 331 gestión Postgree si
cantidad de
documentos
NPN 4 98 - es no
programación N 12 84 es programas si
Para cada documento procesado del corpus seleccionado para cada dominio se
almacenan todas las instancias con sus respectivas características en la base de datos.
Una vez procesado todo el corpus se genera el fichero .arff, a partir de las instancias con
sus correspondientes características almacenadas en la base de datos. En la Figura 3.6
se muestra un fragmento del fichero arff generado para el dominio de la Informática.
Con el fichero generado se lleva a cabo el proceso de entrenamiento utilizando la
herramienta Weka. Para los procesos de entrenamiento y evaluación de la propuesta fue
seleccionado el algoritmo Bayes Net (Bouckaert, 2005) debido a que es uno de los
algoritmos más utilizados para la tarea de clasificación.
Sistema de Extracción de Términos. Propuesta y Evaluación
[65]
Figura 3.6 Fragmento del archivo .arff generado para el dominio de la Informática
En la Tabla 3.11 se muestran los resultados obtenidos en el proceso de evaluación. Se
utilizó el corpus descrito en la (sección 3.1.3.1) para el entrenamiento de la herramienta
de Aprendizaje Automático, donde a través de un modelo de evaluación utilizando el
algoritmo BayesNet y todas las características se ha aplicado a nuevos documentos,
mostrando los siguientes resultados:
Tabla 3.11 Resultados obtenidos para la extracción de términos utilizando Machine Learning en el
dominio de la Informática
Dominio Precisión(%) Cobertura(%) Medida F(%)Informática 55.61 33.72 49.21
Con el objetivo de comprobar si el proceso podía utilizarse en diferentes dominios se
realizó el mismo proceso pero utilizando los corpus correspondientes a los dominios
(Ingeniería Agrícola, Medicina Veterinaria y Agronomía).
En la Tabla 3.12 se muestran los resultados obtenidos para cada uno de esos dominios
utilizando igualmente todas las características así como el algoritmo Bayes Net.
Sistema de Extracción de Términos. Propuesta y Evaluación
[66]
Tabla 3.12 Resultados obtenidos para la extracción de términos utilizando Machine Learning en
los dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía.
Dominio Precisión(%) Cobertura(%) Medida F(%)
Ingeniería Agrícola 52.16 32.78 46.64
Medicina Veterinaria 53.21 31.10 46.58
Agronomía 54.56 33.18 48.33
Los resultados mostrados en esta tabla, en primer lugar, demuestran que a partir de un
enfoque híbrido con Aprendizaje Automático que utilice características lingüísticas y
estadísticas del estado de la cuestión se podrá conseguir un balance en los resultados de
precisión y cobertura. En segundo lugar, los resultados similares obtenidos para los
dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía han demostrados que la
propuesta puede ser aplicada a diferentes dominios.
Los resultados de cobertura y precisión obtenidos son conservadores, ello se atribuye a
que en primer lugar se ha trabajado con todo el conjunto de características, sin saber si
todas realmente aportan al proceso o puede que exista alguna o algunas que estén
brindando información repetida o irrelevante. Por otra parte solamente se ha probado un
algoritmo sin saber si para ese conjunto de datos es el que mejores resultados obtendría
y otro posible factor que pudiese estar influyendo en los resultados obtenidos pudiese ser
el desbalance existente entre la cantidad de términos y no-términos utilizados en la fase
de entrenamiento.
3.4 Enriquecimiento al sistema propuesto enMarrero & González, 2013En (Marrero et al., 2014) se realiza un enriquecimiento a la propuesta presentada en
(Marrero & González, 2013), para ello se ha utilizado básicamente la misma arquitectura
aunque con dos variaciones:
1- En (Marrero & González, 2013) se utilizó el corpus descrito en la (sección 3.1.3.1), en
esta nueva propuesta se ha ampliado este corpus donde sus principales características
se encuentran en la sección 3.4.1.1.
2- Se han refinado dos de las características utilizadas en (Marrero & González, 2013).
Sistema de Extracción de Términos. Propuesta y Evaluación
[67]
Las características que han sido refinadas son:
Las características ventana de 10 palabras por delante y 10 palabras por detrás de cada
término propuesta por (Vivaldi & Rodríguez, 2001) y utilizadas en (Marrero & González,
2013) se tomaban sin tener en cuenta la delimitación de oraciones, en esta propuesta
estas características se has llamado ventana de hasta 10 palabras por delante y 10
palabras por detrás de término.
Ventana de hasta 10 palabras por delante del término (Vivaldi & Rodríguez,
2001).
Se tomará una ventana de un máximo de 10 palabras por delante del término
siempre y cuando se encuentren en la misma oración.
Siguiendo el análisis con el mismo ejemplo en la oración:
El lenguaje de programación Java es un lenguaje orientado a objetos. El lenguaje
es inusual porque los programas Java son tanto compilados como interpretados
Suponiendo que el término que se está analizando fuera lenguaje de
programación la ventana de palabras por delante del término sería: El
Como podemos observar la ventana de palabras por delante está compuesta por
una palabra.
Ventana de 10 palabras por detrás de cada término (Vivaldi & Rodríguez, 2001).
Se tomará una ventana de un máximo de 10 palabras por detrás del término
siempre y cuando se encuentren en la misma oración.
Suponiendo que se está analizando el mismo término la ventana de palabras por
detrás sería: es un lenguaje orientado a objetos.
Como se puede observar la ventana por detrás, en este caso, solamente está
compuesta por 6 palabras.
3.4.1 Evaluación y discusión de los resultados.A continuación se mostrarán los resultados del proceso de evaluación de cada una de las
variaciones propuestas por separado para valorar cuanto aportan cada una de ellas,
Sistema de Extracción de Términos. Propuesta y Evaluación
[68]
finalmente se realizará una valoración de ambas y se compararán los resultados con los
obtenidos en (Marrero et al. 2013) (sección 3.3.3).
3.4.1.1 Corpus AmpliadoCon el objetivo se probar si al incrementar el corpus de cada dominio se podía obtener
alguna mejora en los resultados, se ha decidido realizar una ampliación al corpus
existente. La misma consistió en adicionar un grupo de documentos al conjunto existente
para cada dominio y comprobar los resultados obtenidos con el nuevo corpus. Los
nuevos documentos adicionados corresponden a materiales bibliográficos pertenecientes
a los Currículum Base y Propio del Plan de Estudios “D” de la Universidad Agraria de la
Habana atendiendo a que los textos de cada currículum pertenecientes a cada una de las
titulaciones generalmente son representativos, revisados y aprobados por expertos en
cada dominio, los mismos son variados en las diferentes áreas por las que están
compuesto cada dominio y atendiendo a su continua actualización presentan un
contenido muy importante contando con una correcta presentación y fiabilidad debido al
personal y al destino para el que serán utilizados, criterios planteados por (Dubuc y
Lauriston, 1997), esenciales a la hora de realizar la selección del corpus.
Tabla 3.13 Principales características del corpus ampliado para los diferentes dominios utilizados.
Dominio Cantidad de Textos Cantidad de palabras
Informática 50 71250
Ingeniería Agrícola 32 43600
Medicina Veterinaria 27 36878
Agronomía 26 35512
Total 135 187240
3.4.1.2 Proceso de evaluación y discusión de losresultadosLa primera de las pruebas fue realizada con el objetivo de comprobar en qué medida
puede influir el nuevo corpus seleccionado. El experimento consistió en probar el corpus
ampliado para el dominio de la Informática con las características sin modificar, es decir,
las mismas características propuestas en (Marrero & González, 2013). En la Tabla 3.14
se muestran los resultados obtenidos.
Sistema de Extracción de Términos. Propuesta y Evaluación
[69]
Tabla 3.14 Comparación entre los resultados obtenidos al aplicar las características propuestas en
(Marrero & González, 2013) al corpus ampliado.
Prueba Precisión(%) Cobertura(%) Medida F(%)
Marrero & González, 2013 55.61 33.72 49.21
Corpus Nuevo - Características
propuestas en (Marrero & González,
2013)
60.33 45.56 56.65
Como se puede apreciar los resultados obtenidos con el corpus ampliado han mejorado
los resultados de la propuesta híbrida presentados en (Marrero & González, 2013).
Tablas 3.11 y 3.12.
Una vez obtenidos estos resultados se pasa a la segunda prueba realizada la cuál
consistió en utilizar las características refinadas con el mismo corpus probado en
(Marrero & González, 2013). En la Tabla 3.15 se muestran los resultados obtenidos
respecto a la propuesta anterior.
Tabla 3.15 Comparación entre los resultados obtenidos en (Marrero & González, 2013) y los
resultados obtenidos al utilizar las características refinadas.
Prueba Precisión(%) Cobertura(%) Medida F(%)
Marrero & González, 2013 55.61 33.72 49,21
Corpus utilizado en (Marrero & González,
2013) y características refinadas
61.84 52.07 59.60
Luego se observar los resultados obtenidos y compararlos con la propuesta anterior,
resulta evidente que las características refinadas han aportado una mejora significativa.
Por tanto la última de las pruebas realizadas fue comprobar la mejora que se podría
obtener al utilizar el corpus ampliado y las características refinadas unidas al resto de las
características utilizadas en (Marrero & González, 2013). En la Tabla 3.16 se pueden
observar los resultados obtenidos.
Tabla 3.16 Comparación de los resultados obtenidos en (Marrero & González, 2013) y el proceso
de enriquecimiento realizado.
Propuesta Precisión(%) Cobertura(%) Medida F(%)
(Marrero & González, 2013) 55.61 33.72 49.21
(Marrero et al., 2014) 66.56 75 68.09
Sistema de Extracción de Términos. Propuesta y Evaluación
[70]
Como se puede apreciaren la Tabla 3.16 los resultados de esta nueva versión de la
propuesta teniendo en cuenta ambas mejoras han superado considerablemente los
resultados obtenidos anteriormente.
El mismo experimento se realizó para los otros tres dominios evaluados en (Marrero et.
al., 2013) donde igualmente cada una de las variaciones por separado mejoró los
resultados obtenidos. En la Tabla 3.17 se muestran los resultados para cada uno de los
dominios probados utilizando las dos mejoras en conjunto (corpus ampliado y
características refinadas).
Tabla 3.17 Resultados del enriquecimiento realizado a la propuesta de (Marrero & González,
2013) en los dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía
Dominio Precisión(%) Cobertura(%) Medida F(%)
Ingeniería Agrícola 63.11 73.06 64.87
Medicina Veterinaria 65.46 71.38 66.56
Agronomía 66.51 74.46 67.96
En los resultados de este experimento se ha podido corroborar, en primer lugar que la
mejora propuesta es válida con independencia del dominio utilizado y en segundo lugar
que los corpus utilizados para cada dominio han influido de manera similar en los
resultados ya que la ampliación de los mismos estuvo dando en la misma tipología de
documentos lo que en cada uno de los diferentes dominios seleccionados.
Una vez obtenidos estos resultados utilizando ML, la nueva meta sería como mejorar los
resultados de cobertura y precisión obtenidos.
3.5 Híbrido de todas las propuestas anterioresEn esta sección se presenta SE-Term: Sistema de extracción de términos híbrido
independiente del dominio. Con el objetivo de mejorar los resultados en la extracción de
términos se ha decidido integrar todas las propuestas antes presentadas. Básicamente se
da diseñado esta nueva aproximación a partir de los buenos resultados obtenidos así
como de la discusión realizada para cada una de las propuestas precedentes.
La hipótesis de partida para esta nueva propuesta se basa en diferentes principios para
obtener mejores resultados de cobertura y precisión:
Utilizar ML incorporándole nuevas características destacadas por sus resultados
en el estado de la cuestión
Sistema de Extracción de Términos. Propuesta y Evaluación
[71]
Realizar un proceso de selección de características.
Probar diferentes clasificadores.
Incluir las estructuras que utilizan PVD para la extracción de términos (sección
3.2) (debido a que todo no puede ser expresado en forma de características).
Obtener un equilibrio entre la cantidad de términos y no-términos utilizados en el
proceso de entrenamiento.
Como toda propuesta que utilice ML se necesita primeramente un proceso de
entrenamiento y luego otro de evaluación o validación, es por ello que la arquitectura de
la propuesta se ha dividido en dos etapas, la etapa de Entrenamiento (Figura 3.7) y la
etapa de Extracción de Términos (Figura 3.8).
3.5.1 Etapa de EntrenamientoLa Figura 3.7 muestra la arquitectura propuesta para la etapa de Entrenamiento, de la
cuál a continuación se detallan cada uno de sus pasos.
A partir de un corpus seleccionado se lleva a cabo el proceso de extracción de Patrones
Básicos. La descripción del proceso de obtención de PB se encuentra en la sección 3.1.
Luego se obtiene el conjunto de términos para cada uno de estos patrones (aquí
quedarán excluidos los términos que han sido marcados por el experto pero luego los
patrones que siguen han sido desestimados debido a que su frecuencia de aparición es
menor que el umbral establecido).
A la hora de aplicar los métodos de clasificación se ha de tener en cuenta cómo están
distribuidas las instancias respecto a la clase. Al no estar balanceadas las clases, los
clasificadores estarán sesgados a predecir un porcentaje más elevado de la clase más
favorecida.
Cuando el desbalanceo es considerable descubrir regularidades inherentes a la clase
minoritaria se convierte en una tarea ardua y de poca fiabilidad.
Sistema de Extracción de Términos. Propuesta y Evaluación
[72]
Figura 3.7 Arquitectura de la Etapa de Entrenamiento
Sistema de Extracción de Términos. Propuesta y Evaluación
[73]
En estas circunstancias la mayoría de los clasificadores presentan una tendencia de
clasificación hacia la clase mayoritaria, minimizando de ésta manera el error de
clasificación y clasificando correctamente instancias de clase mayoritaria en detrimento
de instancias de clase minoritaria (Moreno et al., 2009), salvo en el caso del clasificador
bayesiano Naïves Bayes que clasifica mejor a la clase minoritaria. Se da el caso extremo
en el que un clasificador, las máquinas de soporte vectorial, clasifican correctamente a
todos los de la clase mayoritaria y a ninguno de la minoritaria.
Para evitar el desbalanceo de clases así como las consecuencias que ello acarrea se
obtienen un conjunto de no-términos a partir de los PB obtenidos (sección 3.1). Para el
proceso se toma el texto analizado morfológicamente y por cada PB se obtienen como
máximo el mismo número de términos que de no-términos. Para cada conjunto de
estructuras que se mapeen con los PB y no hayan sido anotados como términos por el
experto, se ordenan aleatoriamente y se obtienen como máximo la misma cantidad de
términos que de no-términos para cada patrón. De esta forma se estará garantizando
minimizar el desbalanceo que pueda existir entre las diferentes clases (término vs no-
término).
Para cada uno de los términos y no-términos obtenidos se le extraen un conjunto de
características.
En este caso, para cada instancia, se van a extraer las características planteadas en la
sección 3.3.1. En el caso de las características ventana de palabras por delante y por
detrás de la instancia se utilizarán las refinadas en la sección 3.4.
Además de estas características anteriormente mencionadas, se incluirán otras que se
han detectado en el estado de la cuestión actual que han ofrecido buenos resultados. Las
nuevas características incluidas son:
Estadísticas:
Frecuencia del Término - Frecuencia inversa del documento (tfidf)
Coeficiente Dice (dc)
Hibrida:
C-value (cv)
El conjunto de términos y no-términos con sus características serán almacenados en una
base de datos (PostgreSql). Una vez que se haya procesado todo el corpus y en la base
Sistema de Extracción de Términos. Propuesta y Evaluación
[74]
de datos se encuentren todos los términos y no-términos con sus características se
procede a generar el archivo .arff con el cual finalmente se lleva a cabo el entrenamiento
del sistema utilizando la herramienta Weka.
3.5.2 Etapa de Extracción de TérminosUna vez que el sistema haya sido entrenado se podrá proceder a la extracción de
términos a partir de un documento perteneciente a dicho dominio. En la Figura 3.8 se
muestra la arquitectura propuesta para esta etapa.
El proceso comienza cuando se carga un nuevo documento del cual se desean extraer
los términos que pertenecen a dicho dominio.
Como ejemplo supongamos que este sería el nuevo documento a procesar:
Un sistema operativo es un conjunto de programas que actúan como interface entre un
usuario de una computadora y el hardware de la misma; permitiendo la posibilidad al
usuario de la ejecución de programas.
Figura 3.8 Arquitectura de la etapa de Extracción de Términos
Sistema de Extracción de Términos. Propuesta y Evaluación
[75]
Al documento a procesar primeramente se le realiza un análisis morfológico utilizando la
herramienta Freeling.
Un[un]unoDI0MS0
sistema[sistema]sistemaNCMS000
operativo[operatibo]operativoAQ0MS0
es[es]serVSIP3S0
un[un]unoDI0MS0
conjunto[konxunto]conjuntoNCMS000
de[de]
de
SPS00
programas[programas]
programa
NCMP000
que[ke]quePR0CN000
actúan[aktuan]actuarVMIP3P0
como[komo]comoCS
interface[interfaTe]interfaceNCMS000
entre[entre]entreSPS00
un[un]unoDI0MS0
usuario[usuarjo]usuarioNCMS000
de[de]deSPS00
una[una]unoDI0FS0
computadora[komputadora]computadorNCFS000
y[j]yCC
el[el]elDA0MS0
hardware[xardwar]hardwareNCMS000
de[de]deSPS00
la[la]elDA0FS0
misma[misma]mismoAQ0FS0
;[;];Fx
permitiendo[permitjendo]permitirVMG0000
la[la]elDA0FS0
posibilidad[posibilidad]posibilidadNCFS000
a[a]aSPS00
el[el]elDA0MS0
usuario[usuarjo]usuarioNCMS000
de[de]deSPS00
la[la]elDA0FS0
ejecución[exekuTjon]ejecuciónNCFS000
de[de]deSPS00
programas[programas]programaNCMP000
.[.].Fp
Una vez analizado morfológicamente el documento se mapea con las estructuras
definidas que utilizan los Patrones Verbales Definitorios y todos los términos que se
obtengan se incluirán posteriormente en el listado final de términos a devolver, esto se
realiza partiendo de la idea planteada en (Cabré, 2002) cuando afirma que el
conocimiento especializado producido en un campo se consolida a través del discurso
entre los especialistas del campo en cuestión y que sus conceptos se establecen en el
discurso ... a través de obras de fijación del sentido de los términos, por consenso -
también explícito o implícito - de la comunidad experta en el tema, parece evidente que lo
que da carácter especializado a un texto es este control, y no el tema en sí mismo, por lo
que hemos considerado que los términos definidos en un texto especializado van a
formar parte de la terminología que caracteriza dicho documento.
Sistema de Extracción de Términos. Propuesta y Evaluación
[76]
Seguidamente se mapea el documento analizado morfológicamente con los PB
obtenidos para ese dominio (sección 3.1) y todas las estructuras sintácticas que
coincidan con dichos patrones se extraen para formar el listado de términos candidatos.
(Tabla 3.18)
Suponiendo que los PB obtenidos en el proceso de entrenamiento hayan sido N
(sustantivo), NPN sustantivo + preposición + sustantivo) y NA (sustantivo + adjetivo)
Tabla 3.18 Términos candidatos obtenidos a partir de los PB
Términos candidatos Patrón
sistema N
sistema operativo NA
conjunto N
conjunto de programas NPN
interfaz N
usuario N
computadora N
hardware N
posibilidad N
usuario N
ejecución N
ejecución de programas NPN
programas N
En la Tabla 3.18 se puede observar, por ejemplo, que el término usuario se encuentra
repetido en más de una ocasión dentro de los términos candidatos, esto se ha tenido en
cuenta puesto que como a este listado de términos candidatos se le extraerán un
conjunto de características y luego serán validados para saber si pertenecen o no al
dominio, es posible que un mismo término utilizado en el texto en varios momentos, en
algún(nos) caso(s) pueda ser considerado un término de dominio y en otro(s) caso(s) no.
Esto se podría determinar a través de las características que posea el término en cada
momento utilizado en el corpus. En el listado final de términos solo aparecería una vez en
caso que el mismo término en varias ocasiones pueda ser considerado un término.
Ejemplo de instancias que puedan ser consideradas o no como términos en un
determinando momentos se tienen:
Sistema de Extracción de Términos. Propuesta y Evaluación
[77]
(I) Por su anatomía genérica el ratón es comúnmente usado en laboratorios como
sujetos de estudio
(II) desplazar el cursor del ratón hasta el punto elegido y hacer clic
A partir de los ejemplos (I) y (II) se puede apreciar que el término ratón en dependencia
del contexto en el que se encuentre podrá ser considerado como término de un dominio u
otro.
A cada uno de los candidatos a términos se le extraen el mismo conjunto de
características con las cuales fue entrenada la herramienta. En la Tabla 3.19 se muestra
un conjunto de términos candidatos con algunas de las características obtenidas para
cada uno respectivamente.
Tabla 3.19 Conjunto de términos candidatos con algunas de sus características
Términoscandidatos
Patrón Fatc Faptc Pansw Ppnsw ...
sistema N 1 10 - operativo ...
sistema
operativo
NA 1 1 - es ...
conjunto N 1 10 es programas ...
conjunto de
programas
NPN 1 2 es actúan ...
interface N 1 10 actúan usuario ...
usuario N 2 10 interface computadora ...
computadora N 1 10 usuario hardware ...
hardware N 1 10 computadora permitiendo ...
posibilidad N 1 10 permitiendo usuario ...
usuario N 2 10 posibilidad ejecución ...
ejecución N 1 10 usuario programas ...
ejecución de
programas
NPN 1 2 usuario - ...
programas N 1 10 ejecución - ...
El conjunto de términos candidatos y sus características se valida a través de la
herramienta de Aprendizaje Automático (Weka).
Hasta este momento por una parte se tiene un listado de términos que se obtuvo como
salida del proceso de Aprendizaje Automático y por otra parte un conjunto de términos
Sistema de Extracción de Términos. Propuesta y Evaluación
[78]
obtenidos a partir del mapeo con las estructuras que utilizan los PVD, ambos conjunto se
fusionan, sin repetir en caso de coincidencia, y ese será el listado final de términos que
ofrece como salida el sistema.
3.5.3 Evaluación y discusión de los resultadosPara un primer proceso de evaluación de los resultados se utilizó el corpus
correspondiente al dominio de la Informática (sección 3.4.1.1).
A partir del corpus utilizado se han obtenido y almacenado en la base de datos todos los
términos etiquetados y los no-términos obtenidos con su correspondiente conjunto de
características. Para el procesamiento de los datos almacenados en la base de
conocimiento se ha generado el fichero términos.arff. En la Figura 3.9 se muestra un
fragmento del fichero términos.arff donde se puede apreciar el conjunto de características
obtenidas para cada uno de los términos y no-términos así como algunas instancias con
sus correspondientes valores. Se ha adicionado un atributo llamado término de tipo
nominal el cual identificará la clase a la que pertenece la instancia, en este caso sus
posibles valores son { , }, si cuando es un término y no cuando es un no-término.
Figura 3.9 Fragmento del archivo términos.arff
Sistema de Extracción de Términos. Propuesta y Evaluación
[79]
Es válido aclarar que aunque Weka permite importar los datos directamente desde la
base de datos (Anexo 3), se ha generado el fichero términos.arff para realizar todas las
pruebas utilizando la GUI de Weka y una vez obtenido el algoritmo y las características
que ofrecen mejores resultados, se procederá a trabajar directamente con el API de
Weka (Anexo 3) para el proceso de evaluación.
El fichero términos.arff cuenta con 3576 instancias de las cuales se anotaron 1788 como
términos y 1788 como no-términos. Tanto dentro del conjunto de términos como del
conjunto de no-términos hay anotados 304 instancias del patrón (sustantivo), 894 del
patrón (sustantivo + adjetivo) y 590 del patrón (sustantivo + preposición + sustantivo).
Como se puede observar en la Figura 3.9 el fichero nombrado términos cuenta, además
de la clase, con los 16 atributos de diferentes tipos (string, numéricos y nominales) de
acuerdo a la estructura definida para los archivos arff (sección 4.1.1). Este fichero será
utilizado para procesar, utilizando el visualizador de Weka, el conjunto de términos
anotados y definir tanto el conjunto de características más representativas como el
método de clasificación que ofrezca mejores resultados.
3.5.3.1 Evaluación de la etapa de Entrenamiento.El objetivo de este proceso de evaluación es tratar dos puntos importantes planteadas en
la hipótesis en la que se basa esta propuesta, primero realizar un proceso de selección
de características y segundo probar diferentes algoritmos de clasificación para comparar
los resultados.
Para ello se realizaron dos experimentos:
1. Proceso de clasificación utilizando todo el conjunto de características.
2. Proceso de clasificación utilizando las características seleccionadas.
En ambos experimentos para la evaluación de los clasificadores (Anexo 3) en todos los
casos se utilizó la variante de n-fold-cross validation con su valor por defecto en Weka= 10.En el primer experimento se realizó el proceso de clasificación utilizando todo el conjunto
de características, los resultados de los clasificadores probados se muestran en la Tabla
3.20.
Sistema de Extracción de Términos. Propuesta y Evaluación
[80]
Tabla 3.20 Resultados de los diferentes clasificadores utilizando todas las características
Clasificadores Precisión(%) Cobertura(%) Medida F(%)Bayesianos Naive Bayes 71.97 76.07 72.75
Meta Stacking 74.95 80.15 75.93
Reglas OneR 70.07 74.43 70.90
Árboles dedecisión
J48 73.16 77.54 73.99
Como se puede observar en la tabla anterior los resultados obtenidos por los diferentes
clasificadores no tienen mucha variación, es decir, su comportamiento es bastante
similar, no obstante los mejores resultados se obtuvieron al utilizar el meta clasificador
Stacking obteniendo unos valores de precisión de 74.95%, 80.15% de cobertura y
75.93% de medida F. Como se plantea en el Anexo 3, Stacking es un meta clasificador
que se basa en la combinación de modelos, construyendo un conjunto con los generados
por diferentes algoritmos de aprendizaje, en este caso se ha definido trabajar con los
clasificadores Naïves Bayes, OneR y J48 por estar entre los clasificadores más utilizados
y ser los que se han probado independientemente.
3.5.3.2 Proceso de selección de características
Realizar selección de atributos o características es una técnica muy usada desde los
años 1970 con el objetivo de eliminar datos redundantes, irrelevantes y ruidosos. Esta
técnica es utilizada en diferentes aplicaciones tales como el reconocimiento de patrones,
la minería de datos y el Aprendizaje Automático. (Vargas, 2012)
Es un hecho que el comportamiento de los clasificadores mejora cuando se eliminan los
atributos no relevantes y redundantes. En la selección de características se intenta
escoger el subconjunto mínimo de atributos de acuerdo con dos criterios: que la tasa de
aciertos no descienda significativamente; y que la distribución de clase resultante, sea lo
más semejante posible a la distribución de clase original, dados todos los atributos. En
general, la aplicación de la selección de características ayuda en todas las fases del
proceso de minería de datos para el descubrimiento de conocimiento. (Ruiz et al., 2015)
Por su parte (Vargas, 2002) plantea que de la calidad de los datos dependerá el éxito de
los algoritmos, pues muchas veces los datos presentan problemas debido a que
contienen información irrelevante y ruidosa lo que hace el proceso lento debido al exceso
de información poco significativa. Plantea además que el proceso de selección manual de
los datos requiere de un profundo conocimiento del problema y de los atributos.
Sistema de Extracción de Términos. Propuesta y Evaluación
[81]
Entre los beneficios de realizar proceso de selección de características reportados por
(Vargas, 2002) se plantean: mejora el desempeño predictivo, reduce el tiempo del
entrenamiento/proceso, reduce las necesidades de almacenamiento y mejora la
visualización y comprensión de los datos.
Figura 3.9 Pasos para la selección de atributos.
En la Figura 3.9 se presentan los cuatros pasos a seguir para la selección de atributos
según (Vargas, 2002).
El primer paso sería a partir del conjunto original la generación de los sub-conjuntos de
atributos. Cada estado en el espacio define un sub-conjunto candidato. Para esto la
búsqueda podría ser exhaustiva (impráctica), búsqueda greedy haciendo un cambio en
cada estado (agregando o eliminando un atributo) o siguiendo otros esquemas tales
como Best First, Beam Search entre otros.
En el segundo paso se realiza la evaluación de los subconjuntos. Cada candidato es
evaluado y comparado con el mejor de acuerdo a cierto criterio de evaluación (Filtros o
Envolturas (Wrappers)).
Los Filtros son independientes del algoritmo y tienen en cuenta las características
de los datos.
o Rankeo (ordenan la lista de atributos teniendo en cuenta su peso)
o Sub-conjuntos (muestra el mejor sub-conjunto de características teniendo
en cuenta medidas de consistencia y correlación entre ellas)
Los Wrappers son dependientes del algoritmo, se usa la evaluación del algoritmo
de aprendizaje y tienen un costo computacional alto.
El tercer paso es establecer un criterio de paro. Su objetivo es determinar cuando el
proceso debe parar. Se puede establecer siguiendo varios criterios como son: parar
cuando no haya mejora al agregar o eliminar un atributo, estableciendo un límite de
número de atributos y/o iteraciones, se selecciona un sub-conjunto bueno o cuando se
haya realizado la búsqueda completa.
Sistema de Extracción de Términos. Propuesta y Evaluación
[82]
El cuarto y último paso sería la validación de los resultados.
En la Tabla 3.21 se pueden observar los subconjuntos de atributos obtenidos por Weka
utilizando el método de evaluación CfsSubsetEval y diferentes métodos de búsqueda.
Cabe destacar que los subconjuntos obtenidos no son iguales pero tienen una gran
similitud, en concreto en la última fila de la tabla se incluyen los atributos seleccionados
por todos los métodos de búsqueda.
Tabla 3.21 Atributos seleccionados por los diferentes métodos de búsqueda.
Método de Búsqueda Nº de Atributos Atributos
Best first 11 Tf-idf, Fatc, Ptc, Faptc, Lptc, Nsp, Im Imc,
Lg, Cv, Dc
SubsetSizeForwardSelection 8 Tf-idf, Fatc, Ptc, Faptc, Nsp, Imc, Cv, Dc
GeneticSearch 12 Tf-idf, Fatc, Ptc, Faptc, Nsp, Im, Imc, Cv,
Lg, Dc, Pansw, Ppnsw
GreedyStepwise 11 Tf-idf, Fatc, Rfatc, Ptc, Faptc, Rfaptc,
Nsp, Im, Imc, Cv, Dc
LinearForwardSelection 14 Tf-idf, Fatc, Rfatc, Ptc, Lptc, Faptc,
Rfaptc, Nsp, Im, Imc, Cv, Dc, Vpdl, Vpdt
RankSearch 13 Tf-idf, Fatc, Rfatc, Ptc, Lptc, Faptc,
Rfaptc, Nsp, Im, Imc, Lg, Cv, Dc
ScatterSearchV1 12 Tf-idf, Fatc, Ptc, Lptc, Faptc, Nsp, Imc,
Lg, Cv, Dc, Pansw, Ppnsw
RandomSearch 11 Tf-idf, Fatc, Rfatc, Ptc, Faptc, Rfaptc,
Nsp, Im, Imc, Cv, Dc
Atributos presentes entodos los subconjuntos
8 Tf-idf, Fatc, Ptc, Faptc, Nsp, Imc, Cv,Dc
Para el proceso de selección de características el mejor resultado se logró al aplicar el
método de búsqueda SubsetSizeForwardSelection donde de las 16 características
propuestas, las 8 seleccionadas por este método fueron las que se repitieron en los
diferentes métodos para ese conjunto de datos.
En la Tabla 3.22 se muestran las características ordenados según su frecuencia de
aparición en los diferentes métodos aplicados.
Es interesante observar como dentro de las 8 características seleccionadas por los
diferentes métodos de búsquedas se encuentran tanto características lingüísticas (nsp,
ptc) como estadísticas (tf-idf, fatc, faptc, dc, imc) e híbridas (c-value).
Sistema de Extracción de Términos. Propuesta y Evaluación
[83]
Tabla 3.22 Atributos de mayor influencia ordenados según la frecuencia con que se seleccionaron.
Caracteríticas Frecuencia
Tf-idf, Fatc, Ptc, Faptc, Nsp, Imc,
Cv, Dc
8
Lg 7
Im 6
rfatc 4
Pansw, Ppnsw 2
Vpdl, Vpdt 1
Lptc 0
Una vez finalizado el proceso de selección de características se procedió al proceso de
extracción de términos.
A partir de estos resultados se realizó el mismo proceso de clasificación pero solamente
utilizando las características seleccionadas como más representativas (Tabla 3.21).
Seguidamente en la Tabla 3.23 se muestran los resultados para cada uno de los
clasificadores utilizados.
Tabla 3.23 Resultados de los diferentes clasificadores utilizando las características seleccionadas
Clasificadores Precisión(%) Cobertura(%) Medida F(%)Bayesianos Naive Bayes 82.56 86.44 83.30
Meta Stacking 87.56 90.36 88.14
Reglas OneR 82.01 80.46 81.69
Árboles dedecisión
J48 85.18 84.78 85.09
Al igual que en el experimento anterior (Tabla 3.20), los resultados obtenidos por los
diferentes clasificadores no tienen gran diferencia entre ellos y nuevamente resultó el
meta clasificador Stacking como el que proporcionó mejores resultados con unos valores
de cobertura de un 90.36%, una precisión de 87.56% y un 88.14% de medida F.
En la Tabla 3.24 se muestra una comparación entre los diferentes resultados obtenidos
utilizando todas las características y los resultados obtenidos utilizando el subconjunto de
características seleccionadas.
Sistema de Extracción de Términos. Propuesta y Evaluación
[84]
Tabla 3.24 Resultados obtenidos utilizando todo el conjunto de características y utilizando las
características seleccionadas
Experimento Precisión(%) Cobertura(%) Medida F(%)
Utilizando todas las
características
74.95 80.15 75.93
Caracteríticas seleccionadas 87.56 90.36 88.14
Resulta evidente que los resultados utilizando las características seleccionadas superan
los resultados obtenidos utilizando todo el conjunto de características por cada uno de los
clasificadores (Tabla 3.20 y 3.23), la mejora estuvo dada en un incremento en la precisión
por un 12.61%, en la cobertura un 10.21% y el valor de la medida F fue mejorado en un
12.21%, demostrando la efectividad del proceso de selección de características.
A partir del sub conjunto de características (Tf-idf, Fatc, Ptc, Faptc, Nsp, Imc, Cv, Dc) y
del meta clasificador seleccionado (Stacking) utilizando el corpus de entrenamiento se
generó el fichero modeloInf.out. Este fichero almacena el modelo de clasificación
obtenido para el conjunto de entrenamiento y luego podrá ser utilizado para ser
visualizado o para la predicción de la clase a partir de nuevos candidatos.
3.5.3.3 Evaluación de la etapa de Extracción deTérminosPara probar el funcionamiento de la propuesta se han utilizado 5 documentos del dominio
de la Informática que no formaron parte del corpus de entrenamiento. Estos documentos
primeramente fueron revisados por expertos para extraer los términos del dominio y
poder comparar con los resultados arrojados por el clasificador. En la Tabla 3.25 se
muestran algunas características de dichos documentos.
Tabla 3.25 Caracterización de los documentos de prueba utilizados
Documento NP NTD
1 1425 472 1754 603 1198 234 2312 655 1417 55
Donde:
NP: Número de palabras en el documento
NTD: número de términos de dominio
Sistema de Extracción de Términos. Propuesta y Evaluación
[85]
Para cada uno de los documentos se le realizó el análisis morfológico, se mapearon con
los PB obtenidos para el dominio de la Informática (sección 3.1) y a todas las estructuras
que coincidieron con los PB, denominadas términos candidatos, se le extrajeron las
características seleccionadas. A partir del conjunto de TC y sus características se
obtuvieron los correspondientes ficheros .arff (document1.arff, documen2.arff,...,
document5.arff), luego se validaron a través de la herramienta Weka utilizando la opción
Supplied test set, cargando el fichero modeloInf.out generado por el clasificador en la
etapa de Entrenamiento.
Los resultados obtenidos para cada uno de estos documentos son mostrados en la Tabla
3.26.
Tabla 3.26 Resultados obtenidos del procesamiento de los nuevos documentos
Doc. No. NTD VP FP P(%) C(%) MF(%)
1 47 45 7 86.53 93.75 87,88
2 60 56 6 90.32 94.91 92.11
3 23 20 4 83.33 90.90 84.74
4 65 60 5 92.30 93.75 92.58
5 55 53 9 85.48 89.83 86.31
Media 87.59 92.62 88.72
Donde:
NTD: número de términos de dominio
VP: Verdaderos Positivos (términos que han sido reconocidos como tal por el sistema)
FP: Falsos Positivos(no-términos que el sistema los ha reconocido como términos)
P, C y MF: Precisión, cobertura y medida F
Como se puede apreciar en la tabla anterior los resultados para cada uno de los
documentos no presentan gran variación entre ellos y los valores de la media de
precisión, cobertura y medida F son similares a los valores obtenidos en la etapa de
Entrenamiento (Tabla 3.23). En la Tabla 3.27 se muestran los mejores resultados en
ambas etapas (Entrenamiento y Extracción de Términos).
Tabla 3.27 Resultados obtenidos en las etapas de Entrenamiento y Extracción de Términos
Etapa Precisión(%) Cobertura(%) Medida F(%)Entrenamiento 87.56 90.36 88.14
Extracción de Términos 87.59 92.62 88.72
Sistema de Extracción de Términos. Propuesta y Evaluación
[86]
Finalmente se obtuvo el listado de términos para cada uno de los documentos
procesados.
Hasta este momento se han obtenido un primer listado de términos como resultado del
proceso de Aprendizaje Automático utilizando las características seleccionadas.
Finalmente se incluirán al listado de términos obtenidos en el proceso de Aprendizaje
Automático los términos que se han extraído a partir de las estructuras que utilizan los
PVD y se realizará una valoración de los resultados.
3.5.3.4 Incluyendo los PVDA partir de las estructuras definidas que utilizan los PVD para la extracción de términos,
se han mapeado cada uno de los documentos procesados. A continuación se muestran
los términos obtenidos para el documento #1, se han marcado en verde los PVD, en rojo
los términos identificados, y en azul la definición de los mismos.
un algoritmo es un conjunto ordenado y finito de operaciones que permite hallar lasolución de un problema
se define como árbol binario a una estructura de datos en la cual cada nodosiempre tiene un hijo izquierdo y un hijo derecho.
Raíz: se concibe al nodo que constituye la única entrada a la estructura del árbol.
Para este caso los términos árbol binario y raíz ya se encontraban incluidos en el listado
final de términos, no siendo así con el término algoritmo, por lo que se incluyó en el
listado final ofrecido.
Se realizó el mismo proceso para cada uno de los restantes documentos y se obtuvieron
los términos según los las estructuras definidas que utilizan los PDV, se incluyeron en el
listado final aquellos que no se habían extraídos anteriormente utilizando Aprendizaje
Automático.
En la Tabla 3.28 se muestra el número de términos que han sido incluidos en cada listado
final según el documento y los nuevos valores de cobertura, precisión y medida F
obtenidos.
Sistema de Extracción de Términos. Propuesta y Evaluación
[87]
Tabla 3.28 Resultados obtenido al incluir los términos obtenidos con los PVD al listado de términos
extraídos utilizando Aprendizaje Automático
Doc. No. NTD TCE-(ML)
TCE-(ML+PVD)
P(%) C(%) MF(%)
1 47 45 47 88.46 95.83 89.84
2 60 56 58 93.54 98.30 94.45
3 23 20 20 83.33 90.90 84.74
4 65 60 62 95.38 98.41 95.97
5 55 53 54 87.09 91.52 87.94
Media 89.56 94.99 90.58
Donde:
NTD: Número de términos de dominio.
TCE (ML): Términos correctamente extraídos utilizando Aprendizaje Automático.
TCE (ML+PVD): Términos correctamente extraídos utilizando Aprendizaje Automático
más PVD.
P,C,MF: Precisión, cobertura y medida F.
Es evidente que la inclusión de los términos obtenidos mediante las estructuras definidas
que utilizan los PVD han mejorado los resultados, solamente en uno de los cinco
documentos procesados no tuvieron influencia en los resultados debido a que los
términos obtenidos mediante los PVD ya se encontraban incluidos en el listado de
términos previamente obtenido con el Aprendizaje Automático.
Para observar realmente la diferencia entre ambos resultados en la Tabla 3.29 se
muestran los valores de cobertura, precisión y medida F obtenido en ambos casos.
Tabla 3.29 Comparación entre los resultados obtenidos por las diferentes aproximaciones para el
dominio de la Informática
Precisión(%) Cobertura(%) Medida F(%)
ML 87.59 92.62 88.72
ML+PVD 89.56 94.99 90.58
Con el objetivo de comprobar los resultados obtenidos en otros dominios a partir de los
corpus seleccionado para los dominios Ingeniería Agrícola, Medicina Veterinaria y
Agronomía, se realizo todo el procesamiento utilizando el mismo conjunto de
características y el meta clasificador Stacking. Luego se almacenaron cada uno de los
Sistema de Extracción de Términos. Propuesta y Evaluación
[88]
ficheros con los modelos de clasificación obtenidos para el conjunto de entrenamiento
utilizado en cada dominio (modeloIngAgr.out, modeloMedVet.out, modeloAgron.out)respectivamente.
Luego se seleccionaron 5 documentos para cada uno de estos dominios (Ingeniería
Agrícola, Medicina Veterinaria y Agronomía) a los cuales se les realizó el mismo proceso
que para el dominio de la Informática (sección 3.5.3.3). En la Tabla 3.30 se muestran los
resultados de la media obtenidos para cada uno de los dominios evaluados.
Tabla 3.30 Media obtenida para los diferentes documentos evaluados por cada dominio
Dominio Precisión(%) Cobertura(%) Medida F(%)IngenieríaAgrícola
87.44 93.17 88.52
MedicinaVeterinaria
90.18 94.76 91.06
Agronomía 86.43 92.44 87.56
Como se puede observar los resultados obtenidos por los diferentes dominios presentan
muy poca diferencia entre ellos, lo que permite plantear que la metodología puede ser
utilizada indistintamente para diferentes dominios.
Esta aproximación, de forma general, para los cuatro dominios evaluados ha obtenido
una media de 88.40% de precisión, 93.84% de cobertura y 89.43% de medida F.
3.6 Comparación entre las diferentes propuestaspresentadasEn la Tabla 3.31 se muestran, en resumen, los resultados obtenidos para cada una de las
propuestas presentadas en los diferentes dominios evaluados. A partir del análisis
realizado para cada una de las aproximaciones ha permitido crear una nueva hipótesis de
partida trayendo consigo una mejora paulatina de los resultados obtenidos por cada una
de las propuestas. Los resultados obtenidos para los diferentes dominios con cada
aproximación han demostrado que la propuesta es fácilmente adaptable a otros dominios.
Sistema de Extracción de Términos. Propuesta y Evaluación
[89]
Tabla 3.31 Resultados obtenidos por las diferentes propuestas presentadas.
Aproximación Núcleo Mejora ResultadosDominio P(%) C(%) MF(%)
PB PB
Baseline
Informática 38.23 97.43 43.51
Ingeniería
Agrícola
36.34 96.32 67.83
Medicina
Veterinaria
39.65 98.24 68.94
Agronomía 35.08 96.45 66.94
PVD PVD Se mejoró la
cobertura
Informática 98.35 18.23 52.34
Ingeniería
Agrícola
97.47 20.18 55.19
Medicina
Veterinaria
98.06 19.56 54.39
Agronomía 96.43 17.18 50.15
ML ML y PB Se logró un
equilibrio
Precisión-
Cobertura
Informática 55.61 33.72 49.21
Ingeniería
Agrícola
52.16 32.78 46.64
Medicina
Veterinaria
53.21 31.10 46.58
Agronomía 54.56 33.18 48.33
ML enriquecido ML y PB Se
mejoraron
los
resultados
Informática 66.56 75 68.09
Ingeniería
Agrícola
63.11 73.06 64.87
Medicina
Veterinaria
65.46 71.38 66.56
Agronomía 66.51 74.46 67.96
Híbrido ML, PB
y PVD
Se
mejoraron
los
resultados
Informática 89.56 94.99 90.58
Ingeniería
Agrícola
87.44 93.17 88.52
Medicina
Veterinaria
90.18 94.76 91.06
Agronomía 86.43 92.44 87.56
Sistema de Extracción de Términos. Propuesta y Evaluación
[90]
3.7 ConclusionesUna vez concluidas las evaluaciones realizadas en las diferentes aproximaciones se
puede concluir que:
Se ha podido corroborar lo planteado en el estado de la cuestión que los sistemas
híbridos son los que obtienen mejores resultados al utilizar las ventajas que
poseen tanto las aproximaciones lingüísticas, estadísticas como híbridas en una
sola propuesta.
La utilización de Aprendizaje Automático ha permitido probar diferentes algoritmos
de clasificación y finalmente obtener el que mejor se adapte a las características
del corpus utilizado.
El proceso de selección de características ha permitido mejorar los resultados
tratando de esta forma uno de los principales problemas actuales de la extracción
de terminología planteado por (Conrado el at. 2013), que es el problema de la alta
dimensionalidad de los datos.
El corpus utilizado influye en los resultados obtenidos.
El aplicar en conjunto características de diferentes niveles (lingüísticas,
estadísticas e híbridas) destacadas en el estado de la cuestión ha permitido
mejorar los resultados obtenidos.
Que no solo en forma de características se pueden obtener términos de dominios,
sino que, por ejemplo, utilizando estructuras que permitan identificar los términos
definidos en los documentos especializados mediante los PVD se pueden obtener
términos de dominio y mejorar los resultados devueltos por otras aproximación
como en este caso el Aprendizaje Automático.
Evaluación del proceso de extracción de palabras clave
[91]
4. Evaluación del proceso de
extracción de palabras clave
En este capítulo se realizará una evaluación al proceso de extracción de términos
analizando su aplicación en la obtención de palabras clave a partir de un conjunto de
documentos digitales almacenados en la Biblioteca General de la UNAH en los dominios
Informática, Ingeniería Agrícola, Medicina Veterinaria y Agronomía. Los documentos
digitales utilizados son publicaciones realizadas por diferentes profesores e
investigadores de las carreras Ingeniería Informática, Ingeniería Agrícola, Medicina
Veterinaria y Agronomía.
A continuación se realizará una caracterización de los documentos utilizados para esta
evaluación (sección 4.1), seguidamente se presenta una descripción del proceso de
evaluación realizado (sección 4.2) así como una valoración y análisis de los resultados
obtenidos (sección 4.3). Finalmente en la sección 4.4 se muestran las principales
conclusiones abordadas.
4.1 Caracterización de los documentos utilizadosCon el objetivo de comprobar en qué medida el sistema propuesto era capaz de extraer
las palabras clave de un documento dado se ha realizado este experimento, el cual a
partir de un conjunto de documentos de cada uno de los dominios seleccionados con sus
correspondientes conjuntos de palabras clave, valida si el sistema propuesto obtiene,
dentro del listado de términos que ofrece como salida para cada documento, esas
palabras clave. Para esta evaluación se ha seleccionado aleatoriamente un conjunto de
documentos para cada uno de estos dominios de la Biblioteca General de la UNAH.
En el caso del dominio de la Informática, los documentos seleccionados son
publicaciones científicas y trabajos de diplomas, donde las palabras clave utilizadas, son
las que los propios autores de estos materiales han definido para cada uno de ellos. De
igual forma, en el caso del dominio de la Ingeniería Agrícola, los documentos
seleccionados son todos publicaciones científicas, por lo que las palabras clave utilizadas
han sido las definidas por los propios autores de cada publicación.
Evaluación del proceso de extracción de palabras clave
[92]
En el caso del dominio de Medicina Veterinaria dos de los documentos seleccionados son
publicaciones científicas, donde las palabras clave utilizadas han sido las definidas por
los propios autores, los otros tres materiales seleccionados son dos libros de texto y un
folleto docente, en el caso de estos tres materiales las palabras clave utilizadas fueron las
obtenidas manualmente por el bibliotecario en el momento que dichos materiales
ingresaron en la biblioteca. En el caso de los documentos seleccionados del dominio de
Agronomía todos corresponden a publicaciones científicas por lo que las palabras clave
utilizadas fueron las definidas por sus respectivos autores.
En la Tablas 4.1, 4.2, 4.3 y 4.4 se presenta una descripción de los diferentes documentos
seleccionados para el experimento en los dominios Informática, Ingeniería Agrícola,
Medicina Veterinaria y Agronomía respectivamente.
Tabla 4.1 Documentos utilizados para la evaluación del dominio de la Informática.
No. Título Tipo dedocumento
Palabras clave
1 Objetos de Aprendizaje
(OA)
Artículo científico Objeto de aprendizaje,
metadatos, recurso digital,
contenidos educacionales,
aprendizaje electrónico,
granularidad, Web
Semántica.
2 Estrategias de
Aprendizaje (EA)
Artículo científico estrategias de
aprendizaje, enseñanza-
aprendizaje, metadatos,
paquetes de contenidos
3 Propuesta de una
metodología para
evaluar la calidad de
objetos de aprendizaje.
Artículo científico objetos de aprendizaje,
ontologías, calidad,
parámetros de evaluación.
4 Módulo gestión de
seguridad y salud en el
trabajo para el sistema
de información gerencial
del Censa
Trabajo de
Diploma
sistema de información,
seguridad, gestión de
procesos.
5 Sistema de extracción de
términos en el dominio
de la informática.
Trabajo de
Diploma
biblioteca digital,
extracción de información,
extracción de términos
Evaluación del proceso de extracción de palabras clave
[93]
Tabla 4.2 Documentos utilizados para la evaluación del dominio Ingeniería Agrícola
No. Título Tipo dedocumento
Palabras clave
6 Calidad de la labor de tres
aperos de labranza primaria
en suelos arcillosos
pesados con superficies
acanteradas y cobertura de
residuos vegetales
Artículo científico escarificador, estabilidad,
desterronamiento.
7 Influencia de la preparación
de caña de azúcar a moler
en la producción de azúcar
en el Complejo
Agroindustrial Azucarero
“Manuel Fajardo”
Artículo científico índice de preparación,
caña de azúcar, pérdidas
de azúcar.
8 Aplicación de las series
temporales para predecir
las propiedades de calidad
de la piña (Ananas
Comosus.), variedad
Cayena Lisa, durante el
proceso de maduración a
temperatura ambiente con
respecto al tiempo real
Artículo científico series temporales,
predicción, calidad de
frutos, propiedades
9 Películas y recubrimientos
comestibles: una alternativa
favorable en la
conservación pos-cosecha
de frutas y hortalizas
Artículo científico cubiertas comestibles,
preservación de frutas,
hortalizas
10 Análisis comparativo de la
cinética de deshidratación
Osmótica y por Flujo de
Aire Caliente de la Piña
Artículo científico procesos de
deshidratación, piña,
propiedades físico-
mecánicas
Evaluación del proceso de extracción de palabras clave
[94]
Tabla 4.3 Documentos utilizados para la evaluación del dominio Medicina Veterinaria
No. Título Tipo dedocumento
Palabras clave
11 La transformación de los
ecosistemas de pastos en
Cuba. Situación actual y
perspectivas.
Artículo científico pastos, forrajes,
suplementos proteicos,
materia seca,
gramíneas,
leguminosas
12 Encefalomiocarditis Viral
(EMCV) en la colección de
primates no humanos del
Parque Zoológico Nacional
de Cuba
Artículo científico encefalomiocarditis,
primates,
seroprevalencia, viral,
zoológico
13 Agentes Biológicos e
Inmunología Veterinaria
Libro diagnóstico, monitoreo,
microbiología,
bacterias, agentes
biológicos
14 Anatomía Patológica
Veterinaria
Libro parasitología, patología,
anatomía,
degeneración,
hiperemia, inflamación
15 Folleto de Anatomía
Topográfica. Regiones del
cuello
Folleto docente inervación cutánea,
yugular, parotídea,
irrigación, larigea,
escápula,
braquiocefálica.
Tabla 4.4 Documentos utilizados para la evaluación del dominio Agronomía
No. Título Tipo dedocumento
Palabras clave
16 Distribución de p-foliar asociado
a diferentes moléculas
orgánicas en plantas de maíz
(zea mays. Var: p-7928)
tratadas con sustancias
Artículo científico sustancias húmicas,
fósforo, familias
químicas
Evaluación del proceso de extracción de palabras clave
[95]
húmicas líquidas por vía
radicular y foliar.
17 Influencia de la siembra directa
y las aplicaciones foliares de
extracto líquido de
Vermicompost en el crecimiento
y rendimiento del frijol
Artículo científico frijol, vermicompost,
masa seca, superficie
foliar, altura, índices de
crecimiento.
18 Resultados obtenidos en la
producción de vegetales con
dos extractos húmicos líquidos
en el departamento de química
de la universidad agraria de la
habana. Impacto sobre
propiedades físicas y químicas
del suelo.
Artículo científico humus líquido,
vegetales, impacto
ambiental
19 Efecto del vermicompost sólido
y líquido, en la nutrición del
cultivo del frijol (phaseolus
vulgary. L), en la CPA, “La Cuba
Nueva” de Cabaiguán.
Artículo científico frijol, humus de lombriz,
nutrición del cultivo.
20 Ácidos húmicos de suelos
ferralíticos bajo diferentes usos
Modifican la actividad
enzimática en daucus carota.
Artículo científico suelos ferralíticos,
ácidos húmicos,
actividad biológica
21 Estimulación de la productividad
biológica, agrícola y control de
plagas en el cultivo de la col
(Brassica Oleracea L.) por
aplicación foliar de humus
líquido.
Artículo científico hortaliza, humus
líquido, plagas,
producción agrícola
A partir de los documentos seleccionados para cada uno de los dominios se realizará el
proceso de extracción de términos, donde para cada documento, la lista de términos
obtenida se comparará con el listado de palabras clave. A continuación se describe el
proceso realizado.
Evaluación del proceso de extracción de palabras clave
[96]
4.2 Descripción del proceso de evaluaciónPara el proceso de evaluación se utilizó la herramienta propuesta SE-Term (sección 3.5),
la cual a partir de cada uno de los documentos seleccionados obtuvo un conjunto de
términos. Una vez obtenido el listado de términos, para cada uno de los documentos, se
lleva a cabo un proceso automático de lematización de las palabras clave las cuales se
comparan con el listado de términos ofrecidos por la herramienta, sin tener en cuenta, en
este caso, ni el orden en que aparecen las palabras clave en la lista de términos ni el
lugar en que aparezcan en dicho listado, es decir, sólo se ha comprobado que las
palabras clave se encuentren dentro del listado de términos ofrecidos por SHET-ID.
En la Tabla 4.5 se muestran algunos ejemplos de los resultados obtenidos para los
diferentes dominios evaluados, donde se presenta el número del documento, el dominio
al que pertenece, las palabras clave definidas, así como un subconjunto de los términos
extraídos por la herramienta SE-Term para cada uno de estos documento.
Tabla 4.5 Resultados obtenidos en el proceso de extracción de palabras clave
Doc.No.
Dominio Palabras clave Sub-conjunto de términos extraídos
1 Informática objeto de
aprendizaje,
metadatos, recurso
digital, aprendizaje
electrónico,
granularidad, web
semántica.
metadato, web semántica, recurso de
aprendizaje, objeto de aprendizaje,
contenido digital, nivel de granularidad,
granularidad, tecnología educativa,
tecnología, recurso digital, multimedia,
aprendizaje electrónico, contenido
multimedia, software, sitio web, Java, código
abierto, atributo
6 Ingeniería
Agrícola
escarificador,
estabilidad,
desterronamiento.
labranza primaria, escarificador, suelo
arcilloso, superficie acanterada, acanterada,
estabilidad, residuo vegetal, escarificador
combinado, escarificador, desterronamiento,
cobertura de residuo, arado de disco,
terrón, producción de caña, caña, tierra
12 Medicina
Veterinaria
encefalomiocarditis,
primates,
seroprevalencia,
viral, zoológico
encefalomiocarditis, especie, animal,
primate, prueba biológica, enfermedad,
seroprevalencia, diagnóstico serológico, nivel
de anticuerpo, viral, virus, seroneutralización,
zoológico
Evaluación del proceso de extracción de palabras clave
[97]
20 Agronomía suelos ferralíticos,
ácidos húmicos,
actividad biológica
plantas de zanahoria, enzima, suelo, suelo
ferralítico, laboreo mínimo, laboreo intensivo,
ácido húmico, actividad biológica, actividad
entrópica, pigmento fotosintético,
carbohidrato, proteína, prolina foliar
4.3 Evaluación y análisis de los resultadosComo se puede apreciar en la Tabla 4.4 en los documentos mostrados como ejemplo en
el 100% de los casos las palabras clave obtenidas de cada uno de los documentos fueron
extraídas por la herramienta SE-Term, asimismo para cada uno de los documentos
evaluados en el experimento, se obtuvo un 100% de cobertura. Por este motivo se
considera que la herramienta propuesta puede ser aplicada a la tarea de extraer las
palabras clave de un documento, aunque para ello se necesitaría una pequeña
supervisión del bibliotecario para definir dentro del listado de términos ofrecidos cuáles
seleccionar como palabras clave, quedaría entonces pendiente buscar algún mecanismo
que permita establecer un orden de relevancia dentro del listado de términos obtenidos
para minimizar la intervención del bibliotecario en el proceso.
4.4 ConclusionesLas bases utilizadas para la propuesta presentada han permitido obtener, a partir de un
documento dado, un conjunto de términos que pueden ser utilizados en diferentes
aplicaciones del NLP, en este caso, con los resultados obtenidos en los experimentos
presentados en este capítulo se ha podido constatar que la herramienta es capaz de
detectar dentro del conjunto de términos que caracterizan a un documento dado el 100%
de las palabras clave del mismo, las cuales, en una biblioteca digital, se utilizan para los
procesos de indexación y recuperación de dichos documentos.
Conclusiones y trabajos futuros
[99]
5. Conclusiones y trabajos futuros
Finalmente se presentará un resumen de las conclusiones de este trabajo de
investigación (sección 5.1), así como las aportaciones más importantes de esta tesis
(sección 5.2). Para terminar, en la sección 5.3, se comentarán los principales trabajos
futuros.
5.1 ConclusionesLa principal conclusión que se puede obtener a partir de este trabajo es que resulta
factible utilizar las técnicas del Procesamiento del Lenguaje Natural, la Extracción de
Información y la Extracción de Términos para la obtención de los términos que
caracterizan un documento con el objetivo de establecer el vocabulario o terminología de
un determinado dominio. Esto se ha podido afirmar a partir de los resultados obtenidos
con el sistema de extracción de términos SE-Term, del cual se ha evaluado su impacto
en tarea de la obtención de palabras clave a partir de un conjunto de documentos
digitales en diferentes dominios o escenarios de trabajo.
Por ello, el trabajo que aquí se ha presentado parte de cuatro objetivos
fundamentalmente. En primer lugar investigar las diferentes técnicas que brindan el
Procesamiento del Lenguaje Natural, la Extracción de Información, así como los
diferentes enfoques existentes para la Extracción de Términos. En segundo lugar
elaborar un sistema de extracción de términos, SE-Term, que permita extraer, dado un
conjunto de documentos digitales de un dominio, los términos que lo caracterizan
obteniendo resultados satisfactorios. En tercer lugar, validar que el sistema propuesto
pueda ser aplicable a diferentes dominios y finalmente en cuarto lugar validar el proceso
de extracción de palabras clave a partir del sistema de extracción de términos obtenido.
En cuanto a investigar las diferentes técnicas que brindan el Procesamiento del Lenguaje
Natural, la Extracción de Información, así como los diferentes enfoques existentes para la
Extracción de Términos, se puede concluir que:
Existen fundamentalmente tres enfoques en los que se basan los sistemas de
extracción de términos, lingüístico, estadístico e híbrido, de los cuales se destaca
el enfoque híbrido como el que mejores resultados ofrece.
Las propuestas puramente estadísticas utilizan diferentes medidas estadísticas
para la extracción de términos, por lo general son independientes del idioma y no
[100]
requieren especificación de cualquier tipo de conocimiento, sin embrago tienen a
producir mucho ruido.
Dentro del estudio de los sistemas existentes, las características estadísticas más
utilizadas por los resultados que ofrecen se encuentran, la frecuencia de aparición
del término, la Información Mutua, el coeficiente Log likelihood entre otras.
Las propuestas puramente lingüísticas analizadas para la extracción de términos
se basan tanto en la categoría sintáctica de los n-gramas así como en patrones
morfosintácticos. Los principales problemas de los sistemas basados de este
enfoque son la dependencia del lenguaje así como el ruido y el silencio, aunque
los resultados ofrecidos generalmente son mejores que los resultados obtenidos
por los sistemas estadísticos.
Se han identificado que dentro de los patrones lingüísticos más utilizados se
encuentran los sustantivos y los términos formados por sustantivos (por ejemplo,
sustantivo + adjetivo, sustantivo + preposición + sustantivo).
Las propuestas híbridas combinan ambos enfoques, estadístico y lingüístico,
aprovechando las ventajas que ofrecen cada uno por separado; generalmente los
mejores resultados se obtienen cuando las medidas estadísticas son aplicadas a
la lista de candidatos previamente extraídos mediante el uso de propiedades
lingüísticas.
Dentro de las propuestas híbridas se ha identificado una proliferación del uso de
Aprendizaje Automático utilizando un conjunto de características estadísticas,
lingüísticas e híbridas, debido a los buenos resultados obtenidos.
Los principales problemas que presentan los sistemas de extracción de términos,
independientemente del enfoque utilizado son, el ruido, el silencio, la alta
dimensionalidad de los datos, la validación manual de expertos que todavía se
requiere y los resultados no satisfactorios a partir de los valores de precisión,
cobertura y medida F obtenidos.
Respecto a la investigación y desarrollo de la herramienta de extracción de términos SE-
Term, la cual siguiendo un enfoque híbrido extrae los términos que caracterizan un
documento a partir de la fusión de dos conjuntos de términos, un primer conjunto
obtenido utilizando Aprendizaje Automático a partir de un conjunto de características
lingüísticas, estadísticas e híbridas, y un segundo conjunto obtenido utilizando estructuras
para la identificación de definiciones de términos en documentos a partir de los PVD.
A partir de resultados obtenidos de este proceso de investigación y desarrollo del sistema
de extracción de términos se puede concluir que:
Conclusiones y trabajos futuros
[101]
Se han elaborado, evaluado y discutido cinco aproximaciones para afrontar la
tarea de la extracción de términos, las dos primeras siguiendo un enfoque
lingüístico, la tercera y cuarta utilizando Aprendizaje Automático y la última
siguiendo un enfoque híbrido utilizando Aprendizaje Automático así como un
conjunto de estructuras que utilizan los PVD para la identificación de definiciones
de términos en un documento, donde se ha evidenciado una mejora paulatina en
los resultados de cada una de ellas.
Se ha podido corroborar que los sistemas híbridos son los que obtienen mejores
resultados al utilizar las ventajas que poseen tanto las aproximaciones lingüísticas
como estadísticas en una sola propuesta.
Ha quedado demostrado, a partir de los resultados obtenidos, la efectividad de
realizar proceso de selección de características en las tareas de Aprendizaje
Automático así como su influencia en la reducción de la dimensionalidad de los
datos.
Se ha evidenciado que el contar con un correcto balanceo entre las clases
utilizadas en el proceso de entrenamiento pueden mejorar los resultados en la
predicción de las diferentes clases.
El corpus a utilizar influye en los resultados obtenidos.
Se ha obtenido SE-Term, un sistema de extracción de términos capaz de extraer
los términos que caracterizan un documento, alcanzando una media en los
resultados de 88.40% de Precisión, 93.84% de Cobertura y 89.43% de medida F.
En cuando a la validación para comprobar que el sistema propuesto pueda ser aplicable
a diferentes dominios se puede destacar:
El sistema ha sido probado en cuatro dominios, Informática, Ingeniería Agrícola,
Medicina Veterinaria y Agronomía donde los resultados obtenidos en cada uno de
estos dominios no presentan gran diferencia entre ellos, los mejores resultados de
precisión y medida F obtenidos fueron de un 90.18% y un 91.06%
respectivamente para el dominio de Medicina Veterinaria y el mejor valor de
cobertura fue de 94.99% en el dominio de la Informática.
Estos resultados permiten plantear que el sistema puede ser aplicable a cualquier
dominio.
Respecto a la validación del proceso de extracción de palabras clave a partir del sistema
de extracción de términos obtenido se puede concluir que:
[102]
La aplicación de SE-Term a un conjunto de documentos de la Biblioteca General
de la UNAH en los diferentes dominios evaluados, permitió validar que puede ser
utilizado en la tarea de extraer las palabras clave de un documento digital
solamente con una breve supervisión del bibliotecario, obteniendo para esta tarea
un 100% de cobertura, ya que fue capaz de extraer todas las palabras clave de
cada uno de los documentos evaluados.
5.2 Principales AportacionesLas principales aportaciones de esta investigación al conocimiento de la extracción de
términos y su aplicación en la extracción de palabras clave se pueden resumir en:
Una propuesta lingüística de extracción de términos basada en Patrones Básicos
alcanzando muy buenos valores de cobertura.
Una propuesta lingüística, la cual en la extracción de términos utiliza un conjunto
de estructuras para la identificación de definiciones de términos utilizando los
PVD, alcanzando muy buenos valores de precisión.
Se han desarrollado dos propuestas que utilizan Aprendizaje Automático a partir
de un conjunto de características lingüísticas y estadísticas logrando una
aproximación entre los resultados de cobertura y precisión.
Una propuesta híbrida, SE-Term, la cual utiliza Aprendizaje Automático a partir de
un conjunto de características lingüísticas, estadísticas e híbridas además de un
conjunto de estructuras para identificar definiciones de términos utilizando los
PVD. Esta propuesta a partir de el proceso de selección de características ha
hecho frente al problema de la alta dimensionalidad de los datos, los resultados
favorables obtenidos han permitido disminuir el ruido y silencio presente en las
propuestas anteriormente abordadas y los resultados de cobertura, precisión y
medida F obtenidos compiten con los resultados del estado de la cuestión
identificados.
Experimentación y prueba de un sistema de extracción de términos que puede ser
aplicado a cualquier dominio.
Una herramienta de anotación semiautomática de términos (TermExt) la cual
permite la anotación de términos y no-términos, ya sea realizando un análisis de
todo el texto o llevando a cabo un filtrado a partir de un conjunto de patrones
previamente introducidos.
Se ha llevado a cabo el proceso de obtención de palabras clave a partir de un
sistema de extracción de términos.
Conclusiones y trabajos futuros
[103]
5.3 Trabajos FuturosEn el caso de la herramienta de extracción de términos presentada se podrían incluir
nuevas características y valorar su impacto en los resultados obtenidos.
El corpus utilizado podría ser ampliado con el objetivo de comprobar los resultados
ofrecidos por la herramienta, debido a la dependencia directa que pueda existir entre los
resultados y el corpus utilizado.
Buscar alguna variante que permita ordenar los términos obtenidos por la herramienta
con el objetivo de poder definir, por ejemplo, que las primeras n palabras devueltas, sean
las palabras clave del documento procesado y de esta forma disminuir la validación del
experto en el proceso, el cual ha sido identificado como uno de los problemas actuales de
los sistemas de extracción de términos.
A partir de los términos obtenidos para cada uno de los dominios, extraer las relaciones
existentes entre ellos, y con este conjunto de términos y sus relaciones generar una red
de términos o una red semántica que podría ser la semilla de un conjunto de ontologías
de dominios que luego puedan ser utilizadas en diferentes aplicaciones del PLN.
Publicaciones relacionadas con este trabajo de tesis
[105]
6. Publicaciones relacionadas con
este trabajo de tesis
1. MARRERO, G. Y. & GONZÁLEZ, R. L. (2013) SET: SISTEMA DE EXTRACCIÓN
DE TÉRMINOS EN EL DOMINIO DE LA INFORMÁTICA. Congreso Internacional
COMPUMAT 2013. La Habana, Cuba. ISBN 978-959-286-022-3.
2. MARRERO, G. Y., GONZÁLEZ, R. L. & BÁRCENAS, M. Y. (2014) Método de
extracción de términos. VII Conferencia AgrIng. Universidad Agraria de La
Habana, Cuba. ISBN 978-959-16-2351-5
3. MARRERO, G. Y., MOREDA, P. P. & MUÑOZ, G. R. (2015) Pattern Construction
for Extracting Domain Terminology. Recent Advances in Natural Language
Processing. RANLP. Hissair, Bulgaria.
4. MARRERO, G. Y., MOREDA, P. P. & MUÑOZ, G. R. (2015) Construcción
automática de patrones independiente del dominio. Congreso Internacional
COMPUMAT 2015. ISBN 978-959-286-036-0
5. MARRERO, G. Y., MOREDA, P. P. & MUÑOZ, G. R. (2015) Methodology for the
automatic construction of patterns from specialized texts. XIII Congreso Nacional
de Reconocimiento de Patrones. RECPAT 2015. ISBN 978-959-207-540-5
6. MARRERO, G. Y., MOREDA, P. P. & MUÑOZ, G. R. (2015) SE-Term: A system
for domain terminology extraction. Aslib Journal of Information Management
(AJIM). Enviado.
7. MARRERO, G. Y., MOREDA, P. P. & MUÑOZ, G. R. (2015) Extraction of
keywords from a term extraction system. Expert Systems with Applications. An
International Journal. Enviado.
Anexos
[107]
7. Anexos
Anexo 1. TermExt: Herramienta de Anotaciónsemiautomática de términosPara el proceso de extracción de terminología utilizando Machine Learning es
indispensable contra con un corpus etiquetado en el dominio para el cual se desea
procesar. Muchas veces estos corpus no se encuentran disponibles por lo que se ha
hecho necesario construirlos. El objetivo de la herramienta TermEt, es precisamente
facilitar la anotación de términos dentro de un documento. La misma consta básicamente
de dos funcionalidades:
a) El sistema permite la entrada de un documento mostrando una ventana con el texto a
procesar donde permitirá marcar y anotar los términos pertenecientes al dominio en
cuestión con las etiquetas (Term) (/Term). Por ejemplo dado un fragmento de texto:
Una computadora es un equipo formado por una CPU y periféricos . El ratón y el teclado
son dos de los periféricos. Java es uno de los lenguaje de programación más utilizado en
los últimos años.
En la herramienta quedaría marcado de la siguiente manera:
Figura 7.1 Ejemplo de un fragmento de texto anotado
Anexos
[108]
Finalmente cuando se presiona el botón Guardar se genera un fichero con el texto
anotado.
b) Si ya se cuenta con un conjunto de patrones previos por ejemplo (sustantivo,
sustantivo + adjetivo, sustantivo + preposición + sustantivo etc.), la herramienta
permite la entrada de dicho conjunto de patrones y mostrará solamente los candidatos
que cumplan con los patrones previamente introducidos, permitiendo al experto
anotar dentro de este conjunto de candidatos , los términos y no-términos, según sea
el caso. Esto permitirá un ahorro de tiempo considerable al experto puesto que la
cantidad de texto a procesar disminuirá considerablemente.
Figura 7.2 Términos mapeados por patrones
En caso que algunos de los candidatos que se muestran por haber coincidido con los
patrones no sea posible determinar si es o no un término del dominio (por ejemplo,
ratón en la figura 7.2), este se puede marcar y al seleccionar ver contexto, se le
mostrará la oración en la cual se encuentra el candidato en el texto (Figura 7.3), esto
facilitará al experto, según el contexto, determinar si es o no un término del dominio.
Anexos
[109]
Figura 7.3 Contexto de término seleccionado
En ambos casos se realizará el análisis morfológico al texto en cuestión utilizando la
herramienta Freeling para obtener la categoría gramatical de cada una de las palabras,
como salida se ofrece un fichero XML con el texto procesado y los términos anotados con
sus correspondientes categorías gramaticales.
Anexos
[110]
Anexo 2. FreelingFreeLing4 es una librería de código abierto para el procesamiento multilingüe, que
proporciona una amplia gama de funcionalidades de análisis para varios idiomas. (Padró
& Stanilovsky, 2012)
El proyecto FreeLing se inició desde el centro TALP5 de la UPC para avanzar hacia la
disponibilidad general de recursos y herramientas básicas de Procesamiento del
Lenguaje Natural (PLN). Esta disponibilidad deberla posibilitar avances más rápidos en
proyectos de investigación y costes más reducidos en el desarrollo de aplicaciones
industriales de PLN.
El proyecto se estructura como una librería que puede ser llamada desde cualquier
aplicación de usuario que requiera servicios de análisis del lenguaje. El software se
distribuye como código abierto bajo una licencia GNU General Public License6 y bajo
licencia dual a empresas que deseen incluirlo en sus productos comerciales. (Padró &
Stanilovsky, 2012)
La versión actual soporta (a diferentes niveles de completitud) las siguientes lenguas:
asturiano (as), catalán (ca), inglés (en), francés (fr), gallego (gl), italiano (it), portugués
(pt), y ruso (ru), esloveno (sl), español (es) y el galés (cy). Las funcionalidades existentes
para cada idioma se resumen en la Tabla 4.1.
La arquitectura de la librería se basa en un enfoque de dos capas cliente-servidor: una
capa básica de servicios de análisis lingüístico (morfológico, morfosintáctico, sintáctico,
...) y una capa de aplicación que, actuando como cliente, realiza las peticiones deseadas
a los analizadores y usa su respuesta según la finalidad de la aplicación. (Padró &
Stanilovsky, 2012)
La arquitectura interna de la librería se estructura en dos tipos de objetos: los que
almacenan datos lingüísticos con los análisis obtenidos y los que realizan el
procesamiento en sí.
4 http://nlp.lsi.upc.edu/freeling5 http://www.talp.cat6 http://www.gnu.org/copyleft/gpl.html
Anexos
[111]
Tabla 7.1 Servicios disponibles en Freeling para el análisis de cada Idioma.
as ca cy en es fr gl it pt ru sl
Tokenization X X X X X X X X X X
Sentence splitting X X X X X X X X X X
Number detection X X X X X X X
Date detection X X X X X X
Morphologicaldictionary
X X X X X X X X X X
Affix rules X X X X X X X X X
Multiword detection X X X X X X X X X
Basic named entitydetection
X X X X X X X X X X
B-I-O named entitydetection
X X X X X
Named EntityClassification
X X X X
Quantity detection X X X X X X
PoS tagging X X X X X X X X X X
Phonetic encoding X X
WN sense annotation X X X X X X
UKB sensedisambiguation
X X X X X
Shallow parsing X X X X X X
Full/dependencyparsing
X X X X X
Coreference resolution X
Anexos
[112]
Anexo 3. WekaWeka es un acrónimo de Waikato Environment for Knowledge Analysis (Hall et al., 2009),
es un entorno para experimentación de análisis de datos que permite aplicar, analizar y
evaluar las técnicas más relevantes de análisis de datos, principalmente las provenientes
del aprendizaje automático, sobre cualquier conjunto de datos del usuario.
WEKA se distribuye como software de libre distribución desarrollado en Java. Está
constituido por una serie de paquetes de código abierto con diferentes técnicas de pre
procesado, clasificación, agrupamiento, asociación, y visualización, así como facilidades
para su aplicación y análisis de prestaciones cuando son aplicadas a los datos de entrada
seleccionados.
Las principales herramientas de Weka son:
Explorer: es la opción que permite llevar a cabo la ejecución de los algoritmos de análisis
implementados sobre los ficheros de entrada, una ejecución independiente por cada
prueba.
Experimenter: esta opción permite definir experimentos más complejos, con objeto de
ejecutar uno o varios algoritmos sobre uno o varios conjuntos de datos de entrada, y
comparar estadísticamente los resultados.
KnowledgeFlow: esta opción permite llevar a cabo las mismas operaciones del
"Explorer", con una configuración totalmente gráfica, inspirada en herramientas de tipo
"data-flow" para seleccionar componentes y conectarlos en un proyecto de minería de
datos, desde que se cargan los datos, se aplican algoritmos de tratamiento y análisis,
hasta el tipo de evaluación deseada.
Simple CLI: la interfaz "Command-Line Interfaz" es simplemente una ventana de
comandos java para ejecutar las clases de WEKA.
Anexos
[113]
Figura 7.4 Interfaz Principal de Weka
Los datos de entrada a la herramienta, sobre los que operarán las técnicas
implementadas, deben estar codificados en un formato específico, denominado Attribute-
Relation File Format (extensión "arff"). La herramienta permite cargar los datos en tres
soportes: archivo de texto, acceso a una base de datos y acceso a través de internet
sobre una dirección URL de un servidor web.
Archivo Arff
Como bien se comentaba en la sección anterior nativamente Weka trabaja con el formato
denominado arff. Este formato está compuesto por una estructura claramente
diferenciada en tres partes: @relation, @attribute y @data:
1. @relation <relation-name>
Todo fichero ARFF debe comenzar con esta declaración en su primera línea (no
se puede dejar líneas en blanco al principio). <relation-name> será una cadena de
caracteres y si contiene espacios se pondrán entre comillas.
2. @attribute <attribute-name> <datatype>
En esta sección se incluirá una línea por cada atributo (o columna) que se vaya a
incluir en el conjunto de datos, indicando su nombre y el tipo de dato.
Con <attribute-name> indicaremos el nombre del atributo, que debe comenzar por
una letra y si contiene espacios tendrá que estar entrecomillado.
Con <datatype> se indicará el tipo de dato para ese atributo (o columna) que
puede ser:
numeric (expresa números reales)
integer (expresa números enteros)
Anexos
[114]
string (expresa cadenas de texto)
date [<date-format>] (expresa fechas). En <date-format> se indicará el
formato de la fecha, que será del tipo "yyyy-MM-dd'T'HH:mm:ss".
<nominal-specification>. Estos son tipos de datos auto definidos y que
pueden tomar una serie de valores que se indican entre llaves.
3. @data
En esta sección se incluirán los datos propiamente dichos. Se separan cada
columna por comas y todas filas deberán tener el mismo número de columnas,
número que coincide con el de declaraciones @attribute que se hayan añadido en
la sección anterior. Si no se dispone de algún dato, se colocará un signo de
interrogación (?) en su lugar. El separador de decimales tiene que ser
obligatoriamente el punto y las cadenas de tipo string tienen que estar entre
comillas simples.
API de Weka
Todas las funcionalidades disponibles en las distintas interfaces gráficas (GUIs) de
WEKA pueden ser usadas desde código Java, junto con algunas otras no accesibles
directamente desde el GUI (normalmente funciones de bajo nivel).
Listado de Paquetes
weka.core: Paquete con las clases e interfaces que conforman la infraestructura
de WEKA. Son comunes a los distintos algoritmos implementados en WEKA.
o Define las estructuras de datos que contienen los datos a manejar por los
algoritmos de aprendizaje
Clase Instances: encapsula un dataset (conjunto de datos) junto
con los métodos para manejarlo (creación y copia, división en
subdatasets [entrenamiento y prueba], aleatorización, gestión de
pesos, ...)
Clase Attribute: encapsula los atributos que definen un dataset
(nombre de atributo, tipo [nominal, numérico, string], valores
posibles).
Clase Instance: encapsula cada uno de los ejemplos individuales
que forman un dataset, almacenando los valores de los respectivos
atributos.
Anexos
[115]
o Subpaquete weka.core.converters: clases auxiliares para leer y escribir
datasets desde distintas fuentes de datos (ficheros ARFF, bases de datos,
etc)
o Subpaquete weka.core.neighboursearch: implementaciones de algoritmos
y estructuras de datos para la búsqueda eficiente a instancias similares
("vecinas")
weka.classifiers: Paquete con las implementaciones de algoritmos de
clasificación (tanto a métodos de clasificación discreta como de predicción
numérica).
o Subpaquetes: weka.classifiers.bayes, weka.classifiers.rules,
weka.classifiers.lazy, weka.classifiers.trees,
weka.classifiers.functions, weka.classifiers.meta, etc
o Clase abstracta Classifier: métodos comunes a todos los clasificadores
weka.clusterers: Paquete con las implementaciones de algoritmos de clustering.
o Clase abstracta AbstractClusterer: métodos comunes a todos los
algoritmos
o Clase ClusterEvaluation: evaluador de clúster
weka.attributeSelection: Paquete con métodos de selección de atributos.
o El proceso de selección de atributos involucra 2 tipos de clases:
1. Evaluadores de atributos: heredan de la clase abstracta: ASEvaluation.
Son de 2 tipos
o miden la relevancia de atributos aislados
o miden la relevancia de combinaciones de 2 o más atributos
2. Métodos de búsqueda (selectores): algoritmos de búsqueda que
empleando los evaluadores usan diversas estrategias para comprobar la
bondad de distintas combinaciones de atributos (los más simples sólo
hacen un ranking). Heredan de la clase abstracta: ASSearch
o Clase AttributeSelection: Encapsula el proceso de selección de atributos
relevantes, combinando un evaluador y un selector.
weka.filters: Paquete con diversos filtros para procesar los datos. Normalmente
son usados para preprocesar los datos de entrenamiento/evaluación antes de
utilizar los algoritmos de aprendizaje de WEKA, aunque en algunos casos los
filtros tienen una utilidad por si mismos.
Anexos
[116]
o Pueden aplicarse para tratar instancias o atributos
Filtrado de instancias: procesan las instancias de un dataset
realizando transformaciones sobre ellas: selección de instancias,
borrado, generación de nuevas instancias, ...
Filtrado de atributos: procesan los atributos de un dataset
realizando transformaciones sobre ellos: selección de atributos
(delegan el trabajo en clases AttributeSelection), cambio de
formato de atributos (numérico a nominal, texto a nominal, etc),
normalización de valores, generación de nuevos atributos, etc
o En función de la información que manejan:
Filtros supervisados: usan información sobre la clase de las
instancias
Filtros no supervisados: no usan información sobre la clase de las
instancias
o Clase abstracta Filter: define las funcionalidades básicas de todos los
filtros, junto con métodos estáticos _útiles para crear y ejecutar filtros.
weka.associations: Paquete con las implementaciones de algoritmos de
aprendizaje de reglas de asociación
weka.gui: Paquete con la implementación de las interfaces gráficas de WEKA
weka.datagenerators, weka.estimators, weka.experiment: Paquete con clases
e interfaces para la generación de datasets "artificiales" y la realización de
experimentos y evaluaciones.
Clases básicas: datasets, atributos e instancias
Para crear y gestionar los conjuntos de entrenamiento o validación en memoria es
necesario utilizar las clases Instances, Attribute e Instance del paquete weka.core.
Clase Dataset
Representación en memoria de una colección de ejemplos (dataset).
o Descrito por un conjunto de atributos (Attribute).
o Contiene un conjuntos de instancias/ejemplos (Instance) que almacenan
conteniendo los valores de sus atributos.
o Opcionalmente uno de los atributos podrá estar marcado como atributo clase.
en clasificación el atributo clase debe de ser de tipo Nominal
en predicción numérica el atributo clase debe de ser de tipo Numérico
Anexos
[117]
Constructores y métodos de interés:
o Instances (String nombre, ArrayList<Attribute>atributos, int capacidad): Crea
un dataset con el nombre y la capacidad indicada, asignándole la lista de atributos
que recibe en el ArrayListo Instances (java.io.Reader reader): Crea un dataset y lo carga desde el fichero
ARFF al que apunta el Reader.o Manejar atributos
Buscar por posición: Attribute attribute(int index)
Buscar por nombre: Attribute attribute(String name)
Establecer atributo clase: void setClass(Attribute att), voidsetClassIndex(int classIndex)
o Manejar instancias
Añadir una instancia: void add(Instance instance)
Recupear instancias: Instance instance(int index), InstancefirstInstance(), Instance lastInstance(), EnumerationenumerateInstances(), ...
o Estadísticas: kthSmallestValue(Attribute att, int k), meanOrMode(Attributeatt), numDistin-ctValues(Attribute att), ...
o Manejar el dataset: delete(), delete(int index), randomize(java.util.Randomrandom), stratify(intnumFolds), Instances resample(), Instances testCV(intnumFolds, int numFold), InstancetrainCV(int numFolds, int numFold), ...
Clase Attribute
El API de WEKA contempla cinco tipos de atributos.
numérico: representa un valor de tipo real
o Constructor: Attribute(String nombre)
nominal: representa un valor tomando de un conjunto discreto de valores posibles
o Constructor: Attribute(String nombre, List<String>valores)
o Recibe un List de String con las etiquetas de los valores posibles
string: representa una cadena de caracteres
o Constructor: Attribute(String nombre, (List<String>) null)
fecha: representa una fecha
relacional: representa un valor que a su vez estará estructurado en distintos
atributos
Anexos
[118]
Métodos:
int index(): índice del atributo dentro de un dataset (Instances)
String name(): etiqueta del atributo
int numValues(): número de valores posibles de un atributo Nominal
String value(int valIndex): devuelve la etiqueta indicada de un atributo Nominal
void setWeight(double value), double weight(): establece y recupera el peso
del atributo
Clase Instance
Almacena los valores de un ejemplo (instancia).
Internamente los valores de los atributos de cada instancia se representan como un
vector de números reales (double[]), independientemente del tipo de los atributos.
Normalmente estará asociado a un dataset (Instances) que determina el formato y el tipo
de los atributos cuyos valores almacena la instancia.
Constructor y métodos:
Instance(int numAttributes): construye una instancia con el número de atributos
indicados
setDataset(Instances instances): indica el dataset (Instance) del cual esta
instancia almacena valores, describe el formato de la instancia (número y tipo de
atributos)
Attribute attribute(int index): devuelve el atributo indicado
Attribute classAttribute(): devuelve el atributo clase (si está definido)
double classValue(): devuelve el valor almacenado en el atributo clase (es el
índice de la etiqueta de la clase)
setClassValue(String value): establece el valor del atributo clase
double value(Attribute att), double value(int index): devuelve el valor de un
atributo numérico (o el índice del valor en los nominales)
String stringValue(Attribute att), String stringValue(int index): devuelve el
valor de un atributo nominal o string
setValue(Attribute att, double value), setValue(int attIndex, double value):establece el valor de un atributo Numérico
setValue(Attribute att, String value), setValue(int attIndex, String value):establece el valor de un atributo Nominal o String
Anexos
[119]
Existe una subclase SparseInstance orientada a almacenar vectores de atributos con
muchos valores nulos de forma compacta. En las instancias SparseInstance solo se
almacenan los atributos (numéricos o nominales) distintos de cero.
Algoritmos de clasificación
Todos los algoritmos de clasificación heredan de weka.classifiers.Classifier y deben de
implementar los siguientes métodos básicos:
void buildClassifier(Instances data): entrena el clasificador con el conjunto de
entrenamiento (Instances) indicado
double classifyInstance(Instance instance): clasifica la instancia que recibe
como parámetro. [Exige haber invocado antes a buildClassifier()]
o La estructura de la instancia (número y tipo de atributos) debe coincidir con
la del objeto Instances usado en el entrenamiento
o El valor devuelto (de tipo double) indica la clase predicha. Se corresponde
con el índice de su etiqueta en el objeto List asociado al atributo clase.
double[ ] distributionForInstance(Instance instance): clasifica la instancia y
devuelve un vector double[] con un componente para cada valor del atributo clase
que cuantifica su probabilidad o importancia relativa (dependiendo del método de
clasificación). [Exige haber invocado antes a buildClassifier()]
La clase abstracta Classifier también ofrece el método Classifier forName(Stringclassi_erName, String[ ] options) que crea un clasificador de la clase indicada con los
parámetros que se le pasan como array de String (el javadoc de cada método de
clasificación especifica el formato de las opciones que esperan)
Selección de atributos
El proceso de selección de atributos se divide en dos tareas:
Evaluar la bondad de cada atributo o combinación de atributos. Se delega en un
objeto que herede de la clase weka.attributeSelection.ASEvaluationo Evaluación atributos simples: ChiSquaredAttributeEval,
GainRatioAttributeEval, InfoGainAttributeEval,CostSensitiveAttributeEval, ...
Anexos
[120]
o Evaluación grupos de atributos: Classi_erSubsetEval,ConsistencySubsetEval, CostSensitiveSubsetEval, ...
Búsqueda y selección de la lista de mejores atributos. Se delega en un objeto que
herede de la clase weka.attributeSelection.ASSearcho Búsqueda de atributos simples: Ranker, ...o Búsqueda de grupos de atributos: BestFirst, GreedyStepwise,
ExhaustiveSearch, GeneticSearch, ...
El método de búsqueda/selección determina los evaluadores que son admitidos (ver
javadoc o comprobar compatibilidad desde el interfaz gráfico de WEKA)
Métodos:
void setEvaluator(ASEvaluation evaluator): establece el evaluador de atributos
(o conjuntos de atributos)
void setSearch(ASSearch search): establece el método de búsqueda/selección
void SelectAttributes(Instances data): aplica la selección de atributos con el
dataset indicado
o Para realizar la selección de atributos mediante Validación Cruzada (cross
validation) es necesario especificar un valor de true a setXval(boolean x)e indicar el número de pasadas con setFolds(int folds)
Instance reduceDimensionality(Instance in): reduce la dimensión de una
instancia, incluyendo únicamente los atributos seleccionados en la última
ejecución de SelectAtributes
Instances reduceDimensionality(Instances in): reduce la dimensión de un
conjunto de instancias (dataset), incluyendo únicamente los atributos
seleccionados en la última ejecución de SelectAtributes
int numberAttributesSelected(): devuelve el número de atributos seleccionados
en la última ejecución de SelectAtributes
int[ ] selectedAttributes(): devuelve (en orden) el índice de los atributos
seleccionados en la última ejecución de SelectAtributes
double[ ][ ] rankedAttributes(): devuelve (en orden) el índice de los atributos
seleccionados en la última ejecución de SelectAtributes, junto con su relevancia
en un array double[ ][ ]
Anexos
[121]
Algoritmos en Weka para la selección de atributos
En la Figura 7.5 se observa los diferentes evaluadores con que dispone Weka para el
proceso de selección de atributos.
Figura 7.5 Evaluadores para selección de atributos en Weka
En (Martín et al., 2007) se destacan 4 algoritmos evaluadores de subconjuntos de
atributos disponibles en el WEKA, los dos primeros clasificados como Filtros y los
restantes como Wrappers.
1. CfsSubsetEval: Evalúa un subconjunto de atributos considerando la habilidad
predictiva individual de cada variable, así como el grado de redundancia entre
ellas. Se prefieren los subconjuntos de atributos que estén altamente
correlacionados con la clase y tengan baja intercorrelación (Hall, 1998)
2. ConsistencySubsetEval: Evalúa un subconjunto de atributos por el nivel de
consistencia en los valores de la clase al proyectar las instancias de
entrenamiento sobre el subconjunto de atributos.(Liu & Setiono, 1996)
Anexos
[122]
3. ClassifierSubsetEval: Evalúa los subconjuntos de atributos en los datos de
entrenamiento o en un conjunto de prueba independiente, utilizando un
clasificador.
4. WrapperSubsetEval: Evalúa los subconjuntos de atributos utilizando un
clasificador (también el J48). Emplea validación cruzada para estimar la exactitud
del esquema de aprendizaje en cada conjunto.(Kohavi & John, 1997)
A su vez dentro de los algoritmos evaluadores de atributos individuales muestran:
1. ChiSquaredAttributeEval: calcula el valor estadístico Chi-cuadrado de cada
atributo con respecto a la clase y así obtiene el nivel de correlación entre la clase
y cada atributo.
2. GainRatioAttributeEval: evalúa cada atributo midiendo su razón de beneficio con
respecto a la clase.
3. InfoGainAttributeEval: evalúa los atributos midiendo la ganancia de información
de cada uno con respecto a la clase. Anteriormente discretiza los atributos
numéricos.(Lorenzo, 2002)
4. OneRAttributeEval: evalúa la calidad de cada atributo utilizando el clasificador
OneR, el cual usa el atributo de mínimo error para predecir, discretizando los
atributos numéricos.
Una vez seleccionado el evaluador, Weka también tiene disponibles una serie de
métodos de búsquedas como se muestra en la Figura 7.6 mediante el cual se pueden ir
probando y comparando los resultados obtenidos.
El método de búsqueda va a depender del evaluador seleccionado previamente.
Si es un evaluador individual (Ranking) el único método de búsqueda que podrá
utilizar será el Ranker.
Si es un Evaluador de Subconjuntos:
o Greedy (GreedyStepwise): Coge el mejor de todos, luego la mejor pareja que
lo incluye, luego el mejor trío que incluye a los anteriores. Así hasta que no
hay mejora.
o Primero el mejor (BestFirst): Lo mismo que Greedy pero aplicando
backtracking con un número máximo de regresos (5 por defecto)
o Exhaustiva (ExhaustiveSearch): Todos los posibles subconjuntos
o Aleatoria (RandomSearch)
o Algoritmo Genético (GeneticSearch), entre otros.
Anexos
[123]
Figura 7.6 Evaluadores en Weka
Clasificación
Para la clasificación, se construirá un modelo que permita predecir la categoría de las
instancias en función de una serie de atributos de entrada. La clase se convertirá en la
variable objetivo a predecir.
Modos de Evaluación del Clasificador
El resultado de aplicar el algoritmo de clasificación se efectúa comparando la clase
predicha con la clase real de las instancias. Existen diversos modos de realizar la
evaluación:
Anexos
[124]
• Use training set: evaluación del clasificador sobre el mismo conjunto sobre el que se
construye el modelo predictivo para determinar el error, que en este caso se denomina
"error de resustitución".
• Supplied test set: esta opción evalúa sobre un conjunto independiente. Permite cargar
un conjunto nuevo de datos. Sobre cada dato se puede realizar una predicción de clase
para contar los errores.
• Cross-Validation: evaluación con validación cruzada. Se dividirán las instancias en
tantas
carpetas como indica el parámetro "Folds", y en cada evaluación se toman las instancias
de cada carpeta como datos de test, y el resto como datos de entrenamiento para
construir el modelo. Los errores calculados serán el promedio de todas las ejecuciones.
• Percentage split: se dividen los datos en dos grupos, de acuerdo con el porcentaje
indicado (%). El valor indicado es el porcentaje de instancias para construir el modelo,
que seguidamente es evaluado sobre las que se han dejado aparte.
Selección de clasificadores
El problema de clasificación siempre se realiza sobre un atributo simbólico. Existen ocho
familias de clasificadores, pero los más utilizados son cuatro: los bayesianos, los meta
clasificadores, las reglas y los árboles de decisión. A continuación se explicará cada uno
de estos clasificadores y se pondrán ejemplos para facilitar su comprensión.
Bayesianos: La gran diferencia con otros métodos, es que cuantitativamente da una
medida probabilística de la importancia de esas variables en el problema. Debe tenerse
en cuenta que entre los atributos del conjunto de entrenamiento no pueden existir
correlaciones, puesto que invalidaría el resultado.
o Naïve Bayes: Parte de la hipótesis de que todos los atributos son
independientes entre sí, conocido el valor de la variable clase. El algoritmo
representa una distribución de una mezcla de componentes, donde cada
componente dentro de todas las variables se asumen independientes. Esta
hipótesis de independencia da lugar a un modelo de un único nodo raíz,
correspondiente a la clase, y en el que todos los atributos son nodos hoja que
tienen como único origen a la variable clase.
Metaclasificadores: En esta familia, WEKA incluye todos aquellos clasificadores
complejos, es decir, aquellos que se obtienen mediante composición de clasificadores
simples o que incluyen algún preprocesamiento de los datos.
Anexos
[125]
o Stacking: Se basa en la combinación de modelos, construyendo un conjunto
con los generados por diferentes algoritmos de aprendizaje. Como cada uno de
los modelos se aprende con un mecanismo de aprendizaje diferente, se logra que
los modelos del conjunto sean distintos.
Reglas: Existen diversos métodos para generar reglas de clasificación en los conjuntos
de entrenamiento.
o OneR: Este es uno de los clasificadores más sencillos y rápidos, aunque en
ocasiones sus resultados son sorprendentemente buenos en comparación con
algoritmos mucho más complejos. Genera una regla por cada atributo y escoge la
del menor error. Si hay atributos numéricos, busca los umbrales para hacer reglas
con mejor tasa de aciertos.
Árboles de decisión: Los árboles son una manera práctica para visualizar la
clasificación de un conjunto de datos.
o Algoritmo J48: Es una implementación del algoritmo C4.5, uno de los
algoritmos de minería de datos que más se ha utilizado en multitud de
aplicaciones. Uno de los parámetros más importantes de este algoritmo es el
factor de confianza para la poda (confidence level). Una explicación simplificada
es la siguiente: para cada operación de poda, define la probabilidad de error que
se permite a la hipótesis de que el empeoramiento debido a esta operación es
significativo. Cuanto más baja se haga esa probabilidad, se exigirá que la
diferencia en los errores de predicción antes y después de podar sea más
significativa para no podar. El valor por defecto de este factor es del 25%, y
conforme va bajando se permiten más operaciones de poda y por tanto llegar a
árboles cada vez más pequeños.
Referencias Bibliográficas
[127]
8. Referencias Bibliográficas
ABACHA, A. B. & ZWEIGENBAUM, P. (2011) Automatic extraction of semantic relations
between medical entities: a rule based approach. Journal of Biomedical Semantics, 2.
AHMAD, K., DAVIES, A., FULFORD, H. & ROGERS, M. (1992) What is a term? The
semiautomatic extraction of terms from text. IN AL., M. S.-H. E. (Ed.) Translation Studies-
an interdiscipline. Amsterdam/Philadelphia, John Benjamin Publishing Company.
AHMAD, K., GILLAM, L. & TOSTEVIN, L. (1999) University of Surrey participation in
TREC8: weirdness indexing for logical document extrapolation and retrieval (WILDER).
TREC, Gaithersburg, US.
ALARCÓN, R. (2009) Extracción automática de contextos definitorios en corpus
especializados. Barcelona, Universidad Pompeu Fabra.
ALARCÓN, R., BACH, C. & SIERRA, G. (2007) Extracción de contextos definitorios en
corpus especializados: hacia La elaboración de una herramienta de ayuda terminográfica.
Revista Española de Lingüística (RSEL) 37, 247-277.
ARONSON, A. & LANG, F. (2010) An overview of MetaMap: historical perspective and
recent advances. JAMIA 2010 17:229-236.
BARRÓN-CEDEÑO, A., SIERRA, G., DROUIN, P. & ANANIADOU, S. (2009) An
improved automatic term recognition method for spanish. Proceedings of the 10th
International Conference on Computational Linguistics and Intelligent Text Processing
(CICLing). Springer-Verlag, Berlin, Heidelberg.
BASILI, R., ROSSI, G. & PAZIENZA, M. T. (1997) Inducing Terminology for Lexical
Acquisition. Conference on Empirical Methods in Natural Language Processing.
BOUCKAERT, R. (2005) Bayesian Network Classifiers in Weka. IN TECHNICAL
REPORT, D. O. C. S. (Ed.) Hamilton, NZ. , Waikato University.
BOURIGAULT, D., GONZALEZ-MULLIER, I. & GROS, C. (1995) Lexter a natural
language processing tool for terminology extraction. Electricité de France, Direction des
Etudes et Recherches-Service Informatique et Mathématique Appliquées. Technical
report, Clamart Cedex.
Referencias Bibliográficas
[128]
BRANTS, T. & FRANZ, A. (2006) Web 1T 5-gram Version 1 LDC2006T13.
CABRÉ, M. & VIVALDI, R. (2001) Automatic term detection: a review of current systems. .
IN BOURIGAULT D, J. C., L’HOMME MC (Ed.) Recent Advances in Computational
Terminology., John Benjamins, Amsterdam, Philadelphia.
CABRÉ, M. T. (2002) Textos especializados y unidades de conocimiento: metodología y
tipologización. IN GARCÍA PALACIOS, J. F., M. TERESA (Ed.) Texto, terminología y
traducción. Salamanca.
CAJAL, S. & RODRÍGUEZ, H. (2014) Boosting Terminology Extraction through
Crosslingual Resources. Procesamiento del Lenguaje Natural, 53, 129-136.
CHOWDHURY, G. (2003) Natural language processing. Annual Review of Information
Science and Technology. Vol. 37, 51-89. ISSN 0066-4200.
CHRIST, O. (1994) A Modular and Flexible Architecture for an Integrated Corpus Query
System. IN F. KIEFER, G. K., AND J. PAJZS. (Ed.) Paper in Computational Lexicography,
Complex 94. Budapest.
CHURCH, K. & HANKS, P. (1989) Word association norms, mutual information, and
lexicography. Proceedings of the 27th annual meeting on Association for Computational
Linguistics (ACL). Association for Computational Linguistics. Stroudsburg, PA, USA.
CONRADO, M. S., DI FELIPPO, A., SALGUEIRO, P. T. A. & OLIVEIRA, R. S. (2014) A
survey of automatic term extraction for Brazilian Portuguese. Journal of the Brazilian
Computer Society.
CONRADO, M. S., ROSSI, R., G , PARDO, T. & REZENDE, S. O. (2012) A survey of
automatic term extraction for Brazilian Portuguese. . Journal of the Brazilian Computer
Society.
CONRADO, M. S., ROSSI, R., G, PARDO, T. & REZENDE, S. O. (2013) Applying
transductive learning for automatic term extraction: the case of the ecology domain.
Second International Conference on Informatics and Applications (ICIA).
CRIST, O. (1994) A modular and flexible architecture for an integrated corpus query
system. IN F.KIEFER, G. K., AND J. PAJZS (Ed.) Papers in Comutational Lexicography,
COMPLEX 94. Budapest.
Referencias Bibliográficas
[129]
DARMONI, S. J., PEREIRA, S., SAKJI, S., MERABTI, T., PRIEUR, E., JOUBERT, M. &
THIRION, B. (2009) Multiple Terminologies in a Health Portal: Automatic Indexing and
Information Retrieval. . 12th Conference on Artificial Intelligence in Medicine, LNCS 5651.
Verona, Italy.
DE CLERCQ, O., VAN DE KAUTER, M., LEFEVER, E. & HOSTE, V. (2015) LT3:
Applying Hybrid Terminology Extraction to Aspect-Based Sentiment Analysis.
Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015)
Denver, Colorado, USA.
DHILLON, I., KOGAN, J. & NICHOLAS, C. (2003) Feature selection and document
clustering. IN SPRINGER (Ed.), Survey of Text Mining, M. W. Berry.
DICE, L. (1945) Measures of the amount of ecologic association between species.
Ecology 26 (3): 297–302.
DUBUC, R. & LAURISTON, A. (1997) Terms and Contexts. IN WRIGHT, S. E. A. B., G.
(Ed.) Handbook of Terminology Management. Amsterdam/Philadelphia, John Benjamins
Publishing Company.
DUNNING, T. (1993) In Accurate Methods for the Statistic of Surprise and Coincidence.
Association for Computational Linguistics, 19, 61-76.
ENGUEHARD, C. (1992) ANA, Apprentissage Naturel Automatique d'un réseau
sémantique. l'Université de Technologie de Compiègne.
ENGUEHARD, C. & PANTERA, L. (1994) Automatic Natural Acquisition of a Terminology.
Journal of Quantitative Linguistics 2 (1), 27-32.
ESTOPÀ, R. (1999) Eficiencia en la extracción automática de terminología. Perspectives:
Studies in Traductology, 7 (2): 277-286.
FOO, J. & MERKEL, M. (2010) Using machine learning to perform automatic term
recognition. IN N. BEL, B. D., AND A. VASILJEVS (Ed.) Proc of the 7th LREC - Wksp on
Methods for automatic acquisition of Language Resources and their Evaluation Methods.
FRANTZI, K., ANANIADOU, S. & MIMA, A. H. (2000) Automatic recognition of multi-word
terms: the C-value/NC-value method. International Journal on Digital Libraries, 3 (2), 115–
130.
Referencias Bibliográficas
[130]
FRANTZI, K., ANANIADOU, S. & TSUJII, J. (1998) The C-value/NC-value method of
automatic recognition for multi-word terms. Proceedings of the Second European
Conference on Research and Advanced Technology for Digital Libraries (ECDL).
Springer-Verlag, London, UK.
FRANTZI, K. & ANANLADOU, S. (1997) Automatic Term Recognition using Contextual
Cues. Third DELOS Workshop. Cross-Language Information Retrieval. Zurich, Suisse.
FRANTZI, K. T., ANANIADOU, S. & TSUJII, J. (2009) The C-value/NC-value Method of
automatic Recognition for Multi-word Terms. Lecture Notes in Computer Science
1513:585-604.
GAIZAUSKAS , R., DEMETRIOU, G. & HUMPHREYS, K. (2000) Term Recognition and
Classification in Biological Science Journal Articles Computional Terminology for Medical
and Biological Applications Workshop of the 2nd International Conference on NLP.
GAIZAUSKAS, R. & WILKS, Y. (1998) Information Extraction: Beyond Document
Retrieval. Journal of Documentation, 1.
GÉRARDY, C. (1996) Multilingual lexicon combining information extracted from corpora
an dictionaries. Technical Report Decide. Université de Liége.
GOLIK, W., BOSSY, R., RATKOVIC, Z. & NÉDELLEC, C. (2013) Improving term
extraction with linguistic analysis in the biomedical domain. Research in Computing
Science 70, 129–143.
HALL, M. (1998) Correlation-based Feature Selection for Machine Learning. Department
of Computer Science. Hamilton, New Zealand, University of Waikato.
HALL, M., FRANK, E., HOLMES, G., PFAHRINGER, B., REUTEMANN, P. & WITTEN, I.
H. (2009) The WEKA Data Mining Software: An Update. SIGKDD Explorations: 11 (1).
HARRIS, Z. (1954) Distributional structure. 10: 146-162.
HAVELIWALA, T. H. (2002) Topic-sensitive PageRank. Proceedings of the 11th
international conference on World Wide Web (WWW '02).
HEID, U., JAUSS, S., KRÜGER, K. & HOHMANN, A. (1996) Term extraction with
standard tools for corpus exploration - Experience from German. Proc TKE ‘96.
Terminology and Knowledge Engineering. Frankfurt.
Referencias Bibliográficas
[131]
JIANG, B., XUN, E. & QI, J. (2015) A Domain Independent Approach for Extracting Terms
from Research Papers.
JONES, L. P., GASSIE, J. E. W. & RADHAKRISHNAN, S. (1990) Index: The statistical
basis for an automatic conceptual phrase-indexing system. Journal of the American
Society for Information Science, 41 (2), 87-97.
KAGEURA, K. & UMINO, B. (1996) Methods of automatic term recognition – are view.
Terminology 3(2): 1–23.
KIM, S., BALDWIN, T. & KAN, M. (2009) Extracting domain-specific words – a statistical
approach. Proceedings of the Australasian Language Technology Association Workshop.
Sydney, Australia.
KIT, C. & LIU, X. (2008) Measuring mono-word termhood by rank difference via corpus
comparison. Terminology 14(2): 204–229.
KOHAVI, R. & JOHN, G. (1997) Wrappers for feature subset selection. Artificial
Intelligence.
KRENN, B. (2000) Empirical implications on lexical association measures. Proceedings of
the 9th EURALEX International Congress.
L’HOMME, M.-C. (2001) Nouvelles technologies et recherche terminologique, Techniques
d'extraction des données terminologiques et leur impact sur le travail du terminographe.
L'impact des nouvelles technologies sur la gestion terminologique. University York,
Toronto.
LIU, H. & SETIONO, R. (1996) probabilistic approach to feature selection - A filter
solution. 13th International Conference on Machine Learning. Morgan Kauffman.
LIU, L., KANG, J., YU, J. & WANG, Z. (2005) A comparative study on unsupervised
feature selection methods for text clustering. Proc of IEEE NLP-KE, 597–601.
LIU, T., LIU, S. & CHEN, Z. (2003) An evaluation on feature selection for text clustering.
Proceedings of the 10th Int. CNF on Machine Learning. San Francisco, CA, USA: Morgan
Kaufmann.
Referencias Bibliográficas
[132]
LOPES, L., FERNANDES, P. & VIEIRA, R. (2012) Domain term relevance through tf-dcf.
Proceedings of the 2012 International Conference on Artificial Intelligence (ICAI). CSREA
Press, Las Vegas, USA.
LÓPEZ, M. A. & ZORITA, V. L. (2008) Las bibliotecas universitarias y la gestión de la
información en el entorno digital : unas consideraciones para repositorios digitales. BiD:
textos universitaris de biblioteconomia y documentación, núm. 20.
LORENZO, J. (2002) Selección de Atributos en Aprendizaje Automático basado en la
Teoría de la Información. Faculty of Computer Science. Gran Canaria, Univ. of Las
Palmas.
LOSSIO VENTURA, J. A., JONQUET, C., ROCHE, M. & TEISSEIRE, M. (2014) BioTex:
A system for biomedical terminology extraction, ranking, and validation. 1st Symposium
on Information Management and Big Data, SIMBig 2014. Cusco, France.
LOSSIO-VENTURA, J. A., JONQUET, C., ROCHE, M. & M., T. (2014a) Towards a Mixed
Approach to Extract Biomedical Terms from Text Corpus. International Journal of
Knowledge Discovery in Bioinformatics, IGI Global. , 4, 1-15.
LOSSIO-VENTURA, J. A., JONQUET, C., ROCHE, M. & TEISSEIRE, M. (2014b) Yet
another ranking function to automatic multi-word term extraction. Proceedings of the 9th
International Conference on Natural Language Processing (PolTAL’14). Springer LNAI.
Warsaw, Poland.
LOUKACHEVITCH, N. (2012) Automatic term recognition needs multiple evidence. IN N.
CALZOLARI, K. C., T. DECLERCK, M. DOGAN, B. MAEGAARD, J. MARIANI, ODIJK,
AND S. PIPERIDIS (Ed.) Proc of the 8th on LREC. Istanbul, Turkey. ELRA.
MACKEN, L., LEFEVER, E. & HOSTE, V. (2013) TExSIS: Bilingual Terminology
Extraction from Parallel Corpora Using Chunk-based Alignment. Terminology, 19 (1):1–
30.
MAGNINI, B. & CAVAGLIÀ, G. (2000) Integrating Subject Field Codes In WordNet. 2nd
LREC.
MARRERO, G. Y. & GONZÁLEZ, R. L. (2013) SET: SISTEMA DE EXTRACCIÓN DE
TÉRMINOS EN EL DOMINIO DE LA INFORMÁTICA. Congreso Internacional
COMPUMAT 2013. La Habana, Cuba.
Referencias Bibliográficas
[133]
MARRERO, G. Y., GONZÁLEZ, R. L. & BÁRCENAS, M. Y. (2014) Método de extracción
de términos. VII Conferencia AgrIng. Universidad Agraria de La Habana, Cuba.
MARRERO, G. Y., MOREDA, P. P. & MUÑOZ, G. R. (2015) Pattern Construction for
Extracting Domain Terminology. Recent Advances in Natural Language Processing.
RANLP. Hissair, Bulgaria.
MARTÍN, R. R., RAMOS, P. R. M., GRAU, Á. R. & MATILDE, G. M. (2007) Aplicación de
métodos de selección de atributos para determinar factores relevantes en la evaluación
nutricional de los niños. Gaceta Médica Espirituana, 9.
McENERY, A. Ç., LANGUÉ, J.-M., OAKES, M. & VERONIS, J. (1997) The exploitation of
multilingual annotated corpora for term extraction. IN GARSIDE, R., G. LEECH Y A.
McENERY (Ed.), Corpus Annotation: Linguistic Information from Computer Text Corpora,
Addison Wesley Longman, London.
MEYER, I. (2001) Extracting Knowledge-rich contexts for Terminography. IN
BOURIGALT, D., JACQUEMIN, C. Y L’HOMME, M. C. (Ed.) Recent advances in
computational terminology. Ámsterdam, John Benjamins.
MIKOLOV, T., SUTSKEVER, I., CHEN, K., CORRADO, G. S. & DEAN, J. (2013a)
Distributed representations of words and phrases and their compositionality. Proceedings
of the 27th Annual Conference on Neural Information Processing Systems (NIPS).
MIKOLOV, T., YIH, W. & ZWEIG, G. (2013b) Linguistic regularities in continuous space
word representations. Proceedings of the Conference of the North American Chapter of
the Association of Computational Linguistics on Human Language Technologies (HLT-
NAACL).
MORENO, J., RODRÍGUEZ, D., SICILIA, M., RIQUELMEY, J. & RUIZ, R. (2009) SMOTE-
I: mejora del algoritmo SMOTE para balanceo de clases minoritarias. Actas de los
Talleres de las Jornadas de Ingeniería del Software y Bases de Datos, Vol. 3, No. 1.
NAKAGAWA, H. & MORI, T. (2002) A simple but powerful automatic term extraction
method. COMPUTERM 2002 – Proceedings of the 2nd International Workshop on
Computational Terminology. Taipei, Taiwan.
Referencias Bibliográficas
[134]
NOGUEIRA, B. (2009) Avaliação de métodos não-supervisionados de seleção de
atributos para Mineração de Textos. São Carlos. SP, Brazil, Instituto de Ciências
Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP).
NOY, N. F., SHAH, N. H., WHETZEL, P. L., DAI, B., DORF, M., GRIFFITH, N.,
JONQUET, C., RUBIN, D. L., STOREY, M., CHUTE, C. G. & MUSEN, M. A. (2009)
BioPortal: ontologies and integrated data resources at the click of a mouse. . Nucleic
acids research, 37 (suppl 2), 170–173.
OTMAN, G. (1991) On the ambitions and the performances of a computer-aided
terminological units spotting system. La banque des mots, NS4, 59-96.
PADRÓ, L. & STANILOVSKY, E. (2012) FreeLing 3.0: Towards Wider Multilinguality.
Proceedings of the Language Resources and Evaluation Conference (LREC 2012) ELRA.
Istanbul, Turkey.
PARK, Y., PATWARDHAN, S., VISWESWARIAH, K. & GATES, S. (2008) An empirical
analysis of word error rate and keyword error rate. 9th Annual Conference of the
International Speech Communication Association (INTERSPEECH). ISCA, Brisbane,
Australia.
PAZIENZA, M., PENNACCHIOTTI, M. & ZANZOTTO, F. (2005) Terminology extraction:
an analysis of linguistic and statistical approaches. . IN S, S. (Ed.) Knowledge Mining
Series: Studies in Fuzziness and Soft Computing. . Springer Berlin Heidelberg, Berlin.
PEARSON, J. (1998) Terms in context. Ámsterdam, John Benjamins.
PERISSÉ, M. C. (2000) Modelo para el Desarrollo de Bibliotecas Digitales
Especializadas.
RAYSON, P. & GARSIDE, R. (2000) Comparing corpora using frequency profiling.
Proceedings of the workshop on Comparing corpora, 38th annual meeting of the
Association for Computational Linguistics. Hong Kong, China.
RUIZ, R., AGUILAR–RUIZ, J. S. & RIQUELME, J. C. (2015) Evaluación de Rankings de
Atributos para Clasificación.
SALTON, G. & BUCKLEY, C. (1987) Term weighting approaches in automatic text
retrieval. Ithaca, NY, USA, Tech rep.
Referencias Bibliográficas
[135]
SANTORINI, B. (1990) Part-of-speech tagging guidelines for the Penn Treebank Project.
Technical report MS-CIS-90-47. Department of Computer and Information Science.
University of Pennsylvania.
TELINE, M. (2004) Aplicación de métodos para la Extracción Automática de Terminología
de textos en Portugués. São Carlos, SP, Brazil.
VAN DE KAUTER, M., COORMAN, G., LEFEVER, E., DESMET, B., MACKEN, L. &
HOSTE, V. (2013) LeTs Preprocess: The multilingual LT3 linguistic preprocessing toolkit.
Computational Linguistics in the Netherlands Journal, 3, 103–120.
VARGAS, G. B. A. (2002) Introducción a selección de atributos usando WEKA.
Reconocimiento de patrones. Cenidet.
VENTURA, J. & FERREIRA DA SILVA , J. (2008) Ranking and Extraction of Relevant
Single Words in Text. DI/FCT Universidade Nova de Lisboa, Portugal.
VINTAR, S. (2010) Bilingual term recognition revisited: The bag-of-equivalents term
alignment approach and its evaluation. Terminology, 16:141–158.
VIVALDI, J. & RODRÍGUEZ, H. (2001) Improving term extraction by combining differents
techniques. IN COMPANY, J. B. P. (Ed.) Terminology.
VIVALDI, J. & RODRÍGUEZ, H. (2010a) Finding Domain Terms using Wikipedia. 7th
LREC.
VIVALDI, J. & RODRÍGUEZ, H. (2012) Using Wikipedia for Domain Terms Extraction. IN
GORNOSTAY, T. (Ed.) Proceedings of CHAT 2012: The 2nd Workshop on the Creation;
Harmonization and Application of Terminology Resources. co-located with TKE 2012.
VIVALDI, J. & RODRÍGUEZ, H. (2010b) Using Wikipedia for term extraction in the
biomedical domain: first experience. Procesamiento del Lenguaje Natural.
VIVALDI, P. J. & RODRIGUEZ, H. H. (2007) Evaluation of terms and term extraction
systems. A practical approach. Terminology, 13 (2): 225-248.
WITTEN, I., MOFFAT, A. & BELL, T. (1999) Managing gigabytes: compressing and
indexing documents and images. Morgan Kaufmann, San Francisco, CA, USA.
Referencias Bibliográficas
[136]
ZAVAGLIA, C., OLIVEIRA, L. H. M., NUNES, M. G. V. & ALUSÍO, S. M. (2007) Estructura
ontológica de unidades léxicas: una aplicación computacional en el dominio de la
ecología. Proc 5th TIL Wksp. RJ, Brazil.
ZHANG, X., SONG, Y. & FANG, A. (2010) Term recognition using conditional random
fields. Proc of IEEE NLP-KE.
ZHANG, Z., IRIA, J., BREWSTER, C. & CIRAVEGNA, F. (2008) A comparative evaluation
of term recognition algorithms. IN N. CALZOLARI (CNF CHAIR), K. C., B. MAEGAARD, J.
MARIANI, J. ODJIK, S. PIPERIDIS, AND D. TAPIAS (Ed.) Proc of the 6th on LREC.
Marrakech, Morocco. ELRA.
top related