se-term: sistema de extracción de términos híbrido...

SE-Term: Sistema de extracción de términos híbrido independiente del dominio

Yusney Marrero García

www.ua.es

www.eltallerdigital.com

DEPARTAMENTO DE LENGUAJES Y SISTEMAS INFORMÁTICOS

ESCUELA POLITÉCNICA SUPERIOR

SE-Term: Sistema de extracción de términos híbridoindependiente del dominio

YUSNEY MARRERO GARCÍA

Tesis presentada para aspirar al grado de

DOCTOR POR LA UNIVERSIDAD DE ALICANTE

PROGRAMA DE DOCTORADO APLICACIONES DE LA INFORMÁTICA

Dirigida por:

Dra. MARÍA PALOMA MOREDA POZO

Dedicatoria

A Valeria

A mi Esposa

A mis padres y mi hermana

Agradecimientos

Primeramente agradecerle a mi pequeña princesita Valeria, por haber sidomi fuente de inspiración, por haberte hecho pasar estos meses extrañado atu papi, te amo mucho mi niña.

A mi nene por darme el regalo más grande que nadie pudo haberme dado,nuestra Princesita, por apoyarme y darme fuerzas en todo momento, porcompartir tantos sueños juntos, incluso, hasta este día tan importante, teAmo.

A mis padres y mi hermana por ver realizado en mi todos sus sueños, porsiempre apoyarme y quererme como lo han hecho,

A mi abuelos, especialmente a mi abuelita linda por ser ese ángel que mecuida desde el cielo, siempre te tengo presente.

A todo mis tíos y primos por toda su preocupación y cariño y por todos losmomentos juntos compartidos.

A mis suegros por tenerme como un hijo más, gracias por toda su ayuda yapoyo. A Cuqui y Congo porque en vez de 4 he tenido la suerte de tenerdos abuelos más.

A mi directora de tesis Paloma Moreda Pozo, muchas gracias por toda laayuda en todo este camino, sus consejos, por ese poder de organizarme lascosas y sobre todo por el trabajo intensivo de estos últimos meses. MilGracias!

A Rafael Muñoz Guillena por brindarme este tema de investigación, porofrecerme a Paloma como directora de tesis, por toda la ayuda y losconocimientos brindados en todos estos años. Muchas Gracias!

A Yoan por toda su ayuda y preocupación en estos 3 meses en laUniversidad de Alicante.

A Florido por toda su ayuda, su preocupación y siempre que lo necesitéestar ahí y decir si.

A mi querida Jefa de Departamento, Mercedes Albelo Martínez, tu sabesque este resultado en gran medida es gracias a ti.

A los profesores del Departamento de Informática de la UNAH, a los queestán y a los que ya no están, gracias por su amistad. Neili fue laprimera en decir !Sí se puede! y hoy estamos aquí Lili, Aponte y yo.Reydi en unos meses esperamos estar leyendo los agradecimientos tuyos, yate toca!.

A la facultad de Ciencias Técnicas, por el apoyo y por siempre decir quesi podíamos lograrlo, gracias a todos.

A los muchachos del Grupo de Procesamiento de Lenguajes y SistemasInformáticos de la Universidad de Alicante por estos meses compartidos,por brindarme su amistad y por su preocupación por la culminación de mitrabajo, desearle muchos éxitos a todos especialmente a M.A., Antonio,Fernando y Javi que pronto les toca el turno.

A los profesores Evangelos E. Milios y Axel Soto de la Universidad deDalhousie por toda su ayuda y sus consejos certeros.

A Berta y Yunier, Haliuska y Jesús por hacerme sentir parte de susfamilias cuando no tenía a la mía cerca físicamente. Muchas Gracias!.

A los estudiantes con los que he trabajado en todos estos años, ustedestambién aportaron su granito de arena en este resultado, a Yanet y Migue,Yusleydi y Rayza, Raciel y Eidel y a Ransel.

A mis amigos, los de la infancia, los de la UCI, a los de siempre y atodos los que de una forma u otra han ayudado a obtener este resultado.Muchas Gracias!.

Agradezco a Encuentros NOW y a la empresa SolidQ la aportación dela beca que ha permitido financiar parcialmente mi estancia en laUniversidad de Alicante dando como resultado la finalización de esta tesisdoctoral.

"Las metas por escrito son sueños con fecha límite"

Brian Tracy

Índice general

1. Introducción ................................................................................................................ 1

1.1 Planteamiento del Problema.................................................................................... 4

1.2 Objetivos ................................................................................................................. 5

1.3 Organización de la tesis .......................................................................................... 6

2. Estado de la Cuestión ................................................................................................ 7

2.1 Diferentes enfoques de la Extracción de Términos.................................................. 7

2.1.1 Enfoque estadístico .......................................................................................... 7

2.1.1.1 Propuesta de Enguehard y Pantera...........................................................11

2.1.1.2 Tabla resumen de propuestas estadísticas ...............................................13

2.1.2 Enfoque Lingüístico .........................................................................................14

2.1.2.1 Propuesta de Golik et al. ...........................................................................15

2.1.2.2 Propuesta de Heid et al. ............................................................................19

2.1.2.3 Tabla resumen de propuestas lingüísticas.................................................21

2.1.3 Enfoque Híbrido ...............................................................................................22

2.1.3.1 Propuestas que combinan un enfoque lingüístico y estadístico .................24

2.1.3.1.1 Propuesta de Vivaldi y Rodríguez .......................................................25

2.1.3.1.2 Propuesta de Cajal y Rodríguez .........................................................28

2.1.3.1.3 Propuesta de Lossio Ventura et al. ....................................................29

2.1.3.1.4 Propuesta de Jiang et al. ....................................................................30

2.1.3.1.5 Propuesta presentada por Macken. ....................................................33

2.1.3.2 Propuestas que utilizan Aprendizaje Automático .......................................34

2.1.3.2.1 Propuesta presentada por Conrado et al............................................34

2.1.3.3 Tabla resumen de las propuestas híbridas presentadas............................37

2.2 Conclusiones..........................................................................................................38

3. Sistema de Extracción de Términos. Propuesta y Evaluación ...............................41

3.1 Utilizando Patrones Básicos .................................................................................. 41

3.1.1 Proceso de obtención de PB ........................................................................... 43

3.1.2 Proceso de extracción de términos a partir de los PB...................................... 44

3.1.3 Evaluación y discusión de los resultados......................................................... 45

3.1.3.1 Selección del corpus................................................................................. 45

3.1.3.2 Proceso de evaluación y discusión de los resultados................................ 46

3.2 Utilizando los Patrones Verbales Definitorios......................................................... 48

3.2.1 Proceso de obtención de las estructuras para extraer términos utilizando PVD

................................................................................................................................. 50

3.2.2 Proceso de extracción de términos a partir de las estructuras definidas

utilizando PVD.......................................................................................................... 52


3.3 Utilizando Aprendizaje Automático......................................................................... 56

3.3.1 Etapa de Entrenamiento.................................................................................. 57

3.3.2 Etapa de Extracción de Términos.................................................................... 62


3.4 Enriquecimiento al sistema propuesto en Marrero & González, 2013 .................... 66


3.4.1.1 Corpus Ampliado ...................................................................................... 68

3.4.1.2 Proceso de evaluación y discusión de los resultados................................ 68

3.5 Híbrido de todas las propuestas anteriores............................................................ 70

3.5.1 Etapa de Entrenamiento.................................................................................. 71

3.5.2 Etapa de Extracción de Términos.................................................................... 74


3.5.3.1 Evaluación de la etapa de Entrenamiento. ................................................ 79

3.5.3.2 Proceso de selección de características ................................................... 80

3.5.3.3 Evaluación de la etapa de Extracción de Términos................................... 84

3.5.3.4 Incluyendo los PVD................................................................................... 86

3.6 Comparación entre las diferentes propuestas presentadas.................................... 88

3.7 Conclusiones..........................................................................................................90

4. Evaluación del proceso de extracción de palabras clave.......................................91

4.1 Caracterización de los documentos utilizados ........................................................91

4.2 Descripción del proceso de evaluación ..................................................................96

4.3 Evaluación y análisis de los resultados ..................................................................97

4.4 Conclusiones..........................................................................................................97

5. Conclusiones y trabajos futuros ..............................................................................99

5.1 Conclusiones..........................................................................................................99

5.2 Principales Aportaciones ......................................................................................102

5.3 Trabajos Futuros ..................................................................................................103

6. Publicaciones relacionadas con este trabajo de tesis ..........................................105

7. Anexos......................................................................................................................107

Anexo 1. TermExt: Herramienta de Anotación semiautomática de términos ..............107

Anexo 2. Freeling .......................................................................................................110

Anexo 3. Weka...........................................................................................................112

8. Referencias Bibliográficas ......................................................................................127

Índice de figuras

Figura 2.1 Interpretación de los términos candidatos (Enguehard & Pantera, 1994)........13

Figura 2.2 Arquitectura propuesta por (Vivaldi & Rodríguez 2012) para la extracción de

terminología utilizando Wikipedia.....................................................................................26

Figura 2.3 Arquitectura propuesta por (Cajal & Rodríguez 2014) para extracción de

terminología.....................................................................................................................28

Figura 2.4 Arquitectura propuesta por (Conrado et al., 2013) para la extracción de

terminología.....................................................................................................................35

Figura 3.1 Arquitectura de la extracción de términos a partir de los PB ...........................42

Figura 3.2 Estructura de un contexto definitorio (Alarcón et al., 2007) .............................48

Figura 3.3 Arquitectura de la extracción de términos a partir de estructuras que utilizan los

PVD.................................................................................................................................50

Figura 3.4 Arquitectura de la Etapa de Entrenamiento.....................................................57

Figura 3.5 Arquitectura de la Etapa de Extracción de Términos.......................................62

Figura 3.6 Fragmento del archivo .arff generado para el dominio de la Informática .........65

Figura 3.7 Arquitectura de la Etapa de Entrenamiento.....................................................72

Figura 3.8 Arquitectura de la etapa de Extracción de Términos .......................................74

Figura 3.9 Pasos para la selección de atributos...............................................................81

Figura 7.1 Ejemplo de un fragmento de texto anotado...................................................107

Figura 7.2 Términos mapeados por patrones ................................................................108

Figura 7.3 Contexto de término seleccionado ................................................................109

Figura 7.4 Interfaz Principal de Weka ............................................................................113

Figura 7.5 Evaluadores para selección de atributos en Weka........................................121

Figura 7.6 Evaluadores en Weka...................................................................................123

Índice de tablas

Tabla 2.1 Resumen de las principales características en la evolución de los sistemas de

extracción de términos estadísticos (P-Precisión y C-Cobertura).....................................14

Tabla 2.2 Reglas basadas en contexto para la desambiguación de etiquetas POS

participios. [ing*= ing and not stop-list].............................................................................18

Tabla 2.3 Evaluación de los resultados en el corpus farmacológico.................................19

Tabla 2.4 Resumen de las principales características en la evolución de los sistemas de

extracción de términos lingüísticos (P-Precisión y C-Cobertura)......................................21

Tabla 2.5 Resumen de las principales características de las propuestas híbridas (P-

Precisión, C-Cobertura y MF-Medida F en %)..................................................................37

Tabla 2.6 Resumen de los principales resultados de las diferentes propuestas analizadas

(P-Precisión, C-Cobertura y MF-Medida F)......................................................................39

Tabla 3.1 Ejemplo del listado de patrones ordenados según su frecuencia de aparición .44

Tabla 3.2 Principales características de los corpus en los diferentes dominios utilizados 46

Tabla 3.3 Patrones Básicos obtenidos para el dominio de la Informática.........................46

Tabla 3.4 Valores de precisión, cobertura y medida F obtenidos en los Patrones Básicos

para el dominio de la Informática. ....................................................................................47

Tabla 3.5 Valores de precisión, cobertura y medida F obtenidos en los Patrones Básicos

para los dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía .......................47

Tabla 3.6 Estructuras capaces de identificar los PVD......................................................51

Tabla 3.7 Valores de precisión y cobertura y medida F de los PVD para el dominio de la

Informática.......................................................................................................................55

Tabla 3.8 Valores de precisión y cobertura y medida F de los PVD para los dominios

Ingeniería Agrícola, Medicina Veterinaria y Agronomía....................................................55

Tabla 3.9 Ejemplos de no-términos anotados en los diferentes dominios ........................64

Tabla 3.10 Ejemplo de instancias con algunas de sus características .............................64

Tabla 3.11 Resultados obtenidos para la extracción de términos utilizando Machine

Learning en el dominio de la Informática..........................................................................65

Tabla 3.12 Resultados obtenidos para la extracción de términos utilizando Machine

Learning en los dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía. .......... 66

Tabla 3.13 Principales características del corpus ampliado para los diferentes dominios

utilizados. ........................................................................................................................ 68

Tabla 3.14 Comparación entre los resultados obtenidos al aplicar las características

propuestas en (Marrero & González, 2013) al corpus ampliado. ..................................... 69

Tabla 3.15 Comparación entre los resultados obtenidos en (Marrero & González, 2013) y

los resultados obtenidos al utilizar las características refinadas. ..................................... 69

Tabla 3.16 Comparación de los resultados obtenidos en (Marrero & González, 2013) y el

proceso de enriquecimiento realizado. ............................................................................ 69

Tabla 3.17 Resultados del enriquecimiento realizado a la propuesta de (Marrero &

González, 2013) en los dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía

........................................................................................................................................ 70

Tabla 3.18 Términos candidatos obtenidos a partir de los PB ......................................... 76

Tabla 3.19 Conjunto de términos candidatos con algunas de sus características............ 77

Tabla 3.20 Resultados de los diferentes clasificadores utilizando todas las características

........................................................................................................................................ 80

Tabla 3.21 Atributos seleccionados por los diferentes métodos de búsqueda. ................ 82

Tabla 3.22 Atributos de mayor influencia ordenados según la frecuencia con que se

seleccionaron. ................................................................................................................. 83

Tabla 3.23 Resultados de los diferentes clasificadores utilizando las características

seleccionadas ................................................................................................................. 83

Tabla 3.24 Resultados obtenidos utilizando todo el conjunto de características y utilizando

las características seleccionadas .................................................................................... 84

Tabla 3.25 Caracterización de los documentos de prueba utilizados............................... 84

Tabla 3.26 Resultados obtenidos del procesamiento de los nuevos documentos............ 85

Tabla 3.27 Resultados obtenidos en las etapas de Entrenamiento y Extracción de

Términos ......................................................................................................................... 85

Tabla 3.28 Resultados obtenido al incluir los términos obtenidos con los PVD al listado de

términos extraídos utilizando Aprendizaje Automático..................................................... 87

Tabla 3.29 Comparación entre los resultados obtenidos por las diferentes aproximaciones

para el dominio de la Informática..................................................................................... 87

Tabla 3.30 Media obtenida para los diferentes documentos evaluados por cada dominio

........................................................................................................................................88

Tabla 3.31 Resultados obtenidos por las diferentes propuestas presentadas..................89

Tabla 4.1 Documentos utilizados para la evaluación del dominio de la Informática. ........92

Tabla 4.2 Documentos utilizados para la evaluación del dominio Ingeniería Agrícola......93

Tabla 4.3 Documentos utilizados para la evaluación del dominio Medicina Veterinaria ...94

Tabla 4.4 Documentos utilizados para la evaluación del dominio Agronomía ..................94

Tabla 4.5 Resultados obtenidos en el proceso de extracción de palabras clave ..............96

Tabla 7.1 Servicios disponibles en Freeling para el análisis de cada Idioma. ................111

Introducción

[1]

1. Introducción

En la actualidad existe un gran volumen de textos en formato digital debido a los avances

científico técnicos que tienen lugar en disímiles esferas y ramas de la ciencia, lo que

provoca un gran interés por parte del personal académico, investigadores, científicos,

profesores, estudiantes y comunidades virtuales en general. De hecho, el volumen es tan

grande que sobrepasa la capacidad de una persona para obtener información útil, en pos

de sus intereses ya sean de un tipo u otro, haciendo cada vez más compleja la labor de

recuperación de información.

Debido al rápido avance de la tecnología, los revolucionarios sistemas de cómputo y la

inesperada velocidad de expansión de las redes de computadoras han facilitado el

procesamiento, la distribución y la explotación de este tipo de información. Día a día,

nuestras actividades se involucran más con la tecnología, y el intercambio de información

se ha convertido en una necesidad primaria de muchos sectores (Perissé, 2000).

Esta evolución informática ha provocado una revolución en los conceptos tradicionales

que se tenían de libros, bibliotecas, investigación y aprendizaje. No es difícil imaginarse

que en un futuro toda la información será procesada y adquirida a través de medios

electrónicos. La introducción de las computadoras en el ámbito educativo de todos los

niveles y el importante auge que ha tenido la educación a distancia, con investigadores,

profesores y alumnos distribuidos geográficamente, hace inminente la necesidad de tener

acceso a espacios electrónicos de información ordenada, distribuida, común, compartida

y que pueda ser recuperada en cualquier momento (Perissé, 2000).

Según (Perissé, 2000), el campo de las bibliotecas digitales cada vez toma mayor

importancia dentro de las áreas de la información, éstas representan una interesante

combinación entre aplicaciones, sistemas y longevas teorías tradicionales del manejo de

información ordenada y estructurada. Asimismo, representan amplias oportunidades para

el campo de la educación al extender y mejorar el acceso a nuevas formas de acercarnos

al conocimiento, especialmente en áreas de ciencia y tecnología.

Las bibliotecas que han sido automatizadas están siendo transformadas o

complementadas implementando bibliotecas digitales, bajo el concepto general de

recopilar, almacenar y organizar información de manera digital, para poder realizar

búsquedas, recuperaciones y procesamientos vía las redes de cómputo; todo bajo un

ambiente sencillo para el usuario y tomando en cuenta factores fundamentales como la

Introducción

[2]

presentación y la representación de la información, los mecanismos de almacenamiento y

recuperación, la interacción humano-computadora, la plataforma tecnológica y el ancho

de banda de la red (Perissé, 2000).

En este contexto las bibliotecas universitarias toman un papel importante. Esta situación,

que afecta a toda la Comunidad Universitaria, implica un nuevo paradigma tanto para el

docente, como para el bibliotecario y exige la introducción de nuevos modelos de

aprendizaje donde la cooperación entre los participantes y la necesidad de aprender a

aprender a lo largo de la vida se sitúan en primer plano.

Un factor de transformación en el entorno de las bibliotecas universitarias es la progresiva

"vitalización" de la propia universidad. El Campus virtual, la e-universidad, la e-

administración, el e-aprendizaje (e-learning), son términos que señalan la intensiva

utilización de las tecnologías en todos los ámbitos de actividad de la universidad. En este

contexto, se están generando un número cada vez mayor de contenidos digitales (audio,

video, objetos de aprendizaje, documentos textuales, revistas digitales, teleconferencias)

que se crean desde diferentes sistemas, que necesitan diferentes plataformas de

visualización y que deberían ser utilizados y reutilizados en diferentes contextos,

materiales que el estudiante utilizará en el proceso de autogestión de su aprendizaje. Aún

sigue siendo, en muchos casos, un problema latente la necesidad de mecanismos para

acceder y recuperar eficientemente estos recursos (López & Zorita, 2008).

Las universidades cubanas, dentro de las transformaciones que se vienen llevando a

cabo por orientaciones y directrices del Ministerio de Educación Superior en Cuba, una

de ellas está dirigida a la informatización de los diferentes procesos y servicios dentro de

las universidades.

En el caso de la Universidad Agraria de La Habana (UNAH) se encuentra inmersa en el

proceso de la informatización de los procesos que se llevan a cabo en diferentes áreas,

dentro de los cuales se encuentra la Biblioteca General de la UNAH, así como de los

servicios que brinda.

Para poder mantener una correcta organización de los diferentes recursos digitales con

que cuenta la institución, así como para facilitar su recuperación por parte de los usuarios

interesados en una determinada temática, se hace necesario, además del documento

digital, contar con una serie de metadatos, es decir, un conjunto de datos que permitirán

describir cada uno de estos recursos.

Introducción

[3]

Uno de los metadatos almacenados para cada uno de los documentos son las palabras

clave, es decir, las palabras que caracterizan dicho documento, las cuales serán

utilizadas más tarde en el proceso de recuperación. El proceso para obtener estas

palabras clave de cada uno de los documentos digitales, actualmente en la biblioteca de

la UNAH, se realiza de forma manual.

Para tratar de resolver esta problemática es necesario contar con un mecanismo que

permita comprender el lenguaje utilizado en cada uno de estos documentos para así

extraer automáticamente las palabras que los caracteriza. Precisamente el área de

investigación encargada de darle respuesta a esta problemática es el Procesamiento del

Lenguaje Natural.

El Procesamiento del Lenguaje Natural (NLP, del inglés Natural Language Processing) es

un área de investigación y aplicación de la inteligencia artificial, que explora cómo las

computadoras pueden ser utilizadas para entender y manipular textos en lenguaje

natural. La investigación del NLP tiene como objetivo, reunir conocimientos sobre cómo

los seres humanos entienden y usan el lenguaje, para modelar computacionalmente

estos patrones y reducir el umbral entre la comunicación humano–computadora

(Chowdhury, 2003).

Una de las aplicaciones más destacadas dentro del NLP, es la Extracción de Información

(IE, del inglés Information Extraction), la cual según (Gaizauskas & Wilks, 1998) es la

actividad de extraer automáticamente un tipo de información pre-especificada desde

textos.

La IE se aplica tradicionalmente en situaciones en las que se conoce de antemano la

clase de información que debe ser extraída. A su vez tiene diversas tareas como es el

caso de la Extracción de Terminología.

Una de las aplicaciones más importantes dentro de la Extracción de Información es la

Extracción de Terminología (TE del inglés Terminology Extraction), la cual, según

(Macken et al., 2013), se puede definir como el estudio de los términos abarcando

diversas actividades como la recopilación, descripción y estructuración de los términos.

Puede ser utilizada en el desarrollo de herramientas lexicográficas, como diccionarios y

glosarios, en el análisis diacrónico de la lengua (para encontrar el momento en que un

término surge en una disciplina), además de mejorar la clasificación y recuperación

automática de documentos, en mecanismos de traducción, indexación de libros,

Introducción

[4]

categorización de textos así como para generar ontologías que den soporte a la web

semántica, sólo por dar algunos ejemplos.

Los términos son representaciones lingüísticas de los conceptos de un área en particular,

pueden estar formados por una sola palabra, llamados “términos simples” o también

pueden estar formados por dos o más palabras, llamados “términos complejos” (Frantzi &

Ananiadou, 1997). Estos términos cuando son extraídos por una herramienta son

llamados también “términos candidatos”, es decir, grupos de palabras que pueden en

cierto caso revelar cierto conocimiento tratado en un documento dado (L'Homme, 2001).

Las palabras clave son el tema o motivo central del contenido de cualquier documento,

que en el caso de una biblioteca digital serían las frases o términos de búsqueda con las

que un usuario puede recuperar dicho documento, es por ello que se ha considerado

utilizar la extracción de terminología para abordar esta tarea a través de un proceso

automático.

1.1 Planteamiento del ProblemaActualmente los servicios bibliotecarios en la Universidad Agraria de La Habana no

cuentan con un sistema automatizado capaz de efectuar la extracción de las palabras

clave a cada uno de los documentos digitales, y así, poder clasificar los documentos y

ubicarlos en una determinada rama del conocimiento y en alguna de las carreras de las

que se estudian en la universidad; luego estas palabras clave podrán ser utilizadas en

procesos como el de la recuperación de documentos. Actualmente este proceso se

realiza por un operario que lee y le asigna una serie de palabras clave a los documentos,

permitiendo así un agrupamiento temático útil para lograr la optimización durante la

búsqueda y recuperación, insuficiente aún porque reclama mucho tiempo y trabajo.

Cuando llega algún material nuevo a la biblioteca este tiene que pasar por un proceso de

catalogación y posteriormente se clasifica, procesos que se hacen muy lentos y hasta

que no hayan culminado, estos materiales no pueden ser puestos a disposición de los

usuarios de la biblioteca.

Hoy en la biblioteca de la Universidad Agraria de La Habana (UNAH) se procesan un

gran número de documentos manualmente de cada una de las carreras que se imparten

en la universidad para extraer sus palabras clave, clasificarlos y poder ubicarlos en una

determinada rama del conocimiento.

Introducción

[5]

La extracción manual de los conceptos que caracterizan un documento es una tarea larga

y complicada ya que se necesita tener conocimiento del área de especialidad. Cuando se

tienen pocos documentos a evaluar tal vez la extracción manual sea una tarea factible,

sin embargo, al evaluar grandes cantidades de documentos se precisa que el proceso se

lleve a cabo de manera automática o semiautomática.

El análisis de esta problemática ubica como problema científico: A partir de una

colección de documentos digitales, pertenecientes a las diferentes carreras que se

estudian en la UNAH, que existen en la biblioteca de la Universidad Agraria de La

Habana, ¿cómo extraer automáticamente los términos que caracterizan a cada uno de

estos documentos?

La determinación del problema científico situó como objeto de estudio los diferentes

enfoques existentes de la extracción de términos.

Este trabajo parte de la hipótesis de que con un método de extracción de términos que

utilice un enfoque híbrido se pueden obtener los términos que caracterizan un documento

independientemente del dominio al que pertenezcan.

1.2 ObjetivosPara orientar el trabajo en la solución del problema de investigación se plantea como

objetivo general: elaborar una propuesta híbrida para obtener los términos que

caracterizan los documentos digitales de la biblioteca de la UNAH, utilizando las técnicas

del NLP, IE y TE.

Para la solución del problema científico y dar cumplimiento al objetivo general, se

plantearon los siguientes objetivos específicos:

1. Revisar el estado de la cuestión en cuanto a las diferentes técnicas que brindan el

NLP, IE, así como los diferentes enfoques existentes en la TE, que sustentan

teóricamente el sistema propuesto.

2. Elaborar un sistema de extracción de términos que permita extraer, dado un

conjunto de documentos digitales de un dominio, los términos que lo caracterizan.

3. Validar el método propuesto para diferentes dominios.

4. Validar el proceso de extracción de palabras clave a partir del sistema de

extracción de términos obtenido.

Introducción

[6]

1.3 Organización de la tesisLa principal aportación de esta tesis se centra en proponer un sistema de extracción de

términos que sea independiente del dominio, basado en las técnicas existentes del NLP.

Para ello primeramente se realizará un estudio del los principales enfoques de extracción

de términos existentes, las ventajas y desventajas de cada uno de ellos así como las

propuestas que han obtenido importantes resultados en cada uno de esto enfoques

(capítulo 2).

En el capítulo 3 se presenta el método propuesto, así como las diferentes aproximaciones

obtenidas a partir de los enfoques existentes. De cada una de estas aproximaciones se

muestra su arquitectura, así como la evaluación realizada, una comparación con la

aproximación precedente y se realiza una discusión de los resultados obtenidos,

demostrando la independencia del dominio de la propuesta presentada en la valoración

de los resultados del método para cada uno de los dominios evaluados.

En el capítulo 4 se lleva a cabo un proceso para evaluar el uso de la herramienta en una

de sus aplicaciones, en este caso, a la extracción de palabras clave, para ello se realiza

una evaluación a partir de un conjunto de documentos de diferentes dominios y sus

palabras clave, se presenta una caracterización de los documentos utilizados así como

una descripción del proceso de evaluación y una valoración de los resultados obtenidos.

Seguidamente, se presentará, en el capítulo 5, un resumen de las principales

conclusiones de este trabajo así como las principales aportaciones y los trabajos futuros.

A continuación las publicaciones más destacadas relacionadas con la presente

investigación (capítulo 6) y finalmente en el capítulo 7 se presentarán los Anexos. Como

primer anexo se muestra la herramienta TermExt, herramienta semiautomática para la

anotación de términos y no-términos desarrollada en el marco de esta investigación, la

cual constituye uno de los aportes de esta tesis. En los anexos 2 y 3 se muestran

Freeling y Weka, herramientas utilizadas en el método propuesto, analizando de cada

una los principales componentes utilizados en la investigación.

Estado de la Cuestión

[7]

2. Estado de la Cuestión

En este capítulo se realiza un estudio del estado de la cuestión de los sistemas de

extracción automática de términos, los principales enfoques, las medidas utilizadas y

diferentes propuestas existentes. Inicialmente, en la sección 2.1 se presentan los

diferentes enfoques en los que se basan los sistemas de extracción automática de

términos. En la sección 2.2 se muestra una tabla resumen de las principales

características de las propuestas presentadas y finalmente, en la sección 2.3 las

conclusiones del capítulo.

2.1 Diferentes enfoques de la Extracción deTérminosDiversos autores como (Cabré & Vivaldi, 2001), (Pazienza et al., 2005) y más

recientemente (Vivaldi & Rodríguez, 2012), (Cajal & Rodríguez 2014), (Lossio Ventura et

al., 2014) y (Jiang et al., 2015) plantean que la extracción automática de términos

tradicionalmente se basa en uno de los tres enfoques: estadístico, lingüístico, o híbrido.

Estos enfoques se caracterizan por el tipo primordial de conocimiento utilizado en cada

propuesta ya sea basado en medidas estadísticas, propiedades lingüísticas o una

combinación de ambas respectivamente.

A continuación se presentan cada uno de estos enfoques así como propuestas

destacadas basadas en cada uno de ellos:

2.1.1 Enfoque estadísticoEl enfoque puramente estadístico utiliza el conocimiento obtenido mediante la aplicación

de medidas estadísticas. Para este propósito, el corpus se somete a una etapa de pre-

procesamiento, que generalmente implica la identificación de tokens, la eliminación de

stop words o palabras vacías, y la representación de los textos en tablas. En estas tablas,

cada fila representa un documento (di) y cada columna representa un n-gram del

documento (nj), donde la célula di nj puede llenarse con una cierta medida, por ejemplo,

la frecuencia absoluta de n-gram nj en documento di. Tal representación de texto se

denomina bolsa de palabras (en inglés BOW, Bag of Word). En este sentido, el uso de

medidas estadísticas por medio de un BOW ignora cualquier información estructural

sobre las frases de los textos, como el orden en que ocurren los n-gramas. A partir de los


[8]

valores obtenidos por la medida elegida, los términos candidatos se clasifican. Se

considera que los candidatos con mayores valores tienen mayor probabilidad de ser

términos de dominio (Pazienza et al., 2005).

Según (Kageura & Umino, 1996), el objetivo de las medidas estadísticas es identificar dos

propiedades terminológicas: unithood y termhood. Las medidas que expresan unithood

revelan la fuerza o estabilidad de expresiones complejas (es decir, formado por dos o

más elementos separados por espacios en blanco). Las medidas que expresan termhood

revelan, a su vez, el grado o la relación entre una expresión lingüística y un conocimiento

de dominio. En otras palabras, termhood expresa cuanto una expresión lingüística (si se

trata de un simple, como "computadora" o complejas, como "programación paralela" y

"lenguaje de programación"), está relacionada con un determinado dominio.

En (Conrado et al., 2014) se plantean diferentes medidas para la identificación de las

propiedades denominadas unithood y termhood. Para la identificación de la propiedad

denominada unithood, se utilizan generalmente las siguientes medidas estadísticas:

Log likelihood (lg)

Utilizando el coeficiente Log likelihood la detección de términos complejos se

realiza mediante la aplicación de la razón de verosimilitud, la cual mide la

probabilidad de que un término complejo aparezca con una determinada

frecuencia a partir de su frecuencia de aparición y la de cada una de los términos

que lo componen. Por ejemplo teniendo un término candidato "programación

paralela" se calculará la razón de verosimilitud a partir de las frecuencia de

aparición de "programación" y "paralela" por separado sobre la frecuencia del

término complejo "programación paralela" en el texto. (Dunning, 1993)( , ) = 2 ∗ [log ( 1, 1, 1) + logl( 2, 2, 2) − log ( , 1, 1) − log ( , 2, 2)]Donde: ( , , ) = ∗ + ( − ) ∗ (1 − )1 = ( , ) 2 = ( ) − 11 = ( ) 2 = − 11 = 1/ 1 2 = 2/ 2= ( 1 + 2)/( , ): frecuencia absoluta de aparición en el texto del término compuesto ( , ),

donde la primera parte es ( ) y la segunda es ( ).


[9]

( ): frecuencia absoluta de aparición en el texto de la parte ( ) del término

compuesto.( ): frecuencia absoluta de aparición en el texto de la parte ( ) del término

compuesto.

: número de palabras en el texto.

: número de palabras que forman el término compuesto ( , ). Información Mutua (MI del inglés Mutual Information).

El concepto de Información Mutua representa la cantidad de información que nos

da un evento acerca de la ocurrencia de un evento (Church & Hanks, 1989).

MI( , ) = log ( , )( ) ∗ ( )Donde , son los tokens que componen un término candidato de un corpus de

palabras. ( ) y son las probabilidades de y respectivamente, y

corresponden a las frecuencias de estos tokens en el mismo corpus, mientras que( , ) es la probabilidad de que y ocurran de forma conjunta.

Coeficiente Dice (dc del inglés Dice Coeficient)

El coeficiente (Dice, 1945) presenta una interpretación similar a la MI. Como

explica (Teline, 2004), la diferencia entre estas medidas es que, contrariamente a

la MI, el coeficiente Dice no depende del tamaño de la muestra (el corpus) sino

que depende solamente de las frecuencias de aparición y no de las

probabilidades de ocurrencias como la MI, siendo así dc se define como se

muestra en la siguiente ecuación.

( , ) = 2 ∗ ,+Donde y son muestras de un corpus de tamaño , donde y son las

frecuencias de y en el corpus, respectivamente, y , es la frecuencia en la

cual y ocurren por completo.

En el caso de las medidas utilizadas para expresar termhood se encuentran:

Frecuencia del término (tf del Inglés Term frequency).

Esta medida considera la frecuencia absoluta de un determinado candidato en un

corpus la cual se define formalmente por la siguiente ecuación:


[10]

= ,Donde , es la frecuencia de (candidato ) en (documento ℎ).

Frecuencia Relativa (rf del inglés Relative Frequency).

Es la frecuencia relativa de un candidato en un corpus dividido entre el número de

palabras en el mismo corpus, se obtiene a partir de la ecuación:

=Donde es la frecuencia absoluta de (candidato j) y es el número de

palabras en ese corpus.

Frecuencia del Término - Frecuencia inversa del documento (tf-idf del inglés term

frequency-inverse document frequency) (Salton & Buckley, 1987)

Considera la frecuencia de un término candidato ( ) de acuerdo con su

distribución en la colección de documentos, atribuyendo menor peso a los

candidatos que aparecen en muchos documentos ( ).

− , = , × logparte tf parte idfDonde , es la frecuencia de (candidato ) en (documento ) y es la

frecuencia de documentos del candidato .

Entre las definiciones disponibles en la literatura, se destacan la definición de

(Witten et al., 1999) ya que evita que el valor − caiga a 0 si se produce un

candidato en todos los documentos de un corpus, como se observa en la

siguiente ecuación.

− , = 1 + log , × log 1 +parte tf parte idf

Donde , es la frecuencia de (candidato ) en el (documento ) y es

la frecuencia del documento del candidato .


[11]

Las medidas adoptadas, por lo general, para el desarrollo de extractores automáticos de

acuerdo con el enfoque estadístico son independientes del idioma. La independencia del

lenguaje es una característica ventajosa desde el punto de vista computacional, como el

uso de medidas que no requieren la especificación (manual o automática) de cualquier

tipo de conocimiento (por ejemplo: morfológico, sintáctico, etc.) en el idioma del texto bajo

procesamiento, lo que hace la extracción automática más simple y rápida.

Sin embargo en (De Clercq et al., 2015) se plantea que los sistemas basados puramente

en este enfoque tienden a producir mucho ruido debido a que hay muchas palabras que

usualmente tiene una alta frecuencia de aparición en los textos pero que no forman parte

de la terminología propia de ese dominio.

Varias propuestas se han presentado siguiendo un enfoque estadístico dentro de las que

se encuentran la de (Salton & Buckley, 1988), ANA (Enguehard & Pantera, 1994) y

(Ventura & Ferreira da Silva, 2008), siendo ANA una de las mas referenciadas por los

resultados obtenidos. A continuación se presentarán brevemente los aspectos más

significativos sobre su funcionamiento.

2.1.1.1 Propuesta de Enguehard y PanteraLa propuesta ANA (Adquisición Automática Natural) presentada por (Enguehard &

Pantera, 1994) fue desarrollada de acuerdo con dos principios de diseño: la no utilización

de conocimientos lingüísticos (No utilizar ningún analizador o diccionario) y la tolerancia a

los errores sintácticos.

La arquitectura de ANA se compone de dos módulos: un módulo de familiaridad y un

módulo de descubrimiento. El primer módulo, mediante el uso de procedimientos

estadísticos, extrae algunas piezas de conocimiento que son principalmente sobre el

lenguaje que se utiliza (podría ser Inglés o francés u otro), y el tema que se trata. Este

conocimiento se encuentra en tres listas.

a) Palabras funcionales (a veces llamadas, stop word), que por lo general son los

artículos, pronombres y algunos verbos como por ejemplo: "a", "any", "for", "in",

"is", "may", "of", "or", "the", "this", "to", etc.

Tienen entre 60 y 100 elementos de la lista de "palabras funcionales" llamadas

Wfonc.


[12]

b) Palabras esquemas. Algunas palabras funcionales indican una relación semántica

entre las palabras, por ejemplo, en la expresión "box of nails" "of" indica una cierta

relación entre "box" y "nails". En "colours of paintings" nos encontramos con la

misma palabra "of" entre "colours", y "paintings" (incluso si la relación no es la

misma, lingüísticamente hablando).

El sistema es capaz de seleccionar algunas de estas "palabras esquema" y

utilizarlas para determinar algunos términos.

Por lo general, hay menos de 10 palabras esquema.

c) Bootstrap. Conjunto de términos del dominio que constituyen el núcleo del sistema

y el punto de partida para la detección de términos.

Plantean que de 20 a 30 artículos son suficiente para iniciar el descubrimiento de

nuevos términos. Por ejemplo, en el dominio "Do It Yourself", se podrían encontrar

términos como "hammer", "shelf", "screw", "painting", "brush".

Los procedimientos que determinan automáticamente estas listas se detallan en

(Enguehard, 1992) (Pág. 110-128).

El segundo módulo consiste en un proceso de adquisición gradual de nuevos términos a

los obtenidos en el módulo familiaridad. Además, los vínculos entre términos detectados

se generan automáticamente para crear una red semántica. Este módulo se basa en la

co-ocurrencia de palabras que puede tener tres tipos de interpretaciones:

Expresión: 2 o más términos obtenidos en el módulo familiaridad de alta

frecuencia ( ) de aparición de conjunto en la misma ventana. La nueva palabra

se considera un nuevo término y por lo tanto está incluida en la red semántica.

Por ejemplo, si el sistema tiene a diesel y engine como términos conocidos y

encuentra a secuencias como: ... the diesel engine is... o... this diesel engine

has... a continuación, la secuencia diesel engine es aceptada como un nuevo

término y se incluye en la red semántica como un nuevo nodo con enlaces a

diesel y engine (ver Figura 2.1).

Candidato: un término obtenido en el módulo familiaridad aparece con frecuencia

( ) junto con otra palabra y una palabra esquema como en:

... any shade of wood... o... this shade of color...

Shade sería el término que aparece con frecuencia ( ), of sería la palabra

esquema y y wood y color serían las otras palabras.

Aquí shade se convierte en un nuevo término y es colocado en un nuevo nodo de

la red semántica (ver Figura 2.1).


[13]

Expansión: un término obtenido en el módulo familiaridad aparece con frecuencia

( ) en la misma secuencia de palabras, sin incluir ninguna palabra esquema:

... use any soft woods to... o...this soft woods or... Como resultado, soft woods se

incorpora a la lista de términos y a la red semántica como un nuevo nodo con un

enlace a woods (ver Figura 2.1).

Figura 2.1 Interpretación de los términos candidatos (Enguehard & Pantera, 1994)

El sistema sigue recursivamente en busca de elementos con las tres interpretaciones ya

mencionadas hasta que no encuentre un nuevo término. Probaron mediante el

procesamiento de un documento en Inglés de alrededor de 25 000 palabras dentro de

ellas 2 palabras esquemas, 34 palabras funcionales y 29 términos de referencia

(bootstrap). El sistema logró extraer 200 términos con una tasa de error del 25%.

Un aspecto negativo del sistema es que esas unidades terminológicas que añaden a la

lista de términos válidos después de cada ciclo no se validan. Así ANA permite la

inclusión de términos no válidos que se suman a la lista de términos. Por ejemplo "been

set" or "experiment has shown" son erróneamente extraídos por el sistema como

términos.

2.1.1.2 Tabla resumen de propuestas estadísticasEn la Tabla 2.1 se presentan a modo de resumen la evolución que han tenido las

propuestas que siguen un enfoque estadístico teniendo en cuenta los resultados

obtenidos.


[14]

Tabla 2.1 Resumen de las principales características en la evolución de los sistemas de extracción

de términos estadísticos (P-Precisión y C-Cobertura)

Propuesta MedidasUtilizadas

Corpus Resultados(%)

Puntos Fuertes Debilidades

(Salton &

Buckley,

1988)

-Frecuencia

del término

-Frecuencia

de la

colección

CACM, CISI,

CRAN,

INSPEC,

MED

P=27.52 Resume hasta

ese momento lo

más importante

en extracción de

términos

Bajos

resultados, solo

extrae

unigramas

ANA,

(Enguehard &

Pantera,

1994)

Se basa en

la

Frecuencia

de aparición

de los

términos.

Artículos

científi-cos

sobre la

acústica

P=75 Funciona en los

textos de baja

calidad, sin

gramática o

diccionario, y sin

la intervención

de especialistas

para el trabajo a

gran escala.

Bajos resultados

debido a que

aprende a

través de un

proceso de

inducción de

textos

(Ventura &

Ferreira da

Silva, 2008)

-Frecuencia

del término

-Tf-idf

-Método

Zhou &

Slater

Portal for the

Access to

the

European

Union Law

Inglés:

P=81.5

C=55.4

Español:

P=78.2

C=60.8

Logra elevados

valores de

cobertura y

precisión en

ambos idiomas

Solo extrae

unigramas

2.1.2 Enfoque LingüísticoSegún este enfoque, los términos candidatos se identifican y se extraen a partir de un

corpus en base a sus características o propiedades lingüísticas, que puede ser de

diferentes tipos o niveles.

En general, la extracción de términos de acuerdo a una aproximación lingüística utiliza

información a un nivel de conocimiento morfosintáctico (Pazienza et al., 2005). En este

caso, el objetivo es mejorar la extracción automática de términos teniendo en cuenta (i) la

categoría sintáctica de los n-gramas, por ejemplo dentro de las más utilizados se

encuentran (verbo, sustantivo, adjetivo) en el corpus, y/o (ii) patrones morfosintácticos,

dentro de los que se destacan por ejemplo (sustantivo + adjetivo y sustantivo +

preposición + sustantivo). En cuanto a las categorías sintácticas (i), muchas

aproximaciones se basan en la idea que los términos de dominios o son sustantivos o

están compuestos en muchos casos por algún sustantivo en su estructura. Los patrones


[15]

morfosintácticos (ii) en cambio son frecuentemente utilizados porque la terminología

tiende a concentrar un gran volumen de términos que presentan una estructura interna tal

y como se plantea en (Nakagawa & Mori, 2002) que alrededor del 85% de los términos de

dominio son términos complejos. Ejemplo de ellos tenemos los términos ilustrados por los

patrones (sustantivo + adjetivo) por ejemplo: ‘programación paralela’ y (sustantivo +

preposición + sustantivo) por ejemplo: ‘lenguaje de programación’.

Independientemente del tipo de conocimiento adoptado, los resultados obtenidos por

cada propuesta son, en general, mejores que los resultados obtenidos por los sistemas

estadísticos (Conrado et al., 2012) (Ver Tablas 2.1 y 2.4).

Sin embargo, las aproximaciones lingüísticas no están libres tampoco de problemas. En

este caso, la extracción es dependiente del lenguaje ya que la identificación de los

candidatos requiere la especificación de algunos tipos de conocimiento lingüístico (por

ejemplo la categoría sintáctica de las palabras) que son obtenidas por herramientas,

como parsers, lematizadores, etc. Por otra parte estas herramientas generan errores que

pueden afectar a la tarea de identificación y extracción de candidatos a términos. Cuando

es realizada manualmente, supone realizar un conjunto de especificaciones lingüísticas

que hacen la extracción de candidatos más costosa.

En general, los principales problemas de los sistemas desarrollados acorde solamente al

enfoque lingüístico están relacionadas con el "silencio", y el "ruido". Varios autores como

(Estopà, 1999), (Vivaldi & Rodríguez, 2007) y (McEnery et al., 1997) plantean que el

"ruido" ocurre cuando el extractor propone candidatos a término que no son válidos en un

determinado dominio. Por el contrario, el "silencio" consiste en la omisión en la extracción

de algunos términos propios del dominio. El estudio de estos dos fenómenos es

importante para la mejora de las herramientas de extracción automática.

En la bibliografía se pueden encontrar diversas propuestas que se basan en un enfoque

lingüístico, dentro de las que se encuentran (Heid et al., 1996), (Basili et al., 1997),

(Gaizauskas et al., 2000) y (Golik et al., 2013). A continuación se presentan las

características más relevantes de algunas de las propuestas más destacadas en este

enfoque teniendo en cuenta las medidas utilizadas y los resultados obtenidos.

2.1.2.1 Propuesta de Golik et al.En (Golik et al., 2013) se propone un método para la extracción de términos para el

idioma inglés, enfocados en un análisis lingüístico de textos biomédicos. La extracción es


[16]

basada en patrones lingüísticos más un filtrado de participios, reforzados adicionalmente

con reglas basadas en el contexto para manejar frases preposicionales específicas y

participios.

En el estudio realizado al corpus han constatado que las preposiciones más frecuentes

son utilizadas bien como argumentos de los verbos (como in y by) o son complementos y

partes de sintagmas nominales como (of, to y at). Su propuesta se centra es estas

últimas y como la preposición of ha sido tratada en trabajos anteriores se concentran en

el trabajo con at y to. Por ejemplo, sintagmas con la preposición at a menudo contienen

información acerca del nivel, condición o período (por ejemplo: age at parturition, body

weight at birth). Sintagmas que contienen to denotan una reacción a diferentes estímulos

y situaciones (por ejemplo: susceptibility to mastitis, response to fish oil supplementation).

La extracción de términos que contienen at y to la realizan en dos pasos: (i) la aplicación

de patrones de extracción que incluyen las preposiciones (por ejemplo: NN to NN o NN at

JJ NN) y (ii) el filtrado de vínculos irrelevantes por un conjunto de cinco reglas basadas

en el contexto.

Su objetivo es activar la extracción de preposiciones relevantes o evitar la extracción de

las irrelevantes. Por ejemplo, para candidatos que contienen to, la primera regla chequea

si la estructura NN to NN está precedida por from o by (por ejemplo, from mother to

young), en cuyo caso el candidato no se extrae debido a que to está directamente

relacionada con from y no con el sustantivo. Las reglas propuestas son genéricas con el

objetivo de ser aplicable a diferentes corpus.

Las 5 reglas aplicadas son: [from |by] [not SENT] [to], [not NN] [not V] [to], [not V|VVN]

[to], [NN|VVN and not stop-list] [to], [stop-list] [not SENT] [at]. Un Ejemplo sería: weight at

birth.

Para los términos candidatos obtenidos anteriormente realizan dos filtrados. El objetivo

del filtro es eliminar términos que estén gramaticalmente bien formados pero que no son

útiles para ninguna aplicación de dominio. Muy a menudo son expresiones referenciales

donde se necesita el contexto para interpretar el término o términos que reflejan el estilo

de escritura y no se transmiten los conocimientos de dominio. En primer lugar términos

que son estructuralmente incoherentes (es decir, inválidos) y en segundo lugar, términos

que son estructuralmente coherente, pero son referenciales o demasiado imprecisos (es

decir, semánticamente pobres).


[17]

Para el filtrado de términos inválidos, dicho filtro captura formas superficiales que

comienzan o terminan con caracteres no válidos (por ejemplo, +, ~, *, \,.); formas

superficiales que comienzan con marcas de coordinación (por ejemplo, and, or); sólo

contienen paréntesis o corchetes (e .g., B2 (lipid source)); empiezan o terminan con una

unidad de medida (por ejemplo, kg clozapine, 9 mm); o contienen sólo números (por

ejemplo, 1,666 o 1673). El filtrado se utiliza también para manejar palabras de función

que tradicionalmente se filtran debido a su alta frecuencia y su falta de información

semántica, como los artículos definidos e indefinidos, demostrativos y determinantes (por

ejemplo, the, these, which, each).

Para el filtrado de los términos semánticamente pobres se realiza un refinamiento

preliminar semántico de los términos candidatos. Para ello se identifican los sintagmas

extraídos que no deben ser considerados como verdaderos términos desde un punto de

vista semántico. Se pueden dividir en cuatro tipos principalmente:

-Sintagmas que generalmente contienen modificadores no discriminatorios (por

ejemplo, important, particular, useful, various, certain, amount of).

-Sintagmas que dependen del contexto con el fin de ser correctamente

interpretados (por ejemplo, day 33, position 1978) o que a menudo incluyen

comparativas (por ejemplo: greater DMI, higher number of assays).

-Sintagmas directamente relacionados a la naturaleza y estilo del corpus (por

ejemplo: embodiment, point of view, above-mentioned feature, present

experiment).

-Entidades nombradas relacionadas con las referencias presentadas en el

documento (por ejemplo: Smith et al., November 1986).

La última parte del método se centra en el etiquetado de los participios, ya que es un

problema común en el NLP, más aún en el dominio biomédico. Teniendo en cuenta el

contexto, los participios pueden jugar el rol de verbos, adjetivos o sustantivos (Por

ejemplo: binding), estas tres etiquetas son difíciles de distinguir y el contexto es

generalmente discriminante. El etiquetado erróneo de los participios generalmente trae

consigo la omisión de términos relevantes. El número de preposiciones con ed e ing es

alto en la mayoría de los corpus biomédicos. Si bien hay POS taggers1 que han sido

adaptados al dominio biomédico, el problema persiste. En esta propuesta no consideran

1 part-of-speech: Es el proceso de asignar (o etiquetar) a cada una de las palabras de un texto sucategoría gramatical.


[18]

un re entrenamiento del tagger por dos razones, en primer lugar un proceso de este tipo

requiere datos manualmente anotados y en segundo lugar porque el tagger se vería

influenciado por los corpus utilizados para el entrenamiento.

Para mejorar la integridad de la extracción proponen supervisar la fase de etiquetado

usando cinco reglas basadas en el contexto (Tabla 2.2). en esta tabla muestran un la

primera columna las reglas que han sido definidas para el etiquetado de los participios y

en la otra columna las etiquetas utilizadas en cada caso. Estas reglas tienen en cuenta

las palabras que rodean las formas -ing o -ed y sus etiquetas de etiquetado POS.

Adicionalmente, las reglas utilizan una stop list de formas que son siempre verbos (por

ejemplo, being, using, getting). La lista fue elaborada a partir del corpus tratado y se

probó utilizando el criterio propuesto en (Santorini, 1990). Por ejemplo, una forma -ing

(que no esté en la stop list) precedido por of y que no esté seguido de un verbo o un

signo de puntuación será etiquetado como NN (por ejemplo, day of calving, role of

farming).

Tabla 2.2 Reglas basadas en contexto para la desambiguación de etiquetas POS participios.

[ing*= ing and not stop-list]

Reglas Relevantesetiquetas POS

[DT|JJ|SENT] [–ing*)][NN|NNS|NP|,]

e.g. eating quality; a training period

NN

[DT|JJ][–ing*][JJ]

e.g. increasing perinatal mortality

JJ

[of][-ing*][not V|,|SENT]

e.g. day of calving ; role of farming

NN

[of][-ing*][DT|JJ|PP|WDT]

e.g. accuracy of predicting the percentage

VVG

[-ed][NN|NP|JJ|NNS]

e.g. autumn saved pasture; immunized animals

JJ

Como resultado plantean el positivo impacto que ha tenido el uso de los filtros en la

propuesta. Han realizado pruebas utilizando tres versiones del sistema YaTeA, YaTeA

con filtros y BioYaTeA (es decir, YaTeA con filtros y reglas). En la Tabla 2.3 se muestran

los resultados de precisión (P), cobertura (C) y medida F (MF) obtenidos en cada una de

las versiones del sistema.


[19]

Tabla 2.3 Evaluación de los resultados en el corpus farmacológico

Corpus Medidas YaTeA(%) YaTeA+filtros(%) BioYaTeA(%)

C3P 34.2 48.0 52.9

C 33.1 29.4 29.1

MF 33.7 36.4 37.5

CAP 46.2 56.7 55.5

C 37.3 33.9 33.9

MF 41.3 42.4 42.1

2.1.2.2 Propuesta de Heid et al.

En (Heid et al., 1996) basan su propuesta en dos etapas: primero un análisis lingüístico y

la anotación del texto y en la segunda etapa la realización de consultas al corpus, siendo

capaces de reconocer abreviaturas, términos simples y términos complejos.

Evalúan el sistema para el idioma Alemán, así como las traducciones Alemán-Francés y

Alemán-Inglés en el campo de la Ingeniería Automotriz.

En la primera etapa realizan los procesos de tokenización, análisis morfosintáctico,

etiquetado de las partes de la oración y lematización.

Para la segunda etapa han utilizado una herramienta para la extracción de términos que

no ha sido diseñada exclusivamente para la terminología sino más bien como una interfaz

de recuperación de texto general (Christ, 1994), donde sus principales componentes son:

un procesador de consultas al corpus, un macro procesador para el lenguaje de consulta

y una interfaz gráfica de usuario para el procesador de consultas al corpus.

Términos simples:

Las consultas para la extracción de términos simples (así como su aparición en términos

complejos) se basan en la suposición que muchos términos contienen prefijos y sufijos

típicos del idioma. Algunos ejemplos de términos candidatos extraídos mediante una

consulta para términos nominales con sufijos son: (partikelfilter, hinterachse,

motorleistung, motormodul) que traducidos al inglés serían: (particulate filter, rear axle,

engine performance, engine module). Ejemplos típicos de ruido extraído por esta regla se

muestran: (verwendung, geschichte, wirklichkeit) los cuales traducidos al inglés serían:

(use, history, reality). Esta consulta produjo alrededor de un 8% de ruido utilizando 35.000

palabras de textos del corpus.


[20]

Sin embrago detectaron que muchos términos del dominio de la ingeniería automotriz

pertenecen a un conjunto de decenas de familias derivativas. Esto implica que se pueda

encontrar no sólo los afijos que se repiten, sino también otros morfemas recurrentes en

los términos, por lo que las consultas han sido formuladas para que contengan tales

componentes léxicos específicos del dominio.

Para extraer los términos candidatos del texto, se realiza una búsqueda en todo el texto

lematizado, con la condición de que los términos candidatos deben contener uno o más

de estos elementos específicos de dominio. La lista de los componentes o bien se puede

extraer de un banco de términos o producida por medio de procedimientos estadísticos

para la identificación de las palabras que se repiten con frecuencia en los componentes.

Términos complejos: colocaciones

Para colocaciones sustantivo-verbo, se podría aplicar un conjunto de etiquetas POS

diseñadas en el proyecto DECIDE (Gérardy, 1996). Este consultas mantienen un

seguimiento, entre otros, un modelo para el orden de las palabras en alemán (el verbo

inicial, verbo-segundo, verbo-finales) y de las diferencias en el comportamiento

morfosintáctico de las colocaciones verbales.

Los mejores resultados se obtienen en la identificación de términos sustantivos simples

(por lo general ruido inferior al 10%), siendo los sustantivos el mayor subconjunto de los

términos candidatos. También extraen adjetivos y verbos aumentando en estos el número

de ruido.

Ejemplo de términos correctamente extraídos son : (hinterachse, vollgas, gefiltert,

dachluke, einspritzen) que traducidos al inglés sería (rear axle, full throttle, filtered,

skylight, injecting) respectivamente.

Ejemplos de ruido extraído para adjetivos son: unterschiedlich, vorhanden, bestimmt,

einfach que en inglés sería (different, available, certainly, easy).

El procedimiento de extracción de términos que utilizan no es nuevo, anteriormente se

habían desarrollado propuestas similares por (Bourigault et al., 1995) y (Otman, 1991). La

diferencia de esta propuesta con las anteriores como la de (Bourigault et al., 1995) es que

en esta propuesta se definen etiquetas POS para los términos potenciales, mientras que

Bourigault define etiquetas POS a aquellos elementos que definitivamente no pertenecen

al término candidato, extrayendo así los términos candidatos en los complementos

identificados por consultas al corpus.


[21]

Han comparado sus resultados con los obtenidos en el mismo corpus utilizando la

medida estadística Ahmad (Ahmad et al., 1992) la cual mide de la frecuencia relativa de

los candidatos en un corpus de lenguaje general y especializado. Realizaron una prueba

con todos los términos simples en un corpus de automóviles de 35.000 palabras,

comparándolas con 36 millones de palabras de un corpus de periódicos en alemán. La

comparación muestra que los resultados producidos por las consultas lingüísticas al

corpus, están todos contenidos dentro de la salida ofrecida por los procedimientos

estadísticos (utilizando la medida estadística Ahmad). Sin embargo las consultas

lingüísticas son mucho más selectivas: los métodos estadísticos producen mucho más

ruido, es decir extraen elementos que nunca serían extraídos por métodos lingüísticos.

2.1.2.3 Tabla resumen de propuestas lingüísticas

En la Tabla 2.4 se muestra un resumen de las principales características abordadas por

diferentes propuestas lingüísticas destacando los procesos lingüísticos realizados en

cada una de ellas así como los resultados obtenidos.

Tabla 2.4 Resumen de las principales características en la evolución de los sistemas de extracción

de términos lingüísticos (P-Precisión y C-Cobertura)

Propuesta Procesosrealizados

Corpus Resultados(%)

PuntosFuertes

Debilidades

Heid et al.,

1996

-tokenización

- análisis

morfosintáctico

-etiquetado de las

partes de la

oración

-lematización

35000

palabras del

dominio de

Ia Ingeniería

Automóvil.

Mejor

resultado

obtenido:

ruido inferior

al 10% para

sustantivos

Idioma Alemán

aunque puede

adaptarse a

otros idiomas

Obtiene mucho

ruido en el resto

de las

estructuras.

Basili et al.,

1997

-tokenización

-análisis

morfosintáctico

-ENEA

Sole24Oore

P=71.0

C=68.0

Puede ser

portable a

otros dominios

y/o corpus.

Necesita de

intervención

humana para

identificar los

términos

Gaizauskas

et al., 2000

-Análisis

Morfológico

-SWISS

-PROT

-CATCH

-SCOP

P=86.0

C=68.0

Puede ser

adaptado a

otros

subdominios

médicos y/o

biológicos

Requiere de un

gran corpus

anotado para

su

funcionamiento.


[22]

Golik et al.,

2013

-Análisis

Morfológico

-Animal

Journal

(Cambridge

University

Press)

P=56.7

C=33.9

Muy eficiente

cuando se trata

de gerundios y

modificadores

preposiciona-

les

Validación

manual.

Anotación

manual de

participios

2.1.3 Enfoque HíbridoPara tratar de aprovechar las ventajas así como tratar de darle solución a los

inconvenientes al utilizar tanto las estrategias lingüísticas como estadísticas por

separado, en los últimos años ha proliferado la inclinación por las propuestas híbridas.

Dentro de los sistemas basados en un enfoque híbrido se pueden encontrar dos grupos:

los que combinan los enfoques lingüísticos y estadísticos para la extracción de términos,

generalmente primero utilizan una etapa de procesamiento lingüístico y los candidatos

obtenidos se refinan utilizado diferentes medidas estadísticas; y los sistemas que utilizan

aprendizaje automático (ML, del inglés Machine Learning) para extraer los términos

teniendo en cuenta tanto características lingüísticas como estadísticas.

En este enfoque, el orden de uso del conocimiento puede variar. En algunos sistemas, el

conocimiento estadístico es utilizado primero que el lingüístico, mientras que en otros, el

concomiendo estadístico es utilizado después que el conocimiento lingüístico. De

acuerdo con (Teline, 2004) y (Pazienza et al., 2005), los mejores resultados se obtienen

cuando las medidas estadísticas son aplicadas a la lista de candidatos previamente

extraídos mediante el uso de propiedades lingüísticas. Una de las razones de esto es que

los términos usualmente muestran patrones pre definidos por cada dominio (sustantivos

fundamentalmente). Estos patrones son identificados durante el análisis morfosintáctico a

partir de los términos candidatos, sin embargo, los patrones pueden ser diferentes

dependiendo del contexto y del dominio en que los candidatos aparezcan como por

ejemplo (sustantivo, sustantivo + adjetivo, sustantivo + preposición + sustantivo, entre

otros). Los métodos estadísticos generalmente no consideran dichos contextos por lo que

si se aplican primero se perdería ese análisis lingüístico que resulta tan importante para

definir si es o no un término del dominio y en segundo lugar los métodos estadísticos son

más rígidos y pueden eliminar términos con baja frecuencia, pero que sean muy

importantes para el dominio en cuestión.

Se han encontrado diferentes medidas híbridas utilizadas para la extracción de

terminología en el estado de la cuestión, es decir medidas que utilizan tanto conocimiento


[23]

lingüístico como estadístico. En (Conrado et al., 2014) se plantean ejemplos de algunas

de estas medidas híbridas:

C-Value

Para la medida c-value (Frantzi et al., 1998), el recurso lingüístico apoya la

generación de una lista de términos candidatos de acuerdo con un filtro lingüístico

basado en la búsqueda de patrones sintácticos predeterminados. A continuación,

se calcula el potencial de cada candidato a ser un término o no, y, a tal efecto, la

longitud de cada candidato se considera, en dependencia la cantidad de palabras

por las que está compuesto (si es bigrama, trigrama, etc.), así como su frecuencia

en el corpus. (A mayor valor de c-value mayor probabilidad de ser un término)

− = ⎩⎪⎨⎪⎧ × , ∉ ;

log − 1 ( )∈otherwise.,

Para la descripción formal de la c-value, se considera como el término

candidato (sintagma nominal), como la longitud en palabras de ,

como la frecuencia de en el corpus, como el conjunto de candidatos con

longitud en palabras más grandes que y que contiene , como el número

de tales candidatos (tipos) incluyendo el tipo de , ∑ ( ) como el número total

de como una sub cadena del candidato para que < | |, y como el

conjunto de vecinos de .

La medida c-value fue inicialmente propuesta para expresar la propiedad

unithood, en trabajos con expresiones complejas. (Barrón-Cedeño et al., 2009)

adaptó esta medida con el objetivo de hacer posible expresar el termhood y luego

aplicarlos a los unigramas.

− = ⎩⎪⎨⎪⎧ × log × tf t , if t ∉ ;× log − 1 ( )∈ℎ

Donde = + log . Los autores afirman que mediante el uso de = 1, es

posible obtener experimentalmente mejores resultados.


[24]

nc-value

La medida nc-value (Frantzi et al. 1998) expresa tanto unithood como termhood.

Esta medida supone que el concepto en el que aparecen los candidatos es

significativo para determinar si estos son términos o no. En este sentido el nc-

value considera como la vecindad de cada candidato puede favorecer la calidad

de dicha determinación. Esta vecindad consiste en las palabras cercanas al

candidato llamadas palabras de contexto. Para identificarlos, es necesario

previamente definir el tamaño de la ventana y considerar solo las palabras que

tengan la clase gramatical sustantivo, adjetivo o verbo. En este sentido, para cada

una de las palabras su peso es calculado como weightw.ℎ = ( )Donde ( ) es el número de candidatos donde la palabra aparece y es el

total número de candidatos considerados en el corpus.

En la secuencia seleccionada, es posible calcular la medida nc-value, la cual es

formalmente expresada como:nc − value = 0.8 − + 0.2 ∈ ( ) ℎEn esta ecuación, es el término candidato, es el conjunto de palabras del

contexto del candidato , es una palabra de contexto del candidato , ( ) es

la frecuencia de ocurrencia de como una palabra de contexto del candidato yℎ es el peso calculado para como una palabra de contexto.

A continuación se presentan varias propuestas híbridas que utilizan tanto un enfoque

lingüístico como estadístico.

2.1.3.1 Propuestas que combinan un enfoquelingüístico y estadísticoComo ya se ha comentado anteriormente (sección 2.1.3) varias propuestas se han

presentado en los últimos años que combinan tanto las ventajas de los enfoques

lingüísticos como estadísticos, dentro de ellos se encuentran (Vivaldi & Rodríguez, 2012),

(Conrado et al., 2013), (Cajal & Rodríguez 2014) (Lossio Ventura, et al., 2014) (Jiang et

al., 2015). A continuación se presentarán los aspectos más importantes de cada una de

estas propuestas.


[25]

2.1.3.1.1 Propuesta de Vivaldi y RodríguezEn (Vivaldi & Rodríguez, 2012) se presenta un nuevo enfoque para la obtención de la

terminología de dominio utilizando las categorías y estructura de las páginas de Wikipedia

de manera independiente del idioma/dominio. Los resultados obtenidos mostraron que

este enfoque se ha aplicado con éxito a algunos dominios e idiomas aunque el

rendimiento varía teniendo en cuenta estos parámetros idioma/dominio.

Anteriormente habían desarrollado dos métodos alternativos para la extracción de

terminología de dominio utilizando categorías y páginas de Wikipedia (Vivaldi &

Rodríguez, 2010a y Vivaldi & Rodríguez, 2010b).

En (Vivaldi & Rodríguez, 2010a) sigue una estrategia de Top-down a partir de una Top

category manualmente definida para el dominio. El problema de este enfoque fue su

limitada cobertura debido a la dependencia absoluta de los términos candidatos extraídos

en dicha categoría.

En (Vivaldi & Rodríguez, 2010b) siguen una estrategia de bottom up. Se inicia con una

lista de términos candidatos, obtenidos a partir de un texto específico de dominio. En este

enfoque tanto la precisión como la cobertura se ven afectados: i) el conjunto de términos

candidatos se reducen a la lista y ii) requiere una Top category que condiciona el proceso

como en el enfoque anterior.

En esta nueva propuesta proponen combinar ambos enfoques para superar estas

limitaciones.

Como taxonomía de dominio utilizan los códigos de los Dominios de Magnini (MDC del

inglés Magnini Domain Codes) (Magnini & Cavaglia, 2000).


[26]

Figura 2.2 Arquitectura propuesta por (Vivaldi & Rodríguez 2012) para la extracción determinología utilizando Wikipedia

El proceso que siguen como indica la Figura 2.2, primeramente obtienen un listado inicial

de términos de Wikipedia en el idioma especificado, seleccionando todas las variantes de

los synset que se encuentren etiquetados con el código del dominio de Magnini (dc)

perteneciente al dominio seleccionado. Este resultado sería su primer conjunto de

términos candidatos .En el segundo paso consiste en mapear dc con un conjunto de categorías de Wikipedia.

Primero analizan si dc se produce en el grafo de categorías de Wikipedia (CG). Si es el

caso (que es cierto para el 90% de dc para Inglés), entonces se selecciona el conjunto

{dc}. De lo contrario se observa si dc ocurre en el grafo de las páginas de Wikipedia. Si es

el caso se obtienen las categorías a las que pertenecen las páginas. De lo contrario se

realiza una asignación manual sobre la base de una inspección a Wikipedia. El resultado

de este paso sería un conjunto inicial de categorías .

contiene principalmente una categoría única, pero cuando se ha construido a

partir de una página puede contener categorías ruidosas.

En el tercer paso se limpia mediante la eliminación de categorías neutrales y

categorías unidas a los códigos de dominio colocados por encima de dc en la taxonomía

de MDC.

Para comprender los restantes pasos es importante conocer que la base de este enfoque

consiste en localizar dos sub grafos, donde CatSet en CG y PageSet en PG tienen una


[26]

















de MDC.




[26]

















de MDC.




[27]

alta probabilidad de referirse a términos del dominio, la idea planteada es que los títulos

de ambos conjuntos son términos del dominio.

En el paso 4 se construye el conjunto inicial de categorías, , ampliando el Top. A

partir de la categoría Top de dc, CG es atravesado Top-down, evitando ciclos y limpiando

como en el paso 3. Las categorías de esta configuración inicial son anotadas, utilizando

sólo los enlaces a las categorías de los padres, luego todas las categorías con

calificaciones inferiores a 0,5 se eliminan del conjunto resultante del conjunto inicial

.

En el paso 5 se construye el conjunto inicial de páginas, . De cada categoría en

el conjunto de páginas, siguiendo enlaces categoría-páginas, es almacenado en

. Cada categoría se califica de acuerdo a los puntajes de las páginas que

contiene y cada página se puntúa de acuerdo tanto al conjunto de categorías a las que

pertenece así como el conjunto de páginas que apunta a/de ella. Se utilizan tres

mecanismos umbral: Microstrict (acepta una categoría si el número de páginas miembros

con puntuación positiva es mayor que el número de páginas con puntuación negativa),

Microloose (de manera similar con mayor o igual prueba) y Macro (utilizando los

componentes de tales puntajes, es decir, las puntuaciones de las categorías y de las

páginas).

En el siguiente paso se explora iterativamente cada categoría. De esta forma el conjunto

de páginas bien marcadas y categorías se refuerzan mutuamente. Las categorías y

páginas menos puntuadas son eliminadas de cada lista respectivamente. A partir de

estas puntuaciones eligieron un árbol de decisión como clasificador utilizando estas

puntuaciones como las características. El proceso se repite en cada iteración para

y hasta su convergencia. Para todas las iteraciones se recogen todos

los conjuntos y para realizar el siguiente paso.

En el paso 7 se lleva a cabo un filtrado final para la selección, dentro de todos los

y correspondientes a todas las iteraciones, el que tiene mejor medida F. Antes

de calcular la medida F, tanto los conjuntos de categorías ( ) como de páginas

( ) se fusionan en un único conjunto de términos candidatos para cada iteración.

Han evaluado la propuesta en dos idiomas inglés y español y en 6 dominios (Turismo,

Arquitectura, Música, Agricultura, Antropología y Medicina). Los resultados los han

expresado teniendo en cuenta los valores de cobertura y precisión obtenidos

independientes para las categorías y para las páginas. Los mejores resultados de


[28]

precisión han sido de un 100,0% en los dominios de Turismo en idioma Español para las

categorías, y Medicina tanto en inglés como español utilizando el corpus SNOMED-CT (a

partir también de las categorías). A su vez el mejor valor de cobertura fue obtenido en el

dominio de Medicina con un 54,51% en el idioma español utilizando en este caso las

páginas.

No obstante a estos resultados se han detectado, algunos problemas para la detección

de términos, tales como:

Término complejo: algunos términos en SNOMED son términos coordinados.

Véase por ejemplo (enfermedades hereditarias y degenerativas del sistema

nervioso central). El sistema no es capaz de reconocer estos términos.

Existen algunas entradas que existen sólo como especializadas. Véase por

ejemplo en español (glándula), sólo existe como términos más especializados

como (glándula esofágica) o (glándula lagrimal), en este caso el sistema reconoce

glándula como un término del dominio, cuando realmente se debería considerar

solo cuando se encuentre especializada.

Discrepancias entre una categoría de Wikipedia y la entradas relacionadas en

SNOMED.

2.1.3.1.2 Propuesta de Cajal y RodríguezEn (Cajal & Rodríguez 2014) se presenta una propuesta de mejora de la extracción de

terminología usando recursos translingües y concretamente la Wikipedia y en el uso de

una variante de PageRank (Haveliwala, 2002) para valorar los candidatos a término.

Figura 2.3 Arquitectura propuesta por (Cajal & Rodríguez 2014) para extracción de terminología


[28]





páginas.












SNOMED.






[28]





páginas.












SNOMED.






[29]

Como se muestra en la Figura 2.3 primeramente obtienen en Wikipedia la categoría

superior para el dominio dado y a partir de ahí obtienen las principales categorías de

otros idiomas a través de las relaciones inter lingüísticas interviniendo en este proceso un

experto humano. Luego para cada lenguaje obtienen las categorías haciendo un recorrido

top-down, seguidamente obtienen un conjunto inicial de páginas para cada categoría.

Construyen un grafo a partir de los conjuntos obtenidos en los pasos anteriores para cada

dominio incluyendo todos los idiomas. Los nodos del grafo son anotados utilizando el

algoritmo de PageRank. Finalmente el conjunto de nodos correspondientes a cada idioma

están ordenadas según la puntuación descendiente dando el resultado final del sistema.

El sistema fue aplicado a 4 idiomas (Inglés, Español, Catalán y Árabe) y dos dominios

(Medicina y Finanzas).

Han realizado una evaluación utilizando SNOMED y otra manual, finalmente han

comparado los resultados donde se puede apreciar que la evaluación manual de los

resultados son muy superiores, debido que en SNOMED por ejemplo para el idioma

inglés, solamente se encontraron el 62% de los términos, los resultados lo comparan con

el sistema propuesto por (Vivaldi & Rodríguez 2012) donde se aprecia que se han

superado mostrando valores de cobertura del 80% para el inglés y 90% para el español.

2.1.3.1.3 Propuesta de Lossio Ventura et al.BIOTEX2 (Lossio Ventura et al., 2014), es una aplicación web que implementa medidas

del estado de la cuestión para la extracción automática de términos biomédicos de texto

libre en Inglés y Francés. Ofrece varias baseline y nuevas medidas para clasificar

términos candidatos para un corpus de texto dado. Para la extracción de términos

primeramente realizan un proceso de etiquetado POS extraen los candidatos que

coincidan con una serie de patrones pre establecidos (por ejemplo sustantivo, sustantivo

+ adjetivo) etc. Luego a este listado de términos candidatos le aplican un conjunto de

características estadísticas mediante las cuales completan el proceso de extracción.

Se puede utilizar ya sea como una aplicación Web teniendo un archivo de texto como

entrada, o como una biblioteca de Java.

Cuando se utiliza como una aplicación web, se produce un archivo con un máximo de

1200 términos candidatos ordenados. Utilizado como una biblioteca de Java, produce

2 http://tubo.lirmm.fr/biotex/


[30]

cuatro archivos con los términos candidatos clasificados que se encuentran en el corpus,

respectivamente, unigramas, bigramas, 3-gramas y todos los términos de + 4 gramas.

BIOTEX cuenta con dos procesos principales:

(1) Extracción de términos y las medidas de resultados:

- Seleccionar el lenguaje del corpus (Inglés, Español o Francés).

- Seleccionar un número de patrones para filtrar los términos candidatos. Estos

patrones de referencia (por ejemplo, sustantivo + sustantivo, sustantivo +

preposición + sustantivo, etc.) se construyeron con términos tomados de UMLS

para inglés y MeSH-fr para el francés. Se ordenan por frecuencia de mayor a

menor.

- Seleccionar el tipo de términos a extraer (por ejemplo, todos los términos o solo

términos complejos).

- Seleccionar las medidas de clasificación para aplicar (L-value, C-value, LIDF-

value, F-Ocapi, F-TFIDF-C, Okapi y TFIDF).

(2) Validación de los candidatos a términos:

Después del proceso de extracción, BIOTEX valida automáticamente los términos

extraídos mediante el uso de UMLS (Eng) y MeSH-fr (Fr). Estos términos validados se

muestran en verde, especificando la fuente de conocimiento utilizado y los otros en rojo.

Por lo tanto, BIOTEX permite que alguien pueda distinguir las clases anotando el corpus

original (en verde) y los términos que a lo mejor también consideran relevantes para sus

datos, pero necesitan ser tratados (en rojo). Los últimos pueden ser considerados

candidatos para el enriquecimiento de ontologías.

Comparando sus resultados con dos propuestas de extracción de términos desarrolladas

previamente (Lossio Ventura et al., 2014a) y (Lossio Ventura et al., 2014b) teniendo en

cuenta la precisión (P) han obtenido mejores resultados en los top k términos extraídos (P

@ k) en varios corpus (LabTestOnline, GENIA, PubMed). Por ejemplo, en un corpus

GENIA, LIDF-value alcanza un 82% para P@100, mejorando así la precisión de C-value

en un 13%, y 66% para P@2000, con una mejora del 11%. BIOTEX permite a los

usuarios evaluar el rendimiento de las medidas con diferentes corpus.

2.1.3.1.4 Propuesta de Jiang et al.En esta propuesta (Jiang et al., 2015) se presenta un método para extraer términos de

trabajos de investigación, para ello utilizan Word2vec (Mikolov et al., 2013a) y (Mikolov et


[31]

al., 2013b) la cual es una herramienta de código abierto lanzado por Google para el

cálculo de las representaciones vectoriales de palabras utilizando técnicas de aprendizaje

profundas. Se necesita un corpus de texto como entrada y calcula un vector numérico

para cada palabra w, word2vec puede calcular y producir una lista de palabras que son

similares a w (por ejemplo, teniendo contexto similar) y sus valores de similitud coseno.

Para el proceso de la extracción de términos primeramente realizan un procesamiento

lingüístico, luego de realizar un proceso de POS tagging identifican los sintagmas

nominales presentes en los títulos de los trabajos de investigación, utilizan estas palabras

como términos semillas y partir de un conjunto de características estadísticas va a ir

incrementando el listado de términos.

El algoritmo propuesto, dado un conjunto de trabajos de investigación , serían los

sintagmas nominales en los títulos de , las palabras clave en los títulos de y sería∪ .

1- Utilizar una herramienta de POS Tagging para identificar los sintagmas nominales

de los títulos de los trabajos de investigación en .

2- Junto con las palabras clave de los trabajos de investigación en , se añaden los

sintagmas nominales a un conjunto .

3- Utilizan los top-k palabras/frases en como un conjunto de términos semilla ,

donde es un parámetro de algoritmo que será elegido empíricamente. Para

elegir los top-k palabras/frases, clasifican las palabras/frases en por su longitud

(número de palabras contenidas por una frase) y la frecuencia en . Como lo

sugerido por (Jones et al., 1990) y (Krenn, 2000), estas dos medidas han sido

fiables en la identificación de los términos verdaderos. Dada una palabra/frase∈ , utilizan la siguiente ecuación empírica para calcular su puntuación de

clasificación:

− ( ) = log( )Aquí, fw denota la frecuencia de w y denota la longitud de w. Intuitivamente,

palabras/frases de frecuencia mayor o longitud tienen una mayor probabilidad de

ser verdaderos términos.

4. Para cada término semilla ∈ , utilizan word2vec para calcular una lista de

palabras/frases que son similares a .


[32]

5. Si una palabra/frase aparece en al menos listas devueltas por word2vec, la

añaden al conjunto de términos candidatos . Aquí es un parámetro del

algoritmo que será elegido empíricamente.

6. Para cada término candidato ∈ , se busca en los trabajos de investigación

pertenecientes a para ver si se puede encontrar en dichos trabajos de

investigación. Si es así, lo añaden al conjunto de términos semilla . De lo

contrario, simplemente se elimina .

7. Se repiten los pasos 4 al 6 hasta que no haya más términos que se puedan

encontrar. Entonces devuelven como el conjunto de respuestas.

En comparación a otros enfoques existentes, este enfoque tiene la ventaja de que no

requiere ningún conocimiento de dominio. En el estudio experimental se analizan los

falsos positivos y falsos negativos observando que:

(i) los falsos positivos son principalmente las palabras que se usan como

términos en los corpus de dominio abierto sin embargo no deben ser

obtenidos como los términos en los trabajos de investigación.

(ii) los falsos negativos son los términos que tienen muy baja frecuencia de

aparición en el corpus-dominio.

Realizan varias pruebas al corpus valorando varios aspectos como el efecto del número

de términos semillas inicial (k), donde el mejor valor de cobertura (C) se observó que a

medida que aumenta el número de términos semillas mejora la cobertura (para k = 10,C = 56,69% mientras que para k = 40, C = 74,30%), al contrario mientas aumenta k los

valores de precisión (P) disminuyen (para k = 10, P = 40,21% mientras que para k = 40,P = 30,35%).

Otras de las pruebas realizadas fue para comprobar el efecto del tamaño de las listas de

palabras similares Word2vec (ρ). Para (para ρ = 15, C = 74,30% mientras que paraρ = 240, C = 83,08%) en el caso de la precisión (para ρ = 10, P = 30,35% mientras que

para ρ = 240, P = 25,92%). En los resultados se puede apreciar que los valores de Caumentan a medida que se aumenta ρ.

La última prueba fue para medir el efecto del umbral de poda (α) de los términos

candidatos. En este caso a medida que aumenta α los valores de cobertura disminuyen y

los valores de precisión se incrementan, (para α = 2, C = 77,82% y P = 28,14% mientras

que para α = 6, C = 75,35% y P = 30,36%).


[33]

De forma general en esta propuesta no consiguen obtener un punto medio en que

permita obtener un equilibrio entre los valores de cobertura y precisión, sin embargo cabe

destacar que no necesita conocimiento de dominio y el proceso para la extracción de

terminología propuesto es completamente automático.

2.1.3.1.5 Propuesta presentada por Macken.En esta propuesta (Macken et al., 2013) se presenta TExSIS, un sistema híbrido que

combina la información lingüística y estadística. Es un sistema de extracción de

terminología bilingüe flexible que utiliza un método chunk-based alignment para la

generación de términos candidatos, luego la especificidad de los términos candidatos se

determina mediante la combinación de varios filtros estadísticos.

Para el análisis lingüístico, TExSIS realiza el proceso de tokenización, POS tagging,

lematización y fragmentación de los datos utilizando el kit de herramientas LeTs

Preprocess toolkit (Van de Kauter et al., 2013). Posteriormente, todas las palabras y

frases que coincidan con los patrones después del proceso de POS (es decir, los

sustantivos y sintagmas nominales) son considerados como términos candidatos. Con el

fin de determinar la especificidad de la cohesión entre estos términos candidatos, se

combinaron varios filtros estadísticos para representar los termhood y unithood de los

términos candidatos (Kageura & Umino, 1996). Para este fin, se emplearon Log-likelihood

(Rayson & Garside, 2000), C-value (Frantzi et al., 2000) y termhood (Vintar, 2010). Todos

estos filtros estadísticos se calculan utilizando el corpus de la Web 1T 5- grams (Brants &

Franz, 2006) como corpus de referencia.

En el estudio realizado plantean que el patrón (sustantivo) y el (sustantivo + adjetivo) o

(adjetivo + sustantivo) o sus variaciones (sustantivo + sustantivo) dependiendo del

idioma, son los más frecuentes de los patrones POS y representan más del 50% de todos

los términos.

Los resultados son mostrados por pares de idiomas, donde los mejores valores de

precisión fueron obtenidos en los idiomas Francés-Inglés con un 66,65%, los mejores

valores de cobertura y medida F fueron obtenidos en los idiomas Francés-Italiano con un

42,12% y 50,15% respectivamente.


[34]

2.1.3.2 Propuestas que utilizan AprendizajeAutomáticoOtras propuestas como las de (Zhang et al., 2008), (Foo & Merkel, 2010), (Zhang et al.,

2010), (Loukachevitch, 2012) y (Conrado et al., 2013) entre otras han utilizado el

Aprendizaje Automático como una vía para mejorar los resultados en la extracción

automática de términos haciendo uso de combinaciones de información lingüística y

estadística a través de características. Un ejemplo de una propuesta que se basa en este

enfoque y ha obtenido buenos resultados es la propuesta de (Conrado et al., 2013) de la

cual a continuación se presentarán sus aspectos más importantes.

2.1.3.2.1 Propuesta presentada por Conrado et al.En (Conrado et al., 2013) se propone un enfoque de extracción automática de términos

que utiliza el Aprendizaje Automático incorporando un conjunto de características de

términos candidatos. En los experimentos preliminares, se muestran diferentes métodos

de selección de atributos para verificar qué características son más relevantes para la

extracción automática de términos. La propuesta está dirigida a la extracción de

unigramas del portugués brasileño.

Utilizan un conjunto de 19 características tanto lingüísticas como estadísticas e híbridas.

A continuación se muestran dichas características:

Lingüísticas:

Sintagmas Verbales y Preposicionales (S)

Head de la frase (N-S)

Categoría gramatical (POS)

Frase indicativa (IP)

Número de sustantivos (N_nouns)

Número de adjetivos (N_adj)

Número de verbos (N_verb)

Total de palabras del término candidato (N_PO

Estadísticas

Longitud de los n-gramas (SG)

Frecuencia del Término (TF)


[35]

Frecuencia del documento (DF)

Frecuencia de término-Frecuencia inversa del documento (TF-IDF)

Contribución del término (TCo)

Varianza del término (TV)

Calidad de la varianza del término (QTV)

Híbridas

Ocurrencia del término candidato en el corpus general (GC)

Frecuencia de término candidato en el corpus general (Frec-GC)

Potencial de un término candidato a ser un término (C-value)

Contexto del término candidato (NC_value)

La arquitectura propuesta con cada uno de los pasos para dicha tarea se muestra en la

Figura 2.4. A partir de un texto de entrada le realizan un proceso de POS tagging y

normalización a las palabras del texto. A partir de este proceso de normalización obtienen

un conjunto de candidatos que le extraen las características lingüísticas, estadísticas e

híbridas. A partir de los candidatos con su conjunto de características utilizan dos filtros o

punto de corte. El primero, que todos los candidatos que no se encuentren al menos en

dos documentos se eliminan y el segundo que solamente se mantendrán los candidatos

que sean sustantivos o sintagmas nominales compuestos por nombres, nombres

propios, verbos, adjetivos. A partir de este conjunto de candidatos y sus características

generan un modelo que validan a través de la herramienta Weka. Con los términos

extraídos llevan a cabo un proceso de evaluación mostrando finalmente los resultados

obtenidos.

Figura 2.4 Arquitectura propuesta por (Conrado et al., 2013) para la extracción de terminología

Para la generación del modelo a utilizar en el Aprendizaje Automático realizan un proceso

de selección de características mostrando que TF-IDF es una característica esencial en

el proceso de extracción de términos. El 90,9% de los métodos seleccionan al número de


[36]

sustantivos así como la calidad de la varianza del término y sólo uno de estos métodos

eligieron Frec_GC, y ninguno de ellos eligieron la característica S_G. También se

observó que los mejores valores de medida F se obtuvieron cuando se utiliza en una

misma función tanto características lingüísticas como estadísticas validando la premisa

que la mezcla de ambas obtendría buenos resultados.

Realizan una comparación de sus mejores resultados, que son la frecuencia se aparición

de los términos y TF-IDF, utilizando su lista de palabras irrelevantes. Se consideraron

todas las palabras raíz de estos corpus como términos candidatos, excepto las stopword,

y se calculó la precisión, cobertura, y medida F para estas palabras. Comparan sus

resultados con un sistema que solamente extrae unigramas (Zavaglia et al., 2007), el cual

está desarrollado para la extracción de unigramas en Portugués, por lo que para poder

realizar su comparación implementaron este método nuevamente. En esta prueba, para

todos los corpus utilizados, han obtenido mejores resultados de precisión y medida F que

la propuesta baseline, en cuanto a la precisión la mejora estuvo dada par el corpus EaD

en once veces, de un 6.1% a un 66.66%. En el caso de corpus N&N de un 35.4% a un

61.3% utilizando en ambos casos en la comparación el valor de TF-IDF. Para el corpus

ECO han mejorado los resultados de un 12.9% a un 60% comparando en este caso la

característica de la frecuencia. En el caso de la medida F, para el corpus EaD de un

10.93% han mejorado hasta un 17.58%, para el corpus ECO de un 20.64% a un 24.26%

y para el corpus N&N de un 28.12% a un 54.04% basándose en los mejores valores de

medida F utilizando TF-IDF. En el caso de la cobertura el método baseline obtuvo para

todos los corpus mejores resultados de un 89%, aunque comparando con su cobertura y

medida F de un 2% y un 4%, de forma general en esta propuesta se obtuvieron mejores

resultados.

En esta propuesta se resumen, de forma general, los principales problemas que

presentan actualmente los sistemas de extracción automático de terminología con

independencia del enfoque utilizado (lingüístico, estadístico o híbrido). Como primer

problema plantean que todavía los sistemas extraen términos que no son términos del

dominio (“ruido”) o no se extraen términos del dominio (“silencio”). El segundo es el

problema de trabajar con un elevado número de términos candidatos y de características,

también conocido como el problema de la (alta dimensionalidad de los datos). El tercero

de los problemas es el tiempo y esfuerzo humano requerido en validar los candidatos a

términos que generalmente se realiza de forma manual y el cuarto es que los resultados

obtenidos por los diferentes sistemas todavía no son satisfactorios, es decir, teniendo en

cuenta los valores de cobertura, precisión y medida F obtenidos.


[37]

2.1.3.3 Tabla resumen de las propuestas híbridaspresentadasEn la Tabla 2.5 se presenta un resumen de las propuestas analizadas anteriormente

teniendo en cuenta el enfoque utilizado, las medidas utilizadas para la extracción de los

términos, el corpus utilizado, los resultados que muestran en cada caso así como algunos

puntos fuertes y debilidades detectadas.

Tabla 2.5 Resumen de las principales características de las propuestas híbridas (P-Precisión, C-

Cobertura y MF-Medida F en %)

Propuesta Medidas Corpus Resultados Fortalezas Debilidades

Vivaldi &Rodríguez,2012

Categorías yestructuras delas páginas deWikipedia

WikipediaSNOMED

-P=100 en(Tur-Esp yMed. Esp eIng.)

-C=54.51 enMed-Esp

Independientedel dominio ylenguaje

-Problemas parareconocer términoscomplejos-Bajos resultadospara medicina enInglés

Conrado etal., 2013

ling.(S,NS,POS,IP, N_Noun,N_Adj,N_Verb,N_PO) est.(SG,TF, DF,TFIDF,TCo,TV,TVQ) híb. (GC,req_GC,C-Value,NC-Value)

EaD, ECOy N&N

EaD-P= 66.66-C= 89.70

N&N-MF= 54.04

Crean 4característicasproponen 4que no habíansido probadaspara la TE-Análisis de elproceso deselección decaracterísticas

-Solo trabajan conunigramas

-Idioma Portugués.

Macken etal., 2013

-Log-likelihood-C-value-FreqRatio

Web 1T 5-grams

Fr.-It.-P=61.95-C=42.12Fr.-Ing.-P=65.55-C=25.23Fr. -Hol.-P=62.60-C=24.57

Demuestranque chunk-basedextensionpuede mejorarla cobertura sinafectar laprecisión.

Se ha desarrolladopara los pares deidiomas (Fr-It, Fr-Ing y Fr-Hol)

Cajal &Rodríguez2014

-Topic-Sensitive-PageRank

WikipediaSNOMED

Inglés-C= 80.0Español-C= 90.0

Independientedel dominio ylenguaje

Aceptan todas lasrelacionesinterlinguas comocorrectas

LossioVentura etal., 2014

-F-TFIDF-F-OCapi-LIDF-value

LabTestOnlineGENIAPubMed

C. GeniaLIDF-value

-P= 82.0P@100-P=66. en

P@2000

Idiomas Inglésy francés ypara el dominiomédico.

No esindependiente delidioma

Jiang et al.,2015

-word2vec Wikipedia200 art. deinvest.med

-P: baja-C= 90.14

-No requiereconocimientode dominio-Es automático

-Ruido.-No reconocetérminos con loscuales no se haentrenado


[38]

En síntesis, como se ha podido apreciar en la tabla anterior, a pesar de las diversas

propuestas para la extracción de términos que se han desarrollado en los últimos años,

las cuales utilizan varias medidas, corpus y recursos, todavía los valores de precisión y

cobertura no son los esperados, en otras palabras, estos sistemas ofrecen como términos

un conjunto de sentencias que no lo son y a su vez omiten algunos que si deberían ser

considerados, siendo este uno de los grandes problemas actualmente de los sistemas de

extracción de términos según (Conrado et al., 2013).

2.2 ConclusionesEn este capítulo se presentó una panorámica general del estado de la cuestión

destacando los distintos enfoques existentes de los sistemas de extracción de términos,

como son el estadístico, lingüístico e híbrido. Se analizaron propuestas destacadas por

sus resultados de cada una de los enfoques existentes con sus ventajas y principales

limitaciones las cuales se han tenido en cuenta para la presente investigación. En la

Tabla 2.6 se muestra un resumen de los principales resultados de las diferentes

propuestas analizadas.

El estado de la cuestión muestra que los trabajos desarrollados en los últimos años para

la extracción de términos se basan fundamentalmente en un enfoque híbrido ya que

utilizando tanto las ventajas de las aproximaciones lingüísticas como de las estadísticas

obtienen mejores resultados.

Otro punto importante en esta investigación lo constituye la identificación del uso del

Aprendizaje Automático en las nuevas propuestas que han proliferado en materia de

extracción de término debido a los resultados obtenidos en las mismas.

Se han identificado los patrones lingüísticos más utilizados como son los sustantivos y los

términos formados por sustantivos (por ejemplo, sustantivo + adjetivo, sustantivo +

preposición + sustantivo).

Se ha podido apreciar la diversidad de características que pueden ser utilizadas tanto

lingüísticas como estadísticas e híbridas así como las que han proporcionado mejores

resultados según las evaluaciones realizadas en las diferentes propuestas como son (Tf-

idf, IM, Log likelihood) entre otras, elementos que permitirán crear una base para la nueva

propuesta presentada.

Es importante destacar que se han identificado los problemas que presenta, de forma

general, la extracción automática de términos (ruido, silencio, alta dimensionalidad de los


[39]

datos, validación manual de expertos y resultados no satisfactorios) (Conrado et al.,

2013).

Tabla 2.6 Resumen de los principales resultados de las diferentes propuestas analizadas (P-

Precisión, C-Cobertura y MF-Medida F)

Enfoque utilizado Propuesta Principales Resultados (%)

Estadístico

(Salton & Buckley, 1988) P=27.52

ANA, (Enguehard & Pantera,1994)

P=75.0

(Ventura & Ferreira da Silva,2008)

Inglés (P=81.5, C=55.4)

Español (P=78.2, C=60.8)

Lingüístico

Heid et al., 1996 -mejor resultado obtenido: ruido

inferior al 10% para sustantivos

Basili et al., 1997 P=71.0, C=68.0

Gaizauskas et al., 2000 P=86.0, C=68.0

Golik et al., 2013 P=56.7 C=33.9

Híbrido

Vivaldi & Rodríguez, 2012 P=100 en (Tur-Esp y Med. Espe Ing.)C=54.51 en Med-Esp

Conrado et al., 2013 EaD (P= 66.66, C= 89.70)N&N (MF= 54.04)

Macken et al., 2013 Fr.-It. (P=61.95, C=42.12)Fr.-Ing.(P=65.55, C=25.23)Fr. -Hol.(P=62.60, C=24.57)

Cajal & Rodríguez, 2014 Inglés (C= 80.0)Español (C= 90.0)

Lossio Ventura et al., 2014 C. Genia (LIDF-value)(P= 82.0 para P@100)(P=66.0 para P@2000)

Jiang et al., 2015 P: bajaC= 90.14

Sistema de Extracción de Términos. Propuesta y Evaluación

[41]

3. Sistema de Extracción de

Términos. Propuesta y Evaluación

El objetivo que se persigue en este capítulo es obtener un sistema de extracción de

términos que obtenga resultados comparables con el estado de la cuestión actual. Para

ello se han realizado 5 aproximaciones las cuales se presentarán a continuación.

Para afrontar la tarea de la extracción de terminología, según el estado de la cuestión

analizado (sección 2.1) existen básicamente tres enfoques por los cuales se rigen las

diferentes propuestas de extracción de términos (lingüísticos, estadísticos o híbridos). En

este trabajo se presentan 5 aproximaciones para esta tarea. Primeramente en la sección

3.1 una propuesta basada en Patrones Básicos, el objetivo de esta propuesta lingüística

es obtener un baseline y a partir de ella construir una estructura que permita la extracción

de términos con buenos resultados, en la sección 3.2 se presenta la segunda propuesta

lingüística, esta vez, utilizando estructuras lingüísticas más complejas basadas en

Patrones Verbales Definitorios, en las secciones 3.3 y 3.4 dos propuestas que utilizan

Aprendizaje Automático, donde la propuesta presentada en el epígrafe 3.4 es un

enriquecimiento a la propuesta presentada en la sección anterior. En la sección 3.5 se

presenta una propuesta híbrida, la cual integra las diferentes aproximaciones

anteriormente abordadas. De cada una de estas aproximaciones se presenta su

arquitectura, la evaluación realizada así como los resultados obtenidos realizado una

valoración de los mismos. Finalmente en el epígrafe 3.6 se realiza una comparación de

los principales resultados obtenidos en cada una de ellas.

3.1 Utilizando Patrones BásicosEn (Marrero et al., 2015) se presenta una propuesta lingüística para la extracción de

términos basada en Patrones Básicos (PB). Como bien se ha mencionado anteriormente

el primer objetivo trazado en esta propuesta es obtener un baseline para el proceso de

extracción de términos, para ello se ha decidido utilizar un enfoque lingüístico (sección

2.1.2) debido a las ventajas que ofrece el mismo en la identificación de términos a partir

de los patrones lingüísticos de la terminología especializada de un determinado dominio y

como segundo objetivo que la propuesta pueda ser fácilmente adaptable a otros

dominios.


[42]

En la Figura 3.1 se muestra el proceso de extracción de términos a partir de los PB, su

arquitectura se ha dividido en dos procesos, primeramente se muestra el proceso de

obtención de los PB y luego el proceso de extracción de términos a partir de los PB

obtenidos.

Figura 3.1 Arquitectura de la extracción de términos a partir de los PB

Para entender claramente el funcionamiento de esta propuesta se explicará mediante un

ejemplo.


[43]

3.1.1 Proceso de obtención de PBEl primer paso sería a partir de un conjunto de documentos que pertenezcan al dominio

deseado, se selecciona el corpus a utilizar. Para este proceso es necesario tener en

cuenta varios aspectos como los descritos en (Dubuc & Lauriston, 1997).

Para este ejemplo a partir del conjunto de documentos del dominio de la Informática se

ha seleccionado, siguiendo los criterios descritos en Debuc y Lauriston, un subconjunto

de ellos que constituirá el corpus a utilizar. A continuación se muestra un ejemplo de

fragmento de texto correspondiente a uno de estos documentos seleccionados.

... Java: es un lenguaje de programación ...

El segundo paso sería realizar el proceso de anotación a los términos, para este proceso

se ha elaborado la herramienta TermEt (anexo 1) mediante la cual, dado un texto,

permitirá a un experto marcar los términos correspondiente al dominio en cuestión con las

etiquetas (term) (/term). Para el ejemplo en cuestión el texto anotado quedaría de la

siguiente manera:

...(term) Java (/term): es un (term) lenguaje de (term) programación(/term) (/term)

Seguidamente se le realiza el análisis morfológico al texto utilizando la herramienta

Freeling (Anexo 2).

Java[xaba]javoNCFS000

:[:]:Fd

Es[es]serVSIP3S0

un[un]unoDI0MS0

lenguaje[lenguaxe]lenguajeNCMS000

de[de]deSPS00

programación[programaTjon]programaciónNCFS000

Como resultado de estos dos procesos se obtiene el corpus debidamente anotado y

analizado morfológicamente.

En el siguiente paso se obtienen un conjunto de patrones candidatos (pc) a partir de los

términos etiquetados por el experto luego de realizarle el análisis morfológico.

Para este ejemplo el conjunto de pc que siguen los términos que han sido anotados sería:

sustantivo (Java)

sustantivo + preposición + sustantivo (lenguaje de programación)

sustantivo (programación)


[44]

A partir de estos pc se obtienen los Patrones Básicos (PB), primeramente se simplifica la

lista de pc obtenidos en el paso anterior eliminando los duplicados, almacenando para

cada uno su frecuencia de aparición. La lista de pc simplificada es ordenada en orden

ascendente según la frecuencia de aparición de cada pc. La frecuencia de aparición para

cada pc se calcula mediante la siguiente ecuación:

ó = ( )Donde: es 1 cada vez que aparezca el patrón en la lista de pc y es igual a

cantidad total de patrones obtenidos en la lista de pc.

Siguiendo con el ejemplo que se está desarrollando se tendría una lista de pc ordenados

por su frecuencia de aparición en orden decreciente (es decir de primero aparecerá el

patrón que más se repite además de su frecuencia de aparición y así sucesivamente), los

resultados para este ejemplo se muestran en la Tabla 3.1.

Tabla 3.1 Ejemplo del listado de patrones ordenados según su frecuencia de aparición

Patrón Frecuencia de apariciónsustantivo 2

sustantivo + preposición + sustantivo 1

Luego el experto podrá definir un umbral (puede ser diferente para cada dominio), y todos

los patrones que su frecuencia de aparición sea menor a dicho umbral serán

desestimados como patrones de dicho dominio.

Como salida de este proceso se obtiene el conjunto de PB, que serían todos los patrones

de la lista de pc que sobrepasaron el umbral definido por el experto. En el ejemplo en

cuestión si el umbral seleccionado fuese 2, solamente tendíamos al patrón sustantivo

(sustantivo) como el Patrón Básico para dicho dominio.

Una vez obtenido el conjunto de PB para ese dominio, se pueden extraer los términos de

un documento dado.

3.1.2 Proceso de extracción de términos a partir delos PBEl primer paso en este proceso sería seleccionar los documentos a los cuales se le

desean extraer los términos a partir de los PB.


[45]

A cada uno de estos documentos se le realiza el análisis morfológico utilizando la

herramienta Freeling y se mapean con los PB obtenidos donde todas las cadenas de

etiquetas que coincidan con dichos PB constituirán el listado de términos candidatos.

Este listado de términos candidatos obtenidos se simplifica eliminando los términos

duplicados dando lugar al listado final de términos que se devolverá como salida.

3.1.3 Evaluación y discusión de los resultadosEl primer objetivo que se persigue a través de este proceso de evaluación es comprobar

el funcionamiento del baseline desarrollado para el proceso de extracción de términos

utilizando un enfoque lingüístico, es decir, determinar en qué medida esta propuesta es

capaz de identificar términos a partir de los patrones lingüísticos de los términos de un

determinado dominio para, partiendo de ese punto, poder mejorar los resultados que se

obtengan. El segundo objetivo es poder determinar si la propuesta puede ser aplicable a

otros dominios.

Para la evaluación de los resultados resulta necesario contar con un corpus, a

continuación se describen los criterios seguidos para su selección así como una

caracterización del corpus utilizado.

3.1.3.1 Selección del corpusEn el ámbito de la lingüística computacional los corpus se han perfilado como uno de los

recursos por excelencia: "Corpus date are, for many applications, the raw fuel of NLP,

and/or the testbed on which an NLP application is evaluated " (McEnery, 2003).

En el ámbito concreto de la terminología, los corpus son, por naturaleza, especializados

y, dentro de esta clasificación, se trata, más concretamente, de corpus de un ámbito

científico, técnico y/o profesional.

Es por ello que la selección del corpus a utilizar es una tarea difícil, pero muy importante

para cualquier aplicación del PLN. Según lo planteado por (Dubuc y Lauriston, 1997),

para la elección del corpus se ha de tener en cuenta que:

El texto ha de ser representativo. El documento objeto de escaneo ha de reflejar

el uso de los expertos en un campo de especialidad.

La naturaleza de la publicación determina en gran medida la importancia de los

contextos que contiene. Los libros de texto, manuales, monografías, son fuentes


[46]

excelentes que proporcionan información explícita sobre conceptos y términos. El

análisis de muestras aleatorias de textos dentro de una publicación puede

determinar la utilidad de la misma para la investigación terminológica.

Hay que perseguir un mínimo de presentación y fiabilidad. En general, los textos

escritos de forma deficiente, con errores tipográficos y fallos gramaticales,

proporcionan una base poco sólida de análisis terminológico.

Siguiendo las recomendaciones de Dubuc y Lauriston, se ha seleccionado como corpus

un conjunto de documentos para los dominios de la Informática, Ingeniería Agrícola,

Medicina Veterinaria y Agronomía del acervo digital de la Biblioteca General de la

Universidad Agraria de La Habana.

En la tabla 3.2 se muestran las principales características de cada uno de los corpus

seleccionados en los diferentes dominios.

Tabla 3.2 Principales características de los corpus en los diferentes dominios utilizados

Dominio Cantidad de Textos Cantidad de palabras

Informática 28 40354

Ingeniería Agrícola 20 30492

Medicina Veterinaria 18 28345

Agronomía 16 27654

Total 82 126927

3.1.3.2 Proceso de evaluación y discusión de losresultadosA partir del corpus correspondiente al dominio de la Informática se realizó el proceso de

extracción de PB, en la Tabla 3.3 se muestra el listado final de PB resultantes luego de

realizar el proceso de filtrado teniendo en cuenta la frecuencia de aparición de cada uno

de los patrones utilizando un umbral del 80%.

Tabla 3.3 Patrones Básicos obtenidos para el dominio de la Informática

Patrones

N Sustantivo

NJ Sustantivo + Adjetivo

NPN Sustantivo + Preposición+ Sustantivo


[47]

En la Tabla 3.4 se muestran los resultados obtenidos del proceso de extracción de

términos a partir del conjunto de PB validados en el dominio de la Informática.

Tabla 3.4 Valores de precisión, cobertura y medida F obtenidos en los Patrones Básicos para el

dominio de la Informática.

Patrón Precisión(%) Cobertura(%) Medida F(%)

PB 38,23 97,43 43,51

Con el objetivo de verificar si es posible generalizar este proceso se seleccionaros tres

nuevos dominios (Ingeniería Agrícola, Medicina Veterinaria y Agronomía) y se le realizó a

cada uno de ellos el mismo proceso que el realizado para el dominio de la informática

(sección 3.1.1). Para ello se utilizaron los corpus correspondientes a cada uno de estos

dominios descritos en la sección 3.1.3.1. En el proceso realizado para cada uno de estos

dominios se obtuvieron en este caso los mismos PB que para el dominio de la

Informática. En la Tabla 3.5 se muestran los resultados obtenidos para cada uno de los

dominios evaluados.

Tabla 3.5 Valores de precisión, cobertura y medida F obtenidos en los Patrones Básicos para los

dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía

Dominio Patrón Precisión(%) Cobertura(%) Medida F(%)

IngenieríaAgrícola

PB 36.34 96.32 67.83

MedicinaVeterinaria

PB 39.65 98.24 68.94

Agronomía PB 35.08 96.45 66.94

Los resultados obtenidos para los diferentes dominios evaluados demuestran que la

propuesta presentada es fácilmente aplicable a cualquier dominio.

Como se puede apreciar de forma general en esta propuesta, para cada uno de los

dominios evaluados, los valores de precisión son bajos y los valores de cobertura son

elevados, estos resultados se deben principalmente a que como los patrones obtenidos

son tan básicos son capaces de extraer la mayoría de los términos del dominio (es por

ello la buena cobertura obtenida) pero a su vez permiten que se extraigan muchas

estructuras que coinciden con ellos que no deberían ser consideradas términos del

dominio (baja precisión). Luego de analizar estos resultados resulta necesaria la

búsqueda de nuevas vías o estructuras que permitan mejorar estos valores de precisión

obtenidos.


[48]

3.2 Utilizando los Patrones Verbales DefinitoriosDesde el enfoque lingüístico, no solo a la identificación de las categorías gramaticales

(sustantivo, adjetivos, verbos, etc.) se han limitado los estudios realizados, sino que se ha

tratado de ir más allá e identificar estructuras de mayor complejidad desde el punto de

vista lingüístico. Tal es el caso de las investigaciones realizadas para identificar contextos

definitorios en textos de especialidad.

Actualmente existe un creciente interés por el desarrollo de sistemas para la identificación

automática de información sobre términos que sea útil para describir su significado.

Diversos estudios coinciden en la idea de que en textos especializados, cuando se define

un término, se suelen emplear ciertos patrones léxicos y metalingüísticos recurrentes, los

cuales pueden ser reconocidos de manera automática (Pearson 1998, Meyer 2001).

Partiendo de esta idea, en (Alarcón et al., 2007) se presenta una propuesta para la

extracción de contextos definitorios (CD).

Alarcón et al. entienden por CD a todo aquel fragmento textual de un documento

especializado donde se define un término. Los CD están formados por un término (T) y

una definición (D), los cuales se encuentran conectados mediante un patrón definitorio

(PD). Opcionalmente pueden incluir un patrón pragmático (PP), esto es, estructuras que

aportan condiciones de uso del término o que matizan su significado (Figura 3.2).

Figura 3.2 Estructura de un contexto definitorio (Alarcón et al., 2007)

En (Alarcón, 2009) se plantea que existen patrones sintácticos que sirven para conectar

el término (T) con su definición (D), cuando dichos conectores tienen como núcleo un

verbo, se tiene entonces un Patrón Verbal Definitorio (PVD). En este sentido se pueden

encontrar en textos de especialidad PVD como:

Ejemplo1:


[49]

Así, se define el estándar XML como el formato universal para documentos y datos

estructurados en Internet y podemos explicar las características de su funcionamiento a

través de 7 puntos importantes, tal y como la propia W3C recomienda.

Ejemplo2:

cliente servidor: Es una tendencia de los actuales sistemas de operación que consiste en

instrumentar la mayoría de las funciones en procesos usuarios, construyendo un “kernel”

mínimo.

En los ejemplos anteriores se puede apreciar que la información definida está compuesta

por los verbos define y es. También, la ocurrencia del pronombre se para el verbo define,

y el adverbio como para formar el patrón se define como. En el ejemplo 2, se tiene la

combinación es un, estructura prototípica para definir un término.

La hipótesis de la que se parte en esta propuesta es que utilizando los PVD para

identificar los términos que se están definiendo en los documentos especializados

permitirá mejorar los resultados de precisión obtenidos a partir de los PB (Tablas 3.4 y

3.5).

En (Marrero et al., 2015) se presenta una propuesta de extracción de términos utilizando

los PVD, se ha definido la arquitectura mostrada en la Figura 3.3, la misma se ha dividido

en dos etapas, una primera etapa de obtención de las estructuras para definir términos

utilizando los PVD y una segunda etapa que sería el proceso de extracción de términos a

partir de las estructuras definidas utilizando PVD.


[50]

Figura 3.3 Arquitectura de la extracción de términos a partir de estructuras que utilizan los PVD

3.2.1 Proceso de obtención de las estructuras paraextraer términos utilizando PVDEl primer paso de este proceso sería a partir de un conjunto de documentos de diferentes

dominios se seleccionan el conjunto que conformarán el corpus con el cual se va a

trabajar.

A parir del corpus seleccionado se localizan las definiciones de términos presentes en

estos documentos observando las estructuras por las que están compuestas las mismas.


[51]

Luego de dicho proceso de observación se formulan una serie de estructuras que sean

capaces de identificar los términos definidos en los documentos. Para la formulación de

dichas estructuras se le incorporan los PVD propuestos en (Alarcón, 2009).

Según Alarcón et al., en los PVD los verbos más utilizados en la definición de términos

son concebir, definir además del prototípico es un/es una siguiendo las siguientes

estructuras (tabla 3.6).

Tabla 3.6 Estructuras capaces de identificar los PVD

Donde:

SE = Pronombre impersonal se

VAux = Verbo auxiliar

VDef_Inf = Verbo definitorio forma impersonal infinitivo

VDef_Par = Verbo definitorio forma impersonal participio

VDef_Con = Verbo definitorio forma personal conjugada

Pron = Pronombre

En la tabla anterior los verbos auxiliares (VAux) pueden ser formas personales o

impersonales de cualquiera de los verbos y los elementos entre paréntesis son optativos.

Estas estructuras con los PVD incluidos pueden ser utilizadas básicamente para

cualquier dominio ya que las mismas han sido seleccionadas teniendo en cuenta las

definiciones de términos presentes en diferentes dominios; en el caso de los términos que

son definidos dentro de las estructuras, como estos pueden seguir diferentes PB en

Formas impersonales en infinitivo Ejemplo

SE (Pron) VAux VDef_Inf | VAux VDef_Inf

(SE | Pron) | VDef_Inf (Pron)

Ejemplo: se puede definir

SE: se, VAux: puede, VDef_Inf: definir

Ejemplo: puede definir (se | lo)

VAux: puede, VDef_Inf (SE | Pron): definir

(se | lo)

Ejemplo: definirlo

VDef_Inf (Pron): definirlo

Formas impersonales en participio

(SE VAux | Vaux) Vdef_Par

Ejemplo: se ha definido

SE: se, VAux: ha, Vdef_Par: definido

Formas personales conjugadas

(SE) VDef_Con

Ejemplo: se define

SE: se, VDef_Con: define


[52]

dependencia del dominio al que pertenecen, entonces se le incluyen a cada una de las

estructuras obtenidas los PB, luego en la fase de extracción de términos estos PB

tomarán valor en dependencia el dominio al que pertenezca el corpus a evaluar. De esta

forma quedan elaboradas las estructuras para definir términos utilizando los PVD.

3.2.2 Proceso de extracción de términos a partir delas estructuras definidas utilizando PVDEl primer paso en este proceso sería seleccionar los documentos a los cuales se le

desean extraer los términos a partir de los PVD.

A cada uno de estos documentos se le realiza el análisis morfológico utilizando la

herramienta Freeling. Luego se incluyen a las estructuras definidas en la sección 3.2.1

los PB obtenidos para el dominio en cuestión.

Seguidamente se mapean los documentos analizados morfológicamente con las

estructuras obtenidas. A partir de definiciones de términos que coincidan con dichas

estructuras se identificarán los términos que se encuentran definidos en ellas, obteniendo

así un conjunto de términos candidatos.

Este conjunto de términos candidatos obtenidos se simplifica eliminando los términos

duplicados dando lugar al listado final de términos que se devolverá como salida.

3.2.3 Evaluación y discusión de los resultadosPara la evaluación de esta propuesta se han seleccionado a partir de un conjunto de

documentos de los dominios Informática, Agronomía, Ingeniería Agrícola y Medicina

Veterinaria (sección 3.1.3.1), un sub conjunto de documentos de cada uno de estos

dominios.

Se realizó un proceso exhaustivo de identificación y observación de los términos

definidos en dichos documentos donde se encontraron ejemplos tales como:

Algunas definiciones detectadas en el corpus del dominio de la Informática:

o Inteligencia Artificial: es una ciencia que intenta la creación de

programas para máquinas que imiten el comportamiento y la comprensión

humana.


[53]

o se define como sistema operativo al software o conjunto de programas

dedicados al funcionamiento interno del computador e interpretación de las

órdenes dadas por el usuario.

Algunas definiciones detectadas en el corpus del dominio de la Agronomía:

o se define como biocida al agente físico o químico que puede matar

organismos.

o Ecotipo: Es una variedad de cultivo adaptada a un rango particular de

condiciones climáticas y de suelo.

Algunas definiciones detectadas en el corpus del dominio de la IngenieríaAgrícola:

o se define como fertilizante a cualquier material orgánico o inorgánico de

origen natural o sintético que se agrega al suelo para proporcionarle

nutrientes, incluyendo nitrógeno, fósforo y potasio, necesario para

mantener el crecimiento de las plantas.

o se define fumigantes como pesticida o desinfectante usado en forma de

gas, vapor, emanaciones, o humo.

Algunas definiciones detectadas en el corpus del dominio de la MedicinaVeterinaria:

o se define como absceso a la cavidad que contiene pus debido a una

infección localizada.

o Buche: Es un divertículo caudal del esófago de los pollos, utilizado para el

almacenamiento temporal de alimentos.

Luego de dicho proceso de observación se formularon dos estructuras que incluyendo los

PB y PVD son capaces de generalizar las diferentes formas en que se han definido los

términos observados:

1. (PB) PVD + (PB) + "como" + (PB) + definición + (PB)2. PB + (" : ") + PVD + definición

Donde:

PB: son los patrones obtenidos en (sección 3.1.1)

PVD: son los patrones presentados en la Tabla 3.6

Ejemplos de algunas frases que se podrán identificar siguiendo dichos patrones:

- Lenguaje de programación: es un lenguaje diseñado para describir el conjunto de

acciones consecutivas que un equipo debe ejecutar


[54]

Esta secuencia sigue la estructura sintáctica: PB + (" : ") + PVD + definiciónDonde:

PB: lenguaje de programación (PB: sust + prep + sust). Siempre se obtiene el PB

de mayor longitud.

PVD: es un

definición: lenguaje diseñado para describir el conjunto de acciones consecutivas

que un equipo debe ejecutar

- Así, se define sistema operativo como: el conjunto de programas informáticos que

permite la administración eficaz de los recursos de una computadora

Esta otra secuencia sigue la estructura sintáctica: (PB) PVD + (PB) + "como" + (PB)+ definición + (PB)Donde:

PVD: se define

PB: sistema operativo (PB: sust + adj)

"como": como

definición: el conjunto de programas informáticos que permite la administración

eficaz de los recursos de una computadora

Una vez obtenidas las estructuras para extraer términos utilizando PVD se ha procedido a

evaluar la segunda etapa de la metodología.

El objetivo de esta prueba es validar la hipótesis de partida elaborada la cual plantea que

utilizando los PVD para identificar los términos que se están definiendo en los

documentos especializados permitirá mejorar los resultados de precisión obtenidos a

partir de los PB (Tablas 3.4 y 3.5).

Para la evaluación de la propuesta se utilizó el mismo corpus correspondiente al dominio

de la Informática (sección 3.1.3.1) para luego poder realizar la comparación entre ambas

propuestas, a cada uno de estos documentos se le realizó el análisis morfológico

utilizando la herramienta Freeling y se incluyeron en las estructuras para definir términos

utilizando PVD los PB correspondientes al dominio de la Informática obtenidos en la

sección 3.1.

Luego se mapearon los documentos analizados morfológicamente con estas estructuras

y se obtuvo un conjunto de términos candidatos, a partir de todas las cadenas de


[55]

etiquetas que coincidieron con los PB del dominio de la Informática presentes en las

definiciones detectadas.

Se simplificó el listado de términos candidatos eliminando los duplicados y finalmente se

obtuvo el listado de términos del dominio. En la Tabla 3.7 se muestran los resultados a

partir del listado de términos del dominio de la Informática obtenidos.

Tabla 3.7 Valores de precisión y cobertura y medida F de los PVD para el dominio de la

Informática

Aproximación Precisión(%) Cobertura(%) Medida F(%)

Estructuras

utilizando PVD 98.35 18.23 52.34

Con el objetivo de evaluar si la metodología era posible utilizarla en otros dominios se

seleccionaron un conjunto de documentos de los dominios Ingeniería Agrícola, Medicina

Veterinaria y Agronomía (diferentes a los utilizados para obtener las estructuras) y luego

de realizar el proceso de extracción términos los resultados obtenidos son los mostrados

en la Tabla 3.8.

Tabla 3.8 Valores de precisión y cobertura y medida F de los PVD para los dominios Ingeniería

Agrícola, Medicina Veterinaria y Agronomía

Dominio Patrón Precisión(%) Cobertura(%) Medida F(%)

Ingeniería

Agrícola

PVD 97.47 20.18 55.19

Medicina

Veterinaria

PVD 98.06 19.56 54.39

Agronomía PVD 96.43 17.18 50.15

Al observar los resultados obtenidos se pueden plantear fundamentalmente dos

conclusiones:

1- Mediante esta propuesta ha quedado validada la hipótesis de partida elaborada, es

decir, que incluir los PVD para identificar los términos que se están definiendo en los

documentos especializados ha permitido mejorar los resultados de precisión obtenidos en

el proceso de extracción de términos utilizando los PB (Tablas 3.4 y 3.5).

2. El proceso puede ser perfectamente adaptado a cualquier dominio, siempre y cuando

primeramente se hayan obtenido los PB correspondientes a dicho dominio.


[56]

Sin embrago los valores de cobertura obtenidos son muy bajos debido a que son muy

escasos los términos que se encuentran definidos en el corpus procesado.

Hasta este momento, utilizando diferentes variantes lingüísticas, se han obtenido por una

parte PB con muy buenos resultados de cobertura y bajos resultados de precisión (Tablas

3.4 y 3.5) y por otra parte estructuras para definir términos utilizando PVD que han

obtenido muy buenos valores de precisión pero bajos valores de cobertura (Tablas 3.7 y

3.8), estos resultados conllevan a plantearse nuevas estrategias a seguir para tratar de

mejorar los resultados de precisión y cobertura utilizando una única propuesta.

3.3 Utilizando Aprendizaje AutomáticoDebido a la proliferación en los últimos años de la utilización de Aprendizaje Automático

en la tarea de extracción de terminología así como los resultados obtenidos por estas

propuestas (Tabla 2.5), se ha decidido elaborar una nueva hipótesis la cual básicamente

plantea que utilizando Aprendizaje Automático a partir de un conjunto de características

lingüísticas y estadísticas se puede obtener una propuesta capaz de nivelar los

resultados de precisión y cobertura y que la misma pueda ser utilizada para cualquier

dominio (Marrero & González, 2013).

Por tanto el objetivo de esta nueva aproximación es demostrar que combinando

propiedades lingüísticas y características estadísticas y que utilice además Aprendizaje

Automático se podrá obtener una propuesta independiente del dominio con resultados

equilibrados en cuanto a precisión, cobertura y medida F.

Para la extracción de términos utilizando Aprendizaje Automático se ha dividido el

proceso en dos etapas, una primera etapa en la cual se realizará todo el proceso de

entrenamiento y una segunda etapa que representará el proceso de extracción de

términos.

En la Figura 3.4 se muestra la arquitectura de la etapa de Entrenamiento.


[57]

Figura 3.4 Arquitectura de la Etapa de Entrenamiento.

3.3.1 Etapa de EntrenamientoEl objetivo que se persigue en esta primera etapa es llevar a cabo el proceso de

entrenamiento. Para ello se necesitará un corpus así como una herramienta de

Aprendizaje Automático. La herramienta de Aprendizaje Automático seleccionada ha sido

Weka (Hall et al., 2009), debido entre otras características a ser una de las herramientas

de ML más utilizadas en la actualidad y poseer una amplia gama de algoritmos


[58]

implementados a los cuales se permite acceder tanto a través de su API como de su GUI

(más detalles en el Anexo 3). Además se va a necesitar de un corpus para llevar a cabo

el proceso. En la (sección 3.1.3.1) se presentan las principales características del corpus

utilizado.

Una vez seleccionado el corpus, el siguiente paso sería realizar un proceso de anotación.

Para este proceso se utilizará la herramienta de anotación TermExt (Anexo 1), la cual

permitirá anotar los términos pertenecientes al dominio D detectados en el corpus,

utilizando las etiquetas (term) (/term).

Se le realiza el análisis morfológico al corpus utilizando la herramienta Freeling y se

obtienen las cadenas de etiquetas para cada uno de los términos anotados.

Las cadenas de etiquetas para cada uno de los términos anotados pasan a formar el

listado de patrones candidatos.

Este listado de patrones candidatos se simplifica eliminado los duplicados y se almacena

la frecuencia de aparición de cada uno de los patrones. Luego el experto define un

umbral y todos los patrones que superen dicho umbral conformarán el conjunto de

Patrones Básicos para (D).

Como la herramienta Weka necesita para su proceso de entrenamiento y validación datos

de al menos dos clases diferentes, es por ello que se hace necesario contar no

solamente con ejemplos de términos sino además con ejemplos de no-términos 3 para el

entrenamiento.

Utilizando la herramienta TermExt (Anexo 1), el experto introduce el conjunto de PB

obtenidos para ese dominio, y teniendo en cuenta todas las estructuras que se obtengan,

marcará un conjunto de no-términos utilizando para ello las etiquetas (no-term) (no-/term).

De esta forma se obtendrá como salida un corpus anotado con términos y no-términos

pertenecientes al dominio D.

3 Frases que morfológicamente coinciden con los PB, pero que no deberían ser considerados términos deldominio.


[59]

Para cada uno de los términos y no-términos anotados en el corpus se extraerán un

conjunto de características. Se han seleccionado un conjunto de características

lingüísticas y estadísticas a extraer de cada instancia.

Características lingüísticas:

Patrón utilizado para seleccionar la instancia como término candidato (ptc)

Longitud del patrón utilizado para seleccionarlo como TC (lptc)*

Número de sustantivos (se calcula teniendo en cuenta la cantidad de sustantivos

que tiene el PB para esa instancia) (nsp)

Palabra anterior a la instancia que sea (sustantivo, adjetivo, adverbio o verbo)

(pansw)*

Palabra posterior a la instancia que sea (sustantivo, adjetivo, adverbio o

verbo)(ppnsw)*

Ventana de 10 palabras por delante de cada instancia (Vivaldi & Rodríguez,

2001)(vpdl)

Ventana de 10 palabras por detrás de cada instancia (Vivaldi & Rodríguez, 2001)

(vpdt)

En el caso de estas dos características de ventana por delante y por detrás de la

instancia se ha decidido contar como una palabra a las stopword es decir

(artículo, preposición, conjunción) debido a que si se eliminaran se correría el

riesgo de perder términos complejos en dicha ventana que luego puedan ayudar a

definir si ese término pertenece o no al dominio.

Características estadísticas:

Frecuencia de aparición de la instancia en el documento (fatc)

Rangos de frecuencia de aparición de la instancia en el documento (rfatc)*

Los rangos de frecuencia de aparición de la instancia son calculados para cada

corpus o documento (dependiendo de la etapa si es en la Etapa de Entrenamiento

se utilizará el corpus, si es en la Etapa de Extracción de Términos será el

documento) a partir del término con mayor frecuencia de aparición siguiendo los

siguientes pasos:

1. Se calcula el porciento que representa la frecuencia de aparición del

término más repetido respecto al total de términos obtenidos del corpus

siguiendo el básico cálculo porcentual.


[60]

= ∗ 100∑Donde es la frecuencia del término más repetido y es la frecuencia de

aparición del término .

2. Se divide el resultado obtenido entre 4 (para establecer 4 rangos).

= 43. Se establecen los rangos ( ) a partir de las siguientes reglas definidas.

0 < ≤ | || | < ≤ | | ∗ 2| | ∗ 2 < ≤ | | ∗ 3≥ | | ∗ 3 Frecuencia de aparición del patrón utilizado para seleccionar la instancia como

término candidato (Es la frecuencia obtenida por cada PB cuando se simplifica la

lista de patrones candidatos) (sección 3.1.1) (faptc)

Información Mutua (im)

Información Mutua Cúbica (imc)

Coeficiente Log likehood (lg)

Las características marcadas con (*) no conocemos que han sido utilizadas en otras

propuestas anteriores para la tarea de la extracción de términos, por tanto son

características nuevas que se han incluido para comprobar si aportarían alguna mejora a

la tarea de la extracción de términos.

El conjunto de términos y no-términos con sus correspondientes características se

almacenan en un base de datos, permitiendo concentrar todos los datos que se necesiten

para llevar a cabo el proceso de entrenamiento.

Una vez procesados todos los documentos a utilizar para el entrenamiento y que en la

base de datos se encuentren todas las instancias con sus correspondientes

características se lleva a cabo el proceso de entrenamiento.

Como la herramienta de aprendizaje seleccionada ha sido Weka, la misma requiere que

los datos de entrada, sobre los que operarán las técnicas implementadas, deben estar

codificados en un formato específico, denominado Attribute-Relation File Format


[61]

(extensión "arff") (Anexo 3). Este formato está compuesto por una estructura claramente

diferenciada en tres partes: @relation, @attribute y @data. Por tal motivo a partir de la

información almacenada en la base de datos se genera un fichero .arff para llevar a cabo

la etapa de entrenamiento.

Para construir el archivo primeramente se coloca @relation <relation-name> y se define

el nombre de dicha relación.

Luego se generará para cada una de las características almacenadas en la base de

datos para los términos y no-términos, un apartado del tipo atributo siguiendo la siguiente

estructura @attribute <attribute-name> <datatype>, donde @attribute es una palabra

reservada seguido de un espacio se pondrá el nombre del primer atributo y a

continuación el tipo de datos que se almacenará en dicho atributo. En este caso los

ficheros .arff soportan 4 tipos de atributos: numeric (expresa números reales), integer

(expresa números enteros), string (expresa cadenas de texto), date [<date-format>]

(expresa fechas). En <date-format> se indicará el formato de la fecha, que será del tipo

"yyyy-MM-dd'T'HH:mm:ss" y <nominal-specification>, estos son tipos de datos auto

definidos y que pueden tomar una serie de valores que se indican entre llaves.

Generalmente al finalizar el listado de atributos, se coloca un nuevo atributo que indicará

la clase a la cual se quiere realizar el proceso de entrenamiento/evaluación. En este caso

después de la última característica almacenada en la base de datos se incluirá en el

fichero el atributo:

@attribute termino {si,no}

El cual es un atributo llamado término y el mismo podrá tomar los valores { , } en este

caso todas las instancias etiquetadas en el corpus como términos el valor de este atributo

será si y todas las instancias etiquetadas como no-términos tendrán el valor no.

Finalmente se construye la última parte del archivo, el apartado @data. En este apartado,

para cada candidato, se van colocando separadas por coma, los valores de cada una de

las características en el mismo orden en que se encuentran declaradas en apartado

@attribute.

Una vez generado el fichero se procede a la llamada al método seleccionado para el

proceso de entrenamiento donde se le pasa como parámetro los datos del archivo .arff

generado.


[62]

Una vez entrenado el sistema, se puede llevar a cabo el proceso de Extracción de

Términos.

3.3.2 Etapa de Extracción de TérminosEn la Figura 3.5 se puede observar la arquitectura definida para esta etapa.

Figura 3.5 Arquitectura de la Etapa de Extracción de Términos

El objetivo de esta etapa es el proceso de extracción de términos en sí. Para ello, a partir

de un conjunto de documento de un dominio dado, se seleccionan los documentos a los

que se les desea extraer los términos.

Se realiza el análisis morfológico a cada documento utilizando la herramienta Freeling y

se mapea con el conjunto de PB obtenidos en la etapa de Entrenamiento.

Todas las estructuras que coincidan con los PB pasan a formar parte del conjunto de

términos candidatos, para cada uno de estos términos candidatos se le extrae el mismo

conjunto de características con las cuales fue entrenado el sistema.


[63]

A partir del conjunto de términos candidatos obtenidos con sus características se genera

el archivo .arff de la misma forma que en la etapa de Entrenamiento. El atributo que

indica la clase, en este caso el atributo término, como es la clase que se intenta predecir,

en el lugar que corresponde el valor de dicho atributo se coloca un signo de interrogación

(?).

A continuación se realiza el proceso de validación utilizando el fichero .arff generado a

partir del evaluador seleccionado.

Finalmente se obtienen el listado de términos.

3.3.3 Evaluación y discusión de los resultadosEn los apartados (3.3.1 y 3.3.2) se ha detallado la arquitectura de las dos etapas en las

que se ha divido la propuesta. A continuación se realizará el proceso de evaluación

donde se valorará si se ha cumplido con el objetivo trazado el cual pretende demostrar

que, combinando propiedades lingüísticas y características estadísticas en una única

propuesta que utilice además Aprendizaje Automático, se podrán obtener resultados

equilibrados en cuanto a precisión y cobertura y además pueda ser utilizada en diferentes

dominios.

Para la evaluación de esta propuesta se ha seleccionado el corpus detallado en la

(sección 3.1.3.1).

El proceso llevado a cabo para obtener los PB en cada uno de estos dominios así como

los resultados obtenidos se encuentran descritos en las secciones 3.1.1 y 3.1.2.

Una vez obtenidos los PB se llevó a cabo el proceso de anotación de los no-términos

utilizando la herramienta TermExt (Anexo 1).

En total, para el dominio de la Informática, fueron anotados 678 términos y 345 no-

términos. De cada una de las clases (términos y no-términos) se anotaron 175 y 84

instancias respectivamente del patrón (sustantivo), 503 y 163 instancias respectivamente

del patrón (sustantivo + adjetivo) y 331 y 98 instancias respectivamente del patrón

(sustantivo + preposición + sustantivo). En la Tabla 3.9 se muestran algunos ejemplos de

no-términos anotados en los diferentes dominios.


[64]

Tabla 3.9 Ejemplos de no-términos anotados en los diferentes dominios

PB Informática IngenieríaAgrícola

MedicinaVeterinaria

Agronomía

N oración puntuación proceso texto

NA puntos

suspensivos

archivo verde mesa circular caja negra

NPN cantidad de

documentos

referentes a

artículos

instrumentos de

precisión

hoja de

clases

Para cada uno de los términos y no-términos anotados se le extrajeron el conjunto de

características anteriormente descritas.

En la Tabla 3.10 se muestran ejemplos de instancias con algunas de sus características.

Tabla 3.10 Ejemplo de instancias con algunas de sus características

Términos

candidatos

Patrón Fatc Faptc Pansw Ppnsw Término

base de datos NPN 5 331 gestión Postgree si

cantidad de

documentos

NPN 4 98 - es no

programación N 12 84 es programas si

Para cada documento procesado del corpus seleccionado para cada dominio se

almacenan todas las instancias con sus respectivas características en la base de datos.

Una vez procesado todo el corpus se genera el fichero .arff, a partir de las instancias con

sus correspondientes características almacenadas en la base de datos. En la Figura 3.6

se muestra un fragmento del fichero arff generado para el dominio de la Informática.

Con el fichero generado se lleva a cabo el proceso de entrenamiento utilizando la

herramienta Weka. Para los procesos de entrenamiento y evaluación de la propuesta fue

seleccionado el algoritmo Bayes Net (Bouckaert, 2005) debido a que es uno de los

algoritmos más utilizados para la tarea de clasificación.


[65]

Figura 3.6 Fragmento del archivo .arff generado para el dominio de la Informática

En la Tabla 3.11 se muestran los resultados obtenidos en el proceso de evaluación. Se

utilizó el corpus descrito en la (sección 3.1.3.1) para el entrenamiento de la herramienta

de Aprendizaje Automático, donde a través de un modelo de evaluación utilizando el

algoritmo BayesNet y todas las características se ha aplicado a nuevos documentos,

mostrando los siguientes resultados:

Tabla 3.11 Resultados obtenidos para la extracción de términos utilizando Machine Learning en el

dominio de la Informática

Dominio Precisión(%) Cobertura(%) Medida F(%)Informática 55.61 33.72 49.21

Con el objetivo de comprobar si el proceso podía utilizarse en diferentes dominios se

realizó el mismo proceso pero utilizando los corpus correspondientes a los dominios

(Ingeniería Agrícola, Medicina Veterinaria y Agronomía).

En la Tabla 3.12 se muestran los resultados obtenidos para cada uno de esos dominios

utilizando igualmente todas las características así como el algoritmo Bayes Net.


[66]

Tabla 3.12 Resultados obtenidos para la extracción de términos utilizando Machine Learning en

los dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía.

Dominio Precisión(%) Cobertura(%) Medida F(%)

Ingeniería Agrícola 52.16 32.78 46.64

Medicina Veterinaria 53.21 31.10 46.58

Agronomía 54.56 33.18 48.33

Los resultados mostrados en esta tabla, en primer lugar, demuestran que a partir de un

enfoque híbrido con Aprendizaje Automático que utilice características lingüísticas y

estadísticas del estado de la cuestión se podrá conseguir un balance en los resultados de

precisión y cobertura. En segundo lugar, los resultados similares obtenidos para los

dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía han demostrados que la

propuesta puede ser aplicada a diferentes dominios.

Los resultados de cobertura y precisión obtenidos son conservadores, ello se atribuye a

que en primer lugar se ha trabajado con todo el conjunto de características, sin saber si

todas realmente aportan al proceso o puede que exista alguna o algunas que estén

brindando información repetida o irrelevante. Por otra parte solamente se ha probado un

algoritmo sin saber si para ese conjunto de datos es el que mejores resultados obtendría

y otro posible factor que pudiese estar influyendo en los resultados obtenidos pudiese ser

el desbalance existente entre la cantidad de términos y no-términos utilizados en la fase

de entrenamiento.

3.4 Enriquecimiento al sistema propuesto enMarrero & González, 2013En (Marrero et al., 2014) se realiza un enriquecimiento a la propuesta presentada en

(Marrero & González, 2013), para ello se ha utilizado básicamente la misma arquitectura

aunque con dos variaciones:

1- En (Marrero & González, 2013) se utilizó el corpus descrito en la (sección 3.1.3.1), en

esta nueva propuesta se ha ampliado este corpus donde sus principales características

se encuentran en la sección 3.4.1.1.

2- Se han refinado dos de las características utilizadas en (Marrero & González, 2013).


[67]

Las características que han sido refinadas son:

Las características ventana de 10 palabras por delante y 10 palabras por detrás de cada

término propuesta por (Vivaldi & Rodríguez, 2001) y utilizadas en (Marrero & González,

2013) se tomaban sin tener en cuenta la delimitación de oraciones, en esta propuesta

estas características se has llamado ventana de hasta 10 palabras por delante y 10

palabras por detrás de término.

Ventana de hasta 10 palabras por delante del término (Vivaldi & Rodríguez,

2001).

Se tomará una ventana de un máximo de 10 palabras por delante del término

siempre y cuando se encuentren en la misma oración.

Siguiendo el análisis con el mismo ejemplo en la oración:

El lenguaje de programación Java es un lenguaje orientado a objetos. El lenguaje

es inusual porque los programas Java son tanto compilados como interpretados

Suponiendo que el término que se está analizando fuera lenguaje de

programación la ventana de palabras por delante del término sería: El

Como podemos observar la ventana de palabras por delante está compuesta por

una palabra.

Ventana de 10 palabras por detrás de cada término (Vivaldi & Rodríguez, 2001).

Se tomará una ventana de un máximo de 10 palabras por detrás del término

siempre y cuando se encuentren en la misma oración.

Suponiendo que se está analizando el mismo término la ventana de palabras por

detrás sería: es un lenguaje orientado a objetos.

Como se puede observar la ventana por detrás, en este caso, solamente está

compuesta por 6 palabras.

3.4.1 Evaluación y discusión de los resultados.A continuación se mostrarán los resultados del proceso de evaluación de cada una de las

variaciones propuestas por separado para valorar cuanto aportan cada una de ellas,


[68]

finalmente se realizará una valoración de ambas y se compararán los resultados con los

obtenidos en (Marrero et al. 2013) (sección 3.3.3).

3.4.1.1 Corpus AmpliadoCon el objetivo se probar si al incrementar el corpus de cada dominio se podía obtener

alguna mejora en los resultados, se ha decidido realizar una ampliación al corpus

existente. La misma consistió en adicionar un grupo de documentos al conjunto existente

para cada dominio y comprobar los resultados obtenidos con el nuevo corpus. Los

nuevos documentos adicionados corresponden a materiales bibliográficos pertenecientes

a los Currículum Base y Propio del Plan de Estudios “D” de la Universidad Agraria de la

Habana atendiendo a que los textos de cada currículum pertenecientes a cada una de las

titulaciones generalmente son representativos, revisados y aprobados por expertos en

cada dominio, los mismos son variados en las diferentes áreas por las que están

compuesto cada dominio y atendiendo a su continua actualización presentan un

contenido muy importante contando con una correcta presentación y fiabilidad debido al

personal y al destino para el que serán utilizados, criterios planteados por (Dubuc y

Lauriston, 1997), esenciales a la hora de realizar la selección del corpus.

Tabla 3.13 Principales características del corpus ampliado para los diferentes dominios utilizados.

Dominio Cantidad de Textos Cantidad de palabras

Informática 50 71250

Ingeniería Agrícola 32 43600

Medicina Veterinaria 27 36878

Agronomía 26 35512

Total 135 187240

3.4.1.2 Proceso de evaluación y discusión de losresultadosLa primera de las pruebas fue realizada con el objetivo de comprobar en qué medida

puede influir el nuevo corpus seleccionado. El experimento consistió en probar el corpus

ampliado para el dominio de la Informática con las características sin modificar, es decir,

las mismas características propuestas en (Marrero & González, 2013). En la Tabla 3.14

se muestran los resultados obtenidos.


[69]

Tabla 3.14 Comparación entre los resultados obtenidos al aplicar las características propuestas en

(Marrero & González, 2013) al corpus ampliado.

Prueba Precisión(%) Cobertura(%) Medida F(%)

Marrero & González, 2013 55.61 33.72 49.21

Corpus Nuevo - Características

propuestas en (Marrero & González,

2013)

60.33 45.56 56.65

Como se puede apreciar los resultados obtenidos con el corpus ampliado han mejorado

los resultados de la propuesta híbrida presentados en (Marrero & González, 2013).

Tablas 3.11 y 3.12.

Una vez obtenidos estos resultados se pasa a la segunda prueba realizada la cuál

consistió en utilizar las características refinadas con el mismo corpus probado en

(Marrero & González, 2013). En la Tabla 3.15 se muestran los resultados obtenidos

respecto a la propuesta anterior.

Tabla 3.15 Comparación entre los resultados obtenidos en (Marrero & González, 2013) y los

resultados obtenidos al utilizar las características refinadas.

Prueba Precisión(%) Cobertura(%) Medida F(%)

Marrero & González, 2013 55.61 33.72 49,21

Corpus utilizado en (Marrero & González,

2013) y características refinadas

61.84 52.07 59.60

Luego se observar los resultados obtenidos y compararlos con la propuesta anterior,

resulta evidente que las características refinadas han aportado una mejora significativa.

Por tanto la última de las pruebas realizadas fue comprobar la mejora que se podría

obtener al utilizar el corpus ampliado y las características refinadas unidas al resto de las

características utilizadas en (Marrero & González, 2013). En la Tabla 3.16 se pueden

observar los resultados obtenidos.

Tabla 3.16 Comparación de los resultados obtenidos en (Marrero & González, 2013) y el proceso

de enriquecimiento realizado.

Propuesta Precisión(%) Cobertura(%) Medida F(%)

(Marrero & González, 2013) 55.61 33.72 49.21

(Marrero et al., 2014) 66.56 75 68.09


[70]

Como se puede apreciaren la Tabla 3.16 los resultados de esta nueva versión de la

propuesta teniendo en cuenta ambas mejoras han superado considerablemente los

resultados obtenidos anteriormente.

El mismo experimento se realizó para los otros tres dominios evaluados en (Marrero et.

al., 2013) donde igualmente cada una de las variaciones por separado mejoró los

resultados obtenidos. En la Tabla 3.17 se muestran los resultados para cada uno de los

dominios probados utilizando las dos mejoras en conjunto (corpus ampliado y

características refinadas).

Tabla 3.17 Resultados del enriquecimiento realizado a la propuesta de (Marrero & González,

2013) en los dominios Ingeniería Agrícola, Medicina Veterinaria y Agronomía

Dominio Precisión(%) Cobertura(%) Medida F(%)

Ingeniería Agrícola 63.11 73.06 64.87

Medicina Veterinaria 65.46 71.38 66.56

Agronomía 66.51 74.46 67.96

En los resultados de este experimento se ha podido corroborar, en primer lugar que la

mejora propuesta es válida con independencia del dominio utilizado y en segundo lugar

que los corpus utilizados para cada dominio han influido de manera similar en los

resultados ya que la ampliación de los mismos estuvo dando en la misma tipología de

documentos lo que en cada uno de los diferentes dominios seleccionados.

Una vez obtenidos estos resultados utilizando ML, la nueva meta sería como mejorar los

resultados de cobertura y precisión obtenidos.

3.5 Híbrido de todas las propuestas anterioresEn esta sección se presenta SE-Term: Sistema de extracción de términos híbrido

independiente del dominio. Con el objetivo de mejorar los resultados en la extracción de

términos se ha decidido integrar todas las propuestas antes presentadas. Básicamente se

da diseñado esta nueva aproximación a partir de los buenos resultados obtenidos así

como de la discusión realizada para cada una de las propuestas precedentes.

La hipótesis de partida para esta nueva propuesta se basa en diferentes principios para

obtener mejores resultados de cobertura y precisión:

Utilizar ML incorporándole nuevas características destacadas por sus resultados

en el estado de la cuestión


[71]

Realizar un proceso de selección de características.

Probar diferentes clasificadores.

Incluir las estructuras que utilizan PVD para la extracción de términos (sección

3.2) (debido a que todo no puede ser expresado en forma de características).

Obtener un equilibrio entre la cantidad de términos y no-términos utilizados en el

proceso de entrenamiento.

Como toda propuesta que utilice ML se necesita primeramente un proceso de

entrenamiento y luego otro de evaluación o validación, es por ello que la arquitectura de

la propuesta se ha dividido en dos etapas, la etapa de Entrenamiento (Figura 3.7) y la

etapa de Extracción de Términos (Figura 3.8).

3.5.1 Etapa de EntrenamientoLa Figura 3.7 muestra la arquitectura propuesta para la etapa de Entrenamiento, de la

cuál a continuación se detallan cada uno de sus pasos.

A partir de un corpus seleccionado se lleva a cabo el proceso de extracción de Patrones

Básicos. La descripción del proceso de obtención de PB se encuentra en la sección 3.1.

Luego se obtiene el conjunto de términos para cada uno de estos patrones (aquí

quedarán excluidos los términos que han sido marcados por el experto pero luego los

patrones que siguen han sido desestimados debido a que su frecuencia de aparición es

menor que el umbral establecido).

A la hora de aplicar los métodos de clasificación se ha de tener en cuenta cómo están

distribuidas las instancias respecto a la clase. Al no estar balanceadas las clases, los

clasificadores estarán sesgados a predecir un porcentaje más elevado de la clase más

favorecida.

Cuando el desbalanceo es considerable descubrir regularidades inherentes a la clase

minoritaria se convierte en una tarea ardua y de poca fiabilidad.


[72]

Figura 3.7 Arquitectura de la Etapa de Entrenamiento


[73]

En estas circunstancias la mayoría de los clasificadores presentan una tendencia de

clasificación hacia la clase mayoritaria, minimizando de ésta manera el error de

clasificación y clasificando correctamente instancias de clase mayoritaria en detrimento

de instancias de clase minoritaria (Moreno et al., 2009), salvo en el caso del clasificador

bayesiano Naïves Bayes que clasifica mejor a la clase minoritaria. Se da el caso extremo

en el que un clasificador, las máquinas de soporte vectorial, clasifican correctamente a

todos los de la clase mayoritaria y a ninguno de la minoritaria.

Para evitar el desbalanceo de clases así como las consecuencias que ello acarrea se

obtienen un conjunto de no-términos a partir de los PB obtenidos (sección 3.1). Para el

proceso se toma el texto analizado morfológicamente y por cada PB se obtienen como

máximo el mismo número de términos que de no-términos. Para cada conjunto de

estructuras que se mapeen con los PB y no hayan sido anotados como términos por el

experto, se ordenan aleatoriamente y se obtienen como máximo la misma cantidad de

términos que de no-términos para cada patrón. De esta forma se estará garantizando

minimizar el desbalanceo que pueda existir entre las diferentes clases (término vs no-

término).

Para cada uno de los términos y no-términos obtenidos se le extraen un conjunto de

características.

En este caso, para cada instancia, se van a extraer las características planteadas en la

sección 3.3.1. En el caso de las características ventana de palabras por delante y por

detrás de la instancia se utilizarán las refinadas en la sección 3.4.

Además de estas características anteriormente mencionadas, se incluirán otras que se

han detectado en el estado de la cuestión actual que han ofrecido buenos resultados. Las

nuevas características incluidas son:

Estadísticas:

Frecuencia del Término - Frecuencia inversa del documento (tfidf)

Coeficiente Dice (dc)

Hibrida:

C-value (cv)

El conjunto de términos y no-términos con sus características serán almacenados en una

base de datos (PostgreSql). Una vez que se haya procesado todo el corpus y en la base


[74]

de datos se encuentren todos los términos y no-términos con sus características se

procede a generar el archivo .arff con el cual finalmente se lleva a cabo el entrenamiento

del sistema utilizando la herramienta Weka.

3.5.2 Etapa de Extracción de TérminosUna vez que el sistema haya sido entrenado se podrá proceder a la extracción de

términos a partir de un documento perteneciente a dicho dominio. En la Figura 3.8 se

muestra la arquitectura propuesta para esta etapa.

El proceso comienza cuando se carga un nuevo documento del cual se desean extraer

los términos que pertenecen a dicho dominio.

Como ejemplo supongamos que este sería el nuevo documento a procesar:

Un sistema operativo es un conjunto de programas que actúan como interface entre un

usuario de una computadora y el hardware de la misma; permitiendo la posibilidad al

usuario de la ejecución de programas.

Figura 3.8 Arquitectura de la etapa de Extracción de Términos


[75]

Al documento a procesar primeramente se le realiza un análisis morfológico utilizando la

herramienta Freeling.

Un[un]unoDI0MS0

sistema[sistema]sistemaNCMS000

operativo[operatibo]operativoAQ0MS0

es[es]serVSIP3S0

un[un]unoDI0MS0

conjunto[konxunto]conjuntoNCMS000

de[de]

de

SPS00

programas[programas]

programa

NCMP000

que[ke]quePR0CN000

actúan[aktuan]actuarVMIP3P0

como[komo]comoCS

interface[interfaTe]interfaceNCMS000

entre[entre]entreSPS00

un[un]unoDI0MS0

usuario[usuarjo]usuarioNCMS000

de[de]deSPS00

una[una]unoDI0FS0

computadora[komputadora]computadorNCFS000

y[j]yCC

el[el]elDA0MS0

hardware[xardwar]hardwareNCMS000

de[de]deSPS00

la[la]elDA0FS0

misma[misma]mismoAQ0FS0

;[;];Fx

permitiendo[permitjendo]permitirVMG0000

la[la]elDA0FS0

posibilidad[posibilidad]posibilidadNCFS000

a[a]aSPS00

el[el]elDA0MS0

usuario[usuarjo]usuarioNCMS000

de[de]deSPS00

la[la]elDA0FS0

ejecución[exekuTjon]ejecuciónNCFS000

de[de]deSPS00

programas[programas]programaNCMP000

.[.].Fp

Una vez analizado morfológicamente el documento se mapea con las estructuras

definidas que utilizan los Patrones Verbales Definitorios y todos los términos que se

obtengan se incluirán posteriormente en el listado final de términos a devolver, esto se

realiza partiendo de la idea planteada en (Cabré, 2002) cuando afirma que el

conocimiento especializado producido en un campo se consolida a través del discurso

entre los especialistas del campo en cuestión y que sus conceptos se establecen en el

discurso ... a través de obras de fijación del sentido de los términos, por consenso -

también explícito o implícito - de la comunidad experta en el tema, parece evidente que lo

que da carácter especializado a un texto es este control, y no el tema en sí mismo, por lo

que hemos considerado que los términos definidos en un texto especializado van a

formar parte de la terminología que caracteriza dicho documento.


[76]

Seguidamente se mapea el documento analizado morfológicamente con los PB

obtenidos para ese dominio (sección 3.1) y todas las estructuras sintácticas que

coincidan con dichos patrones se extraen para formar el listado de términos candidatos.

(Tabla 3.18)

Suponiendo que los PB obtenidos en el proceso de entrenamiento hayan sido N

(sustantivo), NPN sustantivo + preposición + sustantivo) y NA (sustantivo + adjetivo)

Tabla 3.18 Términos candidatos obtenidos a partir de los PB

Términos candidatos Patrón

sistema N

sistema operativo NA

conjunto N

conjunto de programas NPN

interfaz N

usuario N

computadora N

hardware N

posibilidad N

usuario N

ejecución N

ejecución de programas NPN

programas N

En la Tabla 3.18 se puede observar, por ejemplo, que el término usuario se encuentra

repetido en más de una ocasión dentro de los términos candidatos, esto se ha tenido en

cuenta puesto que como a este listado de términos candidatos se le extraerán un

conjunto de características y luego serán validados para saber si pertenecen o no al

dominio, es posible que un mismo término utilizado en el texto en varios momentos, en

algún(nos) caso(s) pueda ser considerado un término de dominio y en otro(s) caso(s) no.

Esto se podría determinar a través de las características que posea el término en cada

momento utilizado en el corpus. En el listado final de términos solo aparecería una vez en

caso que el mismo término en varias ocasiones pueda ser considerado un término.

Ejemplo de instancias que puedan ser consideradas o no como términos en un

determinando momentos se tienen:


[77]

(I) Por su anatomía genérica el ratón es comúnmente usado en laboratorios como

sujetos de estudio

(II) desplazar el cursor del ratón hasta el punto elegido y hacer clic

A partir de los ejemplos (I) y (II) se puede apreciar que el término ratón en dependencia

del contexto en el que se encuentre podrá ser considerado como término de un dominio u

otro.

A cada uno de los candidatos a términos se le extraen el mismo conjunto de

características con las cuales fue entrenada la herramienta. En la Tabla 3.19 se muestra

un conjunto de términos candidatos con algunas de las características obtenidas para

cada uno respectivamente.

Tabla 3.19 Conjunto de términos candidatos con algunas de sus características

Términoscandidatos

Patrón Fatc Faptc Pansw Ppnsw ...

sistema N 1 10 - operativo ...

sistema

operativo

NA 1 1 - es ...

conjunto N 1 10 es programas ...

conjunto de

programas

NPN 1 2 es actúan ...

interface N 1 10 actúan usuario ...

usuario N 2 10 interface computadora ...

computadora N 1 10 usuario hardware ...

hardware N 1 10 computadora permitiendo ...

posibilidad N 1 10 permitiendo usuario ...

usuario N 2 10 posibilidad ejecución ...

ejecución N 1 10 usuario programas ...

ejecución de

programas

NPN 1 2 usuario - ...

programas N 1 10 ejecución - ...

El conjunto de términos candidatos y sus características se valida a través de la

herramienta de Aprendizaje Automático (Weka).

Hasta este momento por una parte se tiene un listado de términos que se obtuvo como

salida del proceso de Aprendizaje Automático y por otra parte un conjunto de términos


[78]

obtenidos a partir del mapeo con las estructuras que utilizan los PVD, ambos conjunto se

fusionan, sin repetir en caso de coincidencia, y ese será el listado final de términos que

ofrece como salida el sistema.

3.5.3 Evaluación y discusión de los resultadosPara un primer proceso de evaluación de los resultados se utilizó el corpus

correspondiente al dominio de la Informática (sección 3.4.1.1).

A partir del corpus utilizado se han obtenido y almacenado en la base de datos todos los

términos etiquetados y los no-términos obtenidos con su correspondiente conjunto de

características. Para el procesamiento de los datos almacenados en la base de

conocimiento se ha generado el fichero términos.arff. En la Figura 3.9 se muestra un

fragmento del fichero términos.arff donde se puede apreciar el conjunto de características

obtenidas para cada uno de los términos y no-términos así como algunas instancias con

sus correspondientes valores. Se ha adicionado un atributo llamado término de tipo

nominal el cual identificará la clase a la que pertenece la instancia, en este caso sus

posibles valores son { , }, si cuando es un término y no cuando es un no-término.

Figura 3.9 Fragmento del archivo términos.arff


[79]

Es válido aclarar que aunque Weka permite importar los datos directamente desde la

base de datos (Anexo 3), se ha generado el fichero términos.arff para realizar todas las

pruebas utilizando la GUI de Weka y una vez obtenido el algoritmo y las características

que ofrecen mejores resultados, se procederá a trabajar directamente con el API de

Weka (Anexo 3) para el proceso de evaluación.

El fichero términos.arff cuenta con 3576 instancias de las cuales se anotaron 1788 como

términos y 1788 como no-términos. Tanto dentro del conjunto de términos como del

conjunto de no-términos hay anotados 304 instancias del patrón (sustantivo), 894 del

patrón (sustantivo + adjetivo) y 590 del patrón (sustantivo + preposición + sustantivo).

Como se puede observar en la Figura 3.9 el fichero nombrado términos cuenta, además

de la clase, con los 16 atributos de diferentes tipos (string, numéricos y nominales) de

acuerdo a la estructura definida para los archivos arff (sección 4.1.1). Este fichero será

utilizado para procesar, utilizando el visualizador de Weka, el conjunto de términos

anotados y definir tanto el conjunto de características más representativas como el

método de clasificación que ofrezca mejores resultados.

3.5.3.1 Evaluación de la etapa de Entrenamiento.El objetivo de este proceso de evaluación es tratar dos puntos importantes planteadas en

la hipótesis en la que se basa esta propuesta, primero realizar un proceso de selección

de características y segundo probar diferentes algoritmos de clasificación para comparar

los resultados.

Para ello se realizaron dos experimentos:

1. Proceso de clasificación utilizando todo el conjunto de características.

2. Proceso de clasificación utilizando las características seleccionadas.

En ambos experimentos para la evaluación de los clasificadores (Anexo 3) en todos los

casos se utilizó la variante de n-fold-cross validation con su valor por defecto en Weka= 10.En el primer experimento se realizó el proceso de clasificación utilizando todo el conjunto

de características, los resultados de los clasificadores probados se muestran en la Tabla

3.20.


[80]

Tabla 3.20 Resultados de los diferentes clasificadores utilizando todas las características

Clasificadores Precisión(%) Cobertura(%) Medida F(%)Bayesianos Naive Bayes 71.97 76.07 72.75

Meta Stacking 74.95 80.15 75.93

Reglas OneR 70.07 74.43 70.90

Árboles dedecisión

J48 73.16 77.54 73.99

Como se puede observar en la tabla anterior los resultados obtenidos por los diferentes

clasificadores no tienen mucha variación, es decir, su comportamiento es bastante

similar, no obstante los mejores resultados se obtuvieron al utilizar el meta clasificador

Stacking obteniendo unos valores de precisión de 74.95%, 80.15% de cobertura y

75.93% de medida F. Como se plantea en el Anexo 3, Stacking es un meta clasificador

que se basa en la combinación de modelos, construyendo un conjunto con los generados

por diferentes algoritmos de aprendizaje, en este caso se ha definido trabajar con los

clasificadores Naïves Bayes, OneR y J48 por estar entre los clasificadores más utilizados

y ser los que se han probado independientemente.

3.5.3.2 Proceso de selección de características

Realizar selección de atributos o características es una técnica muy usada desde los

años 1970 con el objetivo de eliminar datos redundantes, irrelevantes y ruidosos. Esta

técnica es utilizada en diferentes aplicaciones tales como el reconocimiento de patrones,

la minería de datos y el Aprendizaje Automático. (Vargas, 2012)

Es un hecho que el comportamiento de los clasificadores mejora cuando se eliminan los

atributos no relevantes y redundantes. En la selección de características se intenta

escoger el subconjunto mínimo de atributos de acuerdo con dos criterios: que la tasa de

aciertos no descienda significativamente; y que la distribución de clase resultante, sea lo

más semejante posible a la distribución de clase original, dados todos los atributos. En

general, la aplicación de la selección de características ayuda en todas las fases del

proceso de minería de datos para el descubrimiento de conocimiento. (Ruiz et al., 2015)

Por su parte (Vargas, 2002) plantea que de la calidad de los datos dependerá el éxito de

los algoritmos, pues muchas veces los datos presentan problemas debido a que

contienen información irrelevante y ruidosa lo que hace el proceso lento debido al exceso

de información poco significativa. Plantea además que el proceso de selección manual de

los datos requiere de un profundo conocimiento del problema y de los atributos.


[81]

Entre los beneficios de realizar proceso de selección de características reportados por

(Vargas, 2002) se plantean: mejora el desempeño predictivo, reduce el tiempo del

entrenamiento/proceso, reduce las necesidades de almacenamiento y mejora la

visualización y comprensión de los datos.

Figura 3.9 Pasos para la selección de atributos.

En la Figura 3.9 se presentan los cuatros pasos a seguir para la selección de atributos

según (Vargas, 2002).

El primer paso sería a partir del conjunto original la generación de los sub-conjuntos de

atributos. Cada estado en el espacio define un sub-conjunto candidato. Para esto la

búsqueda podría ser exhaustiva (impráctica), búsqueda greedy haciendo un cambio en

cada estado (agregando o eliminando un atributo) o siguiendo otros esquemas tales

como Best First, Beam Search entre otros.

En el segundo paso se realiza la evaluación de los subconjuntos. Cada candidato es

evaluado y comparado con el mejor de acuerdo a cierto criterio de evaluación (Filtros o

Envolturas (Wrappers)).

Los Filtros son independientes del algoritmo y tienen en cuenta las características

de los datos.

o Rankeo (ordenan la lista de atributos teniendo en cuenta su peso)

o Sub-conjuntos (muestra el mejor sub-conjunto de características teniendo

en cuenta medidas de consistencia y correlación entre ellas)

Los Wrappers son dependientes del algoritmo, se usa la evaluación del algoritmo

de aprendizaje y tienen un costo computacional alto.

El tercer paso es establecer un criterio de paro. Su objetivo es determinar cuando el

proceso debe parar. Se puede establecer siguiendo varios criterios como son: parar

cuando no haya mejora al agregar o eliminar un atributo, estableciendo un límite de

número de atributos y/o iteraciones, se selecciona un sub-conjunto bueno o cuando se

haya realizado la búsqueda completa.


[82]

El cuarto y último paso sería la validación de los resultados.

En la Tabla 3.21 se pueden observar los subconjuntos de atributos obtenidos por Weka

utilizando el método de evaluación CfsSubsetEval y diferentes métodos de búsqueda.

Cabe destacar que los subconjuntos obtenidos no son iguales pero tienen una gran

similitud, en concreto en la última fila de la tabla se incluyen los atributos seleccionados

por todos los métodos de búsqueda.

Tabla 3.21 Atributos seleccionados por los diferentes métodos de búsqueda.

Método de Búsqueda Nº de Atributos Atributos

Best first 11 Tf-idf, Fatc, Ptc, Faptc, Lptc, Nsp, Im Imc,

Lg, Cv, Dc

SubsetSizeForwardSelection 8 Tf-idf, Fatc, Ptc, Faptc, Nsp, Imc, Cv, Dc

GeneticSearch 12 Tf-idf, Fatc, Ptc, Faptc, Nsp, Im, Imc, Cv,

Lg, Dc, Pansw, Ppnsw

GreedyStepwise 11 Tf-idf, Fatc, Rfatc, Ptc, Faptc, Rfaptc,

Nsp, Im, Imc, Cv, Dc

LinearForwardSelection 14 Tf-idf, Fatc, Rfatc, Ptc, Lptc, Faptc,

Rfaptc, Nsp, Im, Imc, Cv, Dc, Vpdl, Vpdt

RankSearch 13 Tf-idf, Fatc, Rfatc, Ptc, Lptc, Faptc,

Rfaptc, Nsp, Im, Imc, Lg, Cv, Dc

ScatterSearchV1 12 Tf-idf, Fatc, Ptc, Lptc, Faptc, Nsp, Imc,

Lg, Cv, Dc, Pansw, Ppnsw

RandomSearch 11 Tf-idf, Fatc, Rfatc, Ptc, Faptc, Rfaptc,

Nsp, Im, Imc, Cv, Dc

Atributos presentes entodos los subconjuntos

8 Tf-idf, Fatc, Ptc, Faptc, Nsp, Imc, Cv,Dc

Para el proceso de selección de características el mejor resultado se logró al aplicar el

método de búsqueda SubsetSizeForwardSelection donde de las 16 características

propuestas, las 8 seleccionadas por este método fueron las que se repitieron en los

diferentes métodos para ese conjunto de datos.

En la Tabla 3.22 se muestran las características ordenados según su frecuencia de

aparición en los diferentes métodos aplicados.

Es interesante observar como dentro de las 8 características seleccionadas por los

diferentes métodos de búsquedas se encuentran tanto características lingüísticas (nsp,

ptc) como estadísticas (tf-idf, fatc, faptc, dc, imc) e híbridas (c-value).


[83]

Tabla 3.22 Atributos de mayor influencia ordenados según la frecuencia con que se seleccionaron.

Caracteríticas Frecuencia

Tf-idf, Fatc, Ptc, Faptc, Nsp, Imc,

Cv, Dc

8

Lg 7

Im 6

rfatc 4

Pansw, Ppnsw 2

Vpdl, Vpdt 1

Lptc 0

Una vez finalizado el proceso de selección de características se procedió al proceso de

extracción de términos.

A partir de estos resultados se realizó el mismo proceso de clasificación pero solamente

utilizando las características seleccionadas como más representativas (Tabla 3.21).

Seguidamente en la Tabla 3.23 se muestran los resultados para cada uno de los

clasificadores utilizados.

Tabla 3.23 Resultados de los diferentes clasificadores utilizando las características seleccionadas

Clasificadores Precisión(%) Cobertura(%) Medida F(%)Bayesianos Naive Bayes 82.56 86.44 83.30

Meta Stacking 87.56 90.36 88.14

Reglas OneR 82.01 80.46 81.69

Árboles dedecisión

J48 85.18 84.78 85.09

Al igual que en el experimento anterior (Tabla 3.20), los resultados obtenidos por los

diferentes clasificadores no tienen gran diferencia entre ellos y nuevamente resultó el

meta clasificador Stacking como el que proporcionó mejores resultados con unos valores

de cobertura de un 90.36%, una precisión de 87.56% y un 88.14% de medida F.

En la Tabla 3.24 se muestra una comparación entre los diferentes resultados obtenidos

utilizando todas las características y los resultados obtenidos utilizando el subconjunto de

características seleccionadas.


[84]

Tabla 3.24 Resultados obtenidos utilizando todo el conjunto de características y utilizando las

características seleccionadas

Experimento Precisión(%) Cobertura(%) Medida F(%)

Utilizando todas las

características

74.95 80.15 75.93

Caracteríticas seleccionadas 87.56 90.36 88.14

Resulta evidente que los resultados utilizando las características seleccionadas superan

los resultados obtenidos utilizando todo el conjunto de características por cada uno de los

clasificadores (Tabla 3.20 y 3.23), la mejora estuvo dada en un incremento en la precisión

por un 12.61%, en la cobertura un 10.21% y el valor de la medida F fue mejorado en un

12.21%, demostrando la efectividad del proceso de selección de características.

A partir del sub conjunto de características (Tf-idf, Fatc, Ptc, Faptc, Nsp, Imc, Cv, Dc) y

del meta clasificador seleccionado (Stacking) utilizando el corpus de entrenamiento se

generó el fichero modeloInf.out. Este fichero almacena el modelo de clasificación

obtenido para el conjunto de entrenamiento y luego podrá ser utilizado para ser

visualizado o para la predicción de la clase a partir de nuevos candidatos.

3.5.3.3 Evaluación de la etapa de Extracción deTérminosPara probar el funcionamiento de la propuesta se han utilizado 5 documentos del dominio

de la Informática que no formaron parte del corpus de entrenamiento. Estos documentos

primeramente fueron revisados por expertos para extraer los términos del dominio y

poder comparar con los resultados arrojados por el clasificador. En la Tabla 3.25 se

muestran algunas características de dichos documentos.

Tabla 3.25 Caracterización de los documentos de prueba utilizados

Documento NP NTD

1 1425 472 1754 603 1198 234 2312 655 1417 55

Donde:

NP: Número de palabras en el documento

NTD: número de términos de dominio


[85]

Para cada uno de los documentos se le realizó el análisis morfológico, se mapearon con

los PB obtenidos para el dominio de la Informática (sección 3.1) y a todas las estructuras

que coincidieron con los PB, denominadas términos candidatos, se le extrajeron las

características seleccionadas. A partir del conjunto de TC y sus características se

obtuvieron los correspondientes ficheros .arff (document1.arff, documen2.arff,...,

document5.arff), luego se validaron a través de la herramienta Weka utilizando la opción

Supplied test set, cargando el fichero modeloInf.out generado por el clasificador en la

etapa de Entrenamiento.

Los resultados obtenidos para cada uno de estos documentos son mostrados en la Tabla

3.26.

Tabla 3.26 Resultados obtenidos del procesamiento de los nuevos documentos

Doc. No. NTD VP FP P(%) C(%) MF(%)

1 47 45 7 86.53 93.75 87,88

2 60 56 6 90.32 94.91 92.11

3 23 20 4 83.33 90.90 84.74

4 65 60 5 92.30 93.75 92.58

5 55 53 9 85.48 89.83 86.31

Media 87.59 92.62 88.72

Donde:

NTD: número de términos de dominio

VP: Verdaderos Positivos (términos que han sido reconocidos como tal por el sistema)

FP: Falsos Positivos(no-términos que el sistema los ha reconocido como términos)

P, C y MF: Precisión, cobertura y medida F

Como se puede apreciar en la tabla anterior los resultados para cada uno de los

documentos no presentan gran variación entre ellos y los valores de la media de

precisión, cobertura y medida F son similares a los valores obtenidos en la etapa de

Entrenamiento (Tabla 3.23). En la Tabla 3.27 se muestran los mejores resultados en

ambas etapas (Entrenamiento y Extracción de Términos).

Tabla 3.27 Resultados obtenidos en las etapas de Entrenamiento y Extracción de Términos

Etapa Precisión(%) Cobertura(%) Medida F(%)Entrenamiento 87.56 90.36 88.14

Extracción de Términos 87.59 92.62 88.72


[86]

Finalmente se obtuvo el listado de términos para cada uno de los documentos

procesados.

Hasta este momento se han obtenido un primer listado de términos como resultado del

proceso de Aprendizaje Automático utilizando las características seleccionadas.

Finalmente se incluirán al listado de términos obtenidos en el proceso de Aprendizaje

Automático los términos que se han extraído a partir de las estructuras que utilizan los

PVD y se realizará una valoración de los resultados.

3.5.3.4 Incluyendo los PVDA partir de las estructuras definidas que utilizan los PVD para la extracción de términos,

se han mapeado cada uno de los documentos procesados. A continuación se muestran

los términos obtenidos para el documento #1, se han marcado en verde los PVD, en rojo

los términos identificados, y en azul la definición de los mismos.

un algoritmo es un conjunto ordenado y finito de operaciones que permite hallar lasolución de un problema

se define como árbol binario a una estructura de datos en la cual cada nodosiempre tiene un hijo izquierdo y un hijo derecho.

Raíz: se concibe al nodo que constituye la única entrada a la estructura del árbol.

Para este caso los términos árbol binario y raíz ya se encontraban incluidos en el listado

final de términos, no siendo así con el término algoritmo, por lo que se incluyó en el

listado final ofrecido.

Se realizó el mismo proceso para cada uno de los restantes documentos y se obtuvieron

los términos según los las estructuras definidas que utilizan los PDV, se incluyeron en el

listado final aquellos que no se habían extraídos anteriormente utilizando Aprendizaje

Automático.

En la Tabla 3.28 se muestra el número de términos que han sido incluidos en cada listado

final según el documento y los nuevos valores de cobertura, precisión y medida F

obtenidos.


[87]

Tabla 3.28 Resultados obtenido al incluir los términos obtenidos con los PVD al listado de términos

extraídos utilizando Aprendizaje Automático

Doc. No. NTD TCE-(ML)

TCE-(ML+PVD)

P(%) C(%) MF(%)

1 47 45 47 88.46 95.83 89.84

2 60 56 58 93.54 98.30 94.45

3 23 20 20 83.33 90.90 84.74

4 65 60 62 95.38 98.41 95.97

5 55 53 54 87.09 91.52 87.94

Media 89.56 94.99 90.58

Donde:

NTD: Número de términos de dominio.

TCE (ML): Términos correctamente extraídos utilizando Aprendizaje Automático.

TCE (ML+PVD): Términos correctamente extraídos utilizando Aprendizaje Automático

más PVD.

P,C,MF: Precisión, cobertura y medida F.

Es evidente que la inclusión de los términos obtenidos mediante las estructuras definidas

que utilizan los PVD han mejorado los resultados, solamente en uno de los cinco

documentos procesados no tuvieron influencia en los resultados debido a que los

términos obtenidos mediante los PVD ya se encontraban incluidos en el listado de

términos previamente obtenido con el Aprendizaje Automático.

Para observar realmente la diferencia entre ambos resultados en la Tabla 3.29 se

muestran los valores de cobertura, precisión y medida F obtenido en ambos casos.

Tabla 3.29 Comparación entre los resultados obtenidos por las diferentes aproximaciones para el

dominio de la Informática

Precisión(%) Cobertura(%) Medida F(%)

ML 87.59 92.62 88.72

ML+PVD 89.56 94.99 90.58

Con el objetivo de comprobar los resultados obtenidos en otros dominios a partir de los

corpus seleccionado para los dominios Ingeniería Agrícola, Medicina Veterinaria y

Agronomía, se realizo todo el procesamiento utilizando el mismo conjunto de

características y el meta clasificador Stacking. Luego se almacenaron cada uno de los


[88]

ficheros con los modelos de clasificación obtenidos para el conjunto de entrenamiento

utilizado en cada dominio (modeloIngAgr.out, modeloMedVet.out, modeloAgron.out)respectivamente.

Luego se seleccionaron 5 documentos para cada uno de estos dominios (Ingeniería

Agrícola, Medicina Veterinaria y Agronomía) a los cuales se les realizó el mismo proceso

que para el dominio de la Informática (sección 3.5.3.3). En la Tabla 3.30 se muestran los

resultados de la media obtenidos para cada uno de los dominios evaluados.

Tabla 3.30 Media obtenida para los diferentes documentos evaluados por cada dominio

Dominio Precisión(%) Cobertura(%) Medida F(%)IngenieríaAgrícola

87.44 93.17 88.52

MedicinaVeterinaria

90.18 94.76 91.06

Agronomía 86.43 92.44 87.56

Como se puede observar los resultados obtenidos por los diferentes dominios presentan

muy poca diferencia entre ellos, lo que permite plantear que la metodología puede ser

utilizada indistintamente para diferentes dominios.

Esta aproximación, de forma general, para los cuatro dominios evaluados ha obtenido

una media de 88.40% de precisión, 93.84% de cobertura y 89.43% de medida F.

3.6 Comparación entre las diferentes propuestaspresentadasEn la Tabla 3.31 se muestran, en resumen, los resultados obtenidos para cada una de las

propuestas presentadas en los diferentes dominios evaluados. A partir del análisis

realizado para cada una de las aproximaciones ha permitido crear una nueva hipótesis de

partida trayendo consigo una mejora paulatina de los resultados obtenidos por cada una

de las propuestas. Los resultados obtenidos para los diferentes dominios con cada

aproximación han demostrado que la propuesta es fácilmente adaptable a otros dominios.


[89]

Tabla 3.31 Resultados obtenidos por las diferentes propuestas presentadas.

Aproximación Núcleo Mejora ResultadosDominio P(%) C(%) MF(%)

PB PB

Baseline

Informática 38.23 97.43 43.51

Ingeniería

Agrícola

36.34 96.32 67.83

Medicina

Veterinaria

39.65 98.24 68.94

Agronomía 35.08 96.45 66.94

PVD PVD Se mejoró la

cobertura

Informática 98.35 18.23 52.34

Ingeniería

Agrícola

97.47 20.18 55.19

Medicina

Veterinaria

98.06 19.56 54.39

Agronomía 96.43 17.18 50.15

ML ML y PB Se logró un

equilibrio

Precisión-

Cobertura

Informática 55.61 33.72 49.21

Ingeniería

Agrícola

52.16 32.78 46.64

Medicina

Veterinaria

53.21 31.10 46.58

Agronomía 54.56 33.18 48.33

ML enriquecido ML y PB Se

mejoraron

los

resultados

Informática 66.56 75 68.09

Ingeniería

Agrícola

63.11 73.06 64.87

Medicina

Veterinaria

65.46 71.38 66.56

Agronomía 66.51 74.46 67.96

Híbrido ML, PB

y PVD

Se

mejoraron

los

resultados

Informática 89.56 94.99 90.58

Ingeniería

Agrícola

87.44 93.17 88.52

Medicina

Veterinaria

90.18 94.76 91.06

Agronomía 86.43 92.44 87.56


[90]

3.7 ConclusionesUna vez concluidas las evaluaciones realizadas en las diferentes aproximaciones se

puede concluir que:

Se ha podido corroborar lo planteado en el estado de la cuestión que los sistemas

híbridos son los que obtienen mejores resultados al utilizar las ventajas que

poseen tanto las aproximaciones lingüísticas, estadísticas como híbridas en una

sola propuesta.

La utilización de Aprendizaje Automático ha permitido probar diferentes algoritmos

de clasificación y finalmente obtener el que mejor se adapte a las características

del corpus utilizado.

El proceso de selección de características ha permitido mejorar los resultados

tratando de esta forma uno de los principales problemas actuales de la extracción

de terminología planteado por (Conrado el at. 2013), que es el problema de la alta

dimensionalidad de los datos.

El corpus utilizado influye en los resultados obtenidos.

El aplicar en conjunto características de diferentes niveles (lingüísticas,

estadísticas e híbridas) destacadas en el estado de la cuestión ha permitido

mejorar los resultados obtenidos.

Que no solo en forma de características se pueden obtener términos de dominios,

sino que, por ejemplo, utilizando estructuras que permitan identificar los términos

definidos en los documentos especializados mediante los PVD se pueden obtener

términos de dominio y mejorar los resultados devueltos por otras aproximación

como en este caso el Aprendizaje Automático.

Evaluación del proceso de extracción de palabras clave

[91]

4. Evaluación del proceso de

extracción de palabras clave

En este capítulo se realizará una evaluación al proceso de extracción de términos

analizando su aplicación en la obtención de palabras clave a partir de un conjunto de

documentos digitales almacenados en la Biblioteca General de la UNAH en los dominios

Informática, Ingeniería Agrícola, Medicina Veterinaria y Agronomía. Los documentos

digitales utilizados son publicaciones realizadas por diferentes profesores e

investigadores de las carreras Ingeniería Informática, Ingeniería Agrícola, Medicina

Veterinaria y Agronomía.

A continuación se realizará una caracterización de los documentos utilizados para esta

evaluación (sección 4.1), seguidamente se presenta una descripción del proceso de

evaluación realizado (sección 4.2) así como una valoración y análisis de los resultados

obtenidos (sección 4.3). Finalmente en la sección 4.4 se muestran las principales

conclusiones abordadas.

4.1 Caracterización de los documentos utilizadosCon el objetivo de comprobar en qué medida el sistema propuesto era capaz de extraer

las palabras clave de un documento dado se ha realizado este experimento, el cual a

partir de un conjunto de documentos de cada uno de los dominios seleccionados con sus

correspondientes conjuntos de palabras clave, valida si el sistema propuesto obtiene,

dentro del listado de términos que ofrece como salida para cada documento, esas

palabras clave. Para esta evaluación se ha seleccionado aleatoriamente un conjunto de

documentos para cada uno de estos dominios de la Biblioteca General de la UNAH.

En el caso del dominio de la Informática, los documentos seleccionados son

publicaciones científicas y trabajos de diplomas, donde las palabras clave utilizadas, son

las que los propios autores de estos materiales han definido para cada uno de ellos. De

igual forma, en el caso del dominio de la Ingeniería Agrícola, los documentos

seleccionados son todos publicaciones científicas, por lo que las palabras clave utilizadas

han sido las definidas por los propios autores de cada publicación.


[92]

En el caso del dominio de Medicina Veterinaria dos de los documentos seleccionados son

publicaciones científicas, donde las palabras clave utilizadas han sido las definidas por

los propios autores, los otros tres materiales seleccionados son dos libros de texto y un

folleto docente, en el caso de estos tres materiales las palabras clave utilizadas fueron las

obtenidas manualmente por el bibliotecario en el momento que dichos materiales

ingresaron en la biblioteca. En el caso de los documentos seleccionados del dominio de

Agronomía todos corresponden a publicaciones científicas por lo que las palabras clave

utilizadas fueron las definidas por sus respectivos autores.

En la Tablas 4.1, 4.2, 4.3 y 4.4 se presenta una descripción de los diferentes documentos

seleccionados para el experimento en los dominios Informática, Ingeniería Agrícola,

Medicina Veterinaria y Agronomía respectivamente.

Tabla 4.1 Documentos utilizados para la evaluación del dominio de la Informática.

No. Título Tipo dedocumento

Palabras clave

1 Objetos de Aprendizaje

(OA)

Artículo científico Objeto de aprendizaje,

metadatos, recurso digital,

contenidos educacionales,

aprendizaje electrónico,

granularidad, Web

Semántica.

2 Estrategias de

Aprendizaje (EA)

Artículo científico estrategias de

aprendizaje, enseñanza-

aprendizaje, metadatos,

paquetes de contenidos

3 Propuesta de una

metodología para

evaluar la calidad de

objetos de aprendizaje.

Artículo científico objetos de aprendizaje,

ontologías, calidad,

parámetros de evaluación.

4 Módulo gestión de

seguridad y salud en el

trabajo para el sistema

de información gerencial

del Censa

Trabajo de

Diploma

sistema de información,

seguridad, gestión de

procesos.

5 Sistema de extracción de

términos en el dominio

de la informática.

Trabajo de

Diploma

biblioteca digital,

extracción de información,

extracción de términos


[93]

Tabla 4.2 Documentos utilizados para la evaluación del dominio Ingeniería Agrícola


Palabras clave

6 Calidad de la labor de tres

aperos de labranza primaria

en suelos arcillosos

pesados con superficies

acanteradas y cobertura de

residuos vegetales

Artículo científico escarificador, estabilidad,

desterronamiento.

7 Influencia de la preparación

de caña de azúcar a moler

en la producción de azúcar

en el Complejo

Agroindustrial Azucarero

“Manuel Fajardo”

Artículo científico índice de preparación,

caña de azúcar, pérdidas

de azúcar.

8 Aplicación de las series

temporales para predecir

las propiedades de calidad

de la piña (Ananas

Comosus.), variedad

Cayena Lisa, durante el

proceso de maduración a

temperatura ambiente con

respecto al tiempo real

Artículo científico series temporales,

predicción, calidad de

frutos, propiedades

9 Películas y recubrimientos

comestibles: una alternativa

favorable en la

conservación pos-cosecha

de frutas y hortalizas

Artículo científico cubiertas comestibles,

preservación de frutas,

hortalizas

10 Análisis comparativo de la

cinética de deshidratación

Osmótica y por Flujo de

Aire Caliente de la Piña

Artículo científico procesos de

deshidratación, piña,

propiedades físico-

mecánicas


[94]

Tabla 4.3 Documentos utilizados para la evaluación del dominio Medicina Veterinaria


Palabras clave

11 La transformación de los

ecosistemas de pastos en

Cuba. Situación actual y

perspectivas.

Artículo científico pastos, forrajes,

suplementos proteicos,

materia seca,

gramíneas,

leguminosas

12 Encefalomiocarditis Viral

(EMCV) en la colección de

primates no humanos del

Parque Zoológico Nacional

de Cuba

Artículo científico encefalomiocarditis,

primates,

seroprevalencia, viral,

zoológico

13 Agentes Biológicos e

Inmunología Veterinaria

Libro diagnóstico, monitoreo,

microbiología,

bacterias, agentes

biológicos

14 Anatomía Patológica

Veterinaria

Libro parasitología, patología,

anatomía,

degeneración,

hiperemia, inflamación

15 Folleto de Anatomía

Topográfica. Regiones del

cuello

Folleto docente inervación cutánea,

yugular, parotídea,

irrigación, larigea,

escápula,

braquiocefálica.

Tabla 4.4 Documentos utilizados para la evaluación del dominio Agronomía


Palabras clave

16 Distribución de p-foliar asociado

a diferentes moléculas

orgánicas en plantas de maíz

(zea mays. Var: p-7928)

tratadas con sustancias

Artículo científico sustancias húmicas,

fósforo, familias

químicas


[95]

húmicas líquidas por vía

radicular y foliar.

17 Influencia de la siembra directa

y las aplicaciones foliares de

extracto líquido de

Vermicompost en el crecimiento

y rendimiento del frijol

Artículo científico frijol, vermicompost,

masa seca, superficie

foliar, altura, índices de

crecimiento.

18 Resultados obtenidos en la

producción de vegetales con

dos extractos húmicos líquidos

en el departamento de química

de la universidad agraria de la

habana. Impacto sobre

propiedades físicas y químicas

del suelo.

Artículo científico humus líquido,

vegetales, impacto

ambiental

19 Efecto del vermicompost sólido

y líquido, en la nutrición del

cultivo del frijol (phaseolus

vulgary. L), en la CPA, “La Cuba

Nueva” de Cabaiguán.

Artículo científico frijol, humus de lombriz,

nutrición del cultivo.

20 Ácidos húmicos de suelos

ferralíticos bajo diferentes usos

Modifican la actividad

enzimática en daucus carota.

Artículo científico suelos ferralíticos,

ácidos húmicos,

actividad biológica

21 Estimulación de la productividad

biológica, agrícola y control de

plagas en el cultivo de la col

(Brassica Oleracea L.) por

aplicación foliar de humus

líquido.

Artículo científico hortaliza, humus

líquido, plagas,

producción agrícola

A partir de los documentos seleccionados para cada uno de los dominios se realizará el

proceso de extracción de términos, donde para cada documento, la lista de términos

obtenida se comparará con el listado de palabras clave. A continuación se describe el

proceso realizado.


[96]

4.2 Descripción del proceso de evaluaciónPara el proceso de evaluación se utilizó la herramienta propuesta SE-Term (sección 3.5),

la cual a partir de cada uno de los documentos seleccionados obtuvo un conjunto de

términos. Una vez obtenido el listado de términos, para cada uno de los documentos, se

lleva a cabo un proceso automático de lematización de las palabras clave las cuales se

comparan con el listado de términos ofrecidos por la herramienta, sin tener en cuenta, en

este caso, ni el orden en que aparecen las palabras clave en la lista de términos ni el

lugar en que aparezcan en dicho listado, es decir, sólo se ha comprobado que las

palabras clave se encuentren dentro del listado de términos ofrecidos por SHET-ID.

En la Tabla 4.5 se muestran algunos ejemplos de los resultados obtenidos para los

diferentes dominios evaluados, donde se presenta el número del documento, el dominio

al que pertenece, las palabras clave definidas, así como un subconjunto de los términos

extraídos por la herramienta SE-Term para cada uno de estos documento.

Tabla 4.5 Resultados obtenidos en el proceso de extracción de palabras clave

Doc.No.

Dominio Palabras clave Sub-conjunto de términos extraídos

1 Informática objeto de

aprendizaje,

metadatos, recurso

digital, aprendizaje

electrónico,

granularidad, web

semántica.

metadato, web semántica, recurso de

aprendizaje, objeto de aprendizaje,

contenido digital, nivel de granularidad,

granularidad, tecnología educativa,

tecnología, recurso digital, multimedia,

aprendizaje electrónico, contenido

multimedia, software, sitio web, Java, código

abierto, atributo

6 Ingeniería

Agrícola

escarificador,

estabilidad,

desterronamiento.

labranza primaria, escarificador, suelo

arcilloso, superficie acanterada, acanterada,

estabilidad, residuo vegetal, escarificador

combinado, escarificador, desterronamiento,

cobertura de residuo, arado de disco,

terrón, producción de caña, caña, tierra

12 Medicina

Veterinaria

encefalomiocarditis,

primates,

seroprevalencia,

viral, zoológico

encefalomiocarditis, especie, animal,

primate, prueba biológica, enfermedad,

seroprevalencia, diagnóstico serológico, nivel

de anticuerpo, viral, virus, seroneutralización,

zoológico


[97]

20 Agronomía suelos ferralíticos,

ácidos húmicos,

actividad biológica

plantas de zanahoria, enzima, suelo, suelo

ferralítico, laboreo mínimo, laboreo intensivo,

ácido húmico, actividad biológica, actividad

entrópica, pigmento fotosintético,

carbohidrato, proteína, prolina foliar

4.3 Evaluación y análisis de los resultadosComo se puede apreciar en la Tabla 4.4 en los documentos mostrados como ejemplo en

el 100% de los casos las palabras clave obtenidas de cada uno de los documentos fueron

extraídas por la herramienta SE-Term, asimismo para cada uno de los documentos

evaluados en el experimento, se obtuvo un 100% de cobertura. Por este motivo se

considera que la herramienta propuesta puede ser aplicada a la tarea de extraer las

palabras clave de un documento, aunque para ello se necesitaría una pequeña

supervisión del bibliotecario para definir dentro del listado de términos ofrecidos cuáles

seleccionar como palabras clave, quedaría entonces pendiente buscar algún mecanismo

que permita establecer un orden de relevancia dentro del listado de términos obtenidos

para minimizar la intervención del bibliotecario en el proceso.

4.4 ConclusionesLas bases utilizadas para la propuesta presentada han permitido obtener, a partir de un

documento dado, un conjunto de términos que pueden ser utilizados en diferentes

aplicaciones del NLP, en este caso, con los resultados obtenidos en los experimentos

presentados en este capítulo se ha podido constatar que la herramienta es capaz de

detectar dentro del conjunto de términos que caracterizan a un documento dado el 100%

de las palabras clave del mismo, las cuales, en una biblioteca digital, se utilizan para los

procesos de indexación y recuperación de dichos documentos.

Conclusiones y trabajos futuros

[99]

5. Conclusiones y trabajos futuros

Finalmente se presentará un resumen de las conclusiones de este trabajo de

investigación (sección 5.1), así como las aportaciones más importantes de esta tesis

(sección 5.2). Para terminar, en la sección 5.3, se comentarán los principales trabajos

futuros.

5.1 ConclusionesLa principal conclusión que se puede obtener a partir de este trabajo es que resulta

factible utilizar las técnicas del Procesamiento del Lenguaje Natural, la Extracción de

Información y la Extracción de Términos para la obtención de los términos que

caracterizan un documento con el objetivo de establecer el vocabulario o terminología de

un determinado dominio. Esto se ha podido afirmar a partir de los resultados obtenidos

con el sistema de extracción de términos SE-Term, del cual se ha evaluado su impacto

en tarea de la obtención de palabras clave a partir de un conjunto de documentos

digitales en diferentes dominios o escenarios de trabajo.

Por ello, el trabajo que aquí se ha presentado parte de cuatro objetivos

fundamentalmente. En primer lugar investigar las diferentes técnicas que brindan el

Procesamiento del Lenguaje Natural, la Extracción de Información, así como los

diferentes enfoques existentes para la Extracción de Términos. En segundo lugar

elaborar un sistema de extracción de términos, SE-Term, que permita extraer, dado un

conjunto de documentos digitales de un dominio, los términos que lo caracterizan

obteniendo resultados satisfactorios. En tercer lugar, validar que el sistema propuesto

pueda ser aplicable a diferentes dominios y finalmente en cuarto lugar validar el proceso

de extracción de palabras clave a partir del sistema de extracción de términos obtenido.

En cuanto a investigar las diferentes técnicas que brindan el Procesamiento del Lenguaje

Natural, la Extracción de Información, así como los diferentes enfoques existentes para la

Extracción de Términos, se puede concluir que:

Existen fundamentalmente tres enfoques en los que se basan los sistemas de

extracción de términos, lingüístico, estadístico e híbrido, de los cuales se destaca

el enfoque híbrido como el que mejores resultados ofrece.

Las propuestas puramente estadísticas utilizan diferentes medidas estadísticas

para la extracción de términos, por lo general son independientes del idioma y no

[100]

requieren especificación de cualquier tipo de conocimiento, sin embrago tienen a

producir mucho ruido.

Dentro del estudio de los sistemas existentes, las características estadísticas más

utilizadas por los resultados que ofrecen se encuentran, la frecuencia de aparición

del término, la Información Mutua, el coeficiente Log likelihood entre otras.

Las propuestas puramente lingüísticas analizadas para la extracción de términos

se basan tanto en la categoría sintáctica de los n-gramas así como en patrones

morfosintácticos. Los principales problemas de los sistemas basados de este

enfoque son la dependencia del lenguaje así como el ruido y el silencio, aunque

los resultados ofrecidos generalmente son mejores que los resultados obtenidos

por los sistemas estadísticos.

Se han identificado que dentro de los patrones lingüísticos más utilizados se

encuentran los sustantivos y los términos formados por sustantivos (por ejemplo,

sustantivo + adjetivo, sustantivo + preposición + sustantivo).

Las propuestas híbridas combinan ambos enfoques, estadístico y lingüístico,

aprovechando las ventajas que ofrecen cada uno por separado; generalmente los

mejores resultados se obtienen cuando las medidas estadísticas son aplicadas a

la lista de candidatos previamente extraídos mediante el uso de propiedades

lingüísticas.

Dentro de las propuestas híbridas se ha identificado una proliferación del uso de

Aprendizaje Automático utilizando un conjunto de características estadísticas,

lingüísticas e híbridas, debido a los buenos resultados obtenidos.

Los principales problemas que presentan los sistemas de extracción de términos,

independientemente del enfoque utilizado son, el ruido, el silencio, la alta

dimensionalidad de los datos, la validación manual de expertos que todavía se

requiere y los resultados no satisfactorios a partir de los valores de precisión,

cobertura y medida F obtenidos.

Respecto a la investigación y desarrollo de la herramienta de extracción de términos SE-

Term, la cual siguiendo un enfoque híbrido extrae los términos que caracterizan un

documento a partir de la fusión de dos conjuntos de términos, un primer conjunto

obtenido utilizando Aprendizaje Automático a partir de un conjunto de características

lingüísticas, estadísticas e híbridas, y un segundo conjunto obtenido utilizando estructuras

para la identificación de definiciones de términos en documentos a partir de los PVD.

A partir de resultados obtenidos de este proceso de investigación y desarrollo del sistema

de extracción de términos se puede concluir que:


[101]

Se han elaborado, evaluado y discutido cinco aproximaciones para afrontar la

tarea de la extracción de términos, las dos primeras siguiendo un enfoque

lingüístico, la tercera y cuarta utilizando Aprendizaje Automático y la última

siguiendo un enfoque híbrido utilizando Aprendizaje Automático así como un

conjunto de estructuras que utilizan los PVD para la identificación de definiciones

de términos en un documento, donde se ha evidenciado una mejora paulatina en

los resultados de cada una de ellas.

Se ha podido corroborar que los sistemas híbridos son los que obtienen mejores

resultados al utilizar las ventajas que poseen tanto las aproximaciones lingüísticas

como estadísticas en una sola propuesta.

Ha quedado demostrado, a partir de los resultados obtenidos, la efectividad de

realizar proceso de selección de características en las tareas de Aprendizaje

Automático así como su influencia en la reducción de la dimensionalidad de los

datos.

Se ha evidenciado que el contar con un correcto balanceo entre las clases

utilizadas en el proceso de entrenamiento pueden mejorar los resultados en la

predicción de las diferentes clases.

El corpus a utilizar influye en los resultados obtenidos.

Se ha obtenido SE-Term, un sistema de extracción de términos capaz de extraer

los términos que caracterizan un documento, alcanzando una media en los

resultados de 88.40% de Precisión, 93.84% de Cobertura y 89.43% de medida F.

En cuando a la validación para comprobar que el sistema propuesto pueda ser aplicable

a diferentes dominios se puede destacar:

El sistema ha sido probado en cuatro dominios, Informática, Ingeniería Agrícola,

Medicina Veterinaria y Agronomía donde los resultados obtenidos en cada uno de

estos dominios no presentan gran diferencia entre ellos, los mejores resultados de

precisión y medida F obtenidos fueron de un 90.18% y un 91.06%

respectivamente para el dominio de Medicina Veterinaria y el mejor valor de

cobertura fue de 94.99% en el dominio de la Informática.

Estos resultados permiten plantear que el sistema puede ser aplicable a cualquier

dominio.

Respecto a la validación del proceso de extracción de palabras clave a partir del sistema

de extracción de términos obtenido se puede concluir que:

[102]

La aplicación de SE-Term a un conjunto de documentos de la Biblioteca General

de la UNAH en los diferentes dominios evaluados, permitió validar que puede ser

utilizado en la tarea de extraer las palabras clave de un documento digital

solamente con una breve supervisión del bibliotecario, obteniendo para esta tarea

un 100% de cobertura, ya que fue capaz de extraer todas las palabras clave de

cada uno de los documentos evaluados.

5.2 Principales AportacionesLas principales aportaciones de esta investigación al conocimiento de la extracción de

términos y su aplicación en la extracción de palabras clave se pueden resumir en:

Una propuesta lingüística de extracción de términos basada en Patrones Básicos

alcanzando muy buenos valores de cobertura.

Una propuesta lingüística, la cual en la extracción de términos utiliza un conjunto

de estructuras para la identificación de definiciones de términos utilizando los

PVD, alcanzando muy buenos valores de precisión.

Se han desarrollado dos propuestas que utilizan Aprendizaje Automático a partir

de un conjunto de características lingüísticas y estadísticas logrando una

aproximación entre los resultados de cobertura y precisión.

Una propuesta híbrida, SE-Term, la cual utiliza Aprendizaje Automático a partir de

un conjunto de características lingüísticas, estadísticas e híbridas además de un

conjunto de estructuras para identificar definiciones de términos utilizando los

PVD. Esta propuesta a partir de el proceso de selección de características ha

hecho frente al problema de la alta dimensionalidad de los datos, los resultados

favorables obtenidos han permitido disminuir el ruido y silencio presente en las

propuestas anteriormente abordadas y los resultados de cobertura, precisión y

medida F obtenidos compiten con los resultados del estado de la cuestión

identificados.

Experimentación y prueba de un sistema de extracción de términos que puede ser

aplicado a cualquier dominio.

Una herramienta de anotación semiautomática de términos (TermExt) la cual

permite la anotación de términos y no-términos, ya sea realizando un análisis de

todo el texto o llevando a cabo un filtrado a partir de un conjunto de patrones

previamente introducidos.

Se ha llevado a cabo el proceso de obtención de palabras clave a partir de un

sistema de extracción de términos.


[103]

5.3 Trabajos FuturosEn el caso de la herramienta de extracción de términos presentada se podrían incluir

nuevas características y valorar su impacto en los resultados obtenidos.

El corpus utilizado podría ser ampliado con el objetivo de comprobar los resultados

ofrecidos por la herramienta, debido a la dependencia directa que pueda existir entre los

resultados y el corpus utilizado.

Buscar alguna variante que permita ordenar los términos obtenidos por la herramienta

con el objetivo de poder definir, por ejemplo, que las primeras n palabras devueltas, sean

las palabras clave del documento procesado y de esta forma disminuir la validación del

experto en el proceso, el cual ha sido identificado como uno de los problemas actuales de

los sistemas de extracción de términos.

A partir de los términos obtenidos para cada uno de los dominios, extraer las relaciones

existentes entre ellos, y con este conjunto de términos y sus relaciones generar una red

de términos o una red semántica que podría ser la semilla de un conjunto de ontologías

de dominios que luego puedan ser utilizadas en diferentes aplicaciones del PLN.

Publicaciones relacionadas con este trabajo de tesis

[105]

6. Publicaciones relacionadas con

este trabajo de tesis

1. MARRERO, G. Y. & GONZÁLEZ, R. L. (2013) SET: SISTEMA DE EXTRACCIÓN

DE TÉRMINOS EN EL DOMINIO DE LA INFORMÁTICA. Congreso Internacional

COMPUMAT 2013. La Habana, Cuba. ISBN 978-959-286-022-3.

2. MARRERO, G. Y., GONZÁLEZ, R. L. & BÁRCENAS, M. Y. (2014) Método de

extracción de términos. VII Conferencia AgrIng. Universidad Agraria de La

Habana, Cuba. ISBN 978-959-16-2351-5

3. MARRERO, G. Y., MOREDA, P. P. & MUÑOZ, G. R. (2015) Pattern Construction

for Extracting Domain Terminology. Recent Advances in Natural Language

Processing. RANLP. Hissair, Bulgaria.

4. MARRERO, G. Y., MOREDA, P. P. & MUÑOZ, G. R. (2015) Construcción

automática de patrones independiente del dominio. Congreso Internacional

COMPUMAT 2015. ISBN 978-959-286-036-0

5. MARRERO, G. Y., MOREDA, P. P. & MUÑOZ, G. R. (2015) Methodology for the

automatic construction of patterns from specialized texts. XIII Congreso Nacional

de Reconocimiento de Patrones. RECPAT 2015. ISBN 978-959-207-540-5

6. MARRERO, G. Y., MOREDA, P. P. & MUÑOZ, G. R. (2015) SE-Term: A system

for domain terminology extraction. Aslib Journal of Information Management

(AJIM). Enviado.

7. MARRERO, G. Y., MOREDA, P. P. & MUÑOZ, G. R. (2015) Extraction of

keywords from a term extraction system. Expert Systems with Applications. An

International Journal. Enviado.

Anexos

[107]

7. Anexos

Anexo 1. TermExt: Herramienta de Anotaciónsemiautomática de términosPara el proceso de extracción de terminología utilizando Machine Learning es

indispensable contra con un corpus etiquetado en el dominio para el cual se desea

procesar. Muchas veces estos corpus no se encuentran disponibles por lo que se ha

hecho necesario construirlos. El objetivo de la herramienta TermEt, es precisamente

facilitar la anotación de términos dentro de un documento. La misma consta básicamente

de dos funcionalidades:

a) El sistema permite la entrada de un documento mostrando una ventana con el texto a

procesar donde permitirá marcar y anotar los términos pertenecientes al dominio en

cuestión con las etiquetas (Term) (/Term). Por ejemplo dado un fragmento de texto:

Una computadora es un equipo formado por una CPU y periféricos . El ratón y el teclado

son dos de los periféricos. Java es uno de los lenguaje de programación más utilizado en

los últimos años.

En la herramienta quedaría marcado de la siguiente manera:

Figura 7.1 Ejemplo de un fragmento de texto anotado

Anexos

[108]

Finalmente cuando se presiona el botón Guardar se genera un fichero con el texto

anotado.

b) Si ya se cuenta con un conjunto de patrones previos por ejemplo (sustantivo,

sustantivo + adjetivo, sustantivo + preposición + sustantivo etc.), la herramienta

permite la entrada de dicho conjunto de patrones y mostrará solamente los candidatos

que cumplan con los patrones previamente introducidos, permitiendo al experto

anotar dentro de este conjunto de candidatos , los términos y no-términos, según sea

el caso. Esto permitirá un ahorro de tiempo considerable al experto puesto que la

cantidad de texto a procesar disminuirá considerablemente.

Figura 7.2 Términos mapeados por patrones

En caso que algunos de los candidatos que se muestran por haber coincidido con los

patrones no sea posible determinar si es o no un término del dominio (por ejemplo,

ratón en la figura 7.2), este se puede marcar y al seleccionar ver contexto, se le

mostrará la oración en la cual se encuentra el candidato en el texto (Figura 7.3), esto

facilitará al experto, según el contexto, determinar si es o no un término del dominio.

Anexos

[109]

Figura 7.3 Contexto de término seleccionado

En ambos casos se realizará el análisis morfológico al texto en cuestión utilizando la

herramienta Freeling para obtener la categoría gramatical de cada una de las palabras,

como salida se ofrece un fichero XML con el texto procesado y los términos anotados con

sus correspondientes categorías gramaticales.

Anexos

[110]

Anexo 2. FreelingFreeLing4 es una librería de código abierto para el procesamiento multilingüe, que

proporciona una amplia gama de funcionalidades de análisis para varios idiomas. (Padró

& Stanilovsky, 2012)

El proyecto FreeLing se inició desde el centro TALP5 de la UPC para avanzar hacia la

disponibilidad general de recursos y herramientas básicas de Procesamiento del

Lenguaje Natural (PLN). Esta disponibilidad deberla posibilitar avances más rápidos en

proyectos de investigación y costes más reducidos en el desarrollo de aplicaciones

industriales de PLN.

El proyecto se estructura como una librería que puede ser llamada desde cualquier

aplicación de usuario que requiera servicios de análisis del lenguaje. El software se

distribuye como código abierto bajo una licencia GNU General Public License6 y bajo

licencia dual a empresas que deseen incluirlo en sus productos comerciales. (Padró &

Stanilovsky, 2012)

La versión actual soporta (a diferentes niveles de completitud) las siguientes lenguas:

asturiano (as), catalán (ca), inglés (en), francés (fr), gallego (gl), italiano (it), portugués

(pt), y ruso (ru), esloveno (sl), español (es) y el galés (cy). Las funcionalidades existentes

para cada idioma se resumen en la Tabla 4.1.

La arquitectura de la librería se basa en un enfoque de dos capas cliente-servidor: una

capa básica de servicios de análisis lingüístico (morfológico, morfosintáctico, sintáctico,

...) y una capa de aplicación que, actuando como cliente, realiza las peticiones deseadas

a los analizadores y usa su respuesta según la finalidad de la aplicación. (Padró &

Stanilovsky, 2012)

La arquitectura interna de la librería se estructura en dos tipos de objetos: los que

almacenan datos lingüísticos con los análisis obtenidos y los que realizan el

procesamiento en sí.

4 http://nlp.lsi.upc.edu/freeling5 http://www.talp.cat6 http://www.gnu.org/copyleft/gpl.html

Anexos

[111]

Tabla 7.1 Servicios disponibles en Freeling para el análisis de cada Idioma.

as ca cy en es fr gl it pt ru sl

Tokenization X X X X X X X X X X

Sentence splitting X X X X X X X X X X

Number detection X X X X X X X

Date detection X X X X X X

Morphologicaldictionary

X X X X X X X X X X

Affix rules X X X X X X X X X

Multiword detection X X X X X X X X X

Basic named entitydetection

X X X X X X X X X X

B-I-O named entitydetection

X X X X X

Named EntityClassification

X X X X

Quantity detection X X X X X X

PoS tagging X X X X X X X X X X

Phonetic encoding X X

WN sense annotation X X X X X X

UKB sensedisambiguation

X X X X X

Shallow parsing X X X X X X

Full/dependencyparsing

X X X X X

Coreference resolution X

Anexos

[112]

Anexo 3. WekaWeka es un acrónimo de Waikato Environment for Knowledge Analysis (Hall et al., 2009),

es un entorno para experimentación de análisis de datos que permite aplicar, analizar y

evaluar las técnicas más relevantes de análisis de datos, principalmente las provenientes

del aprendizaje automático, sobre cualquier conjunto de datos del usuario.

WEKA se distribuye como software de libre distribución desarrollado en Java. Está

constituido por una serie de paquetes de código abierto con diferentes técnicas de pre

procesado, clasificación, agrupamiento, asociación, y visualización, así como facilidades

para su aplicación y análisis de prestaciones cuando son aplicadas a los datos de entrada

seleccionados.

Las principales herramientas de Weka son:

Explorer: es la opción que permite llevar a cabo la ejecución de los algoritmos de análisis

implementados sobre los ficheros de entrada, una ejecución independiente por cada

prueba.

Experimenter: esta opción permite definir experimentos más complejos, con objeto de

ejecutar uno o varios algoritmos sobre uno o varios conjuntos de datos de entrada, y

comparar estadísticamente los resultados.

KnowledgeFlow: esta opción permite llevar a cabo las mismas operaciones del

"Explorer", con una configuración totalmente gráfica, inspirada en herramientas de tipo

"data-flow" para seleccionar componentes y conectarlos en un proyecto de minería de

datos, desde que se cargan los datos, se aplican algoritmos de tratamiento y análisis,

hasta el tipo de evaluación deseada.

Simple CLI: la interfaz "Command-Line Interfaz" es simplemente una ventana de

comandos java para ejecutar las clases de WEKA.

Anexos

[113]

Figura 7.4 Interfaz Principal de Weka

Los datos de entrada a la herramienta, sobre los que operarán las técnicas

implementadas, deben estar codificados en un formato específico, denominado Attribute-

Relation File Format (extensión "arff"). La herramienta permite cargar los datos en tres

soportes: archivo de texto, acceso a una base de datos y acceso a través de internet

sobre una dirección URL de un servidor web.

Archivo Arff

Como bien se comentaba en la sección anterior nativamente Weka trabaja con el formato

denominado arff. Este formato está compuesto por una estructura claramente

diferenciada en tres partes: @relation, @attribute y @data:

1. @relation <relation-name>

Todo fichero ARFF debe comenzar con esta declaración en su primera línea (no

se puede dejar líneas en blanco al principio). <relation-name> será una cadena de

caracteres y si contiene espacios se pondrán entre comillas.

2. @attribute <attribute-name> <datatype>

En esta sección se incluirá una línea por cada atributo (o columna) que se vaya a

incluir en el conjunto de datos, indicando su nombre y el tipo de dato.

Con <attribute-name> indicaremos el nombre del atributo, que debe comenzar por

una letra y si contiene espacios tendrá que estar entrecomillado.

Con <datatype> se indicará el tipo de dato para ese atributo (o columna) que

puede ser:

numeric (expresa números reales)

integer (expresa números enteros)

Anexos

[114]

string (expresa cadenas de texto)

date [<date-format>] (expresa fechas). En <date-format> se indicará el

formato de la fecha, que será del tipo "yyyy-MM-dd'T'HH:mm:ss".

<nominal-specification>. Estos son tipos de datos auto definidos y que

pueden tomar una serie de valores que se indican entre llaves.

3. @data

En esta sección se incluirán los datos propiamente dichos. Se separan cada

columna por comas y todas filas deberán tener el mismo número de columnas,

número que coincide con el de declaraciones @attribute que se hayan añadido en

la sección anterior. Si no se dispone de algún dato, se colocará un signo de

interrogación (?) en su lugar. El separador de decimales tiene que ser

obligatoriamente el punto y las cadenas de tipo string tienen que estar entre

comillas simples.

API de Weka

Todas las funcionalidades disponibles en las distintas interfaces gráficas (GUIs) de

WEKA pueden ser usadas desde código Java, junto con algunas otras no accesibles

directamente desde el GUI (normalmente funciones de bajo nivel).

Listado de Paquetes

weka.core: Paquete con las clases e interfaces que conforman la infraestructura

de WEKA. Son comunes a los distintos algoritmos implementados en WEKA.

o Define las estructuras de datos que contienen los datos a manejar por los

algoritmos de aprendizaje

Clase Instances: encapsula un dataset (conjunto de datos) junto

con los métodos para manejarlo (creación y copia, división en

subdatasets [entrenamiento y prueba], aleatorización, gestión de

pesos, ...)

Clase Attribute: encapsula los atributos que definen un dataset

(nombre de atributo, tipo [nominal, numérico, string], valores

posibles).

Clase Instance: encapsula cada uno de los ejemplos individuales

que forman un dataset, almacenando los valores de los respectivos

atributos.

Anexos

[115]

o Subpaquete weka.core.converters: clases auxiliares para leer y escribir

datasets desde distintas fuentes de datos (ficheros ARFF, bases de datos,

etc)

o Subpaquete weka.core.neighboursearch: implementaciones de algoritmos

y estructuras de datos para la búsqueda eficiente a instancias similares

("vecinas")

weka.classifiers: Paquete con las implementaciones de algoritmos de

clasificación (tanto a métodos de clasificación discreta como de predicción

numérica).

o Subpaquetes: weka.classifiers.bayes, weka.classifiers.rules,

weka.classifiers.lazy, weka.classifiers.trees,

weka.classifiers.functions, weka.classifiers.meta, etc

o Clase abstracta Classifier: métodos comunes a todos los clasificadores

weka.clusterers: Paquete con las implementaciones de algoritmos de clustering.

o Clase abstracta AbstractClusterer: métodos comunes a todos los

algoritmos

o Clase ClusterEvaluation: evaluador de clúster

weka.attributeSelection: Paquete con métodos de selección de atributos.

o El proceso de selección de atributos involucra 2 tipos de clases:

1. Evaluadores de atributos: heredan de la clase abstracta: ASEvaluation.

Son de 2 tipos

o miden la relevancia de atributos aislados

o miden la relevancia de combinaciones de 2 o más atributos

2. Métodos de búsqueda (selectores): algoritmos de búsqueda que

empleando los evaluadores usan diversas estrategias para comprobar la

bondad de distintas combinaciones de atributos (los más simples sólo

hacen un ranking). Heredan de la clase abstracta: ASSearch

o Clase AttributeSelection: Encapsula el proceso de selección de atributos

relevantes, combinando un evaluador y un selector.

weka.filters: Paquete con diversos filtros para procesar los datos. Normalmente

son usados para preprocesar los datos de entrenamiento/evaluación antes de

utilizar los algoritmos de aprendizaje de WEKA, aunque en algunos casos los

filtros tienen una utilidad por si mismos.

Anexos

[116]

o Pueden aplicarse para tratar instancias o atributos

Filtrado de instancias: procesan las instancias de un dataset

realizando transformaciones sobre ellas: selección de instancias,

borrado, generación de nuevas instancias, ...

Filtrado de atributos: procesan los atributos de un dataset

realizando transformaciones sobre ellos: selección de atributos

(delegan el trabajo en clases AttributeSelection), cambio de

formato de atributos (numérico a nominal, texto a nominal, etc),

normalización de valores, generación de nuevos atributos, etc

o En función de la información que manejan:

Filtros supervisados: usan información sobre la clase de las

instancias

Filtros no supervisados: no usan información sobre la clase de las

instancias

o Clase abstracta Filter: define las funcionalidades básicas de todos los

filtros, junto con métodos estáticos _útiles para crear y ejecutar filtros.

weka.associations: Paquete con las implementaciones de algoritmos de

aprendizaje de reglas de asociación

weka.gui: Paquete con la implementación de las interfaces gráficas de WEKA

weka.datagenerators, weka.estimators, weka.experiment: Paquete con clases

e interfaces para la generación de datasets "artificiales" y la realización de

experimentos y evaluaciones.

Clases básicas: datasets, atributos e instancias

Para crear y gestionar los conjuntos de entrenamiento o validación en memoria es

necesario utilizar las clases Instances, Attribute e Instance del paquete weka.core.

Clase Dataset

Representación en memoria de una colección de ejemplos (dataset).

o Descrito por un conjunto de atributos (Attribute).

o Contiene un conjuntos de instancias/ejemplos (Instance) que almacenan

conteniendo los valores de sus atributos.

o Opcionalmente uno de los atributos podrá estar marcado como atributo clase.

en clasificación el atributo clase debe de ser de tipo Nominal

en predicción numérica el atributo clase debe de ser de tipo Numérico

Anexos

[117]

Constructores y métodos de interés:

o Instances (String nombre, ArrayList<Attribute>atributos, int capacidad): Crea

un dataset con el nombre y la capacidad indicada, asignándole la lista de atributos

que recibe en el ArrayListo Instances (java.io.Reader reader): Crea un dataset y lo carga desde el fichero

ARFF al que apunta el Reader.o Manejar atributos

Buscar por posición: Attribute attribute(int index)

Buscar por nombre: Attribute attribute(String name)

Establecer atributo clase: void setClass(Attribute att), voidsetClassIndex(int classIndex)

o Manejar instancias

Añadir una instancia: void add(Instance instance)

Recupear instancias: Instance instance(int index), InstancefirstInstance(), Instance lastInstance(), EnumerationenumerateInstances(), ...

o Estadísticas: kthSmallestValue(Attribute att, int k), meanOrMode(Attributeatt), numDistin-ctValues(Attribute att), ...

o Manejar el dataset: delete(), delete(int index), randomize(java.util.Randomrandom), stratify(intnumFolds), Instances resample(), Instances testCV(intnumFolds, int numFold), InstancetrainCV(int numFolds, int numFold), ...

Clase Attribute

El API de WEKA contempla cinco tipos de atributos.

numérico: representa un valor de tipo real

o Constructor: Attribute(String nombre)

nominal: representa un valor tomando de un conjunto discreto de valores posibles

o Constructor: Attribute(String nombre, List<String>valores)

o Recibe un List de String con las etiquetas de los valores posibles

string: representa una cadena de caracteres

o Constructor: Attribute(String nombre, (List<String>) null)

fecha: representa una fecha

relacional: representa un valor que a su vez estará estructurado en distintos

atributos

Anexos

[118]

Métodos:

int index(): índice del atributo dentro de un dataset (Instances)

String name(): etiqueta del atributo

int numValues(): número de valores posibles de un atributo Nominal

String value(int valIndex): devuelve la etiqueta indicada de un atributo Nominal

void setWeight(double value), double weight(): establece y recupera el peso

del atributo

Clase Instance

Almacena los valores de un ejemplo (instancia).

Internamente los valores de los atributos de cada instancia se representan como un

vector de números reales (double[]), independientemente del tipo de los atributos.

Normalmente estará asociado a un dataset (Instances) que determina el formato y el tipo

de los atributos cuyos valores almacena la instancia.

Constructor y métodos:

Instance(int numAttributes): construye una instancia con el número de atributos

indicados

setDataset(Instances instances): indica el dataset (Instance) del cual esta

instancia almacena valores, describe el formato de la instancia (número y tipo de

atributos)

Attribute attribute(int index): devuelve el atributo indicado

Attribute classAttribute(): devuelve el atributo clase (si está definido)

double classValue(): devuelve el valor almacenado en el atributo clase (es el

índice de la etiqueta de la clase)

setClassValue(String value): establece el valor del atributo clase

double value(Attribute att), double value(int index): devuelve el valor de un

atributo numérico (o el índice del valor en los nominales)

String stringValue(Attribute att), String stringValue(int index): devuelve el

valor de un atributo nominal o string

setValue(Attribute att, double value), setValue(int attIndex, double value):establece el valor de un atributo Numérico

setValue(Attribute att, String value), setValue(int attIndex, String value):establece el valor de un atributo Nominal o String

Anexos

[119]

Existe una subclase SparseInstance orientada a almacenar vectores de atributos con

muchos valores nulos de forma compacta. En las instancias SparseInstance solo se

almacenan los atributos (numéricos o nominales) distintos de cero.

Algoritmos de clasificación

Todos los algoritmos de clasificación heredan de weka.classifiers.Classifier y deben de

implementar los siguientes métodos básicos:

void buildClassifier(Instances data): entrena el clasificador con el conjunto de

entrenamiento (Instances) indicado

double classifyInstance(Instance instance): clasifica la instancia que recibe

como parámetro. [Exige haber invocado antes a buildClassifier()]

o La estructura de la instancia (número y tipo de atributos) debe coincidir con

la del objeto Instances usado en el entrenamiento

o El valor devuelto (de tipo double) indica la clase predicha. Se corresponde

con el índice de su etiqueta en el objeto List asociado al atributo clase.

double[ ] distributionForInstance(Instance instance): clasifica la instancia y

devuelve un vector double[] con un componente para cada valor del atributo clase

que cuantifica su probabilidad o importancia relativa (dependiendo del método de

clasificación). [Exige haber invocado antes a buildClassifier()]

La clase abstracta Classifier también ofrece el método Classifier forName(Stringclassi_erName, String[ ] options) que crea un clasificador de la clase indicada con los

parámetros que se le pasan como array de String (el javadoc de cada método de

clasificación especifica el formato de las opciones que esperan)

Selección de atributos

El proceso de selección de atributos se divide en dos tareas:

Evaluar la bondad de cada atributo o combinación de atributos. Se delega en un

objeto que herede de la clase weka.attributeSelection.ASEvaluationo Evaluación atributos simples: ChiSquaredAttributeEval,

GainRatioAttributeEval, InfoGainAttributeEval,CostSensitiveAttributeEval, ...

Anexos

[120]

o Evaluación grupos de atributos: Classi_erSubsetEval,ConsistencySubsetEval, CostSensitiveSubsetEval, ...

Búsqueda y selección de la lista de mejores atributos. Se delega en un objeto que

herede de la clase weka.attributeSelection.ASSearcho Búsqueda de atributos simples: Ranker, ...o Búsqueda de grupos de atributos: BestFirst, GreedyStepwise,

ExhaustiveSearch, GeneticSearch, ...

El método de búsqueda/selección determina los evaluadores que son admitidos (ver

javadoc o comprobar compatibilidad desde el interfaz gráfico de WEKA)

Métodos:

void setEvaluator(ASEvaluation evaluator): establece el evaluador de atributos

(o conjuntos de atributos)

void setSearch(ASSearch search): establece el método de búsqueda/selección

void SelectAttributes(Instances data): aplica la selección de atributos con el

dataset indicado

o Para realizar la selección de atributos mediante Validación Cruzada (cross

validation) es necesario especificar un valor de true a setXval(boolean x)e indicar el número de pasadas con setFolds(int folds)

Instance reduceDimensionality(Instance in): reduce la dimensión de una

instancia, incluyendo únicamente los atributos seleccionados en la última

ejecución de SelectAtributes

Instances reduceDimensionality(Instances in): reduce la dimensión de un

conjunto de instancias (dataset), incluyendo únicamente los atributos

seleccionados en la última ejecución de SelectAtributes

int numberAttributesSelected(): devuelve el número de atributos seleccionados

en la última ejecución de SelectAtributes

int[ ] selectedAttributes(): devuelve (en orden) el índice de los atributos

seleccionados en la última ejecución de SelectAtributes

double[ ][ ] rankedAttributes(): devuelve (en orden) el índice de los atributos

seleccionados en la última ejecución de SelectAtributes, junto con su relevancia

en un array double[ ][ ]

Anexos

[121]

Algoritmos en Weka para la selección de atributos

En la Figura 7.5 se observa los diferentes evaluadores con que dispone Weka para el

proceso de selección de atributos.

Figura 7.5 Evaluadores para selección de atributos en Weka

En (Martín et al., 2007) se destacan 4 algoritmos evaluadores de subconjuntos de

atributos disponibles en el WEKA, los dos primeros clasificados como Filtros y los

restantes como Wrappers.

1. CfsSubsetEval: Evalúa un subconjunto de atributos considerando la habilidad

predictiva individual de cada variable, así como el grado de redundancia entre

ellas. Se prefieren los subconjuntos de atributos que estén altamente

correlacionados con la clase y tengan baja intercorrelación (Hall, 1998)

2. ConsistencySubsetEval: Evalúa un subconjunto de atributos por el nivel de

consistencia en los valores de la clase al proyectar las instancias de

entrenamiento sobre el subconjunto de atributos.(Liu & Setiono, 1996)

Anexos

[122]

3. ClassifierSubsetEval: Evalúa los subconjuntos de atributos en los datos de

entrenamiento o en un conjunto de prueba independiente, utilizando un

clasificador.

4. WrapperSubsetEval: Evalúa los subconjuntos de atributos utilizando un

clasificador (también el J48). Emplea validación cruzada para estimar la exactitud

del esquema de aprendizaje en cada conjunto.(Kohavi & John, 1997)

A su vez dentro de los algoritmos evaluadores de atributos individuales muestran:

1. ChiSquaredAttributeEval: calcula el valor estadístico Chi-cuadrado de cada

atributo con respecto a la clase y así obtiene el nivel de correlación entre la clase

y cada atributo.

2. GainRatioAttributeEval: evalúa cada atributo midiendo su razón de beneficio con

respecto a la clase.

3. InfoGainAttributeEval: evalúa los atributos midiendo la ganancia de información

de cada uno con respecto a la clase. Anteriormente discretiza los atributos

numéricos.(Lorenzo, 2002)

4. OneRAttributeEval: evalúa la calidad de cada atributo utilizando el clasificador

OneR, el cual usa el atributo de mínimo error para predecir, discretizando los

atributos numéricos.

Una vez seleccionado el evaluador, Weka también tiene disponibles una serie de

métodos de búsquedas como se muestra en la Figura 7.6 mediante el cual se pueden ir

probando y comparando los resultados obtenidos.

El método de búsqueda va a depender del evaluador seleccionado previamente.

Si es un evaluador individual (Ranking) el único método de búsqueda que podrá

utilizar será el Ranker.

Si es un Evaluador de Subconjuntos:

o Greedy (GreedyStepwise): Coge el mejor de todos, luego la mejor pareja que

lo incluye, luego el mejor trío que incluye a los anteriores. Así hasta que no

hay mejora.

o Primero el mejor (BestFirst): Lo mismo que Greedy pero aplicando

backtracking con un número máximo de regresos (5 por defecto)

o Exhaustiva (ExhaustiveSearch): Todos los posibles subconjuntos

o Aleatoria (RandomSearch)

o Algoritmo Genético (GeneticSearch), entre otros.

Anexos

[123]

Figura 7.6 Evaluadores en Weka

Clasificación

Para la clasificación, se construirá un modelo que permita predecir la categoría de las

instancias en función de una serie de atributos de entrada. La clase se convertirá en la

variable objetivo a predecir.

Modos de Evaluación del Clasificador

El resultado de aplicar el algoritmo de clasificación se efectúa comparando la clase

predicha con la clase real de las instancias. Existen diversos modos de realizar la

evaluación:

Anexos

[124]

• Use training set: evaluación del clasificador sobre el mismo conjunto sobre el que se

construye el modelo predictivo para determinar el error, que en este caso se denomina

"error de resustitución".

• Supplied test set: esta opción evalúa sobre un conjunto independiente. Permite cargar

un conjunto nuevo de datos. Sobre cada dato se puede realizar una predicción de clase

para contar los errores.

• Cross-Validation: evaluación con validación cruzada. Se dividirán las instancias en

tantas

carpetas como indica el parámetro "Folds", y en cada evaluación se toman las instancias

de cada carpeta como datos de test, y el resto como datos de entrenamiento para

construir el modelo. Los errores calculados serán el promedio de todas las ejecuciones.

• Percentage split: se dividen los datos en dos grupos, de acuerdo con el porcentaje

indicado (%). El valor indicado es el porcentaje de instancias para construir el modelo,

que seguidamente es evaluado sobre las que se han dejado aparte.

Selección de clasificadores

El problema de clasificación siempre se realiza sobre un atributo simbólico. Existen ocho

familias de clasificadores, pero los más utilizados son cuatro: los bayesianos, los meta

clasificadores, las reglas y los árboles de decisión. A continuación se explicará cada uno

de estos clasificadores y se pondrán ejemplos para facilitar su comprensión.

Bayesianos: La gran diferencia con otros métodos, es que cuantitativamente da una

medida probabilística de la importancia de esas variables en el problema. Debe tenerse

en cuenta que entre los atributos del conjunto de entrenamiento no pueden existir

correlaciones, puesto que invalidaría el resultado.

o Naïve Bayes: Parte de la hipótesis de que todos los atributos son

independientes entre sí, conocido el valor de la variable clase. El algoritmo

representa una distribución de una mezcla de componentes, donde cada

componente dentro de todas las variables se asumen independientes. Esta

hipótesis de independencia da lugar a un modelo de un único nodo raíz,

correspondiente a la clase, y en el que todos los atributos son nodos hoja que

tienen como único origen a la variable clase.

Metaclasificadores: En esta familia, WEKA incluye todos aquellos clasificadores

complejos, es decir, aquellos que se obtienen mediante composición de clasificadores

simples o que incluyen algún preprocesamiento de los datos.

Anexos

[125]

o Stacking: Se basa en la combinación de modelos, construyendo un conjunto

con los generados por diferentes algoritmos de aprendizaje. Como cada uno de

los modelos se aprende con un mecanismo de aprendizaje diferente, se logra que

los modelos del conjunto sean distintos.

Reglas: Existen diversos métodos para generar reglas de clasificación en los conjuntos

de entrenamiento.

o OneR: Este es uno de los clasificadores más sencillos y rápidos, aunque en

ocasiones sus resultados son sorprendentemente buenos en comparación con

algoritmos mucho más complejos. Genera una regla por cada atributo y escoge la

del menor error. Si hay atributos numéricos, busca los umbrales para hacer reglas

con mejor tasa de aciertos.

Árboles de decisión: Los árboles son una manera práctica para visualizar la

clasificación de un conjunto de datos.

o Algoritmo J48: Es una implementación del algoritmo C4.5, uno de los

algoritmos de minería de datos que más se ha utilizado en multitud de

aplicaciones. Uno de los parámetros más importantes de este algoritmo es el

factor de confianza para la poda (confidence level). Una explicación simplificada

es la siguiente: para cada operación de poda, define la probabilidad de error que

se permite a la hipótesis de que el empeoramiento debido a esta operación es

significativo. Cuanto más baja se haga esa probabilidad, se exigirá que la

diferencia en los errores de predicción antes y después de podar sea más

significativa para no podar. El valor por defecto de este factor es del 25%, y

conforme va bajando se permiten más operaciones de poda y por tanto llegar a

árboles cada vez más pequeños.

Referencias Bibliográficas

[127]

8. Referencias Bibliográficas

ABACHA, A. B. & ZWEIGENBAUM, P. (2011) Automatic extraction of semantic relations

between medical entities: a rule based approach. Journal of Biomedical Semantics, 2.

AHMAD, K., DAVIES, A., FULFORD, H. & ROGERS, M. (1992) What is a term? The

semiautomatic extraction of terms from text. IN AL., M. S.-H. E. (Ed.) Translation Studies-

an interdiscipline. Amsterdam/Philadelphia, John Benjamin Publishing Company.

AHMAD, K., GILLAM, L. & TOSTEVIN, L. (1999) University of Surrey participation in

TREC8: weirdness indexing for logical document extrapolation and retrieval (WILDER).

TREC, Gaithersburg, US.

ALARCÓN, R. (2009) Extracción automática de contextos definitorios en corpus

especializados. Barcelona, Universidad Pompeu Fabra.

ALARCÓN, R., BACH, C. & SIERRA, G. (2007) Extracción de contextos definitorios en

corpus especializados: hacia La elaboración de una herramienta de ayuda terminográfica.

Revista Española de Lingüística (RSEL) 37, 247-277.

ARONSON, A. & LANG, F. (2010) An overview of MetaMap: historical perspective and

recent advances. JAMIA 2010 17:229-236.

BARRÓN-CEDEÑO, A., SIERRA, G., DROUIN, P. & ANANIADOU, S. (2009) An

improved automatic term recognition method for spanish. Proceedings of the 10th

International Conference on Computational Linguistics and Intelligent Text Processing

(CICLing). Springer-Verlag, Berlin, Heidelberg.

BASILI, R., ROSSI, G. & PAZIENZA, M. T. (1997) Inducing Terminology for Lexical

Acquisition. Conference on Empirical Methods in Natural Language Processing.

BOUCKAERT, R. (2005) Bayesian Network Classifiers in Weka. IN TECHNICAL

REPORT, D. O. C. S. (Ed.) Hamilton, NZ. , Waikato University.

BOURIGAULT, D., GONZALEZ-MULLIER, I. & GROS, C. (1995) Lexter a natural

language processing tool for terminology extraction. Electricité de France, Direction des

Etudes et Recherches-Service Informatique et Mathématique Appliquées. Technical

report, Clamart Cedex.


[128]

BRANTS, T. & FRANZ, A. (2006) Web 1T 5-gram Version 1 LDC2006T13.

CABRÉ, M. & VIVALDI, R. (2001) Automatic term detection: a review of current systems. .

IN BOURIGAULT D, J. C., L’HOMME MC (Ed.) Recent Advances in Computational

Terminology., John Benjamins, Amsterdam, Philadelphia.

CABRÉ, M. T. (2002) Textos especializados y unidades de conocimiento: metodología y

tipologización. IN GARCÍA PALACIOS, J. F., M. TERESA (Ed.) Texto, terminología y

traducción. Salamanca.

CAJAL, S. & RODRÍGUEZ, H. (2014) Boosting Terminology Extraction through

Crosslingual Resources. Procesamiento del Lenguaje Natural, 53, 129-136.

CHOWDHURY, G. (2003) Natural language processing. Annual Review of Information

Science and Technology. Vol. 37, 51-89. ISSN 0066-4200.

CHRIST, O. (1994) A Modular and Flexible Architecture for an Integrated Corpus Query

System. IN F. KIEFER, G. K., AND J. PAJZS. (Ed.) Paper in Computational Lexicography,

Complex 94. Budapest.

CHURCH, K. & HANKS, P. (1989) Word association norms, mutual information, and

lexicography. Proceedings of the 27th annual meeting on Association for Computational

Linguistics (ACL). Association for Computational Linguistics. Stroudsburg, PA, USA.

CONRADO, M. S., DI FELIPPO, A., SALGUEIRO, P. T. A. & OLIVEIRA, R. S. (2014) A

survey of automatic term extraction for Brazilian Portuguese. Journal of the Brazilian

Computer Society.

CONRADO, M. S., ROSSI, R., G , PARDO, T. & REZENDE, S. O. (2012) A survey of

automatic term extraction for Brazilian Portuguese. . Journal of the Brazilian Computer

Society.

CONRADO, M. S., ROSSI, R., G, PARDO, T. & REZENDE, S. O. (2013) Applying

transductive learning for automatic term extraction: the case of the ecology domain.

Second International Conference on Informatics and Applications (ICIA).

CRIST, O. (1994) A modular and flexible architecture for an integrated corpus query

system. IN F.KIEFER, G. K., AND J. PAJZS (Ed.) Papers in Comutational Lexicography,

COMPLEX 94. Budapest.


[129]

DARMONI, S. J., PEREIRA, S., SAKJI, S., MERABTI, T., PRIEUR, E., JOUBERT, M. &

THIRION, B. (2009) Multiple Terminologies in a Health Portal: Automatic Indexing and

Information Retrieval. . 12th Conference on Artificial Intelligence in Medicine, LNCS 5651.

Verona, Italy.

DE CLERCQ, O., VAN DE KAUTER, M., LEFEVER, E. & HOSTE, V. (2015) LT3:

Applying Hybrid Terminology Extraction to Aspect-Based Sentiment Analysis.

Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015)

Denver, Colorado, USA.

DHILLON, I., KOGAN, J. & NICHOLAS, C. (2003) Feature selection and document

clustering. IN SPRINGER (Ed.), Survey of Text Mining, M. W. Berry.

DICE, L. (1945) Measures of the amount of ecologic association between species.

Ecology 26 (3): 297–302.

DUBUC, R. & LAURISTON, A. (1997) Terms and Contexts. IN WRIGHT, S. E. A. B., G.

(Ed.) Handbook of Terminology Management. Amsterdam/Philadelphia, John Benjamins

Publishing Company.

DUNNING, T. (1993) In Accurate Methods for the Statistic of Surprise and Coincidence.

Association for Computational Linguistics, 19, 61-76.

ENGUEHARD, C. (1992) ANA, Apprentissage Naturel Automatique d'un réseau

sémantique. l'Université de Technologie de Compiègne.

ENGUEHARD, C. & PANTERA, L. (1994) Automatic Natural Acquisition of a Terminology.

Journal of Quantitative Linguistics 2 (1), 27-32.

ESTOPÀ, R. (1999) Eficiencia en la extracción automática de terminología. Perspectives:

Studies in Traductology, 7 (2): 277-286.

FOO, J. & MERKEL, M. (2010) Using machine learning to perform automatic term

recognition. IN N. BEL, B. D., AND A. VASILJEVS (Ed.) Proc of the 7th LREC - Wksp on

Methods for automatic acquisition of Language Resources and their Evaluation Methods.

FRANTZI, K., ANANIADOU, S. & MIMA, A. H. (2000) Automatic recognition of multi-word

terms: the C-value/NC-value method. International Journal on Digital Libraries, 3 (2), 115–

130.


[130]

FRANTZI, K., ANANIADOU, S. & TSUJII, J. (1998) The C-value/NC-value method of

automatic recognition for multi-word terms. Proceedings of the Second European

Conference on Research and Advanced Technology for Digital Libraries (ECDL).

Springer-Verlag, London, UK.

FRANTZI, K. & ANANLADOU, S. (1997) Automatic Term Recognition using Contextual

Cues. Third DELOS Workshop. Cross-Language Information Retrieval. Zurich, Suisse.

FRANTZI, K. T., ANANIADOU, S. & TSUJII, J. (2009) The C-value/NC-value Method of

automatic Recognition for Multi-word Terms. Lecture Notes in Computer Science

1513:585-604.

GAIZAUSKAS , R., DEMETRIOU, G. & HUMPHREYS, K. (2000) Term Recognition and

Classification in Biological Science Journal Articles Computional Terminology for Medical

and Biological Applications Workshop of the 2nd International Conference on NLP.

GAIZAUSKAS, R. & WILKS, Y. (1998) Information Extraction: Beyond Document

Retrieval. Journal of Documentation, 1.

GÉRARDY, C. (1996) Multilingual lexicon combining information extracted from corpora

an dictionaries. Technical Report Decide. Université de Liége.

GOLIK, W., BOSSY, R., RATKOVIC, Z. & NÉDELLEC, C. (2013) Improving term

extraction with linguistic analysis in the biomedical domain. Research in Computing

Science 70, 129–143.

HALL, M. (1998) Correlation-based Feature Selection for Machine Learning. Department

of Computer Science. Hamilton, New Zealand, University of Waikato.

HALL, M., FRANK, E., HOLMES, G., PFAHRINGER, B., REUTEMANN, P. & WITTEN, I.

H. (2009) The WEKA Data Mining Software: An Update. SIGKDD Explorations: 11 (1).

HARRIS, Z. (1954) Distributional structure. 10: 146-162.

HAVELIWALA, T. H. (2002) Topic-sensitive PageRank. Proceedings of the 11th

international conference on World Wide Web (WWW '02).

HEID, U., JAUSS, S., KRÜGER, K. & HOHMANN, A. (1996) Term extraction with

standard tools for corpus exploration - Experience from German. Proc TKE ‘96.

Terminology and Knowledge Engineering. Frankfurt.


[131]

JIANG, B., XUN, E. & QI, J. (2015) A Domain Independent Approach for Extracting Terms

from Research Papers.

JONES, L. P., GASSIE, J. E. W. & RADHAKRISHNAN, S. (1990) Index: The statistical

basis for an automatic conceptual phrase-indexing system. Journal of the American

Society for Information Science, 41 (2), 87-97.

KAGEURA, K. & UMINO, B. (1996) Methods of automatic term recognition – are view.

Terminology 3(2): 1–23.

KIM, S., BALDWIN, T. & KAN, M. (2009) Extracting domain-specific words – a statistical

approach. Proceedings of the Australasian Language Technology Association Workshop.

Sydney, Australia.

KIT, C. & LIU, X. (2008) Measuring mono-word termhood by rank difference via corpus

comparison. Terminology 14(2): 204–229.

KOHAVI, R. & JOHN, G. (1997) Wrappers for feature subset selection. Artificial

Intelligence.

KRENN, B. (2000) Empirical implications on lexical association measures. Proceedings of

the 9th EURALEX International Congress.

L’HOMME, M.-C. (2001) Nouvelles technologies et recherche terminologique, Techniques

d'extraction des données terminologiques et leur impact sur le travail du terminographe.

L'impact des nouvelles technologies sur la gestion terminologique. University York,

Toronto.

LIU, H. & SETIONO, R. (1996) probabilistic approach to feature selection - A filter

solution. 13th International Conference on Machine Learning. Morgan Kauffman.

LIU, L., KANG, J., YU, J. & WANG, Z. (2005) A comparative study on unsupervised

feature selection methods for text clustering. Proc of IEEE NLP-KE, 597–601.

LIU, T., LIU, S. & CHEN, Z. (2003) An evaluation on feature selection for text clustering.

Proceedings of the 10th Int. CNF on Machine Learning. San Francisco, CA, USA: Morgan

Kaufmann.


[132]

LOPES, L., FERNANDES, P. & VIEIRA, R. (2012) Domain term relevance through tf-dcf.

Proceedings of the 2012 International Conference on Artificial Intelligence (ICAI). CSREA

Press, Las Vegas, USA.

LÓPEZ, M. A. & ZORITA, V. L. (2008) Las bibliotecas universitarias y la gestión de la

información en el entorno digital : unas consideraciones para repositorios digitales. BiD:

textos universitaris de biblioteconomia y documentación, núm. 20.

LORENZO, J. (2002) Selección de Atributos en Aprendizaje Automático basado en la

Teoría de la Información. Faculty of Computer Science. Gran Canaria, Univ. of Las

Palmas.

LOSSIO VENTURA, J. A., JONQUET, C., ROCHE, M. & TEISSEIRE, M. (2014) BioTex:

A system for biomedical terminology extraction, ranking, and validation. 1st Symposium

on Information Management and Big Data, SIMBig 2014. Cusco, France.

LOSSIO-VENTURA, J. A., JONQUET, C., ROCHE, M. & M., T. (2014a) Towards a Mixed

Approach to Extract Biomedical Terms from Text Corpus. International Journal of

Knowledge Discovery in Bioinformatics, IGI Global. , 4, 1-15.

LOSSIO-VENTURA, J. A., JONQUET, C., ROCHE, M. & TEISSEIRE, M. (2014b) Yet

another ranking function to automatic multi-word term extraction. Proceedings of the 9th

International Conference on Natural Language Processing (PolTAL’14). Springer LNAI.

Warsaw, Poland.

LOUKACHEVITCH, N. (2012) Automatic term recognition needs multiple evidence. IN N.

CALZOLARI, K. C., T. DECLERCK, M. DOGAN, B. MAEGAARD, J. MARIANI, ODIJK,

AND S. PIPERIDIS (Ed.) Proc of the 8th on LREC. Istanbul, Turkey. ELRA.

MACKEN, L., LEFEVER, E. & HOSTE, V. (2013) TExSIS: Bilingual Terminology

Extraction from Parallel Corpora Using Chunk-based Alignment. Terminology, 19 (1):1–

30.

MAGNINI, B. & CAVAGLIÀ, G. (2000) Integrating Subject Field Codes In WordNet. 2nd

LREC.

MARRERO, G. Y. & GONZÁLEZ, R. L. (2013) SET: SISTEMA DE EXTRACCIÓN DE

TÉRMINOS EN EL DOMINIO DE LA INFORMÁTICA. Congreso Internacional

COMPUMAT 2013. La Habana, Cuba.


[133]

MARRERO, G. Y., GONZÁLEZ, R. L. & BÁRCENAS, M. Y. (2014) Método de extracción

de términos. VII Conferencia AgrIng. Universidad Agraria de La Habana, Cuba.

MARRERO, G. Y., MOREDA, P. P. & MUÑOZ, G. R. (2015) Pattern Construction for

Extracting Domain Terminology. Recent Advances in Natural Language Processing.

RANLP. Hissair, Bulgaria.

MARTÍN, R. R., RAMOS, P. R. M., GRAU, Á. R. & MATILDE, G. M. (2007) Aplicación de

métodos de selección de atributos para determinar factores relevantes en la evaluación

nutricional de los niños. Gaceta Médica Espirituana, 9.

McENERY, A. Ç., LANGUÉ, J.-M., OAKES, M. & VERONIS, J. (1997) The exploitation of

multilingual annotated corpora for term extraction. IN GARSIDE, R., G. LEECH Y A.

McENERY (Ed.), Corpus Annotation: Linguistic Information from Computer Text Corpora,

Addison Wesley Longman, London.

MEYER, I. (2001) Extracting Knowledge-rich contexts for Terminography. IN

BOURIGALT, D., JACQUEMIN, C. Y L’HOMME, M. C. (Ed.) Recent advances in

computational terminology. Ámsterdam, John Benjamins.

MIKOLOV, T., SUTSKEVER, I., CHEN, K., CORRADO, G. S. & DEAN, J. (2013a)

Distributed representations of words and phrases and their compositionality. Proceedings

of the 27th Annual Conference on Neural Information Processing Systems (NIPS).

MIKOLOV, T., YIH, W. & ZWEIG, G. (2013b) Linguistic regularities in continuous space

word representations. Proceedings of the Conference of the North American Chapter of

the Association of Computational Linguistics on Human Language Technologies (HLT-

NAACL).

MORENO, J., RODRÍGUEZ, D., SICILIA, M., RIQUELMEY, J. & RUIZ, R. (2009) SMOTE-

I: mejora del algoritmo SMOTE para balanceo de clases minoritarias. Actas de los

Talleres de las Jornadas de Ingeniería del Software y Bases de Datos, Vol. 3, No. 1.

NAKAGAWA, H. & MORI, T. (2002) A simple but powerful automatic term extraction

method. COMPUTERM 2002 – Proceedings of the 2nd International Workshop on

Computational Terminology. Taipei, Taiwan.


[134]

NOGUEIRA, B. (2009) Avaliação de métodos não-supervisionados de seleção de

atributos para Mineração de Textos. São Carlos. SP, Brazil, Instituto de Ciências

Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP).

NOY, N. F., SHAH, N. H., WHETZEL, P. L., DAI, B., DORF, M., GRIFFITH, N.,

JONQUET, C., RUBIN, D. L., STOREY, M., CHUTE, C. G. & MUSEN, M. A. (2009)

BioPortal: ontologies and integrated data resources at the click of a mouse. . Nucleic

acids research, 37 (suppl 2), 170–173.

OTMAN, G. (1991) On the ambitions and the performances of a computer-aided

terminological units spotting system. La banque des mots, NS4, 59-96.

PADRÓ, L. & STANILOVSKY, E. (2012) FreeLing 3.0: Towards Wider Multilinguality.

Proceedings of the Language Resources and Evaluation Conference (LREC 2012) ELRA.

Istanbul, Turkey.

PARK, Y., PATWARDHAN, S., VISWESWARIAH, K. & GATES, S. (2008) An empirical

analysis of word error rate and keyword error rate. 9th Annual Conference of the

International Speech Communication Association (INTERSPEECH). ISCA, Brisbane,

Australia.

PAZIENZA, M., PENNACCHIOTTI, M. & ZANZOTTO, F. (2005) Terminology extraction:

an analysis of linguistic and statistical approaches. . IN S, S. (Ed.) Knowledge Mining

Series: Studies in Fuzziness and Soft Computing. . Springer Berlin Heidelberg, Berlin.

PEARSON, J. (1998) Terms in context. Ámsterdam, John Benjamins.

PERISSÉ, M. C. (2000) Modelo para el Desarrollo de Bibliotecas Digitales

Especializadas.

RAYSON, P. & GARSIDE, R. (2000) Comparing corpora using frequency profiling.

Proceedings of the workshop on Comparing corpora, 38th annual meeting of the

Association for Computational Linguistics. Hong Kong, China.

RUIZ, R., AGUILAR–RUIZ, J. S. & RIQUELME, J. C. (2015) Evaluación de Rankings de

Atributos para Clasificación.

SALTON, G. & BUCKLEY, C. (1987) Term weighting approaches in automatic text

retrieval. Ithaca, NY, USA, Tech rep.


[135]

SANTORINI, B. (1990) Part-of-speech tagging guidelines for the Penn Treebank Project.

Technical report MS-CIS-90-47. Department of Computer and Information Science.

University of Pennsylvania.

TELINE, M. (2004) Aplicación de métodos para la Extracción Automática de Terminología

de textos en Portugués. São Carlos, SP, Brazil.

VAN DE KAUTER, M., COORMAN, G., LEFEVER, E., DESMET, B., MACKEN, L. &

HOSTE, V. (2013) LeTs Preprocess: The multilingual LT3 linguistic preprocessing toolkit.

Computational Linguistics in the Netherlands Journal, 3, 103–120.

VARGAS, G. B. A. (2002) Introducción a selección de atributos usando WEKA.

Reconocimiento de patrones. Cenidet.

VENTURA, J. & FERREIRA DA SILVA , J. (2008) Ranking and Extraction of Relevant

Single Words in Text. DI/FCT Universidade Nova de Lisboa, Portugal.

VINTAR, S. (2010) Bilingual term recognition revisited: The bag-of-equivalents term

alignment approach and its evaluation. Terminology, 16:141–158.

VIVALDI, J. & RODRÍGUEZ, H. (2001) Improving term extraction by combining differents

techniques. IN COMPANY, J. B. P. (Ed.) Terminology.

VIVALDI, J. & RODRÍGUEZ, H. (2010a) Finding Domain Terms using Wikipedia. 7th

LREC.

VIVALDI, J. & RODRÍGUEZ, H. (2012) Using Wikipedia for Domain Terms Extraction. IN

GORNOSTAY, T. (Ed.) Proceedings of CHAT 2012: The 2nd Workshop on the Creation;

Harmonization and Application of Terminology Resources. co-located with TKE 2012.

VIVALDI, J. & RODRÍGUEZ, H. (2010b) Using Wikipedia for term extraction in the

biomedical domain: first experience. Procesamiento del Lenguaje Natural.

VIVALDI, P. J. & RODRIGUEZ, H. H. (2007) Evaluation of terms and term extraction

systems. A practical approach. Terminology, 13 (2): 225-248.

WITTEN, I., MOFFAT, A. & BELL, T. (1999) Managing gigabytes: compressing and

indexing documents and images. Morgan Kaufmann, San Francisco, CA, USA.


[136]

ZAVAGLIA, C., OLIVEIRA, L. H. M., NUNES, M. G. V. & ALUSÍO, S. M. (2007) Estructura

ontológica de unidades léxicas: una aplicación computacional en el dominio de la

ecología. Proc 5th TIL Wksp. RJ, Brazil.

ZHANG, X., SONG, Y. & FANG, A. (2010) Term recognition using conditional random

fields. Proc of IEEE NLP-KE.

ZHANG, Z., IRIA, J., BREWSTER, C. & CIRAVEGNA, F. (2008) A comparative evaluation

of term recognition algorithms. IN N. CALZOLARI (CNF CHAIR), K. C., B. MAEGAARD, J.

MARIANI, J. ODJIK, S. PIPERIDIS, AND D. TAPIAS (Ed.) Proc of the 6th on LREC.

Marrakech, Morocco. ELRA.

se-term: sistema de extracción de términos híbrido...

Documents