adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci...

36
Adquisici´ on de conocimiento usando t´ ecnicas de procesamiento de texto y red sem´ antica Sesi´ on 6: Formaci´ on de ontolog´ ıas desde texto Dra. Olivia S´ anchez Graillet 5 de abril de 2012 Dra. Olivia S´ anchez Graillet (IIMAS) Seminario de Divulgaci´ on 5 de abril de 2012 1 / 36

Upload: others

Post on 01-Dec-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Adquisicion de conocimiento usando tecnicas deprocesamiento de texto y red semantica

Sesion 6: Formacion de ontologıas desde texto

Dra. Olivia Sanchez Graillet

5 de abril de 2012

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 1 / 36

Page 2: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Ontologıas

Llenado de ontologıas: proceso de definir e instanciar una base deconocimiento

Aprendizaje de ontologıas: metodos semi-automaticos paradesarrollar ontologıas

Adquisicion de conocimiento desde textoTecnicas de machine-learning, IA, PLN

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 2 / 36

Page 3: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Aprendizaje de ontologıas

Es multidisciplinaria debido a su conexion con la red semantica

Representacion de conocimiento, logica, filosofıa , bases de datos, PLN,IA, etc.

En el contexto de la red semantica, se adquiere y se proveeconocimiento desde y hacia la web

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 3 / 36

Page 4: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Desarrollo de ontologıas

Definicion de conceptos y las relaciones entre ellos

Implica la adquisicion de conocimiento linguıstico desde texto de losterminos que se refieren a los conceptos y a sus sinonimos

La estructura base es una taxonomıa con relaciones is-a y otrasrelaciones no-jerarquicas

Reglas que deriven hechos que se puedan inferir de las relaciones en laontologıa

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 4 / 36

Page 5: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Las capas del aprendizaje de ontologıas

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 5 / 36

Page 6: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Metodos para extraer terminos

Se etiqueta un corpus y se construyen patrones para reconocerterminos en el corpus

Metodos de NER (name entity recognition)

Metodos de PLN que resuelven ambiguedad usando una ontologıa

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 6 / 36

Page 7: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Sinonimos y variantes multilinguısticas

Adquisicion de variantes semanticas de terminos en el mismo y entrediferentes idiomas (traduccion de terminos)

Uso de WordNet y de EuroWordNet

Uso de metathesaurus especializados

Es necesario:

Escoger el significado adecuado en WordNet para un termino dadoConsiderar la desambiguacion de terminos (WSD)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 7 / 36

Page 8: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Reconocimiento de conceptos

¿Como se compone exactamente un concepto?

La formacion de un concepto deberıa proveer:

una definicion intensional del conceptoun conjunto de instancias del concepto, i.e., su extensionun conjunto de representaciones linguısticas i.e., (plurilingue) terminospara ese concepto

De esta forma, se define un concepto como un par con un lexico(I,Σ)⊕ L, donde:

I es la intension del conceptoΣ es su extensionL describe su representacion linguıstica (pueden ser estructurascomplejas)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 8 / 36

Page 9: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Reconocimiento de conceptos (2)

Generalmente se ve desde la perspectiva linguıstica o textual, comogrupos de terminos relacionados entre sı

Equivale a identificar terminos y sus sinonimos

Desde el punto de vista extensional, e.g., jerarquıas derivadas deentidades nombradas en texto

Se identifican las extensiones de un concepto

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 9 / 36

Page 10: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Reconocimiento de conceptos (3)

Trata de:

Encontrar las instancias de un concepto (llenado de ontologıa)

Adquisicion de definiciones formales e informales:

Definicion informal: puede ser una descripcion textual (glosa) delconceptoDefinicion formal: incluye la descripcion de las propiedades delconcepto, parte de las cuales es la extraccion de las relaciones entre unconcepto con otros conceptos

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 10 / 36

Page 11: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Paradigmas para inducir taxonomıas desde textos

1 a) Patrones lexico-sintacticos para detectar relaciones de hiponimia:estos patrones no se encuentran frecuentemente en corporab) Metodos que usan NPs y las subclases derivadas de combinar susencabezados con sus modificadores

2 Uso de algoritmos de clustering jerarquicos para derivar las jerarquıasde los terminos desde texto (e.g. lattice)

3 Nocion basada en documentos para la inclusion (subsumption) determinos

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 11 / 36

Page 12: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Ejemplo de patrones lexico-sintacticos

Hearst, 1992

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 12 / 36

Page 13: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Ejemplo de subclases encabezado-modificadores

“Transient ischemic attacks mimicking in some cases simple partial motorseizures”“Los ataques isquemicos transitorios que imitan en algunos casos a simplesconvulsiones motoras parciales”

Se crean clases para los encabezados del sujeto attack y del objetoseizure

Se crea el slot mimic para la clase attack con la clase seizure comosu rango, (i.e., las clases de todos las posibles palabras para ese slot)

Buitelaar et al., 2004

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 13 / 36

Page 14: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Identificacion de relaciones no-jerarquicas

Objetivo: descubrir relaciones entre conceptos conocidos (e.g.enfermedades, proteınas, genes, etc.) analizando grandes cantidadesde texto

Metodos de minerıa de textos: combinan estadıstica y analisissintactico o de dependencias gramaticales

Metodos para adquirir restricciones de seleccion para argumentos deverbos en PLN

Algoritmos para aprender reglas de asociacion entre entidades

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 14 / 36

Page 15: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Ejemplo de restricciones para argumentos de verbos

< viajar > < sujeto : humano > < por : vehiculo >

< sujeto : humano > y < por : vehiculo > son las subcategorıas delverbo viajar

El sujeto es un rol sintactico y “by” es una preposicion que introducealgo adjunto

humano y vehıculo son sus restricciones de seleccion

En forma mas general, el marco de subcategorizacion aprendido es:

< verbo > < rol sintactico|preposicion : sustantivo ∗ |concepto∗ > ∗

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 15 / 36

Page 16: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Ejemplo de reglas de asociacion

Algoritmos que encuentran asociaciones que ocurren entre entidades

e.g. los productos del supermercado en un conjunto de transacciones:

las compras se describen en un nivel apropiado de abstraccion: “lasbotanas se compran junto con las bebidas” en lugar de:

“las papas fritas se compran junto con cerveza” y los “cacahuates secompran junto con refrescos”

Maedche, A. y Staab, S. 2000

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 16 / 36

Page 17: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Extraccion de reglas

Objetivo: aprender reglas ontologicas desde textos

Relacionado con aprendizaje de reglas de derivacion de inferencialexica (entailment)

No existen muchos metodos

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 17 / 36

Page 18: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Criterios de evaluacion

Evaluacion manual: realizada por expertos en el area especıfica de laontologıa

Comparacion con Gold-standard

Basada en tareas: se evalua que tanto una ontologıa ayuda a realizaruna tarea especıfica

Basada en corpus: que tanto una ontologıa cubre cierto dominio

Basada en criterios: que tanto una ontologıa se ajusta a ciertoscriterios deseados (e.g. estructura de la grafica, nociones filosoficas)

Dellschaft y Staab, 2008

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 18 / 36

Page 19: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Aplicaciones

Metodos cıclicos: aprendizaje automatico de ontologıas desde texto yuso de esta ontologıa para mejorar la extraccion de informacion desdetexto

OWLExporter: para llenado de ontologıas (exportacion de ontologıasdesde texto) (Witte et al., 2010)

Aprendizaje de conceptos desde corpus: identificar conceptos y suclasificacion de acuerdo a sus atributos (caracterısticas) y propiedades(Poesio y Albuhareb, 2004)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 19 / 36

Page 20: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Aplicacion cıclica

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 20 / 36

Page 21: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

OWLExporter

Etiqueta palabras con un pipeline de PLN (GATE) y las mapea aldominio correspondiente

Se exportan individuos a la ontologıas

Establece relaciones entre los conceptos de un ontologıa ya existente

Se exportan los tipos de datos o las propiedades de los objetos

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 21 / 36

Page 22: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

OWLExporter: mapeos de anotaciones PLN a conceptosOWL

Usa dos reglas gramaticales: OwlExportClass y OwlExportRelation

Usa dos ontologıas: PLN y la del dominio

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 22 / 36

Page 23: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

OWLExporter: ejemplo de OwlExportClass

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 23 / 36

Page 24: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

OWLExporter: flujo general

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 24 / 36

Page 25: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Aprendizaje de conceptos: teorıa

Conceptos: son objetos mentales complejos caracterizados por ciertonumero de atributos (caracterısticas) en teorıas filosoficas,psicologicas, linguısticas, IA

Segun Aristoteles (en Metafısica), la naturaleza de un concepto sepuede describir por cuatro causas:

1 material: el material con el cual un objeto esta compuesto2 agentiva: lo que causa la creacion o el movimiento de un objeto3 formal: lo que se espera o se planea que un objeto sea - su escencia y

forma4 final: la causa por la cual el objeto existe o es creado

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 25 / 36

Page 26: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Aprendizaje de conceptos: teorıa

Pustejovsky adopta esta vision en su teorıa “Generative Lexicon”

una parte integral de una entrada lexica es su estructura qualia en elsentido dado por Aristoteles

La estructura qualia consiste de cuatro tipos de roles(correspondientes a las cuatro causas de Aristoteles):

1 formal: conjunto de atributos que especifican el tipo de objeto quedenota al concepto -sus cualidades intrınsecas. Incluye supertipos(relacion is-a) y atributos que especifican su forma.E.g. concepto libro: un objeto fısico con ciertas cualidades como< figura > y < color >

2 constitutivo: especifica la materia y las partes de un objeto (e.g. unlibro esta hecho de papel, tiene capıtulos, ındice, etc.)

3 telico: especifica el proposito de un objeto (e.g. leer)4 agentivo: especifica como fue creado el objeto (e.g. escribiendolo)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 26 / 36

Page 27: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Aprendizaje de conceptos

Objetivo: identificar las propiedades y atributos de objetos y usarestas propiedades para agrupar conceptos en clases

E.g.: “an ancient signet-ring”

“rings” pueden ser antiguos (“ancient”) o pueden tener edad (“age”)

Encontrar que “rings” y “bracelets” son mas parecidos que “rings” y“cats”, o “bracelets” y “cats”

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 27 / 36

Page 28: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Aprendizaje de conceptos: otros metodos

Otros metodos usan LSA e IE y se basan en la nocion “el significadode una palabra es especificado por la companıa que tiene”

Metodos usando modificadores y relaciones sintacticas queacompanan a una palabra

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 28 / 36

Page 29: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Aprendizaje de conceptos: con propiedades

patron: “[a|and|the]* C[is|was]”, en donde C es un concepto y * esuna sola palabra

E.g. “an inexpensive car”

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 29 / 36

Page 30: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Ejemplo: propiedades de “nose” fuertemente asociadas

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 30 / 36

Page 31: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Aprendizaje de conceptos: con atributos

patron: “the * of the C [is|was]” E.g. “the size of the nose is”

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 31 / 36

Page 32: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Ejemplo: atributos de “nose” fuertemente asociadas

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 32 / 36

Page 33: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Aprendizaje de conceptos: Conclusion

El agrupamiento con atributos da mejores resultados usando menosinformacion

El agrupamiento con atributos es mas preciso (97.30 %) que conpropiedades (64.86 %)

Las propiedades tienen mas poder de discriminacion que los atributos

La precision mas alta (100 %) en clasificacion se obtuvo combinandopropiedades y atributos

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 33 / 36

Page 34: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Software: Boxer

Desarrollado por Johan Bos

Genera representaciones semanticas

Usa un parser CCG (Combinatory Categorial Grammar) y produceDRSs (Discourse Representation Structures, Teorıa de larepresentacion del discuros de Hans Kamp)

http://svn.ask.it.usyd.edu.au/trac/candc/wiki/boxer

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 34 / 36

Page 35: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Referencias

Buitelaar, P., Cimiano, P., Magnini, B. Ontology learning from text:methods, evaluation and applications. Ios Pr Inc

Buitelaar, P., Olejnik, D., Sintek, M. 2004. A Protege Plug-In forOntology Extraction from Text Based on Linguistic Analysis. En 1stEuropean Semantic Web Symposium, Heraklion, Greece.

Klaas Dellschaft y Steffen Staab. 2008. Strategies for the Evaluationof Ontology Learning. En Proceedings of the 2008 conference onOntology Learning and Population: Bridging the Gap between Textand Knowledge, P. Buitelaar and P. Cimiano (Eds.), 253-272.

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 35 / 36

Page 36: Adquisición de conocimiento usando técnicas de ...uso de esta ontolog a para mejorar la extracci on de informaci on desde texto OWLExporter: para llenado de ontolog as (exportaci

Referencias

Maedche, A. y Staab, S. 2000. Discovering conceptual relations fromtext. En Proceedings of the 14th European Conference on ArtificialIntellignece (ECAI’2000).

Poesio, M. and Almuhareb, A. 2004. Feature-Based vs.Property-based KR: An Empirical perspective. En Achille Varzi andLaure Vieu (eds), Formal Ontology in Information Systems,Proceedings, IoS, Amsterdam, 177-184.

Witte, R., Khamis, N. and Rilling, J. 2010. Flexible OntologyPopulation from Text: The OwlExporter. En International Conferenceon Language Resources and Evaluation (LREC). Valletta, Malta,3845-3850.

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 36 / 36