inteligencia artificial introducción a la comprensión del lenguaje natural

35
Inteligencia Artificial Introducción a la comprensión del lenguaje natural Primavera 2009 profesor: Luigi Ceccaroni

Upload: jun

Post on 04-Jan-2016

34 views

Category:

Documents


2 download

DESCRIPTION

Inteligencia Artificial Introducción a la comprensión del lenguaje natural. Primavera 2009 profesor: Luigi Ceccaroni. Objetivos generales. Conocer el ámbito del PLN y sus principales aplicaciones - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

Inteligencia Artificial Introducción a la comprensión del

lenguaje natural Primavera 2009

profesor: Luigi Ceccaroni

Page 2: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

2

Objetivos generales

• Conocer el ámbito del PLN y sus principales aplicaciones

• Comprender la problemática asociada a la comprensión del LN y los niveles de análisis sintáctico y semántico

• Conocer las bases de la programación del análisis con gramáticas de cláusulas definidas (DCGs)

2

Page 3: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

3

Ámbitos del PLN

• El PLN consiste en construir sistemas computacionales capaces de comprender i generar lenguaje humano en todas sus formas.

• Para esto se necesita:– Saber cómo las personas generan expresiones

correctas y comprensibles – Conocer cómo las personas comprenden

expresiones de otras personas– Ser capaces de formalizar el conocimiento y los

procesos necesarios de manera que sean tratables por un sistema computacional

3

Page 4: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

4

Interdisciplinariedad

• Disciplinas asociadas al PLN:– Inteligencia artificial

• Representación del conocimiento• Razonamiento• Aprendizaje

– Lingüística computacional– Teoría de lenguajes formales

• Compiladores

4

Page 5: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

5

Comprensión y generación

• Son las dos operaciones básicas de las interfaces en LN.

• La consulta y la respuesta pueden ser en lenguaje oral: speech recognition and synthesis 5

EmisorComprensión

Generación

Consulta

Respuesta

Sistema de PLN

Actuación

Page 6: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

6

Comprensión y traducción

• En lugar de texto puede haber una intervención oral. 6

Texto LN origen

Representacióninterna texto

LN origen

Comprensión Generación

Transformación (traducción)

Texto LN destino

Representacióninterna texto LN destino

Page 7: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

7

Comprender el LN

• La comprensión exige:– Extraer el significado individual de las

palabras– Comprender las relaciones entre las palabras– Referir el significado literal al contexto de

actuación del sistema

• Todo esto se alcanza a través de un análisis de los componentes del lenguaje a diferentes niveles.

7

Page 8: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

8

Aplicaciones

• Traducción y resumen automáticos• Extracción de información a partir de textos• Interfaces y sistemas de diálogo• Sistemas de consulta telefónica• Clasificación y filtro de documentos, email• Question answering• Web semántica• Búsqueda de información en Internet

8

Page 9: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

9

Ejemplo de análisis

“Em parlarà sens dubte de la reestructuració urbana a Barcelona”

•Ejemplos de cosas que hay que detectar: – Palabras individuales: em, parlarà, sens...– El papel (categoría) de las palabras en la

frase: nombre, nombre propio, nombre compuesto, verbo, artículo...

– La relación entre categorías (papel sintáctico) para establecer el significado global: sujeto, objeto directo...

9

Page 10: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

10

Niveles de análisis

• Fonológico• Textual• Morfológico• Léxico• Sintáctico• Lógico• Semántico• Pragmático• Ilocutivo 10

Page 11: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

11

Niveles de análisis

• Fonológico– Se aplica en el procesamiento del lenguaje

oral.– Es el tratamiento de los sonidos para detectar

unidades de expresión (palabras).

11

Page 12: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

12

Niveles de análisis

• Textual– Filtrado de información no relevante: los

textos a tratar vienen a menudo acompañados de otros materiales que deben ser eliminados o extraídos (por ejemplo, si la fuente de información es una página web, diferentes tipos de marcas que definen las características de visualización de la página).

12

Page 13: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

13

Niveles de análisis

• Textual– Segmentación y localización de unidades

tratables: • El texto debe ser segmentado en fragmentos que

puedan tratarse de forma hasta cierto punto independiente (párrafos, oraciones, intervenciones de diversos interlocutores...).

• Las unidades básicas de tratamiento son las palabras; localizar las palabras ortográficas es sencillo si el espacio o los signos de puntuación actúan como separadores.

13

Page 14: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

Niveles de análisis

• Textual– Localización de unidades tratables

• Métodos basados en localización de marcas de puntuación: “.”, “?”, “!”, ”…”

• Problemas: ?– siglas– iniciales

1414

Page 15: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

15

Niveles de análisis

• Morfológico– La morfología estudia la estructura de las palabras y

su relación con las categorías del lenguaje. – El objetivo del análisis morfológico automático es

llevar a cabo una clasificación morfológica de las palabras.

– Por ejemplo, el análisis de la palabra gatos resulta en

gato+Noun+Masc+Pl,

que nos indica que se trata de un sustantivo plural con género masculino y que su forma normalizada (lema) es gato.

15

Page 16: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

16

Niveles de análisis

• Morfológico– Versión simple: utilización de formarios (listas

de formas con información morfológica y los lexemas correspondientes)•Morfemas = lexemas (o raíz) o gramemas

16

Lexemacant

Gramemao

es

a

em

en

Page 17: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

17

Niveles de análisis

• Morfológico– Analizadores morfológicos:

• Diccionarios de morfemas:– de raíces (lexemas), de sufijos, de prefijos, de infijos

• Morfotáctica: reglas de combinación de morfemas• Variaciones fonológicas: cambios al combinar

morfemas (ej., ploure, plovisquejar)

17

Page 18: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

18

Niveles de análisis

• Léxico– Distingue entre palabras ortográficas y

palabras gramaticales.– Obtiene información léxica de diccionarios,

ontologías...

18

Page 19: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

19

Niveles de análisis

• Léxico– Detecta unidades de significado

• Reconoce y fragmenta adecuadamente las palabras: “/Parlarà/ /sens dubte/ /de/ /les/ /reestructuracions/ /urbanes/ /a/ /Sant Cugat/”

– Recoge información útil y facilita las fases de análisis posterior• Asocia categorías gramaticales a las unidades

léxicas

• Asocia información semántica a las unidades léxicas (uso de ontologías y diccionarios)

• Detecta y clasifica entidades con nombre propio (named entity recognition, NER)

19

Page 20: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

20

Niveles de análisis

• Léxico– Correspondencia palabras ortográficas/gramaticales

• Detecta, por ejemplo, los casos siguientes:– “dóna-m’ho”, “dímelo” (1 p. ortográfica, 3 p.

gramaticales)– “sens dubte”, “sin embargo” (2 p. ortográficas, 1 p.

gramatical)

– Homonimia• Misma forma, diferentes categorías gramaticales

– “roda” (verbo, 3a persona), “roda” (nombre) -> conexión con sintaxis

– Polisemia• Misma forma y categoría, diferentes sentidos

– p.e.: “banco”20

Page 21: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

21

Niveles de análisis

• Léxico– Sigles

• ““Un cop s’ha generat un PCB es pot enviar a una cua Un cop s’ha generat un PCB es pot enviar a una cua FIFO”FIFO”

• ““The cell’s DNA sample was identified by PRC, a process The cell’s DNA sample was identified by PRC, a process approved by the official UBI approved by the official UBI””

– Abreviatures• ““El Dr. Pirvo va parlar del Tract. del Lleng. Natural…”El Dr. Pirvo va parlar del Tract. del Lleng. Natural…”

– Fórmules i mesures• ““Afegir dos mg de DM-oxano i guardar dins d’un vial de Afegir dos mg de DM-oxano i guardar dins d’un vial de

PVC”PVC”• ““Si tenim en compte que Si tenim en compte que xx==yy*2 + *2 + kk, on , on kk és una és una

constant...”constant...”

– Volum d’informació 21

Page 22: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

22

Niveles de análisis

• Ambigüedad léxica – “Pinchó la rueda de delante”

• “rueda” puede ser nombre o verbo (part-of-speech tagging - POS-tagging)

– “Vio el banco”• “banco” puede ser el mueble para sentarse, la entidad

financiera o un grupo de peces (word sense disambiguation - WSD)

22

Page 23: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

Ejemplo

“Quina es la capital de França?”

• Resultado del análisis morfológico:

23

quina quin DT0FS00 quina NCFS000 és ésser VMIP3S0 la el TDFS0 ell PP3FSO00 la I capital capital AQPCS00 capital NCFS000 capitalNCMS000 de de SPS00 França frança NP00000-loc ? ? Fit

Page 24: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

Ejemplo

“Quina es la capital de França?”

• Resultado del POS-tagging:

24

quina quin DT0FS00 és ésser VMIP3S0 la el TDFS0 capital capital NCFS000 de de SPS00 França frança NP00000-loc ? ? Fit

Page 25: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

Niveles de análisis

• Utilización de lexicones– “Diccionarios léxicos”– Reúnen información útil para reconocer y

categorizar las palabras y su ubicación en el texto.

2525

Lexemacant-

Informaciócantar

V / Infinitiu-o/-es/-a/-em/-eu/-en

Page 26: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

Problemática: representación

• Decidir el tipo de información que contiene:– Categoría sintáctica

• determinante, proposición, nombre propio, sustantivo, verbo, etc.

• Problema de la granularidad (verbo -> transitivo/intransitivo)

– Propiedades sintácticas de concordancia• género (masculino/femenino)• número (singular/plural) • persona (primera, segunda...)• caso (acusativo, dativo...)

Page 27: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

• Otras propiedades sintácticas:– Tipo de complemento del verboTipo de complemento del verbo– Preposiciones que acepta una palabraPreposiciones que acepta una palabra

• Categoría semántica• Información morfológica

– DerivaciónDerivación: : prefijos/infijos/sufijosprefijos/infijos/sufijos

plov + -isquej- + ar

re- + estructura + -cio + -ns

prefijo raíz sufijo sufijo

Problemática: representación

Page 28: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

Problemática: representación

– Información léxica

re- + estructura + -cio + -ns

prefijo raízsufijo

sufijo

repeticiónnombre

plural

Page 29: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

Problemática: representación

– Información léxica

plov + -isquej- + ar

raízinfijo

diminutivo

sufijo

infinitivo

Page 30: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

30

Niveles de análisis• Sintáctico

– Reconoce, extrae y representa estructuras sintácticamente válidas (o inválidas):

Els gat vell menja bacallà

El gata menja bacallà

El gat menja bacallà

| | | |

Det Noun Verb Noun

SN SV

F 30

Page 31: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

31

Niveles de análisis

• Ambigüedad sintáctica– “El vendedor de diarios del barrio” (prepositional-

phrase attachment - PP-attachment)– “Vio un hombre con unos prismáticos”

31

Page 32: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

32

Niveles de análisis

• Lógico– Extrae y representa el significado literal de

una oración a través de un lenguaje formal: cálculo de predicados de primer orden (CP1), ontologías, mapas conceptuales...

– En el caso de CP1, expresiones en términos de predicados, variables, funciones, constantes, conectivas lógicas...

“El gat menja bacallà”

existen x, y (Gat(x) & Bacallà(y) & Menja(x,y))32

Page 33: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

Niveles de análisis

• Semántico– Interpretación de la forma lógica: Relación de les entidades

lógicas (constantes, variables, términos) con el mundo real (o su representación)

– El gato es un felino, el bacalao es un pez comestible, el actor de comer tiene que ser un ser vivo...

– Extraer sentido global a partir de sentidos individuales y relaciones

• Ambigüedad semántica– “Dio un pastel a los niños”

• Puede ser 1 a todos o 1 a cada niño

– “Las ideas verdes duermen furiosamente”

Page 34: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

Niveles de análisis

• Pragmático– Interpretación en un contexto determinado

(incorpora referencias implícitas)• “Le dio un libro”• “No les gustó”

– Relación con el resto del discurso• “L’avió va detectar el banc”• “El gat vell” (perro viejo)

Page 35: Inteligencia Artificial  Introducción a la comprensión del lenguaje natural

Niveles de análisis

• Ilocutivo– Problema de asignación de intenciones

•“Los platos están sucios” – ¿Es una frase declarativa neutra?– ¿Es una invitación a la acción? (¡Lávalos!)– ¿Es un reproche? (Siempre los dejas sucios y

me toca lavarlos a mí)