lenguaje natural procesamiento del léxico y morfologíajmgomez/pln/02.morfologia.y.lexico.pdf ·...

41
Procesamiento del Lenguaje Natural – José María Gómez Hidalgo – Universidad Europea de Madrid Léxico y morfología Procesamiento del Lenguaje Natural José María Gómez Hidalgo http://www.esp.uem.es/~jmgomez/ Procesamiento del Lenguaje Natural – José María Gómez Hidalgo – Universidad Europea de Madrid Índice Introducción y definiciones Tipos de morfología Técnicas de análisis morfológico Etiquetado sintáctico estocástico (POS- TAGGING)

Upload: buidan

Post on 26-Sep-2018

223 views

Category:

Documents


0 download

TRANSCRIPT

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Léxico y morfología

Procesam

iento delLenguaje N

aturalJosé M

aría Góm

ez Hidalgo

http://www.esp.uem.es/~jmgomez/

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Índice

•Introducción y definiciones

•T

ipos de morfología

•T

écnicas de análisis morfológico

•E

tiquetado sintáctico estocástico (PO

S-

TA

GG

ING

)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Léxico y morfología

Introducción y definiciones

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Introducción y definiciones

•M

orfología–

Se ocupa de la form

ación de palabras a partir de las unidades m

ás básicas de significado denom

inadas morfem

as–

Parte de la lingüística que estudia la estructura

interna de las palabras, su flexión, derivación y com

posición–

En ocasiones a las unidades m

ínimas de

significación se les denomina m

onemas

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Introducción y definiciones

•Los m

onemas son de dos tipos

–Lexem

as•

Monem

as con significado pleno (representan un concepto o idea)

–M

orfemas

•N

o tienen significado pleno, sino un significado gram

atical•

Relacionan a los lexem

as o modifican su significación

–P

ensamos =

pens+

amos

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Introducción y definiciones

•Léxico o lexicón–

Vocabulario de una lengua –

lista de todos sus elem

entos léxicos–

Diccionario típico•

Las entradas se identifican mediante una form

a base o form

a canónica–

Inglés: forma canónica =

raíz no flexionada–

Castellano o francés: los verbos se representan con una

forma flexionada (infinitivo) com

er

•Inform

an de pronunciaciones, categorías gramaticales,

definiciones, información etim

ológica o estilística

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Introducción y definiciones

•D

iccionarios electrónicos–

Los más elem

entales cuentan con•

listas de formas plenas o léxicos desplegados (listas de

palabras con todas las formas)

–w

alk, walks, w

alked, walking

•la inform

ación gramatical correspondiente

–E

n lenguas con flexión rica y compleja

•E

l lexicón proporciona una raíz•

La información gram

atical correspondiente•

El com

ponente morfológico se encarga de generar las

posibles formas

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Introducción y definiciones

•V

entajas del análisis morfológico con respecto al uso

de léxicos desplegados–

En lenguas de flexión rica y en lenguas aglutinantes el uso

de léxicos desplegados es inviable–

Reconocer palabras desconocidas o form

as de palabras que no están incluidas en el diccionario

–A

partir de la identificación de flexiones gramaticales pueden

inferirse funciones sintácticas–

Se puede conseguir una descripción del idiom

a a tratar

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Léxico y morfología

Tipos de m

orfología

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Tipos de m

orfología

•H

ay 3 mecanism

os para la formación de

palabras–

flexión–

derivación–

composición

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Tipos de m

orfología

•M

orfología flexiva

•E

n las gramáticas tradicionales las

variaciones se agrupan en “paradigmas”

•E

jemplo –

paradigma latino

–dom

inus, dominum

, domini, dom

ino, etc.–

Raíz =

domin-

se combina con diferentes

terminaciones (-us, -um

, -i, -o, etc.)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Tipos de m

orfología

•M

orfología flexiva–

Variación en la form

a de las palabras según su función

–N

o modifica la función sintáctica de la raíz

•E

jemplos

–N

ombres en singular y plural (m

esa, mesas )

–V

erbos en tiempo presente y pasado (viene, vino)

•F

lexión (o desinencia) –sistem

a que define las variaciones posibles de la raíz

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Tipos de m

orfología

•M

orfología flexiva–

Inglés –grado de variación flexiva relativam

ente pobre

–E

jemplo

•La m

ayor parte de los verbos cuentan únicamente con

los morfem

as gramaticales -s, -ed, -ing

–C

astellano –grado de variación flexiva m

ayor

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Tipos de m

orfología

•M

orfología flexiva–

Las lenguas se puede clasificar según el mayor o

menor uso de la flexión

•Lenguas aislantes –

Casi sin flexión (chino)

•Lenguas flexivas –

Afijos con significados com

plejos (castellano)

•Lenguas aglutinantes –

Añaden m

últiples sufijos a la raíz (turco, euskera)

•Lenguas polisintéticas significado gram

atical a partir de la flexión (esquim

al)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Tipos de m

orfología

•M

orfología flexiva –ejem

plo–

Castellano•

En la punta de la punta de la ram

a del manzano de la

cuesta

–E

uskera•

Aldapeko

sagarrarenadarraren

puntaren punta

–S

i comparam

os ambas m

ediante su traducción euskera-castellano

•A

ldapeko(dela cuesta) sagarraren

(del manzano)

adarraren(de la ram

a) puntaren (de la punta) punta (en la punta)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Tipos de m

orfología

•M

orfología derivativa–

Form

ación de nuevas raíces (flexionables) a partir de otras raíces que suelen pertenecer a categorías gram

aticales diferentes–

Puede provocar un cam

bio de categoría•

Nom

bre nación→

adjetivo nacional→

verbo nacionalizar→

nombre nacionalism

o→

verbo internacionalizar

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Tipos de m

orfología

•M

orfología de composición

–C

ombinación de palabras com

pletas para dar origen a nuevas form

as•

El significado puede deducirse a partir de los

significados de las partes: pelirrojo•

El significado puede variar ligeram

ente: peliagudo (com

plicado)•

El significado puede no estar m

otivado por el de las partes: boquirrubio (incauto, ingenuo, joven presum

ido)

–S

u tratamiento suele ser m

ás complejo

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Tipos de m

orfología

•M

orfología de composición

–P

uede resultar un problema en algunas lenguas

que•basta con escribir dos palabras juntas para form

ar palabras com

puestas•

no intercalan un carácter (guión) entre ambas (no hay

evidencias de composición)

•se pueden crear nuevas palabras com

puestas que no aparecen en el diccionario

–E

jemplo: en alem

án Lufthansafrachtflüge(vuelos

de carga Lufthansa)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Léxico y morfología

Técnicas de análisis m

orfológico

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•A

nálisis morfológico

–P

erseguimos

•C

apturar las regularidades morfológicas del lenguaje

humano

•A

provecharlas para reducir el tamaño del léxico

–E

s preferible poder derivar raiz+form

a-verbal que listar todas las form

as del verbo

–S

olo se listan las formas irregulares

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•A

nalizador morfológico

–E

ntrada =>

forma

–S

alida =>

lema +

rasgos morfológicos

Entra

da

Salid

a

cat

cat+ N +

sg

cats

cat+ N +

pl

cities

city+ N +

pl

merging

merge+ V +

pres_part

caught

(catch

+ V +

past) o

(catch

+ V +

past_

part)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•T

ipos de técnicas–

Técnicas de estados finitos•

Autóm

atas (analizadores de un nivel)•

Transductores (analizadores de dos o m

ás niveles)

–T

écnicas basadas en reglas•

Equivalentes en expresividad a las anteriores

•R

eglas de reconocimiento y transform

acionales•

Gram

áticas regulares, contextuales, basadas en unificación

–Indicadas por expresividad =

> sim

plifican el desarrollo

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•T

écnicas de estados finitos–

Elem

entos del analizador•

Léxico de morfem

as–

raices+

afijos•

Morfotáctica

= qué com

binaciones de morfem

as son válidas

–cats

= cat+

s–

“el plural del nombre se denota por una s al final”

•A

lteraciones fonológicas = reglas ortográficas =

cambios

al producirse la combinación

–city

+ s =

cities

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•E

stados finitos (léxico, morfotáctica)

reg_nounirreg_pl_noun

irreg_sg_nounplural

foxsheep

sheep-s

catm

icem

ousedog

01

2

reg_nounplural (-s)

irreg_pl_noun

irreg_sg_noun

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•E

stados finitos (autómata com

pilado)

fo

xsε

ca

t

do

g

ne

y

em

ou

s

e

ic

fogcatdogdonkeym

ousem

iceProcesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•T

écnicas de estados finitos–

Morfología de dos niveles

upperlevel

léxicocat+

Ncat+

N +

pllow

erlevel

superficiecat

cats

c:ca:a

t:t+

N:ε

+pl:s

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•T

écnicas de estados finitos (transductores)

reg_nounirreg_pl_noun

irreg_sg_nounplural

foxsheep

sheeps

catm

o:i u:εce

mouse

dogg o:e o:e se

goose

01

2

reg_noun+

pl:s

irreg_pl_noun

irreg_sg_noun23

456

+N

+N

+N

+sg:ε

+sg:ε

+pl:ε

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•T

écnicas de estados finitos (transductores)–

Usos posibles•

Com

o reconocedor–

Recibe dos cadenas de entrada (una léxica y una

superficial) y responde cierto o falso según una sea transducción de la otra

•C

omo generador

–G

enera pares de cadenas

•C

omo traductor

–R

ecibe una cadena superficial y genera su transducción léxica

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•T

écnicas basadas en reglas–

Equivalentes en expresividad a autóm

atas–

Ejem

plosnam

edescrip

tion

exam

ple

consonant d

oublin

gsingle

lette

r consonant

beg/b

egging

doubled b

efo

re-in

g/-e

d

edeletio

nsile

nte

dro

pped b

efo

re

-ing/-e

dm

ake/m

aking

einsertio

ne

added a

fter-s,-z

,-x,-c

h,-s

h

befo

re-s

watch/w

atches

yre

placem

ent

-ychanges to

-ie b

efo

re-s,to

ibefo

re-e

dtry

/tries

kinsertio

nverb

s e

nding w

ith voyel+c

add

-kpanic/p

anicked

nam

edescrip

tion

exam

ple

consonant d

oublin

gsingle

lette

r consonant

beg/b

egging

doubled b

efo

re-in

g/-e

d

edeletio

nsile

nte

dro

pped b

efo

re

-ing/-e

dm

ake/m

aking

einsertio

ne

added a

fter-s,-z

,-x,-c

h,-s

h

befo

re-s

watch/w

atches

yre

placem

ent

-ychanges to

-ie b

efo

re-s,to

ibefo

re-e

dtry

/tries

kinsertio

nverb

s e

nding w

ith voyel+c

add

-kpanic/p

anicked

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•T

écnicas basadas en reglas–

Estructura de reglas•

a:b ⇐C

ontexto_izquierdo ___ Contexto_derecho

–el item

léxico adebe corresponder al item

superficial bcuando se encuentra

en el contexto

•a:b ⇒

Contexto_izquierdo ___ C

ontexto_derecho–

el itemléxico a

sólo puede corresponder al itemsuperficial b

cuando se encuentra en el contexto

•a:b ⇔

Contexto_izquierdo ___ C

ontexto_derecho–

el itemléxico a

debe corresponder al itemsuperficial b

cuando se encuentra en el contexto y sólo entonces

•a:b /⇐

Contexto_izquierdo ___ C

ontexto_derecho–

el itemléxico a

no puede corresponder al itemsuperficial b

cuando se encuentra en el contexto

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•T

écnicas basadas en reglas–

Ejem

plo (e-insertion)

ε:e ⇔

[xsz]^

:ε___ s#

descomposición

ε:e ⇒

[xsz]^

:ε___ s#

ε:ε/⇐

[xsz]^

:ε___ s#

⇒⇒⇒ ⇒/

⇐⇐⇐ ⇐

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•R

eglas en gramáticas de unificación

–E

jemplo =

DC

Gs

de Prolog

–S

istema A

RE

S•

Sistem

a de recuperación de documentos en el entorno

del manual de U

nix–

Los documentos son las páginas del m

anual, en inglés

•Integra técnicas clásicas de recuperación de inform

ación y técnicas avanzadas de P

LN•

Parcialm

ente codificado en Prolog

y hace uso de un analizador m

orfológico

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•R

eglas en gramáticas de unificación

–E

jemplo =

DC

Gs

de Prolog

–S

istema A

RE

S•

Analizador m

orfológico–

Categorías flexivas del inglés (nom

bre, verbo, adjetivo)–

Deja una palabra en form

a canónica (nombre singular,

verbo infinitivo, adjetivo en forma base)

–S

e basa en un léxico obtenido de WordN

et (que es una base de datos léxica, o diccionario conceptual)

–C

ubre el 100% de las palabras del m

anual de Unix

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Técnicas de análisis m

orfológico

•R

eglas en gramáticas de unificación

–E

jemplo =

DC

Gs

de Prolog

–S

istema A

RE

S•

Analizador m

orfológico

morf(noun,R,[]) --> root(R),[s].

morf(noun,R,[s]) --> root(R),[s,e,s].

morf(noun,R,[x]) --> root(R),[x,e,s].

morf(noun,R,[z]) --> root(R),[c,e,s].

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Léxico y morfología

Etiquetado sintáctico estocástico

(PO

S-T

AG

GIN

G)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Etiquetado sintáctico estocástico

PO

S-T

AG

GIN

G

•Introducción

•A

plicaciones•

Evaluación

•T

axonomía de m

étodos•

Modelos de M

arkov

•R

esumen

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-Introducción

•E

tiquetado sintáctico = P

art-O

f-Speech

Tag

gin

g,

PO

S-T

agg

ing

•U

no de los problemas m

ás populares en PLN

–P

rerrequisito de análisis del LN•

Prim

era fase del análisis sintáctico

–R

esurrección del PLN

estadístico (90’s)–

Altos índices de efectividad (com

parativamente)

•Los etiquetadores alcanzan efectividades superiores al 95%

de acierto

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-Introducción

•D

efinición–

Selección de la etiqueta sintáctica m

ás probable para una palabra en un contexto

–O

de la secuencia de etiquetas para una secuencia de palabras

–Las palabras aisladas son am

biguas respecto a su etiqueta sintáctica

•E

tiquetas = N

ombre, V

erbo, Adjetivo, etc.

•P

roblema de desam

biguación (sintáctica)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-Introducción

•E

jemplo [R

odríguez]

Yo

bajocon el hom

bre bajoa

tocarel bajo

bajola

escalera.

PP

VM

VM

AQ

NC

SP

TD

NC

VM

VM

SP

VM

VM

AQ

NC

SP

NC

SP

TD

VM

VM

AQ

NC

SP

VM

VM

AQ

NC

SP

TD

NC

PP

NC

FP

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-Introducción

•E

jemplo [R

odríguez]

Yo

bajocon el hom

bre bajoa

tocarel bajo

bajola

escalera.

PP

VM

VM

AQ

NC

SP

TD

NC

VM

VM

SP

VM

VM

AQ

NC

SP

NC

SP

TD

VM

VM

AQ

NC

SP

VM

VM

AQ

NC

SP

TD

NC

PP

NC

FP

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-Introducción

•Las etiquetas sintácticas no son un concepto artificial–

Dos palabras pertenecen a la m

isma categoría si y solo si

reemplazar una con otra no cam

bia la “gramaticalidad” de la

oracióngram

aticalidad. 1. f. Ling. Cualidad de una secuencia de

palabras o morfem

as por la que se ajusta a las reglas de la gram

ática. (DR

AE

)

“The _

___

_ is

angry

.”

–N

ótesesim

ilitudcon sinonim

ia

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-Introducción

•S

istemas de etiquetas

–D

ependientes del idioma y/o c

orp

us

–S

istemas básicos (e.g. N

, V, etc.)

•R

eflejan sólo el rol sintáctico•

Más sencillos, reducidos, eficientes

–S

istemas sofisticados (e.g. N

N, N

C, etc.)

•R

eflejan clasificaciones (nombre com

ún vs. propio, modalidad,

temporalidad, etc.)

•M

ás complejos, detallados

•S

e pueden colapsar etiquetas (N* =

> N

)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-Introducción

•P

ennT

reebank(inglés)

1. CC

Coord. C

onjunction18. P

RP

Personal pronoun

2. CD

Cardinal num

ber20. R

B A

dverb3. D

T D

eterminer

22. RB

S S

uperlativeA

dverb6. IN

Prep. / subord. conj

27. VB

Verb, base form

7. JJ Adjective

28. VB

D V

erb, pasttense8. JJR

Com

p. adjective29. V

BG

Verb, gerund/pres. partic.

9. JJS S

uperlativeadjective

30. VB

N V

erb, pastparticiple12. N

N N

oun, sing. orm

ass31. V

BP

Verb, non-3s, present

13. NN

S N

oun, plural 32. V

BZ

Verb, 3s, present

14. NN

P P

ropernoun, sing.

33. WD

T W

h-determiner

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-Introducción

•E

standarización EA

GLE

S–

A nivel europeo,

independiente idioma

–U

sada CLiC

-TA

LP–

Etiquetas +

atributosha tenido fortunadep

ortiv

a_

aq0fs

0y

sentim

enta

l_aq

0cs0

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-A

plicaciones

•[M

anning, Márquez]

•A

l servicio de otras tareas•

Análisis del LN

basado en conocimiento

(comprensión), tareas y aplicaciones

–A

nálisis sintáctico•

Eficiencia =

reducción del número de análisis (parciales)

potenciales

–T

raducción automática

dog_N =

> perro / dog_V

=>

perseguir

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-A

plicaciones

•P

LN estadístico (clasificación), tareas

–A

nálisis superficial o parcial•

Detección de sintagm

as nominales –

NP

bra

cke

ting

•A

grupamiento sintáctico –

ch

un

kin

g(detección de

grupos sintácticos no anidados)[N

P H

e ] [VP

reckons] [N

P the

currentaccountdeficit] [V

P w

illnarrow] [P

P to

] [NP

only# 1.8 billion

] [PP

in ] [N

P S

eptember

] .•

Realizable e

fectiv

am

en

tecon etq. sintácticas

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-A

plicaciones

•P

LN estadístico

–C

lasificación de documentos (recuperación,

categorización, etc.)•

Unidades de indexación (palabra_etiqueta, sintagm

as nom

inales, etc.)–

Especialm

ente en dominios técnicos (m

edicina, etc.)

•R

espuesta a preguntas –Q

uestio

n A

nsw

erin

g

–Los sintagm

as nominales son candidatos a respuestas

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-A

plicaciones

•P

LN estadístico

–E

xtracción de información

•T

exto =>

Registros estructurados

–Q

ué, quién, cómo, etc. en noticias sobre atentados

terroristas en Hispano A

mérica (M

UC

)

–C

atálogos comerciales, noticias bursátiles, etc.

•C

ascada de procesadores lingüísticos, que incluyen (de m

anera crítica) el etiq

ue

tad

o s

intá

ctic

o, análisis superficial, desam

biguación del significado, etc.

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-E

valuación

•D

eben evaluarse múltiples aspectos

–E

ficiencia (el etiquetador es sólo una parte del proceso)–

Portabilidad (a otros idiom

as, dominios)

•U

sualmente centrada en la efectividad

–M

étricas–

Línea base–

Dificultad del problem

a–

Colecciones etiquetadas

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-E

valuación

•E

fectividad –m

étricas–

Basadas en núm

ero de aciertos–

Etiquetado com

pleto =>

exactitud, error–

Etiquetado incom

pleto =>

cobertura, precisión, F1

–C

onviene•

Centrarse sólo en palabras am

biguas•

Desglosar resultados por–

Categorías sintácticas (N

vs.AD

V)

–T

ipos de ambigüedad (N

/V vs. A

DV

/AD

J)

–S

ecuencias ambiguas (e.g. D

ET

N A

DJ)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-E

valuación

•E

fectividad –línea base

–A

signar a cada palabra su etiqueta más frecuente (en el

corpus)•

Exactitud 90%

•S

ustancialmente m

ás eficaz que otras tareas•

No hay m

ucho espacio de mejora

•P

ero e.g. 95% en artículos periodísticos (longitud m

edia de oración =

20 palabras) =>

un error por oración

•E

fectividad –dificultad del problem

a–

+ etiquetas =>

+ am

bigüedad =>

+ dificultad

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-E

valuación

•E

fectividad –colecciones de evaluación

–Inglés

•B

rown

Corpus (1M

, inglés americano, 1979)

•London-O

slo-Bergen (1M

, inglés británico, 1979)•

WallS

treetJournal(300M, inglés am

ericano)

•B

ritishN

ationalCorpus (100M

, inglés británico)

–E

spañol•

LexEsp

(5.5M)

•R

eal Academ

ia Española (200M

)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-T

axonomía de m

étodos

•[M

árquez]1.

Lingüísticos (o basados en conocimiento)

2.E

stadísticos o estocásticos (o basados en m

odelos del lenguaje)•

Pueden ser considerados subconjunto de los siguientes

3.B

asados en aprendizaje–

Problem

as críticos de 2 y 3•

Escasez de datos, sucesos no vistos

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-T

axonomía de m

étodos

1.E

tiquetadores lingüísticos–

Conocim

iento lingüístico de expertos

–B

asados en reglas (≈1k)

–C

onstruidos manualm

ente–

Ejem

plos•

TO

SC

A, E

ngCG

(inglés)•

EusC

G(euskera)

•S

paCG

(español)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-T

axonomía de m

étodos

1.E

tiquetadores lingüísticos–

Ventajas

•R

iqueza y expresividad de las reglas lingüísticas

•E

xcelentes resultados (EngC

G>

99% exactitud)

–D

esventajas•

Alto coste de desarrollo (adquisición del conocim

iento)

•N

o transportables•

Menos eficientes

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-T

axonomía de m

étodos

1.E

tiquetadores lingüísticos –E

ngCG

–C

on

stra

intG

ram

ma

r=

secuencia de sub-gramáticas

–S

ub-gramática =

serie de restricciones (co

nstra

ints) que

establecen condiciones de contexto(@

w =

0 VF

IN (-1 T

O))

descarta la categoría VF

IN si la palabra anterior es “to”

–E

NG

CG

(EN

GT

WO

L)•

1100 restricciones•

93-97% de las palabras quedan totalm

ente desambiguadas

•99.7%

corrección•

Reglas heurísticas aplicables sobre el residuo

•2-3%

ambigüedad residual con 99.6%

de precisión

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-T

axonomía de m

étodos

2.E

tiquetadores estadísticos–

Modelos del lenguaje y generalizaciones adquiridos

automáticam

ente•

A partir de un corpus etiquetado m

anualmente

•D

ata

-driv

en

taggers

–U

so de inferencia estadística•

Modelos probabilísticos

–T

écnicas procedentes del tratamiento del habla

•T

ransmisión de señal sobre un canal con ruido

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-T

axonomía de m

étodos

2.E

tiquetadores estadísticos–

Ventajas

•M

arco teórico bien fundamentado

•A

proximación clara, m

odelos simples

•E

xactitud aceptable (> 97%

)

•Independencia de la lengua

–D

esventajas•

Dificultades de aprendizaje del m

odelo–

Escasez/inexistencia de datos

•M

enor precisión que lingüísticos

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-T

axonomía de m

étodos

2.E

tiquetadores estadísticos–

Modelos del lenguaje de tipo n-gram

as–

Modelos de M

arkov•

Visibles (algoritm

o de Viterbi)

•M

odelos ocultos de Markov (H

idde

nM

ark

ov M

odels)

–B

aum-W

elch

–Los m

ás populares (e.g. Xerox

tagger, multi-lenguaje)

–M

áxima probabilidad (M

axim

um

Lik

elih

oo

d)–

Se basan en estim

ar la probabilidad de una secuencia observada de sucesos

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-T

axonomía de m

étodos

3.E

tiquetadores basados en aprendizaje–

Se contem

pla el problema com

o genérico de aprendizaje•

Atributos (lingüísticos), ejem

plares, selección, algoritm

os de aprendizaje

–E

nfoque más uniform

e–

Ejem

plos•

TreeT

agger, MX

-PO

ST

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-T

axonomía de m

étodos

3.E

tiquetadores basados en aprendizaje–

Atributos (lingüísticos) en contexto

•E

tiquetas anteriores, unidades léxicas anteriores y posteriores, datos de la palabra actual (m

orfología, m

ayúsculas, etc.)

•T

amaño de la ventana (±2)

–E

jemplares =

vectores atributo-valor–

Selección =

unidades léxicas más frecuentes

–A

lgoritmos de aprendizaje =

Árboles de decisión, E

ntropía M

áxima, aprendizaje basado en ejem

plares, etc.

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-T

axonomía de m

étodos

3.E

tiquetadores basados en aprendizaje -T

reeTagger

–A

lemán, inglés, francés, griego, italiano

–A

tributos = 2 etiquetas anteriores, sufijos

–A

lgoritmos de aprendizaje =

Árboles de decisión

ID3

–E

fectividad = 96.32%

vs. 96.06% de un

etiquetador basado en trigramas

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-T

axonomía de m

étodos

3.E

tiquetadores basados en aprendizaje -T

reeTagger

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

•M

étodo de modelado de procesos estadísticos

secuenciales•

Desarrollados por A

ndreiA. M

arkov(estudiante de

Chebyshev), 1913

–P

ara modelar secuencias de letras en literatura rusa

•U

sados en PLN

para–

Modelos de producción lingüística

–E

tiquetado sintáctico–

Reconocim

iento de habla–

Múltiples aplicaciones (extracción de inform

ación, etc.)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

•U

sados con secuencias de variables estadísticas c

on

cie

rtas p

rop

ied

ad

es

–S

ea X =

(X1 ,…

, XT ) variables aleatorias

secuenciales, tomando valores en S

= (s

1 ,…,s

N )–

Propiedades de M

arkov•

Horizonte lim

itado–

P(X

t+1 =

sk |X

1 ,…,X

t ) = P

(Xt+

1 =s

k |Xt )

•Invarianza

con el tiempo

–P

(Xt+

1 =s

k |Xt ) =

P(X

2 =s

k |X1 )

–X

es una cadena de Markov

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

•O

bjetivo = calcular la s

ecu

en

cia

de

etiq

ue

tas

s p

rob

ab

lepara una oración dada

•P

ropiedades de Markov

en PO

ST

–H

orizonte limitado

•P

(ti+1 |t1,i ) =

P(ti+

1 |ti )

–Invarianza

con el tiempo

•P

(ti+1 |ti ) =

P(t2 |t1 )

–S

implificaciones que no se cum

plen en general

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

•R

egla de Bayes

–R

educimos probabilidades a parám

etros estim

ables con corpus de entrenamiento

()

()

()

()n

nn

n

tn

nt

opt

nw

P

tP

tw

Pw

tP

tn

n,1

,1,1

,1,1

,1,1

m

axarg

max

arg,1

,1

==

()

()n

nn

t

tP

tw

Pn

,1,1

,1

max

arg,1

=

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

•A

sumiendo

–Las palabras son independientes entre si

–U

na palabra sólo depende de su etiqueta

–D

efiniendo por notación

()

()

()

()

∏∏

=

=

=ni

ii

ni

ni

nn

nt

tP

tw

Pt

Pt

wP

21

,11

,1,1

,1,1

()

()

()

()1

12

11

==

=

∏∏

∏=

=i

i

ni

ii

ni

ii

ni

ii

tt

Pt

wP

tt

Pt

wP

()

10

1=

tt

P

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

•E

n conclusión

–U

samos E

MV

sobre colección entrenamiento

()

()1

1,1

m

axarg

,1

=

∏=

ii

ni

ii

t

opt

nt

tP

tw

Pt

n

()

()

() j

jk

jk

tN

tw

Nt

wP

,=

()

()

() j

jm

jm

tN

tt

Nt

tP

,=

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

P(A

TN

N B

EZ

IN A

T N

N | the

bearis

onthe

move) =

?

S

egunda etiqueta P

rimera etiqueta

AT

B

EZ

IN

N

N

VB

P

ER

A

T

0 0

0 48636

0 19

BE

Z

1973 0

426 187

0 38

IN

43322 0

1325 17314

0 185

NN

1067

3720 42470

11773 614

21392 V

B

6072 42

4758 1476

129 1522

PE

R

8016 75

4656 1329

954 0

Palabra

AT

B

EZ

IN

N

N

VB

P

ER

bear

0 0

0 10

43 0

is 0

10065 0

0 0

0 m

ove 0

0 0

36 133

0 on

0 0

5484 0

0 0

president 0

0 0

382 0

0 progress

0 0

0 108

4 0

the 69016

0 0

0 0

0 .

0 0

0 0

0 48809

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

•Lim

itación práctica–

Núm

ero exponencial de secuencias de etiquetas

•S

e usa el algoritmo de V

iterbi–

Procede de los m

odelos ocu

ltos

de Markov

–P

rogramación dinám

ica–

Cóm

puto de dos funciones•

δi (t j) =

probabilidad de la etiqueta t jen la palabra wi

•ψ

i+1 (t j) =

etiqueta más probable para w

i habiendo asignado t ja w

i

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

•V

iterbi1.

Inicialización: δ1 (P

ER

) = 1

, δ1 (t) =

0 s

i t ≠P

ER

2.Inducción

3.P

redicción

()

()

()

()

[]

T1 ,

max

11

11

≤≤

××

=+

+≤

≤+

jt

tP

tw

Pt

tk

jj

ij

iT

kj

δ

()

()

()

()

[]

T1 ,

max

arg1

11

1≤

≤×

×=

++

≤≤

+j

tt

Pt

wP

tt

kj

ji

ji

Tk

ji

δψ

()

()

ni

XX

tX

ii

i

j

nT

jn

≤≤

==

++

≤≤

1 para

y ,

max

arg1

11

ψδ

()

() j

nT

jn

tX

XP

11

1m

ax,...,

+≤

≤=

δ

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

•T

ratamiento de p

ala

bra

s d

esco

no

cid

as

–P

alabras no presentes en el entrenamiento

–F

recuentemente m

arcan la diferencia en efectividad

–E

nfoque simple =

etiqueta (abierta) más frecuente

•P

oco efectivo, desaprovecha información lingüística

–E

nfoques más sofisticados usan m

últiples fuentes de inform

ación•

Frecuencia, flexión, ortografía (capitalización)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

•E

jemplo

–F

recuencia, flexión, ortografía (capitalización)

des = desconocida, m

ay = m

ayúsculas, suf= sufijo

–R

educción de errores del 40% al 20%

()

()

()

() j

jj

jk

tsuf

Pt

may

Pt

des

PZ

tw

P

1

=

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

•E

jemplo

P(fenestration|t k) =

?, P(fenestrates|t k) =

?,

Atributo

Valor

NN

P

NN

N

NS

V

BG

V

BZ

0,05 0,02

0,02 0,005

0,005 desconocida

no 0,95

0,98 0,98

0,995 0,995

sí 0,95

0,10 0,10

0,005 0,005

mayúsculas

no 0,05

0,90 0,90

0,995 0,995

-s 0,05

0,01 0,98

0,00 0,99

-ing 0,01

0,01 0,00

1,00 0,00

-tion 0,05

0,10 0,00

0,00 0,00

sufijo

otro 0,89

0,88 0,02

0,00 0,01

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

-M

odelos de Markov

•Los m

odelos anteriores se pueden extender a bigram

asy trigram

asde palabras

–A

umentam

os efectividad–

Tagger

de Church

(1988)

•M

odelos ocultos de Markov

–R

azonablemente m

ás sofisticados y muy efectivos

–E

stándar en PO

S-T

agging

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

PO

ST

–R

esumen

•T

area básica para otras tareas de análisis y com

prensión•

Problem

a bien definido, muy popular

•Línea base alta (90%

), pero mejorable

•M

anifiestamente m

ás fácil que otras tareas•

Métodos lingüísticos, estadísticos y basados en

aprendizaje•

Efectividad actual alta (>

97%)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Léxico y morfología

Bibliografía

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Bibliografía

•M

orfología–

[Martínez] R

aquel Martínez. N

ive

les d

e a

lisis

.

Aná

lisis

morfo

lóg

ico. A

puntes del curso de doctorado Ingeniería Lingüística aplicada al P

rocesamiento de D

ocumentos,

http://ww

w.escet.urjc.es/~

rmartine/IL.htm

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Bibliografía

•T

écnicas de análisis morfológico

–[Jurafsky] D

. Jurafsky, J. Martin. S

peechand

languageprocessing: an

introductionto

natural language

processing, computationallinguistics,

andspeech

recognition. Prentice

Hall, 2000 –

Capítulo 3

–[R

odríguez] Horacio R

odríguez. Morfo

logía.

Apuntes de P

LN,

http://ww

w.lsi.upc.es/~

horacio/pln.html

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

niversidad Europea de M

adrid

Bibliografía

•P

OS

T–

[Manning] C

. Manning, H

. Schütze. F

ounda

tions

of

Sta

tistic

alN

atu

ral L

angu

ag

eP

rocessin

g. The

MIT

P

ress, 1999 –C

apítulo 10.–

[Márquez] Lluís

Màrquez. P

OS

Tagg

ing: A

M

achin

eL

earn

ing

Ap

pro

ach

based

on

Decis

ion

Tre

es. P

hDthesis. D

ep. LSI. U

niversitatP

olitecnicade C

atalunya(U

PC

), 1999.–

[Rodríguez] H

oracio Rodríguez. T

agg

ing. A

puntes de P

LN, http://w

ww

.lsi.upc.es/~horacio/pln.htm

l