lenguaje natural procesamiento del léxico y morfologíajmgomez/pln/02.morfologia.y.lexico.pdf ·...
TRANSCRIPT
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Léxico y morfología
Procesam
iento delLenguaje N
aturalJosé M
aría Góm
ez Hidalgo
http://www.esp.uem.es/~jmgomez/
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Índice
•Introducción y definiciones
•T
ipos de morfología
•T
écnicas de análisis morfológico
•E
tiquetado sintáctico estocástico (PO
S-
TA
GG
ING
)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Léxico y morfología
Introducción y definiciones
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Introducción y definiciones
•M
orfología–
Se ocupa de la form
ación de palabras a partir de las unidades m
ás básicas de significado denom
inadas morfem
as–
Parte de la lingüística que estudia la estructura
interna de las palabras, su flexión, derivación y com
posición–
En ocasiones a las unidades m
ínimas de
significación se les denomina m
onemas
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Introducción y definiciones
•Los m
onemas son de dos tipos
–Lexem
as•
Monem
as con significado pleno (representan un concepto o idea)
–M
orfemas
•N
o tienen significado pleno, sino un significado gram
atical•
Relacionan a los lexem
as o modifican su significación
–P
ensamos =
pens+
amos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Introducción y definiciones
•Léxico o lexicón–
Vocabulario de una lengua –
lista de todos sus elem
entos léxicos–
Diccionario típico•
Las entradas se identifican mediante una form
a base o form
a canónica–
Inglés: forma canónica =
raíz no flexionada–
Castellano o francés: los verbos se representan con una
forma flexionada (infinitivo) com
er
•Inform
an de pronunciaciones, categorías gramaticales,
definiciones, información etim
ológica o estilística
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Introducción y definiciones
•D
iccionarios electrónicos–
Los más elem
entales cuentan con•
listas de formas plenas o léxicos desplegados (listas de
palabras con todas las formas)
–w
alk, walks, w
alked, walking
•la inform
ación gramatical correspondiente
–E
n lenguas con flexión rica y compleja
•E
l lexicón proporciona una raíz•
La información gram
atical correspondiente•
El com
ponente morfológico se encarga de generar las
posibles formas
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Introducción y definiciones
•V
entajas del análisis morfológico con respecto al uso
de léxicos desplegados–
En lenguas de flexión rica y en lenguas aglutinantes el uso
de léxicos desplegados es inviable–
Reconocer palabras desconocidas o form
as de palabras que no están incluidas en el diccionario
–A
partir de la identificación de flexiones gramaticales pueden
inferirse funciones sintácticas–
Se puede conseguir una descripción del idiom
a a tratar
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Léxico y morfología
Tipos de m
orfología
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Tipos de m
orfología
•H
ay 3 mecanism
os para la formación de
palabras–
flexión–
derivación–
composición
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Tipos de m
orfología
•M
orfología flexiva
•E
n las gramáticas tradicionales las
variaciones se agrupan en “paradigmas”
•E
jemplo –
paradigma latino
–dom
inus, dominum
, domini, dom
ino, etc.–
Raíz =
domin-
se combina con diferentes
terminaciones (-us, -um
, -i, -o, etc.)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Tipos de m
orfología
•M
orfología flexiva–
Variación en la form
a de las palabras según su función
–N
o modifica la función sintáctica de la raíz
•E
jemplos
–N
ombres en singular y plural (m
esa, mesas )
–V
erbos en tiempo presente y pasado (viene, vino)
•F
lexión (o desinencia) –sistem
a que define las variaciones posibles de la raíz
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Tipos de m
orfología
•M
orfología flexiva–
Inglés –grado de variación flexiva relativam
ente pobre
–E
jemplo
•La m
ayor parte de los verbos cuentan únicamente con
los morfem
as gramaticales -s, -ed, -ing
–C
astellano –grado de variación flexiva m
ayor
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Tipos de m
orfología
•M
orfología flexiva–
Las lenguas se puede clasificar según el mayor o
menor uso de la flexión
•Lenguas aislantes –
Casi sin flexión (chino)
•Lenguas flexivas –
Afijos con significados com
plejos (castellano)
•Lenguas aglutinantes –
Añaden m
últiples sufijos a la raíz (turco, euskera)
•Lenguas polisintéticas significado gram
atical a partir de la flexión (esquim
al)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Tipos de m
orfología
•M
orfología flexiva –ejem
plo–
Castellano•
En la punta de la punta de la ram
a del manzano de la
cuesta
–E
uskera•
Aldapeko
sagarrarenadarraren
puntaren punta
–S
i comparam
os ambas m
ediante su traducción euskera-castellano
•A
ldapeko(dela cuesta) sagarraren
(del manzano)
adarraren(de la ram
a) puntaren (de la punta) punta (en la punta)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Tipos de m
orfología
•M
orfología derivativa–
Form
ación de nuevas raíces (flexionables) a partir de otras raíces que suelen pertenecer a categorías gram
aticales diferentes–
Puede provocar un cam
bio de categoría•
Nom
bre nación→
adjetivo nacional→
verbo nacionalizar→
nombre nacionalism
o→
verbo internacionalizar
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Tipos de m
orfología
•M
orfología de composición
–C
ombinación de palabras com
pletas para dar origen a nuevas form
as•
El significado puede deducirse a partir de los
significados de las partes: pelirrojo•
El significado puede variar ligeram
ente: peliagudo (com
plicado)•
El significado puede no estar m
otivado por el de las partes: boquirrubio (incauto, ingenuo, joven presum
ido)
–S
u tratamiento suele ser m
ás complejo
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Tipos de m
orfología
•M
orfología de composición
–P
uede resultar un problema en algunas lenguas
que•basta con escribir dos palabras juntas para form
ar palabras com
puestas•
no intercalan un carácter (guión) entre ambas (no hay
evidencias de composición)
•se pueden crear nuevas palabras com
puestas que no aparecen en el diccionario
–E
jemplo: en alem
án Lufthansafrachtflüge(vuelos
de carga Lufthansa)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Léxico y morfología
Técnicas de análisis m
orfológico
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•A
nálisis morfológico
–P
erseguimos
•C
apturar las regularidades morfológicas del lenguaje
humano
•A
provecharlas para reducir el tamaño del léxico
–E
s preferible poder derivar raiz+form
a-verbal que listar todas las form
as del verbo
–S
olo se listan las formas irregulares
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•A
nalizador morfológico
–E
ntrada =>
forma
–S
alida =>
lema +
rasgos morfológicos
Entra
da
Salid
a
cat
cat+ N +
sg
cats
cat+ N +
pl
cities
city+ N +
pl
merging
merge+ V +
pres_part
caught
(catch
+ V +
past) o
(catch
+ V +
past_
part)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•T
ipos de técnicas–
Técnicas de estados finitos•
Autóm
atas (analizadores de un nivel)•
Transductores (analizadores de dos o m
ás niveles)
–T
écnicas basadas en reglas•
Equivalentes en expresividad a las anteriores
•R
eglas de reconocimiento y transform
acionales•
Gram
áticas regulares, contextuales, basadas en unificación
–Indicadas por expresividad =
> sim
plifican el desarrollo
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•T
écnicas de estados finitos–
Elem
entos del analizador•
Léxico de morfem
as–
raices+
afijos•
Morfotáctica
= qué com
binaciones de morfem
as son válidas
–cats
= cat+
s–
“el plural del nombre se denota por una s al final”
•A
lteraciones fonológicas = reglas ortográficas =
cambios
al producirse la combinación
–city
+ s =
cities
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•E
stados finitos (léxico, morfotáctica)
reg_nounirreg_pl_noun
irreg_sg_nounplural
foxsheep
sheep-s
catm
icem
ousedog
01
2
reg_nounplural (-s)
irreg_pl_noun
irreg_sg_noun
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•E
stados finitos (autómata com
pilado)
fo
xsε
ca
t
do
g
ne
y
em
ou
s
e
ic
fogcatdogdonkeym
ousem
iceProcesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•T
écnicas de estados finitos–
Morfología de dos niveles
upperlevel
léxicocat+
Ncat+
N +
pllow
erlevel
superficiecat
cats
c:ca:a
t:t+
N:ε
+pl:s
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•T
écnicas de estados finitos (transductores)
reg_nounirreg_pl_noun
irreg_sg_nounplural
foxsheep
sheeps
catm
o:i u:εce
mouse
dogg o:e o:e se
goose
01
2
reg_noun+
pl:s
irreg_pl_noun
irreg_sg_noun23
456
+N
:ε
+N
:ε
+N
:ε
+sg:ε
+sg:ε
+pl:ε
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•T
écnicas de estados finitos (transductores)–
Usos posibles•
Com
o reconocedor–
Recibe dos cadenas de entrada (una léxica y una
superficial) y responde cierto o falso según una sea transducción de la otra
•C
omo generador
–G
enera pares de cadenas
•C
omo traductor
–R
ecibe una cadena superficial y genera su transducción léxica
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•T
écnicas basadas en reglas–
Equivalentes en expresividad a autóm
atas–
Ejem
plosnam
edescrip
tion
exam
ple
consonant d
oublin
gsingle
lette
r consonant
beg/b
egging
doubled b
efo
re-in
g/-e
d
edeletio
nsile
nte
dro
pped b
efo
re
-ing/-e
dm
ake/m
aking
einsertio
ne
added a
fter-s,-z
,-x,-c
h,-s
h
befo
re-s
watch/w
atches
yre
placem
ent
-ychanges to
-ie b
efo
re-s,to
ibefo
re-e
dtry
/tries
kinsertio
nverb
s e
nding w
ith voyel+c
add
-kpanic/p
anicked
nam
edescrip
tion
exam
ple
consonant d
oublin
gsingle
lette
r consonant
beg/b
egging
doubled b
efo
re-in
g/-e
d
edeletio
nsile
nte
dro
pped b
efo
re
-ing/-e
dm
ake/m
aking
einsertio
ne
added a
fter-s,-z
,-x,-c
h,-s
h
befo
re-s
watch/w
atches
yre
placem
ent
-ychanges to
-ie b
efo
re-s,to
ibefo
re-e
dtry
/tries
kinsertio
nverb
s e
nding w
ith voyel+c
add
-kpanic/p
anicked
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•T
écnicas basadas en reglas–
Estructura de reglas•
a:b ⇐C
ontexto_izquierdo ___ Contexto_derecho
–el item
léxico adebe corresponder al item
superficial bcuando se encuentra
en el contexto
•a:b ⇒
Contexto_izquierdo ___ C
ontexto_derecho–
el itemléxico a
sólo puede corresponder al itemsuperficial b
cuando se encuentra en el contexto
•a:b ⇔
Contexto_izquierdo ___ C
ontexto_derecho–
el itemléxico a
debe corresponder al itemsuperficial b
cuando se encuentra en el contexto y sólo entonces
•a:b /⇐
Contexto_izquierdo ___ C
ontexto_derecho–
el itemléxico a
no puede corresponder al itemsuperficial b
cuando se encuentra en el contexto
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•T
écnicas basadas en reglas–
Ejem
plo (e-insertion)
ε:e ⇔
[xsz]^
:ε___ s#
descomposición
ε:e ⇒
[xsz]^
:ε___ s#
ε:ε/⇐
[xsz]^
:ε___ s#
⇒⇒⇒ ⇒/
⇐⇐⇐ ⇐
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•R
eglas en gramáticas de unificación
–E
jemplo =
DC
Gs
de Prolog
–S
istema A
RE
S•
Sistem
a de recuperación de documentos en el entorno
del manual de U
nix–
Los documentos son las páginas del m
anual, en inglés
•Integra técnicas clásicas de recuperación de inform
ación y técnicas avanzadas de P
LN•
Parcialm
ente codificado en Prolog
y hace uso de un analizador m
orfológico
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•R
eglas en gramáticas de unificación
–E
jemplo =
DC
Gs
de Prolog
–S
istema A
RE
S•
Analizador m
orfológico–
Categorías flexivas del inglés (nom
bre, verbo, adjetivo)–
Deja una palabra en form
a canónica (nombre singular,
verbo infinitivo, adjetivo en forma base)
–S
e basa en un léxico obtenido de WordN
et (que es una base de datos léxica, o diccionario conceptual)
–C
ubre el 100% de las palabras del m
anual de Unix
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Técnicas de análisis m
orfológico
•R
eglas en gramáticas de unificación
–E
jemplo =
DC
Gs
de Prolog
–S
istema A
RE
S•
Analizador m
orfológico
morf(noun,R,[]) --> root(R),[s].
morf(noun,R,[s]) --> root(R),[s,e,s].
morf(noun,R,[x]) --> root(R),[x,e,s].
morf(noun,R,[z]) --> root(R),[c,e,s].
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Léxico y morfología
Etiquetado sintáctico estocástico
(PO
S-T
AG
GIN
G)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Etiquetado sintáctico estocástico
PO
S-T
AG
GIN
G
•Introducción
•A
plicaciones•
Evaluación
•T
axonomía de m
étodos•
Modelos de M
arkov
•R
esumen
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-Introducción
•E
tiquetado sintáctico = P
art-O
f-Speech
Tag
gin
g,
PO
S-T
agg
ing
•U
no de los problemas m
ás populares en PLN
–P
rerrequisito de análisis del LN•
Prim
era fase del análisis sintáctico
–R
esurrección del PLN
estadístico (90’s)–
Altos índices de efectividad (com
parativamente)
•Los etiquetadores alcanzan efectividades superiores al 95%
de acierto
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-Introducción
•D
efinición–
Selección de la etiqueta sintáctica m
ás probable para una palabra en un contexto
–O
de la secuencia de etiquetas para una secuencia de palabras
–Las palabras aisladas son am
biguas respecto a su etiqueta sintáctica
•E
tiquetas = N
ombre, V
erbo, Adjetivo, etc.
•P
roblema de desam
biguación (sintáctica)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-Introducción
•E
jemplo [R
odríguez]
Yo
bajocon el hom
bre bajoa
tocarel bajo
bajola
escalera.
PP
VM
VM
AQ
NC
SP
TD
NC
VM
VM
SP
VM
VM
AQ
NC
SP
NC
SP
TD
VM
VM
AQ
NC
SP
VM
VM
AQ
NC
SP
TD
NC
PP
NC
FP
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-Introducción
•E
jemplo [R
odríguez]
Yo
bajocon el hom
bre bajoa
tocarel bajo
bajola
escalera.
PP
VM
VM
AQ
NC
SP
TD
NC
VM
VM
SP
VM
VM
AQ
NC
SP
NC
SP
TD
VM
VM
AQ
NC
SP
VM
VM
AQ
NC
SP
TD
NC
PP
NC
FP
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-Introducción
•Las etiquetas sintácticas no son un concepto artificial–
Dos palabras pertenecen a la m
isma categoría si y solo si
reemplazar una con otra no cam
bia la “gramaticalidad” de la
oracióngram
aticalidad. 1. f. Ling. Cualidad de una secuencia de
palabras o morfem
as por la que se ajusta a las reglas de la gram
ática. (DR
AE
)
“The _
___
_ is
angry
.”
–N
ótesesim
ilitudcon sinonim
ia
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-Introducción
•S
istemas de etiquetas
–D
ependientes del idioma y/o c
orp
us
–S
istemas básicos (e.g. N
, V, etc.)
•R
eflejan sólo el rol sintáctico•
Más sencillos, reducidos, eficientes
–S
istemas sofisticados (e.g. N
N, N
C, etc.)
•R
eflejan clasificaciones (nombre com
ún vs. propio, modalidad,
temporalidad, etc.)
•M
ás complejos, detallados
•S
e pueden colapsar etiquetas (N* =
> N
)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-Introducción
•P
ennT
reebank(inglés)
1. CC
Coord. C
onjunction18. P
RP
Personal pronoun
2. CD
Cardinal num
ber20. R
B A
dverb3. D
T D
eterminer
22. RB
S S
uperlativeA
dverb6. IN
Prep. / subord. conj
27. VB
Verb, base form
7. JJ Adjective
28. VB
D V
erb, pasttense8. JJR
Com
p. adjective29. V
BG
Verb, gerund/pres. partic.
9. JJS S
uperlativeadjective
30. VB
N V
erb, pastparticiple12. N
N N
oun, sing. orm
ass31. V
BP
Verb, non-3s, present
13. NN
S N
oun, plural 32. V
BZ
Verb, 3s, present
14. NN
P P
ropernoun, sing.
33. WD
T W
h-determiner
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-Introducción
•E
standarización EA
GLE
S–
A nivel europeo,
independiente idioma
–U
sada CLiC
-TA
LP–
Etiquetas +
atributosha tenido fortunadep
ortiv
a_
aq0fs
0y
sentim
enta
l_aq
0cs0
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-A
plicaciones
•[M
anning, Márquez]
•A
l servicio de otras tareas•
Análisis del LN
basado en conocimiento
(comprensión), tareas y aplicaciones
–A
nálisis sintáctico•
Eficiencia =
reducción del número de análisis (parciales)
potenciales
–T
raducción automática
dog_N =
> perro / dog_V
=>
perseguir
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-A
plicaciones
•P
LN estadístico (clasificación), tareas
–A
nálisis superficial o parcial•
Detección de sintagm
as nominales –
NP
bra
cke
ting
•A
grupamiento sintáctico –
ch
un
kin
g(detección de
grupos sintácticos no anidados)[N
P H
e ] [VP
reckons] [N
P the
currentaccountdeficit] [V
P w
illnarrow] [P
P to
] [NP
only# 1.8 billion
] [PP
in ] [N
P S
eptember
] .•
Realizable e
fectiv
am
en
tecon etq. sintácticas
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-A
plicaciones
•P
LN estadístico
–C
lasificación de documentos (recuperación,
categorización, etc.)•
Unidades de indexación (palabra_etiqueta, sintagm
as nom
inales, etc.)–
Especialm
ente en dominios técnicos (m
edicina, etc.)
•R
espuesta a preguntas –Q
uestio
n A
nsw
erin
g
–Los sintagm
as nominales son candidatos a respuestas
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-A
plicaciones
•P
LN estadístico
–E
xtracción de información
•T
exto =>
Registros estructurados
–Q
ué, quién, cómo, etc. en noticias sobre atentados
terroristas en Hispano A
mérica (M
UC
)
–C
atálogos comerciales, noticias bursátiles, etc.
•C
ascada de procesadores lingüísticos, que incluyen (de m
anera crítica) el etiq
ue
tad
o s
intá
ctic
o, análisis superficial, desam
biguación del significado, etc.
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-E
valuación
•D
eben evaluarse múltiples aspectos
–E
ficiencia (el etiquetador es sólo una parte del proceso)–
Portabilidad (a otros idiom
as, dominios)
•U
sualmente centrada en la efectividad
–M
étricas–
Línea base–
Dificultad del problem
a–
Colecciones etiquetadas
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-E
valuación
•E
fectividad –m
étricas–
Basadas en núm
ero de aciertos–
Etiquetado com
pleto =>
exactitud, error–
Etiquetado incom
pleto =>
cobertura, precisión, F1
–C
onviene•
Centrarse sólo en palabras am
biguas•
Desglosar resultados por–
Categorías sintácticas (N
vs.AD
V)
–T
ipos de ambigüedad (N
/V vs. A
DV
/AD
J)
–S
ecuencias ambiguas (e.g. D
ET
N A
DJ)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-E
valuación
•E
fectividad –línea base
–A
signar a cada palabra su etiqueta más frecuente (en el
corpus)•
Exactitud 90%
•S
ustancialmente m
ás eficaz que otras tareas•
No hay m
ucho espacio de mejora
•P
ero e.g. 95% en artículos periodísticos (longitud m
edia de oración =
20 palabras) =>
un error por oración
•E
fectividad –dificultad del problem
a–
+ etiquetas =>
+ am
bigüedad =>
+ dificultad
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-E
valuación
•E
fectividad –colecciones de evaluación
–Inglés
•B
rown
Corpus (1M
, inglés americano, 1979)
•London-O
slo-Bergen (1M
, inglés británico, 1979)•
WallS
treetJournal(300M, inglés am
ericano)
•B
ritishN
ationalCorpus (100M
, inglés británico)
–E
spañol•
LexEsp
(5.5M)
•R
eal Academ
ia Española (200M
)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-T
axonomía de m
étodos
•[M
árquez]1.
Lingüísticos (o basados en conocimiento)
2.E
stadísticos o estocásticos (o basados en m
odelos del lenguaje)•
Pueden ser considerados subconjunto de los siguientes
3.B
asados en aprendizaje–
Problem
as críticos de 2 y 3•
Escasez de datos, sucesos no vistos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-T
axonomía de m
étodos
1.E
tiquetadores lingüísticos–
Conocim
iento lingüístico de expertos
–B
asados en reglas (≈1k)
–C
onstruidos manualm
ente–
Ejem
plos•
TO
SC
A, E
ngCG
(inglés)•
EusC
G(euskera)
•S
paCG
(español)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-T
axonomía de m
étodos
1.E
tiquetadores lingüísticos–
Ventajas
•R
iqueza y expresividad de las reglas lingüísticas
•E
xcelentes resultados (EngC
G>
99% exactitud)
–D
esventajas•
Alto coste de desarrollo (adquisición del conocim
iento)
•N
o transportables•
Menos eficientes
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-T
axonomía de m
étodos
1.E
tiquetadores lingüísticos –E
ngCG
–C
on
stra
intG
ram
ma
r=
secuencia de sub-gramáticas
–S
ub-gramática =
serie de restricciones (co
nstra
ints) que
establecen condiciones de contexto(@
w =
0 VF
IN (-1 T
O))
descarta la categoría VF
IN si la palabra anterior es “to”
–E
NG
CG
(EN
GT
WO
L)•
1100 restricciones•
93-97% de las palabras quedan totalm
ente desambiguadas
•99.7%
corrección•
Reglas heurísticas aplicables sobre el residuo
•2-3%
ambigüedad residual con 99.6%
de precisión
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-T
axonomía de m
étodos
2.E
tiquetadores estadísticos–
Modelos del lenguaje y generalizaciones adquiridos
automáticam
ente•
A partir de un corpus etiquetado m
anualmente
•D
ata
-driv
en
taggers
–U
so de inferencia estadística•
Modelos probabilísticos
–T
écnicas procedentes del tratamiento del habla
•T
ransmisión de señal sobre un canal con ruido
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-T
axonomía de m
étodos
2.E
tiquetadores estadísticos–
Ventajas
•M
arco teórico bien fundamentado
•A
proximación clara, m
odelos simples
•E
xactitud aceptable (> 97%
)
•Independencia de la lengua
–D
esventajas•
Dificultades de aprendizaje del m
odelo–
Escasez/inexistencia de datos
•M
enor precisión que lingüísticos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-T
axonomía de m
étodos
2.E
tiquetadores estadísticos–
Modelos del lenguaje de tipo n-gram
as–
Modelos de M
arkov•
Visibles (algoritm
o de Viterbi)
•M
odelos ocultos de Markov (H
idde
nM
ark
ov M
odels)
–B
aum-W
elch
–Los m
ás populares (e.g. Xerox
tagger, multi-lenguaje)
–M
áxima probabilidad (M
axim
um
Lik
elih
oo
d)–
Se basan en estim
ar la probabilidad de una secuencia observada de sucesos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-T
axonomía de m
étodos
3.E
tiquetadores basados en aprendizaje–
Se contem
pla el problema com
o genérico de aprendizaje•
Atributos (lingüísticos), ejem
plares, selección, algoritm
os de aprendizaje
–E
nfoque más uniform
e–
Ejem
plos•
TreeT
agger, MX
-PO
ST
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-T
axonomía de m
étodos
3.E
tiquetadores basados en aprendizaje–
Atributos (lingüísticos) en contexto
•E
tiquetas anteriores, unidades léxicas anteriores y posteriores, datos de la palabra actual (m
orfología, m
ayúsculas, etc.)
•T
amaño de la ventana (±2)
–E
jemplares =
vectores atributo-valor–
Selección =
unidades léxicas más frecuentes
–A
lgoritmos de aprendizaje =
Árboles de decisión, E
ntropía M
áxima, aprendizaje basado en ejem
plares, etc.
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-T
axonomía de m
étodos
3.E
tiquetadores basados en aprendizaje -T
reeTagger
–A
lemán, inglés, francés, griego, italiano
–A
tributos = 2 etiquetas anteriores, sufijos
–A
lgoritmos de aprendizaje =
Árboles de decisión
ID3
–E
fectividad = 96.32%
vs. 96.06% de un
etiquetador basado en trigramas
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-T
axonomía de m
étodos
3.E
tiquetadores basados en aprendizaje -T
reeTagger
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
•M
étodo de modelado de procesos estadísticos
secuenciales•
Desarrollados por A
ndreiA. M
arkov(estudiante de
Chebyshev), 1913
–P
ara modelar secuencias de letras en literatura rusa
•U
sados en PLN
para–
Modelos de producción lingüística
–E
tiquetado sintáctico–
Reconocim
iento de habla–
Múltiples aplicaciones (extracción de inform
ación, etc.)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
•U
sados con secuencias de variables estadísticas c
on
cie
rtas p
rop
ied
ad
es
–S
ea X =
(X1 ,…
, XT ) variables aleatorias
secuenciales, tomando valores en S
= (s
1 ,…,s
N )–
Propiedades de M
arkov•
Horizonte lim
itado–
P(X
t+1 =
sk |X
1 ,…,X
t ) = P
(Xt+
1 =s
k |Xt )
•Invarianza
con el tiempo
–P
(Xt+
1 =s
k |Xt ) =
P(X
2 =s
k |X1 )
–X
es una cadena de Markov
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
•O
bjetivo = calcular la s
ecu
en
cia
de
etiq
ue
tas
má
s p
rob
ab
lepara una oración dada
•P
ropiedades de Markov
en PO
ST
–H
orizonte limitado
•P
(ti+1 |t1,i ) =
P(ti+
1 |ti )
–Invarianza
con el tiempo
•P
(ti+1 |ti ) =
P(t2 |t1 )
–S
implificaciones que no se cum
plen en general
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
•R
egla de Bayes
–R
educimos probabilidades a parám
etros estim
ables con corpus de entrenamiento
()
()
()
()n
nn
n
tn
nt
opt
nw
P
tP
tw
Pw
tP
tn
n,1
,1,1
,1,1
,1,1
m
axarg
max
arg,1
,1
==
()
()n
nn
t
tP
tw
Pn
,1,1
,1
max
arg,1
=
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
•A
sumiendo
–Las palabras son independientes entre si
–U
na palabra sólo depende de su etiqueta
–D
efiniendo por notación
()
()
()
()
∏∏
=
−
=
=ni
ii
ni
ni
nn
nt
tP
tw
Pt
Pt
wP
21
,11
,1,1
,1,1
()
()
()
()1
12
11
−
==
−
=
∏∏
∏=
=i
i
ni
ii
ni
ii
ni
ii
tt
Pt
wP
tt
Pt
wP
()
10
1=
tt
P
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
•E
n conclusión
–U
samos E
MV
sobre colección entrenamiento
()
()1
1,1
m
axarg
,1
−
=
∏=
ii
ni
ii
t
opt
nt
tP
tw
Pt
n
()
()
() j
jk
jk
tN
tw
Nt
wP
,=
()
()
() j
jm
jm
tN
tt
Nt
tP
,=
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
P(A
TN
N B
EZ
IN A
T N
N | the
bearis
onthe
move) =
?
S
egunda etiqueta P
rimera etiqueta
AT
B
EZ
IN
N
N
VB
P
ER
A
T
0 0
0 48636
0 19
BE
Z
1973 0
426 187
0 38
IN
43322 0
1325 17314
0 185
NN
1067
3720 42470
11773 614
21392 V
B
6072 42
4758 1476
129 1522
PE
R
8016 75
4656 1329
954 0
Palabra
AT
B
EZ
IN
N
N
VB
P
ER
bear
0 0
0 10
43 0
is 0
10065 0
0 0
0 m
ove 0
0 0
36 133
0 on
0 0
5484 0
0 0
president 0
0 0
382 0
0 progress
0 0
0 108
4 0
the 69016
0 0
0 0
0 .
0 0
0 0
0 48809
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
•Lim
itación práctica–
Núm
ero exponencial de secuencias de etiquetas
•S
e usa el algoritmo de V
iterbi–
Procede de los m
odelos ocu
ltos
de Markov
–P
rogramación dinám
ica–
Cóm
puto de dos funciones•
δi (t j) =
probabilidad de la etiqueta t jen la palabra wi
•ψ
i+1 (t j) =
etiqueta más probable para w
i habiendo asignado t ja w
i
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
•V
iterbi1.
Inicialización: δ1 (P
ER
) = 1
, δ1 (t) =
0 s
i t ≠P
ER
2.Inducción
3.P
redicción
()
()
()
()
[]
T1 ,
max
11
11
≤≤
××
=+
+≤
≤+
jt
tP
tw
Pt
tk
jj
ij
iT
kj
iδ
δ
()
()
()
()
[]
T1 ,
max
arg1
11
1≤
≤×
×=
++
≤≤
+j
tt
Pt
wP
tt
kj
ji
ji
Tk
ji
δψ
()
()
ni
XX
tX
ii
i
j
nT
jn
≤≤
==
++
≤≤
1 para
y ,
max
arg1
11
ψδ
()
() j
nT
jn
tX
XP
11
1m
ax,...,
+≤
≤=
δ
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
•T
ratamiento de p
ala
bra
s d
esco
no
cid
as
–P
alabras no presentes en el entrenamiento
–F
recuentemente m
arcan la diferencia en efectividad
–E
nfoque simple =
etiqueta (abierta) más frecuente
•P
oco efectivo, desaprovecha información lingüística
–E
nfoques más sofisticados usan m
últiples fuentes de inform
ación•
Frecuencia, flexión, ortografía (capitalización)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
•E
jemplo
–F
recuencia, flexión, ortografía (capitalización)
des = desconocida, m
ay = m
ayúsculas, suf= sufijo
–R
educción de errores del 40% al 20%
()
()
()
() j
jj
jk
tsuf
Pt
may
Pt
des
PZ
tw
P
1
=
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
•E
jemplo
P(fenestration|t k) =
?, P(fenestrates|t k) =
?,
Atributo
Valor
NN
P
NN
N
NS
V
BG
V
BZ
sí
0,05 0,02
0,02 0,005
0,005 desconocida
no 0,95
0,98 0,98
0,995 0,995
sí 0,95
0,10 0,10
0,005 0,005
mayúsculas
no 0,05
0,90 0,90
0,995 0,995
-s 0,05
0,01 0,98
0,00 0,99
-ing 0,01
0,01 0,00
1,00 0,00
-tion 0,05
0,10 0,00
0,00 0,00
sufijo
otro 0,89
0,88 0,02
0,00 0,01
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
-M
odelos de Markov
•Los m
odelos anteriores se pueden extender a bigram
asy trigram
asde palabras
–A
umentam
os efectividad–
Tagger
de Church
(1988)
•M
odelos ocultos de Markov
–R
azonablemente m
ás sofisticados y muy efectivos
–E
stándar en PO
S-T
agging
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
PO
ST
–R
esumen
•T
area básica para otras tareas de análisis y com
prensión•
Problem
a bien definido, muy popular
•Línea base alta (90%
), pero mejorable
•M
anifiestamente m
ás fácil que otras tareas•
Métodos lingüísticos, estadísticos y basados en
aprendizaje•
Efectividad actual alta (>
97%)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Léxico y morfología
Bibliografía
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Bibliografía
•M
orfología–
[Martínez] R
aquel Martínez. N
ive
les d
e a
ná
lisis
.
Aná
lisis
morfo
lóg
ico. A
puntes del curso de doctorado Ingeniería Lingüística aplicada al P
rocesamiento de D
ocumentos,
http://ww
w.escet.urjc.es/~
rmartine/IL.htm
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Bibliografía
•T
écnicas de análisis morfológico
–[Jurafsky] D
. Jurafsky, J. Martin. S
peechand
languageprocessing: an
introductionto
natural language
processing, computationallinguistics,
andspeech
recognition. Prentice
Hall, 2000 –
Capítulo 3
–[R
odríguez] Horacio R
odríguez. Morfo
logía.
Apuntes de P
LN,
http://ww
w.lsi.upc.es/~
horacio/pln.html
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
niversidad Europea de M
adrid
Bibliografía
•P
OS
T–
[Manning] C
. Manning, H
. Schütze. F
ounda
tions
of
Sta
tistic
alN
atu
ral L
angu
ag
eP
rocessin
g. The
MIT
P
ress, 1999 –C
apítulo 10.–
[Márquez] Lluís
Màrquez. P
OS
Tagg
ing: A
M
achin
eL
earn
ing
Ap
pro
ach
based
on
Decis
ion
Tre
es. P
hDthesis. D
ep. LSI. U
niversitatP
olitecnicade C
atalunya(U
PC
), 1999.–
[Rodríguez] H
oracio Rodríguez. T
agg
ing. A
puntes de P
LN, http://w
ww
.lsi.upc.es/~horacio/pln.htm
l