szintaktikai elemzés
DESCRIPTION
Szintaktikai elemzés. 2010. február 23. Szófaji egyértelműsítés. A morfológiai elemző előállítja az egyes szavak összes lehetséges elemzését. Ezután az egész mondatot figyelembe véve kiválasztjuk a lehetséges elemzések közül a megfelelőt. Part of Speech Tagger (POS) – szófaji egyérteműsítő. - PowerPoint PPT PresentationTRANSCRIPT
Szintaktikai elemzés
2010. február 23.
Szófaji egyértelműsítés
A morfológiai elemző előállítja az egyes szavak összes lehetséges elemzését. Ezután az egész mondatot figyelembe véve kiválasztjuk a lehetséges elemzések közül a megfelelőt.
Part of Speech Tagger (POS) – szófaji egyérteműsítő
Szintaktikai elemzésA mondat egységeinek azonosítása, a közöttük lévő szintaktikai kapcsolatok feltárása.
Megközelítések:• alany, állítmány, tárgy …
• konstituens fa (constituency parsing)
• függőségi nyelvtan (dependency parsing)
Alkalmazás• Információ kinyerés, gépi fordításA Kis Hal bt.-t felvásárolta a Nagy Hal kft.
A Kis Hal bt. felvásárolta a Nagy Hal kft.-t.
• Nyelvtani ellenőrzés
Nyelvtan
• „Egy nyelv elemei, szerkezete, törvényszerűségei”
• 3 évesen tökéletes az anyanyelven
• Implicit!
• Iskolai nyelvtan?
Konstituens fa
• Szavak csoportjai (eredeti sorrendben) egységeket alkotnak
• Az egységek osztályokba sorolhatóak amelyek külső és belső szempontokból jól definiáltan viselkednek.
Például főnévi csoportok:
én, a város, a piros labda, a tegnapelőtt vásárolt nagy kerek piros labda
Konstituens fa
S: mondat
VP: igei csoport
NP: főnévi csoport
Egy példa a Szeged TreeBank-ből
Strukturális többértelműség
Láttam a lányt távcsővel.
S
VP
NP
Strukturális többértelműség
Láttam a lányt távcsővel.
S
VP
NP
NP
Környezetfüggetlen nyelvtanok (CFG)
• Terminálisok: szavak
• Nemterminálisok: konstituensek
• Szabályok: baloldal egyetlen nemterminális
Szintaktikai elemzés
• Adott szabályok egy halmaza
• S a gyökér
• Minden szót fedjen le és csak azokat
• Top-Down vs. Bottom-Up
Bottom-Up elemzés
a
has
|dog
Det
V
boneN
NDetNP
NPVVP
VPNPS
a dog has a bone
S
Det N V
Det N
NP
NP
VP
PCFG• Minden szabályhoz egy
valószínűség (baloldalak feletti eloszlások)
• Treebankből becsülhető
• Strukturális többértelműség?
Shift Reduce elemzés
• Bottom – Up, backtrack nélkül
• Verem segítségével dolgozik, O(n)
• Shift: Leválasztja a mondat legbaloldalibb elemét, és a verembe teszi.
• Reduce: A veremben lévő elemekre próbál szabályt illeszteni.
Shift Reduce elemzés →|
Step Action Stack Input0 (start) the dog barked1 shift the dog barked2 reduce d dog barked3 shift dog d barked4 reduce n d barked5 reduce np barked6 shift barked np7 reduce v np8 reduce vp np9 reduce s
Shift Reduce tanulás
Tanító halmaz alapján:
• reduce szabályok generálása
• szabályok közötti sorrend felállítása (mohó, valószínűségi)
• akciók (S/R) alkalmazásának tanulása
Megkötések
’hány -t’ – fitty
’hány -rA’ – szem
‘hány -nAk’ !?
Fej azonosítása
Függőségi nyelvtan• Irányított, bináris kapcsolat szavak közt• Minden szóhoz pontosan egy bemenő él
(fa)• Kiindulási pont a főige
Eltérés a konstituens fától:• Nincsenek frázisok, • nem csak az egymást követő szavak közti
kapcsolatokat vizsgálja.
Függőségi nyelvtan
Különösen alkalmas szabad szórendű nyelvek kezelésére!
Dependecia elemző tanulása• Tranzakció-alapú
– Minden lépésben egy új él felvétele– Osztályozási probléma:
• egyedek: szópárok• jellemzők: szavak, POS kódok• akció: új él behúzása vagy semmi
• Gráf-alapú– Jósági függvény – Legjobb gráf megtalálása
Gráf-alapú dependencia elemzés
• Jósági függvény– Él szintű jósági értékek aggregáltja– Él szintű érték: gyerek és szülő,
szavak és POS kódok– Paramétereinek megtanulása a tanító
adatbázisból
• Legjobb gráf megtalálása– Maximális feszítő fa– Dinamikus programozás
Konstituens vs. függőségi nyelvtan
Főige: robbed
alany: the burglar
robbed tárgya: the appartament
Konstituens vs. függőségi nyelvtan
• Melyiket?
Alkalmazás-orientáltan…
• függőségi nyelvtan könnyebben gépi tanulható
• szemantikához közelebb áll a függőségi
Szintaktikai elemzés jóságának mérése
• Konstituens elemzés– Minden konstituenst hasonlítunk
(címkézve vagy anélkül)– Egyes szavak őseinek sorozatát
hasonlítjuk
• Dependencia elemzés– minden szóra– ős és/vagy reláció típusának
eltalálása
Hol tart a világ?• Korpuszok
– Konstituens alapú korpuszok
(Penn TreeBank, Szeged TreeBank)– Ezek átalakítása dependenciára– Magyarra is folyamatban
• Elemzők– Nyelvtől, jelölés mélységétől függ– ~75-85% (CoNLL 2007)