datalingvistiska tillämpningar
DESCRIPTION
Datalingvistiska tillämpningar. Maskinöversättning Dialogsystem (ev. talad dialog, ev. multimodal) Textförståelsesystem Informationsextraktion Informationssökning Grammatikkontroll Datorstödd språkinlärning etc. Datalingvistiska ‘komponentteknologier’. Analys och generering av tal - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/1.jpg)
FST - Torbjörn Lager, UU 1
Datalingvistiska tillämpningarMaskinöversättningDialogsystem (ev. talad dialog, ev. multimodal)TextförståelsesystemInformationsextraktionInformationssökningGrammatikkontrollDatorstödd språkinlärningetc.
![Page 2: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/2.jpg)
FST - Torbjörn Lager, UU 2
Datalingvistiska ‘komponentteknologier’Analys och generering av talOrdklasstaggningMorfologisk analys och genereringSyntaktisk analys (parsning)Semantisk tolkningReferenslösningPlanering och planigenkänningKunskapsrepresentation och inferensetc.
![Page 3: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/3.jpg)
FST - Torbjörn Lager, UU 3
Ordklasstaggning: Exempel 1 He can can a can
He/pron can/aux can/vb a/det can/n
He/{pron} can/{aux,n} can/{vb} a/{det} can/{n,vb}
![Page 4: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/4.jpg)
FST - Torbjörn Lager, UU 4
Ordklasstaggning: Exempel 2 I can light a fire and you can open a can of
beans. Now the can is open and we can eat in the light of the fire.
I/PRP can/__ light/__ a/DT fire/NN and/CC you/PRP can/__ open/__ a/DT can/__ of/IN beans/NNS ./. Now/RB the/DT can/__ is/VBZ open/__ and/CC we/PRP can/__ eat/VB in/IN the/DT light/__ of/IN the/DT fire/NN ./.
![Page 5: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/5.jpg)
FST - Torbjörn Lager, UU 5
Ordklasstaggning: Exempel 2 I can light a fire and you can open a can of
beans. Now the can is open and we can eat in the light of the fire.
I/PRP can/MD light/VB a/DT fire/NN and/CC you/PRP can/MD open/VB a/DT can/NN of/IN beans/NNS ./. Now/RB the/DT can/NN is/VBZ open/JJ and/CC we/PRP can/MD eat/VB in/IN the/DT light/NN of/IN the/DT fire/NN ./.
![Page 6: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/6.jpg)
FST - Torbjörn Lager, UU 6
Olika typer av relevant informationlexikal informationkontextuell information
![Page 7: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/7.jpg)
FST - Torbjörn Lager, UU 7
Varför ordklasstagga?Korpuslingvistisk forskningEtt försteg till
ordbetydelsebestämningEtt försteg till parsning?
![Page 8: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/8.jpg)
FST - Torbjörn Lager, UU 8
Part-of-speech tagging
Processor
Knowledge
Text POS tagged text
Needed:- some strategy for representing the knowledge- some method for acquiring the knowledge- some method of applying the knowledge
![Page 9: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/9.jpg)
FST - Torbjörn Lager, UU 9
Some POS-tagging issuesAccuracySpeedSpace requirementsRobustnessLearning
Processor
Knowledge
Text POS tagged text
![Page 10: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/10.jpg)
FST - Torbjörn Lager, UU 10
Vanliga indelningarTaggningmetoder
regelbaserade statistiska
Inlärningsmetoder 'Supervised learning' 'Unsupervised learning'
![Page 11: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/11.jpg)
FST - Torbjörn Lager, UU 11
Formella verktygFormell logikSannolikhetsteori och statistikAutomatateori och matematisk
lingvistikAlgoritm- och komplexitetsteori
![Page 12: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/12.jpg)
FST - Torbjörn Lager, UU 12
TaggningsmetoderHMM-taggning
statistikbaserad (probabilistisk) 'supervised learning'
Brilltaggning regelbaserad 'supervised learning'
Constraint-Grammar tagging regelbaserad ingen inlärning
![Page 13: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/13.jpg)
FST - Torbjörn Lager, UU 13
Hidden Markov ModellingstatistikbaseradDen modiga ansatsen: "På basis av
en sammanvägning av tillgänglig lexikal och kontextuell information, gissa!
![Page 14: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/14.jpg)
FST - Torbjörn Lager, UU 14
![Page 15: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/15.jpg)
FST - Torbjörn Lager, UU 15
BrilltaggningStrategi: "Gissa först, men ändra sen
om nödvändigt"Enkelt "heuristiskt" lexikonEn sekvens av transformationsregler
betingade på lokal kontext:Regelexempel:
tag:vb>nn <- tag:dt@[-1]
![Page 16: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/16.jpg)
FST - Torbjörn Lager, UU 16
Brilltaggning steg 1I can light a fire and you can open a can of
beans. Now the can is open and we can eat in the light of the fire.
I/PRP can/MD light/JJ a/DT fire/NN and/CC you/PRP can/MD open/JJ a/DT can/MD of/IN beans/NNS ./. Now/RB the/DT can/NN is/VBZ open/JJ and/CC we/PRP can/MD eat/VB in/IN the/DT light/JJ of/IN the/DT fire/NN ./.
![Page 17: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/17.jpg)
FST - Torbjörn Lager, UU 17
Transformation-based taggingRepresentational strategy:
Simple lexica Ordered lists of transformations,
conditioned on (small amounts) of local context
Learning strategy: Transformation-based learning
![Page 18: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/18.jpg)
FST - Torbjörn Lager, UU 18
Transformation-based taggingThree steps:
Lexical look-up Lexical rule application for unknown
words Contextual rule application
![Page 19: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/19.jpg)
FST - Torbjörn Lager, UU 19
Transformation-based tagging
blue
green
red
brown
brown
yellow
blue blue
blue
red
K. Samuel 1998
![Page 20: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/20.jpg)
FST - Torbjörn Lager, UU 20
Lexikon för Brilltaggning
I PRPNow RBa DTand CCbeans NNScan MDeat VBfire NN
in INis VBZlight JJof INopen JJthe DTwe PRPyou PRP. .
![Page 21: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/21.jpg)
FST - Torbjörn Lager, UU 21
'Constraint-Grammar'-taggningRegelbaseradDen försiktiga ansatsen: "Gissa inte!
Eliminera bara det omöjliga!"
![Page 22: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/22.jpg)
FST - Torbjörn Lager, UU 22
Ordklasstaggning: Exempel 2 I can light a fire and you can open a can of beans.
Now the can is open and we can eat in the light of the fire.
I/{PRP} can/{MD,NN} light/{JJ,NN,VB} a/{DT} fire/{NN} and/{CC} you/{PRP} can/{MD,NN} open/{JJ,VB} a/{DT} can/{MD,NN} of/{IN} beans/{NNS} ./{.} Now/{RB} the/{DT} can/{MD,NN} is/{VBZ} open/{JJ,VB} and/{CC} we/{PRP} can/{MD,NN} eat/{VB} in/{IN} the/{DT} light/{JJ,NN,VB} of/{IN} the/{DT} fire/{NN} ./{.}
![Page 23: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/23.jpg)
FST - Torbjörn Lager, UU 23
ProblemAmbiguitetOkända ordOvanliga ordOvanliga kontexter
![Page 24: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/24.jpg)
FST - Torbjörn Lager, UU 24
Assessing the Brill tagger
PARAMETER
Accuracy 96.5%Speed Very fastSpace req. ModerateRobustness RobustLearning Yes
![Page 25: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/25.jpg)
FST - Torbjörn Lager, UU 25
Ordklasstaggning: Några ansatserDen modiga ansatsen: "På basis av
en sammanvägning av tillgänglig information, gissa!
Den försiktiga ansatsen: "Gissa inte! Eliminera bara det omöjliga!"
Den vankelmodiga ansatsen: "Gissa först, men ändra sen om nödvändigt"
![Page 26: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/26.jpg)
FST - Torbjörn Lager, UU 26
Parsning'Klassisk' parsning med
frasstrukturgrammatikYtparsning
![Page 27: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/27.jpg)
FST - Torbjörn Lager, UU 27
En enkel frasstrukturgrammatikFragment
lisa springer lisa skjuter en älg
Grammatiks --> np, vp.
np --> pn.np --> det, n.
vp --> v.vp --> v, np.
pn --> [kalle].pn --> [lisa].
det --> [en].
n --> [älg].
v --> [springer].v --> [skjuter].
![Page 28: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/28.jpg)
FST - Torbjörn Lager, UU 28
Igenkänning och ParsningIgenkänning?- s([lisa,springer],[]).yes?- s([springer,lisa],[]).no
Parsning?- s(Tree,[lisa,springer],[]).Tree = s(np(pn(lisa)),vp(v(springer)))
![Page 29: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/29.jpg)
FST - Torbjörn Lager, UU 29
Parsning
Frasstruktur
![Page 30: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/30.jpg)
FST - Torbjörn Lager, UU 30
Bygga träd i ett argumentGrammatik
s(s(NP,VP)) --> np(NP),vp(VP).
np(np(PN)) --> pn(PN).np(np(DET,N)) --> det(DET),n(N).
vp(vp(V)) --> v(V).vp(vp(V,NP)) --> v(V), np(NP).
pn(pn(lisa)) --> [lisa].
det(det(en)) --> [en].
n(n(älg)) --> [älg].
v(v(går)) --> [går].v(v(skjuter)) --> [skjuter].
![Page 31: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/31.jpg)
FST - Torbjörn Lager, UU 31
Bygga träd i ett argumentParsning?- s(Tree,[lisa,skjuter,en,älg],[]). Tree = s( np( pn(lisa)), vp( v(skjuter), np( det(en), n(älg))))
![Page 32: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/32.jpg)
FST - Torbjörn Lager, UU 32
Parsning med meta-interpretator
s --> np, vp. det --> [en].np --> pn. n --> [älg].np --> det, n. tv --> [skjuter].vp --> v, np. pn --> [lisa].
? - parse(s,[lisa,skjuter,en,älg],[],Tree). Tree = s/(np/pn/lisa,vp/(v/skjuter,np/(det/en,n/älg)))
![Page 33: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/33.jpg)
FST - Torbjörn Lager, UU 33
Parsning med meta-interpretator
parse(A,P0,P,A/Trees) :-(A --> B),parse(B,P0,P,Trees).
parse((B,Bs),P0,P,(Tree,Trees)) :- parse(B,P0,P1,Tree),parse(Bs,P1,P,Trees).
parse([Word],[Word|P],P,Word).
![Page 34: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/34.jpg)
FST - Torbjörn Lager, UU 34
Strukturell ambiguitet
Den gamla damen träffade killen med handväskan
John saw a man in the park with a telescope
Råttan åt upp osten och hunden och katten jagade råttan
![Page 35: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/35.jpg)
FST - Torbjörn Lager, UU 35
Lokal ambiguitet
The old man the boats
The horse raced past the barn fell
![Page 36: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/36.jpg)
FST - Torbjörn Lager, UU 36
Some parsing issuesAccuracySpeedSpace requirementsRobustnessLearning
Processor
Knowledge
Text Parsed text
![Page 37: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/37.jpg)
FST - Torbjörn Lager, UU 37
Problems with traditional parsers Correct lowlevel parses are often rejected
because they do not fit into a global parse -> brittleness
Ambiguity -> indeterminism -> search -> slow parsers
Ambiguity -> sometimes hundreds of thousands of parse trees, and what can we do with these?
![Page 38: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/38.jpg)
FST - Torbjörn Lager, UU 38
Another strategy (Abney) Start with the simplest constructions (’easy-first parsing’)
and be as careful as possible when parsing them -> ’islands of certainty’
’islands of certainty’ -> do not reject these parses even if they do not fit into a global parse -> robustness
When you are almost sure of how to resolve an ambiguity, do it! -> determinism
When you are uncertain of how to resolve an ambiguity, don’t even try! -> ’containment of ambiguity’ -> determinism
determinism -> no search -> speed
![Page 39: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/39.jpg)
FST - Torbjörn Lager, UU 39
Shallow syntax analyses less complete than conventional
parser output identifies some phrasal constituents (e.g. NPs),
without indicating their internal structure and their function in the sentence.
or identifies the functional role of some of the words, such as the main verb, and its direct arguments.
![Page 40: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/40.jpg)
FST - Torbjörn Lager, UU 40
Deterministic bottom-up parsing Adapted from Karttunen 1996:
define NP [(d) a* n+] ;regex NP @-> “[NP” ... “]”
.o. v “[NP” NP “]” @-> “[VP” ... “]” ;
apply down dannvaan[NP dann][VP v [NP aan]]
Note the use of the longest-match operator!
![Page 41: Datalingvistiska tillämpningar](https://reader035.vdocuments.site/reader035/viewer/2022081505/5681609d550346895dcfc475/html5/thumbnails/41.jpg)
FST - Torbjörn Lager, UU 41