statistische verfahren zur bestimmung von kollokationen lv sprachverarbeitung ws 02/03 h. schweppe...
TRANSCRIPT
![Page 1: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/1.jpg)
Statistische Verfahren zur Bestimmung von KollokationenStatistische Verfahren zur Bestimmung von Kollokationen
LV Sprachverarbeitung WS 02/03H. Schweppe
Literatur: C. Manning, H. Schütze,
Foundations of Statistical NL Processing, ch. 5 ff, MIT Press, 2002
![Page 2: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/2.jpg)
hs / fub – alp3-19-Bbaum-1 2
"The notion of collocation may be confusing to readers without a background in linguistics"
(C.M.)
![Page 3: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/3.jpg)
hs / fub – alp3-19-Bbaum-1 3
KollokationenKollokationen
Allgemein: Sprachliche Ausdrücke, die aus zwei oder mehr Wörtern bestehen und einen Inhalt ausdrücken.
Beispiele:starker Tobak, steife Brise, Big Blue, internationale Spitze
Nicht substituierbare Bestandteile: starker Mann - kräftiger Mann, aber:starker Tobak – kräftiger Tobak ?
Im Deutschen oft Komposita:Weltstandard vs. international best practice
Große Ähnlichkeit zu "terminologische Phrase","Terminus Technicus", "Namen"
![Page 4: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/4.jpg)
hs / fub – alp3-19-Bbaum-1 4
KollokationenKollokationen
Typische Eigenschaften Nicht kompositionell "Neue Schuhe" versus "Neuer Markt"Nicht substituierbar "white wine" , "yellow wine" Nicht modifizierbar "Neuer dynamischer Markt" aber "dynamischer Neuer Markt" ( Adj, Nomen)
Erweiterte Definition schließt ein:EigennamenTerminologische Ausdrücke ("test set", "program specification")Assoziative Kollokationen ("Krankenhaus – Schwester")Verb / Substantiv – Kollokationen ("Entscheidung treffen")
![Page 5: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/5.jpg)
hs / fub – alp3-19-Bbaum-1 5
Kontext und AnwendungenKontext und Anwendungen
Keine Bedeutung in strukturalistischer Linguistik à la Chomsky
Anwendungen: Spracherzeugung … also auch maschinelle Übersetzung
- stiff breeze = starke Brise?? steifer Wind??Korpus-Linguistik (besonders Wörterbücher)Parsen Terminologie Extraktion (in technischer Literatur) "Projektbeginn" : " Projektbeginn ist am...", "Projekt beginnt am..."
![Page 6: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/6.jpg)
hs / fub – alp3-19-Bbaum-1 6
FrequenzanalyseFrequenzanalyse
Einfachstes Verfahren: Worthistogramm erstellendie Wörter, die häufig gemeinsam (z.B. in einem Satz, "in der Nachbarschaft" vorkommen), bilden Kollokation
Unbrauchbar: C(w1,w2) w1 w280871 of the…15494 to be….11428 New York
Nach Manning,
New York Times Korpus, 115 MB Text
C(w1,w2): Häufigkeit des gemeinsamen
Vorkommens.
![Page 7: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/7.jpg)
hs / fub – alp3-19-Bbaum-1 7
FrequenzanalyseFrequenzanalyse
Wesentliche Verbesserung durch einfache Syntaxmuster (Justeson, Katz, 1995)
Voraussetzung: Wörter sind markiert ("tag")
Muster Beispiel A N linear function NN regression coefficient (im D Kompositum!)
NAN mean square error (mittlerer quadr. Fehler)
NPN degrees of freedom (Freiheitsgrade)A = Adjektiv, N = Nomen, P = Präposition
![Page 8: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/8.jpg)
hs / fub – alp3-19-Bbaum-1 8
Frequenzanalyse mit SyntaxfilterFrequenzanalyse mit Syntaxfilter
NYT-Korpus (wie oben) mit Justeson / Katz Filter
![Page 9: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/9.jpg)
Nicht substituierbare Adjektive: "strong" vs "powerful"Nicht substituierbare Adjektive: "strong" vs "powerful"
Fast disjunkte Listen => Differenzierung der Semantik
![Page 10: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/10.jpg)
hs / fub – alp3-19-Bbaum-1 10
FazitFazit
Einfache quantitative Technik (hier Frequenzfilter) kombiniert mit einfachem linguistischen Wissen liefert erstaunlich gute Ergebnisse
Verbesserungen leicht möglich durchStoppwort-FilterLemmatisierung (Reduktion auf Stammformen)
Aber: Große Trainingsmenge Bisher nur auf n-Gramme, n klein
![Page 11: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/11.jpg)
hs / fub – alp3-19-Bbaum-1 11
Mittelwert und StandardabweichungMittelwert und Standardabweichung
Bisher: n-Gramme Syntaxmuster sonst kaum sinnvoll anwendbar(?)
(oder auch reguläre Ausdrücke sinnvoll??)
Alternative: Fenster der Breite b zulassenb im allgemeinen klein (5 … 10), da Kollokationen lokales Phänomen sind.Beispiel : "Projektbeginn"
- "Das Projekt beginnt am 1.1.2003"- "Nach Verzögerungen beginnt das Projekt…"- "Das Projekt, an das keiner mehr geglaubt hat, beginnt
am…"- "Das Projekt mit der knappsten Personalausstattung
beginnt.."
![Page 12: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/12.jpg)
hs / fub – alp3-19-Bbaum-1 12
Mittelwert und StandardabweichungMittelwert und Standardabweichung
Berechne Mittelwert und Standardabweichung der Wortabstände
Im Beispiel: d = ¼ *(1+2+7+6) = 4,0s = (di-d)2 /(n-1) = 5,1…
Frequenz/Abstands-Histogramme von zu untersuchendem Wort w und anderen x,y,z sind Indiz für Kollokationen w x, w y, w z (Abb.)
Hypothese - nur in homogenem Textmaterial anwendbar
"Die Klasse beginnt mit einem import-…" (ok)"Die Aufführung beginnt …" (disjunkte Korpora?)
![Page 13: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/13.jpg)
opposition - strong
support - strong
for - strong
zwei Maxima: keine Kollokation
flach: keine Kollokation
Frequenzhistogramm eines Wortes rel. zu anderenFrequenzhistogramm eines Wortes rel. zu anderen
![Page 14: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/14.jpg)
Varian und Mittelwert von WortändenabstVarian und Mittelwert von Wortändenabst
InterpretationKleiner mittlerer Abstand d und kleine Standardabweichung entspricht Syntaxmustern.Großer Abstand und kleine Standardabweichung -> interessant, Kollokation?Hohe Standardabweichung -> nicht interessant.
Mittelwertund Standard-abweichung
![Page 15: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/15.jpg)
hs / fub – alp3-19-Bbaum-1 15
HypothesentestsHypothesentests
Wie lassen sich zufällige Ergebnisse vermeiden?
Beispiel: zufällig häufiges Auftreten von "neue" und "Firmen" , etwa in Wirtschaftsartikeln.
Typisches statistisches Problem: Hypothesentests
Nullhypothese: z.B. zwei zufällige Ereignisse sind unabhängig. Bestimme Wahrscheinlichkeit p, dass sie beide eintreffen, wenn Nullhypothese zutrifft. Nullhypothese zurückweisen, wenn p zu klein z.B. p <= 0,05.
![Page 16: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/16.jpg)
hs / fub – alp3-19-Bbaum-1 16
HypothesentestsHypothesentests
BeispielHypothese: Die Wörter "new" und "companies" kommen unabhängig in Texten vor (keine Kollokation):
P(w1 w2) = P(w1) P(w2) Statistische Testverfahren
z.B. t-Test : Gegeben N Messungen, errechneter Mittelwert x und Varianz s2. Zu testen die Nullhypothese: Daten sind aus einer Menge mit gegebene Verteilung und Mittelwert . Technisch: berechnen des t-Wertes: t = (x – ) /( s2/N )t-Verteilung liefert Konfidenzniveau, auf dem Nullhypothese verworfen oder akzeptiert wird.
![Page 17: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/17.jpg)
hs / fub – alp3-19-Bbaum-1 17
Hypothesentest: BeispielHypothesentest: Beispiel
Beispiel wie oben: " new", "companies"....Experimentelle Daten
Anzahl Wörter im Korpus: N=14.307.668Anzahl Vorkommen: "new": 15.828 "companies": 4675Maximum Liklihood Schätzungen
P("new") = 15828/N, P("companies") = ...Nullhypothese: "new" und "companies" sind
unabhängig: H0: P("new companies") = P("new")*P("companies") 3,6 * 10 -7
![Page 18: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/18.jpg)
hs / fub – alp3-19-Bbaum-1 18
Hypothesentest: BeispielHypothesentest: Beispiel
Interpretation der Nullhypothese als Bernoulliprozess: zufällige Auswahl von Wortpaaren (w1,w2) mit (w1,w2) = ("new companies") = 1, 0 sonst, p = 3,6 * 10 –7
Mittelwert = 3,6 * 10 –7
Varianz für Binominalverteilung: p(1-p) p . 8 mal kommt das Bigramm "new companies"
tatsächlich unter den 14307668 Bigrammen auf:
x = 8 / 14...68 5,5* 10-7 t berechnen: t 0,999.
![Page 19: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/19.jpg)
hs / fub – alp3-19-Bbaum-1 19
Beispiel: HypothesentestBeispiel: Hypothesentest
Kritischer Wert für Konfidenz p = 0,995 , dass Nullhypothese zutrifft ist t0 = 2,576.
Nullhypothese ist für t > t0 zurückzuweisen. Trifft hier NICHT zu => "new companies" keine Kollokation (Bestätigung der Null-Hypothese)
![Page 20: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/20.jpg)
KritikKritik
Hier gute Ergebnisse (Tabelle), aber viele Bi-Gramme sind nach dem Modell Kollokationen (falsches Modell?)
=> statistische Hypothesentests nur interessant für Rangordnung möglicher Kollokationen. Signifikanzlevel eher uninteressant.
![Page 21: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/21.jpg)
hs / fub – alp3-19-Bbaum-1 21
Andere VerfahrenAndere Verfahren
Relative Frequenzen: Mehre KorporaErwartet: Verhältnis der Frequenzen nahe 1Aber: Sprachentwicklung. "Prager Fühling", "east Berliners",...Interessant, um Fachterminologie von anderen Kollokationen zu trennen. D
Informationstheoretisches Maß I(w, v) = log ( P(w v) / (P(w)P(v)) ) = log (P( w|v) / P(w)) = ..."Welche Information liefert w über v bzw. v über w"
Brauchbares Maß für Unabhängigkeit von w, v, aber insgesamt für Kollokations-Analyse wenig geeignet.
![Page 22: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/22.jpg)
hs / fub – alp3-19-Bbaum-1 22
Allgemeines zu probabilistischen SprachmodellenAllgemeines zu probabilistischen Sprachmodellen
Jeder Wortfolge t = w1w2…wn wird Wahrscheinlichkeit p(t) zugeordnet
Verkettung und bedingte Wahrscheinlichkeiten für Text t:
p(t) = p(w1…wn) = p(w1) … p(wn|w1,…wn-1) mit
p(wk | w1…wk-1) = p(w1…wk) / P(w1…wk-1) C(w1…wk) / C(w1…wk-1)
(C: Empirische Frequenzen der Folgen) Diese "Verkettungsregel" führt zu einem
Historien-basierten Modell´.Historien clustern, um riesige Parametermenge
zu reduzieren.
![Page 23: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/23.jpg)
hs / fub – alp3-19-Bbaum-1 23
n-gram Modellen-gram Modelle
Klassische statistische Sprachmodelle Jedes Wort wird in einem begrenzten Kontext
entsprechen einer bedingten Wahrscheinlichkeit vorhergesagt.
Tabellen…P(of|both) = 0,066P(to|both) = 0,041P(in|both) = 0,038
w1 w2 w3 wnn klein, lokalerKontext.
![Page 24: Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical](https://reader036.vdocuments.site/reader036/viewer/2022062818/570491c41a28ab14218d9e96/html5/thumbnails/24.jpg)
hs / fub – alp3-19-Bbaum-1 24
n-gram -Modellen-gram -Modelle
Fragwürdig, weil Distanz von aufeinander Einfluß habenden Wörtern SEHR groß ist.
"Der Politiker, wohl wissend, dass seine anstehende Entscheidung zur Reform des Arbeitsmarktes erhebliche Auswirkung auf das Leben des Einzelnen, besonders des gering Verdienenden, haben würde, liess sich in seinem Vorhaben nicht beirren."
Nützlich…… weil solche Sätze selten sind Empirische Untersuchungen: 74% Abhängigkeit zwischen benachbarten Wörtern (einfache Nominalphrasen als Wörter gezählt), 95% innerhalb 1…5 Wörtern.