einführung in die computerlinguistik i
TRANSCRIPT
-
Vorlesungsskript
Einfhrung in die Computerlinguistik IInstitut fr Computerlinguistik
Universitt Zrich
http://www.cl.uzh.ch
Interaktive Lerneinheiten zur Vorlesunghttp://www.cl.uzh.ch/ict-open/clabis?vl=ecl1
Simon [email protected]
Schriftliche bungen:
Rico SennrichRico.Sennrich @ access.uzh.ch
Herbstsemester 2008Version von 18. Dezember 2008
PDF-Version: http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/script.pdfHTML-Version: http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.htmlOLAT-Url:https://www.olat.uzh.ch/olat/auth/repo/go?rid=511836166&guest=true&lang=de
http://www.cl.uzh.chhttp://www.cl.uzh.ch/ict-open/clabis?vl=ecl1http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/script.pdfhttp://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.htmlhttps://www.olat.uzh.ch/olat/auth/repo/go?rid=511836166&guest=true&lang=de
-
Inhaltsverzeichnis
1 Organisatorisches 91.1 Organisatorisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Was ist CL? 122.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2 Fachrichtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Computerlinguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.2 Sprachtechnologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.3 Weiteres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.4 Anliegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Nachbardisziplinen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3.1 Linguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3.2 Kognitionswissenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4 Krux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Linguistisches Propdeutikum I 193.1 Wort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.1.2 Token . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.1.3 Wortform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.1.4 synt. Wort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.1.5 Lexem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Wortarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.2.1 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . 213.2.2 STTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Morphologische Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.3.1 Genus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3.2 Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3.3 Kasus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3.4 Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3.5 Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3.6 Person . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3.7 Grad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3.8 Flexion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4 Linguistisches Propdeutikum II 274.1 Proben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.1 Ersetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.1.2 Einsetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2
-
4.1.3 Weglassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.1.4 Verschieben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.1.5 Umformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.3 Syntaxanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.3.1 Konstituenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.3.2 Kpfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.3.3 Dependenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.3.4 Satzglieder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4 Baumbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.4.1 NEGRA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.4.2 TIGERSearch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5 Tokenisierung 375.1 Tokenisierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.1.1 Grundproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.1.2 Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.1.3 Markup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.1.4 Programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.2 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415.3 Tokenisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3.1 Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.3.2 Punktdesambiguierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.3.3 Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.3.4 NER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6 Flache Satzverarbeitung 466.1 Tagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.1.1 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.2.1 Zweck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.2.2 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.2.3 Lernkurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.2.4 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.2.5 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.2.6 F-Measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3 Chunking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536.3.1 Abney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.3.2 IOB-Chunk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.3.3 Verschachtelte Chunks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.5 Exkurs: Evaluation binrer Klassifikatoren . . . . . . . . . . . . . . . . . . . . . . 57
6.5.1 TP:FP:FN:TN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576.5.2 Fehlerparadoxe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576.5.3 Unterschiede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.5.4 Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3
-
6.5.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7 Volltextsuche und Text Mining 617.1 Informationsflut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.1.1 Suchdilemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617.2 Volltextsuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.2.1 Indexieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 657.2.2 Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687.2.3 Retrieval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697.2.4 Relevanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.3 Text-Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
8 Kondensation und Klassifikation von Texten 738.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
8.1.1 Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 748.1.2 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 748.1.3 Anstze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
8.2 IE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 768.2.1 IE vs. IR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.2.2 Klassische IE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.3 Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 788.3.1 Kategorisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 788.3.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
8.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
9 Sprachsynthese und Spracherkennung 809.1 Sprachsynthese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.1.1 Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 819.1.2 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 819.1.3 Analyseebenen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
9.2 Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 879.2.1 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 879.2.2 Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 889.2.3 Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
9.3 Dialogsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 899.3.1 Typen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 899.3.2 VoiceXML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
10 Maschinelle bersetzung I 9110.1 Einfhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
10.1.1 Altes Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9110.1.2 Alter Traum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9110.1.3 Neuer Traum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
10.2 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9310.2.1 MT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9310.2.2 CAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4
-
10.2.3 MAHT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9410.2.4 HAMT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9810.2.5 FAHQT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10210.3.1 BLEU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10310.3.2 Parallele Baumbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
10.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
11 Maschinelle bersetzung II 10811.1 Probleme der bersetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
11.1.1 Mehrdeutigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10811.1.2 Idiome und Kollokationen . . . . . . . . . . . . . . . . . . . . . . . . . . . 11311.1.3 Sprachbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
11.2 Anstze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11611.2.1 Direkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11711.2.2 Transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11811.2.3 Interlingua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12011.2.4 Kombination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
11.3 SMT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12111.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
12 Formales Propdeutikum I 12412.1 Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12412.2 Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12912.3 Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
13 Formales Propdeutikum II 13513.1 Indexnotationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13513.2 Hllen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13613.3 Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13813.4 Formale Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
13.4.1 Sprache als Menge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13913.4.2 Konkatenation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14013.4.3 Grammatiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
14 Formales Propdeutikum III 14714.1 Merkmalstrukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
14.1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14714.1.2 Rekursiv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14814.1.3 Als Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
14.2 Pfade und Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15114.2.1 Koreferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
14.3 Unifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15314.3.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15314.3.2 Subsumtion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15414.3.3 Unifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
15 Syntaktische Analyse 15615.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
5
-
15.2 Unifikationsgrammatik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15715.2.1 Formalismen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15715.2.2 Kongruenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16015.2.3 Rektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
15.3 Analysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16215.3.1 Verbalkomplex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16215.3.2 Satzfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16215.3.3 Ergnzungsfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16315.3.4 Gaps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
15.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
16 Literaturverzeichnis 166
Index 172
6
-
Abbildungsverzeichnis
2.1 Sprechende Maschine von 1791 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.1 Konstituenz, Dominanz und Przedenz in NEGRA-Darstellung . . . . . . . . . . 304.2 Konstituenz, Dominanz und Przedenz in Balken-Darstellung . . . . . . . . . . . 314.3 Syntaktische Funktionen in Balken-Darstellung . . . . . . . . . . . . . . . . . . . 334.4 Syntaktische Funktion in der NEGRA-Darstellung . . . . . . . . . . . . . . . . . 334.5 Moderne Satzgliedlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.1 Training, Tagging und Evaluation mit dem TnT-Tagger . . . . . . . . . . . . . . 476.2 Tagging-Ambiguittsraten aus der Frankfurter Rundschau . . . . . . . . . . . . . 496.3 Tnt-Evaluation an Penn Treebank durch Thorsten Brants . . . . . . . . . . . . . 536.4 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants . . . . . . . . . . . 546.5 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 546.6 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 556.7 F-Mass in dreidimensionaler Darstellung . . . . . . . . . . . . . . . . . . . . . . . 596.8 Arithmetisches vs. harmonisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . 60
7.1 In PubMed erfasste wiss. Artikel (2008 unvollstndig) . . . . . . . . . . . . . . . 627.2 Suchoption fr Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.3 Eingescanntes Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.4 OCR und Frakturschrift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 647.5 Sachbegriff-Indexierung im NEBIS . . . . . . . . . . . . . . . . . . . . . . . . . . 657.6 Sachbegriff und Varianten im NEBIS . . . . . . . . . . . . . . . . . . . . . . . . 667.7 Textuelle Zusatzinformation im NEBIS . . . . . . . . . . . . . . . . . . . . . . . 667.8 Automatisches Indizieren von OPAC-Informationen: Gut . . . . . . . . . . . . . . 687.9 Automatisches Indizieren von OPAC-Informationen: Schlecht . . . . . . . . . . . 697.10 Generelle Architektur von IR-Systemen . . . . . . . . . . . . . . . . . . . . . . . . 70
8.1 Wordle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 738.2 Grundmodell des inhaltsbasierten Textzusammenfassen . . . . . . . . . . . . . . . 748.3 Telegraphische Verkrzungstechnik . . . . . . . . . . . . . . . . . . . . . . . . . . 758.4 Information-Retrieval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.5 Information-Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.6 Beispiel eines typischen IE-Systems . . . . . . . . . . . . . . . . . . . . . . . . . . 78
9.1 Architektur von MARY-TTS-System . . . . . . . . . . . . . . . . . . . . . . . . . 829.2 Satzintonation im Deutschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 839.3 Satzintonation mit ToBi-Annotierung (Hrbeispiel: [Simmons 2006a]) . . . . . . 849.4 IPA-Symbole fr Deutsch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 859.5 Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7
-
9.6 Berechnung der Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 899.7 Anwendungsszenario VoiceXML . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
10.1 Automatisierungsgrade der bersetzung . . . . . . . . . . . . . . . . . . . . . . . 9410.2 Beispiel: Dokumenten-Editor mit Zugriff auf TM . . . . . . . . . . . . . . . . . . 9510.3 Beispiel: Fuzzy-Match mit 81% bereinstimmung . . . . . . . . . . . . . . . . . . 9510.4 Beispiel: Dokumenten-Editor mit Zugriff auf TM . . . . . . . . . . . . . . . . . . 9610.5 Parametrisierung der Alignierung bei SDL Trados WinAlign . . . . . . . . . . . . 9810.6 Fehlerhafte Roh-Alignierung in SDL Trados 22007 WinAlign . . . . . . . . . . . 9910.7 Export der Alignierung als TM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9910.8 Terminologie-Verwaltung mit Termbase . . . . . . . . . . . . . . . . . . . . . . . 10010.9 Rohbersetzung von erkannter Terminologie . . . . . . . . . . . . . . . . . . . . 10110.10Filmuntertitel sind kurz! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10110.11Korrelation von menschlichen und BLEU-Bewertungen . . . . . . . . . . . . . . . 10610.12Paralleler Syntaxbaum DE-EN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
11.1 Situationen zu The pen was in the box . . . . . . . . . . . . . . . . . . . . . . . 11111.2 Situationen zu The box was in the pen . . . . . . . . . . . . . . . . . . . . . . . 11211.3 Transfer-bersetzung im Bild . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11811.4 Transfer-bersetzung im Detail . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11911.5 Transfer-Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11911.6 Lexikalische berschneidungen nach Somers . . . . . . . . . . . . . . . . . . . . . 12111.7 Verbindung von direkter, Transfer- und Interlingua-bersetzung . . . . . . . . . . 12111.8 Fluency und Faithfullness in SMT nach [Al-onaizan et al. 1999] . . . . . . . . . 122
12.1 Faksimile der Bestimmung des Mengenbegriffs bei Georg Cantor . . . . . . . . . . 12412.2 Pfeildiagramm einer partiellen Funktion . . . . . . . . . . . . . . . . . . . . . . . 13212.3 Pfeildiagramm einer surjektiven Funktion . . . . . . . . . . . . . . . . . . . . . . 13212.4 Pfeildiagramm einer injektiven Funktion . . . . . . . . . . . . . . . . . . . . . . . 13212.5 Pfeildiagramm einer bijektiven Funktion . . . . . . . . . . . . . . . . . . . . . . . 13312.6 bersicht: Eigenschaften von Relationen und Funktionen . . . . . . . . . . . . . . 133
13.1 Baumdarstellung eines Baum-Graphen . . . . . . . . . . . . . . . . . . . . . . . . 13913.2 Teilmengenbeziehungen der Sprachklassen von Chomsky . . . . . . . . . . . . . . 14213.3 Beispiel fr Linksderivation und Parsebaumkonstruktion . . . . . . . . . . . . . . 144
14.1 F-Struktur als Merkmalstruktur in XLE . . . . . . . . . . . . . . . . . . . . . . . 15014.2 Merkmalstruktur als gerichteter Baum . . . . . . . . . . . . . . . . . . . . . . . . 15014.3 Merkmalstruktur als gerichteter Baum . . . . . . . . . . . . . . . . . . . . . . . . 15114.4 Kstchennotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15114.5 Koreferente Merkmalstruktur als Matritze . . . . . . . . . . . . . . . . . . . . . . 15314.6 Koreferente Merkmalstruktur als gerichteter Graph . . . . . . . . . . . . . . . . . 153
15.1 Annotation von Wh-Fragen in der Penn-Treebank . . . . . . . . . . . . . . . . . . 16415.2 NEGRA-Baum mit berkreuzenden Kanten . . . . . . . . . . . . . . . . . . . . . 16515.3 NEGRA-Baum mit Lcken und koindizierten Lckenfllern . . . . . . . . . . . . 165
8
-
1 Organisatorisches
1.1 Organisatorisches
Konzept und Inhalt der Vorlesung
Einfhrung in die Computerlinguistik I (+ II) vermittelt die wichtigsten praktischen undtheoretischen Ziele der Computerlinguistik in bersicht.
Vorgestellt werden beispielhafte Systeme, Anwendungen wie Textsegementierung, maschi-nelle bersetzung, Sprachsynthese- und erkennung, Textsuche und -mining, Informati-onsextraktion und Textzusammenfassung, sowie Grundlagen, Methoden und Probleme derautomatischen Syntaxanalyse von Sprachen.
Im Kurs integriert sind zwei Propdeutika (Vorkurse), wo das notwendige linguistische undformale Wissen vermittelt wird.
Kurs-Leitseite im WWW und LehrmaterialienOLAT-Kurs namens CL_08_HS_ECL 1: Merkblatt zum Einstieg in OLAT [Roth 2006]
https://www.olat.uzh.ch/olat/auth/repo/go?rid=769720321
Folienskript im 4-up-Format (farbige und SW-Version) als PDF-Dokument unter Vorle-sungsunterlagen
Lauftextversion des Folienskripts (HTML-Version und PDF-Dokument) mit Index und klei-nen Ergnzungen http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.html
Unser Kursbuch (wichtig: 2. Auflage anschaffen):
Carstensen et al. Hgg. (2004): Computerlinguistik und Sprachtechnologie: Eine Einfh-rung. Elsevier, Mnchen, 2004. ISBN 3-8274-1407-5.
Lehren und LernenCommitments
Wir engagieren uns, um eine optimale CL-Ausbildung anzubieten.
Wir brauchen Ihre Rckmeldung, um suboptimale Elemente unserer Lehrarbeit zu verbes-sern.
Sie engagieren sich, die fr ein optimales Lernen notwendige Zeit und Arbeit aufzuwenden.
Sie brauchen unsere Rckmeldung, um suboptimale Elemente Ihrer Lernarbeit und IhresLernerfolgs zu verbessern.
9
https://www.olat.uzh.ch/olat/auth/repo/go?rid=769720321http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.htmlhttp://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.html
-
12 schriftliche bungen (SU)
Bachelor-Studierende, Informatik-Studierende, ETH-Multidisziplinfach: 33% der Schluss-note
Optional (Wahlmglichkeit bis in 4. Woche) fr Lizentiats-Studierende: 33% der Note derTeilakzessprfung
Bestanden/Nicht-Bestanden-System pro SU
Benotung: 6 (10-12 SU); 5.5 (9 SU); 5 (8 SU); 4.5 (7 SU); 4 (6 SU); 3.5 (5 SU); 3 (4 SU);2.5 (3 SU); 2 (2 SU); 1.5 (1 SU); 1 (0 SU)
Keine (!) Musterlsungen, dafr Vor- und Nachbesprechung, Frage- und Diskussionsgele-genheit in bungsstunde und auf OLAT
bungsstunden bei Rico Sennrich am Freitag 10.15-11.45h (!) im Raum BIN 0.B.04
Start in der 2. Semesterwoche
Abgabe der letztwchigen bungen und Ausgabe der neuen bungen jeweils am Mittwoch18h
Hochrechnung zum Workload fr 4 ECTS-Punkte
Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand bercksich-tigt, der fr das Erreichen einer gengenden Prfungsleistung erforderlich ist. (14, Abs.2)
[Universittsrat 2004]
1 ECTS-Punkt der Uni Zrich = 30h geistige Arbeit
Prsenz in Vorlesung, bungsstunde und schriftlicher Prfung:
2 14 2h = 56h
Zeit pro Woche fr (Pflicht-)Lektre, Lsen der schriftlichen bungen und Prfungsvor-bereitung:
120h 56h 1h14
= 4.5h
Mindestens 1h, um uns mitzuteilen, was wir verbessern sollen. . .
E-Learning
CLabTeile der Vorlesung und bungen werden durch Lerneinheiten aus unserem interaktiven, web-basierten Computerlinguistik-Laboratorium (CLab) untersttzt. http://www.cl.uzh.ch/clab
Applikationen auf CL-UNIX-ServernFr gewisse bungen oder zur Vertiefung sind gewisse CL-Applikationen auf unseren Servernempfohlen. Von den Computern in den bungsrumen aus sind diese problemlos nutzbar.Wer die bungsstunde nicht besuchen kann, braucht dazu VPN (Virtual Private Network), SSH(Secure Shell bzw. Putty) und einen X11-Klienten. Einfhrung dazu in der 1. Semesterwoche(Einfhrung in OLAT und Installationssupport durch Fachschaft Freitag, 19.9.08 ab 12.15h BIN0.B.04) oder via Anleitungen.
10
http://www.cl.uzh.ch/clab
-
Schriftliche Prfung
Zeit: Donnerstag, 15.1.09, von 16.15 - 17.45h
Dauer: 90 Minuten
Stoff: Skript, bungen, Pflichtlektren
Bitte das fr Sie gltige Infoblatt zur Leistungsberprfung genau lesen! [ICL 2007b,ICL 2007a]
11
-
2 Was ist CL?
Lernziele
Kenntnis der grundlegenden Thematik von Computerlinguistik, Sprachtechnologie undLinguistik
Kenntnis der zentralen Anliegen der modernen Computerlinguistik
Kenntnis der verschiedenen wissenschaftlichen Disziplinen und Fachbezeichnungen, welchemit Computerlinguistik interdisziplinr und transdisziplinr verbunden sind
Kenntnis der wichtigsten Meilensteine, Personen und Strmungen innerhalb der CL-Geschichte(Pflichtlektre)
Kenntnis der Krux der Sprachverarbeitung
2.1 Motivation
CL-haltige Produkte im (Computer-)Alltag
Textverarbeitung (Rechtschreibe- und Grammatikkorrektur)
Elektronische Wrterbcher (Thesauri)
Automatische bersetzung
Recherchen im WWW
Auskunftssysteme (z.B. [Kassensturz 2006])
. . .
2.2 Fachrichtungen
2.2.1 Computerlinguistik
Was ist CL?
Definition 2.2.1 (weiter Begriff). Computerlinguistik (CL; engl. computational linguistics) isteine Wissenschaft im berschneidungsbereich von Sprachforschung und Informatik, welche sichmit der maschinellen Verarbeitung von natrlicher Sprache beschftigt.
FrageIst das Kopieren einer MS-Word-Datei von einer CDROM auf die Festplatte eine Anwendungvon CL?
FrageIst die 1791 beschriebene Maschine zur Sprachsynthese von Wolfgang von Kempelen (1734-1804)eine frhe Anwendung von CL?
12
-
Sprachsynthese nach Kempelen
Abbildung 2.1: Aus dem Buch Mechanismus der menschlichen Sprache nebst Beschreibung einersprechenden Maschine (1791) [Traunmller 1997]
2.2.2 Sprachtechnologie
Was ist Sprachtechnologie?
Definition 2.2.2. Sprachtechnologie beschftigt sich mit der praxis- und anwendungsbezogenen,ingenieursmssig konzipierten Entwicklung von Sprachsoftware.
2.2.3 Weiteres
Verwandte/Alternative FachbezeichnungenDeutsch EnglischLinguistische Datenverarbeitung (LDV) Linguistic and Literary Computing (LLC)Maschinelle Sprachverarbeitung Natural Language Processing (NLP)Automatische Sprachverarbeitung (ASV) (Natural) Language Engineering (NLE)Computerphilologie Computational PhilologySprachtechnologie Speech Processing
Human Language Technology (HLT)Texttechnologie Text TechnologyKorpuslinguistik Corpus LinguisticsMedieninformatikLinguistische InformatikInformationslinguistik
13
-
QUIZ: Was ist was? [Weisser 2005]
Frage 1: Welche Fachrichtung wird hier beschrieben?
The use and possibly also compilation of computer-based text materials to investigatelinguistic phenomena and ways of teaching about language.
Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics
Frage 2: Welche Fachrichtung wird hier beschrieben?
The compilation, annotation and use of written and spoken corpora for the investi-gation of linguistic phenomena, mainly by means of easy to use software.
Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics
Frage 3: Welche Fachrichtung wird hier beschrieben?
The automated analysis and modelling of language by means of sophisticated pro-gramming techniques.
Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics
Frage 4: Welche Fachrichtung wird hier beschrieben?
The creation and application of corpora for use in computer-based systems, such asspeech recognition engines, translation systems, etc.
Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics
14
-
Schwerpunkte der verwandten Disziplinen
Symbolische, logikbasierte vs. statistische, probabilistische Methoden
Anwendungs- vs. Theorieorientierung
Algorithmisierung als Proof-Of-Concept (Kann man sowas berhaupt? vs. effiziente (kom-merziell einsetzbare) Systeme
Hilfswissenschaft vs. eigenstndige Forschung
Gesprochene vs. verschriftlichte Sprache (Text)
Psychologische/Neurologisch Plausibilitt vs. ingenieurmssige Lsung
2.2.4 Moderne Computerlinguistik
4 zentrale Anliegen der modernen Computerlinguistik
Formalisierung natrlichsprachlicher Phnomene und ihre Operationalisierung auf demComputer
Aufbau, Verwaltung und linguistische Interpretation (Erkennung von Wortarten, Grund-formen, syntaktischen Strukturen) von grossen Textsammlungen (Korpora) und lexikali-schen Ressourcen (Lexika)
Entwicklung realistischer und technologisch fortschrittlicher Anwendungen
Entwicklung und Durchfhrung von Evaluationen sprachverarbeitender Systeme und Kom-ponenten
2.3 Nachbardisziplinen
Nachbardisziplinen in bersicht
Linguistik: formale Linguistik fr Sprachmodelle; beschreibende Linguistik und Korpus-linguistik fr empirische Basis
Informatik: praktische und theoretische Informatik (Was lsst sich mit welchem Formalis-mus wie effizient berechnen?); Knstliche Intelligenz
Kognitionswissenschaft
Logik und Philosophie
Mathematik: Mengenlehre (Funktionen, Relationen, Graphen) und Statistik
15
-
2.3.1 Linguistik
Linguistik
Definition 2.3.1 (Moderne strukturalistische Sprachwissenschaft nach [Bussmann 2002]). DieLinguistik (engl. linguistics) beschftigt sich mit den verschiedenen Beschreibungsebenen derSprache (gesprochene Sprache und Schrift): Phonetik/Phonologie, Morphologie, Syntax, Seman-tik und Pragmatik.Als moderne, synchron orientierte Sprachwissenschaft untersucht sie sprachliche Regularittenund hlt diese in expliziter (formalisierter) Beschreibungssprache und erklrenden Modellen fest.
Lautlehre: Phonetik und Phonologie
Definition 2.3.2. Die Phonetik (engl. phonetics) ist die Lehre von der Lautbildung. Sie umfasstdie artikulatorische, akustische und auditive Ebene.
Definition 2.3.3 (enger strukturalistischer Begriff). Die Phonologie (engl. phonology) ist dieLehre von den bedeutungsunterscheidenden Sprachlauten (Phonemen) und ihren regelhaftenEigenschaften und Beziehungen.
Beispiel 2.3.4 (Phonologische Regel der Auslautverhrtung).
1. Dieb /di:p/
2. Diebe /di:b@/
Exkurs: Internationales Phonetisches Alphabet (IPA)
Die Symbole zwischen den Schrgstrichen wie in /di:p/ sind eine Lautschrift, d.h. ein schrift-liches Notationssystem, welches die Lautform beliebiger Sprachen wiedergeben knnen soll. DieIPA-Notationen fr die Laute des Standarddeutschen sind in [Carstensen et al. 2004, 156]erklrt.Die IPA-Zeichen sind Teil des UNICODE-Standards (http://wwww.unicode.org), welcher alleSchriftsysteme der Welt wiedergeben knnen will.Eine Kodierung, welche die IPA-Symbole mit Hilfe eines 7-Bit-ASCII-Zeichensatzes (Gross- undKleinbuchstaben von a bis z, Ziffern, einige Interpunktionszeichen jedoch keine Umlaute undandere exotische Glyphen) erlaubt, heisst SAMPA. Die Kodierung fr /di:b@/ lautet darin:di:b@.
Wortlehre: Morphologie
Definition 2.3.5. DieMorphologie (engl.morphology) ist die Lehre von der Struktur der Wrterund ihrer Bildung.
Beispiel 2.3.6 (Flexion).
1. Dieb#e Dieb-Plural Mehr als ein Dieb.
2. Dieb#e Dieb-Dativ dem Dieb
16
http://wwww.unicode.org
-
Satzlehre: Syntax
Definition 2.3.7. Die Syntax ist die Lehre vom zulssigen (wohlgeformten) strukturellen Auf-bau von Stzen aus Wrtern, Satzgliedern (Subjekt, Objekt, Prdikat usw.) und Teilstzen.
Beispiel 2.3.8 (Grammatikalitt, d.h. syntaktische Wohlgeformtheit).
1. Der gewitzte Dieb stahl den Diamanten.
2. *Der Dieb gewitzte stahl den Diamanten.
3. *Den gewitzten Dieb stahl den Diamanten.
Bedeutungslehre: Semantik
Definition 2.3.9. Die Semantik (engl. semantics) ist die Lehre von der Bedeutung der Wrter(lexikalische Semantik), der grsseren syntaktischen Einheiten (Satzsemantik) und von Texten(Diskurssemantik).
Beispiel 2.3.10 (Sprachliche Varianz unter Bedeutungsgleichheit).
1. Die Polizei beschlagnahmte das Diebesgut.
2. Das Diebesgut beschlagnahmte die Polizei.
3. Das Diebesgut wurde von der Polizei beschlagnahmt.
4. [Die Polizei fasste die Tter.] Sie beschlagnahmte das Diebesgut.
Lehre von der Sprachverwendung: Pragmatik
Definition 2.3.11. Die Pragmatik ist die Lehre vom (Kommunikations-)Zweck der usserungenvon Sprachnutzern und den Gesetzmssigkeiten natrlichsprachlicher Kommunikation in derWelt.
Beispiel 2.3.12 (Sprachliche Varianz unter Zweckgleicheit).
1. Ist das Fenster auf?
2. Bitte schliessen Sie das Fenster!
2.3.2 Kognitionswissenschaft
Kognitionswissenschaft
Definition 2.3.13. Die Kognitionswissenschaft (engl. cognitive science) ist die interdisziplinreErforschung kognitiver Fhigkeiten durch Psychologie, Neurowissenschaft, Informatik, Linguistikund Philosophie. Zu den kognitiven Fhigkeiten werden etwa Wahrnehmung, Denken, Lernen,Motorik und Sprache gezhlt.
Geschichte der KognitionswissenschaftExzellenter Artikel in [Wikipedia 2006a]
17
-
Turing-Test: Knnen Maschinen denken?
Turing-Test im Original [Turing 1950]The new form of the problem can be described in terms of a game which we call the imitationgame. It is played with three people, a man (A), a woman (B), and an interrogator (C) whomay be of either sex. The interrogator stays in a room apart front the other two. The object ofthe game for the interrogator is to determine which of the other two is the man and which isthe woman. He knows them by labels X and Y, and at the end of the game he says either X isA and Y is B or X is B and Y is A. [. . . ]We now ask the question, What will happen when a machine takes the part of A in this game?Will the interrogator decide wrongly as often when the game is played like this as he does whenthe game is played between a man and a woman? These questions replace our original, Canmachines think?
Reale Turing-TestsSeit 1991 werden ffentliche Wettbewerbe (Loebner-Preis) mit Dialogsystemen gemacht, welcheden Turing-Test bestehen wollen. Preistrgersysteme lassen sich teilweise im WWW direkt aus-probieren. [Wikipedia 2006b] Das Ziel dieser Test lautet: Kann eine Maschine so antworten ineinem Dialog, dass man sie nicht mehr von einem Menschen unterscheiden kann?
2.4 Die Krux der Mehrdeutigkeit
Mehrdeutigkeit [Jurafsky und Martin 2000, 4]
Beispiel 2.4.1.I made her duck.
Einige Paraphrasen, d.h. Lesarten
1. I cooked waterfowl for her.
2. I cooked waterfowl belonging to her.
3. I created the (plaster?) duck she owns.
4. I caused her to quickly lower her head or body.
5. I waved my magic wand and turned her into undifferentiated waterfowl.
FrageAuf welcher Ebene der linguistischen Analyse werden die Mehrdeutigkeiten aufgelst (desambi-guiert) in der Paraphrase?
2.5 Vertiefung
Pflichtlektre [Carstensen et al. 2004, 123]
Konversation mit einem Chat-Bot wie etwa http://www.elbot.de (Gewinner des Chat-terbox Contests 2003)
18
http://www.elbot.de/http://www.elbot.de
-
3 Linguistisches Propdeutikum I
Lernziele
Kenntnis der Begriffe Wort, Token, Lexem, Lemma, Lexemverband
Kenntnis der Wortartenlehre fr Deutsch
Kenntnis der morphologischen Kategorien fr Deutsch und Englisch
Kenntnis und Anwendung des Stuttgart-Tbingen-Tagsets (STTS) mit Hilfe der Referenz-karte
Erfahrungen mit computerlinguistisch untersttzter, halbautomatischer linguistischer An-notation von Morphologie und Wortarten
3.1 Wort
3.1.1 Definition
Wort
Definition 3.1.1 (nach [Bumann 1990]). Wort. Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fr sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftlicheDefinitionsversuche uneinheitlich und kontrovers sind.
Beispiel 3.1.2 (Was ist ein Wort?).
1. Sie wollte vor allem am 1. Spiel teilnehmen.
2. Sie nahm z.B. an dem 2. Spiel teil.
3. Das gibts doch nicht!
4. Blick Online verlost zum Film-Start das Ich bin Borat-Kit [. . . ]
Przisierungsversuche des Wort-BegriffsSprachliche Ebenen zur Przisierung des Wort-Begriffs
phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit
morphologisch: Grundeinheit, welche flektierbar ist
lexikalisch-semantisch: kleinster Bedeutungstrger, welcher im Lexikon kodifiziert ist
syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes
19
-
Gngige Wortauffassungen [Linke et al. 2001]
Wieviele verschiedene Wrter hat dieser Satz?Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach.
Antworten 9 5 6 4 __
3.1.2 Token
Antwort 9: Wort als Vorkommen einer Wortform
Wieviele verschiedene Wrter hat dieser Satz?Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5, fliegen6 Fliegen7 Fliegen8 nach9 .
Definition 3.1.3 (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText.
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Token betrachtet. Die Antwortwre dann . . .
3.1.3 Wortform
Antwort 5: Wort als Wortform
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4, fliegen4 Fliegen3 Fliegen3 nach5.
Definition 3.1.4 (Wortform). Eine Wortform ist eine rein graphematische Einheit eines Textes.
Beispiel 3.1.5 (Identische Wortformen mit unterschiedlicher Bedeutung).
Die Fliege war tot.
Er trug eine samtene Fliege.
Fliege nicht so schnell!
3.1.4 Syntaktisches Wort
Antwort 6: Wort als syntaktisches Wort
Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5, fliegen5 Fliegen4 Fliegen3 nach6
Definition 3.1.6 (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen Merkmalen.Rein orthographische Varianten einer Wortform werden fr ein syntaktisches Wort normalerweisezusammengefasst.
Beispiel 3.1.7 (Wortform vs. syntaktisches Wort).Die Wortform Fliegen kann mindestens 4 syntaktische Wrter reprsentieren: Fliege in No-minativ, Akkusativ, Dativ oder Genitiv Plural.
20
-
3.1.5 Lexem
Antwort 5: Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4, fliegen4 Fliegen3 Fliegen3 nach5.
Definition 3.1.8 (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Wrtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus,Numerus, Tempus usw.) unterscheiden.
Definition 3.1.9 (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikogra-phische Standard-Notation fr ein Lexem.
Beispiel 3.1.10 (Lexikographische Notationskonventionen im Deutschen).Substantiv-Lexeme werden durch das syntaktische Wort im Nominativ Singular reprsentiert.Verb-Lexeme durch den Infinitiv. Wie werden Verb-Lexeme im Latein notiert?
Antwort 4: Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3, fliegen3 Fliegen3 Fliegen3 nach4.
Definition 3.1.11 (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eineMenge von Lexemen, welche den gleichen Wortstamm haben.
BemerkungLexemverbnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten.
Beispiel 3.1.12 (Satz als Menge von Lexemverbnden).Wie lsst sich die Menge der Wrter des Beispielsatzes in Mengennotation als Lexemverbanddarstellen?
3.2 Lehre von den Wortarten
Wortarten nach [Bumann 1990]
Definition 3.2.1 (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis derKlassifizierung der Wrter einer Sprache nach morphologischen, syntaktischen und/oder seman-tischen Kriterien.
Historisches [Gallmann und Sitta 2001]Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahr-hundert. Fr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemssAdelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Pronomen, Artikel, Adverb, Prposition,Konjunktion, Interjektion, NumeraleMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilung durch,welche explizite (operationalisierbare) und durchgngige Klassifikationskriterien anwendet.
3.2.1 5 Hauptwortarten nach Glinz
KlassifikationskriterienWelcher Fachbegriff wre prziser anstelle von Wrter in der Abbildung?
21
-
Abbildung 3.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004]
3.2.2 STTS
Stuttgart/Tbingen-Tagset (STTS)
http://www.cl.uzh.ch/clab/hilfe/stts/
Das Standard-Tagset des Deutschen [Schiller et al. 1999] (vergleichbar mit dem Penn-Treebank-Tagset fr Englisch)
Wichtige linguistische Korpora wie NEGRA-Korpus oder TIGER-Korpus sind mit STTSannotiert. III
Frei verfgbare Werkzeuge zum automatischen Bestimmen von Wortarten (sogenannteTagger) liefern mit STTS-Tags versehenen Output.
Eine Notationsvariante von STTS ist als europischer Standard fr Deutsch (EAGLESELM-DE) [EAGLES 1996] spezifiziert worden.
Alternativen: Mnsteraner Tagset [Steiner 2003]
Besonderheiten von STTS
Wortarten fr satzinterne und -finale Interpunktion ($,, $. . . . )
Kategorie fr fremdsprachliches Material (FM)
Feine Aufgliederung bei Glinzschen Partikeln: Antwortpartikel (PTKANT), Negationspartikel(PTKNEG) usw.; Konjunktionen, Adverbien usw.
Feine Aufgliederung bei Pronomen/Begleiter: Personalpronomen (PPERS), Demonstrativ-pronomen (PDS) usw.
22
http://www.cl.uzh.ch/clab/hilfe/stts/http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.htmlhttp://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/http://www.cl.uzh.ch/siclemat/lehre/negra
-
Durchgngige Unterscheidung von attribuierend (Begleiter) vs. substituierend (Prono-men): Diese/PDAT Kuh muht. vs. Diese/PDS muht.
Eigennamen sind eine semantisch definierte Klasse.
QUIZ zu Wortarten
Wo stecken in den folgenden Stzen besondere Schwierigkeiten? Wieso?
Er kannte ihn schon als kleines Kind.Die Wissenschaft selbst ist ein kompliziertes System.Ich habe noch nie solch eine Geschichte gehrt.Er ist erkrankt.Auf der einen Seite ist es so, aber ...Der Mann, von dessen Vater das Buch handelt, ist ...Er kam pltzlich und ohne anzuklopfen herein.Er wartete bis um 5 Uhr.
3.3 Morphologische Merkmale
Morphologische Kategorien und ihre Merkmale
Definition 3.3.1 (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologi-schen Merkmale sind Ausprgungen von morphologischen Kategorien wie Genus, Kasus, Nume-rus, Person, Tempus, Modus und Komparation, welche durch die Flexion realisiert werden.
Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Lexems
Konjugation von Verben
Deklination von Nomen, Adjektiven, Artikeln und Pronomen
Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion: Sind steigerbare Adverbien ein Widerspruch im System?
Nach Glinz zhlen die Adverbien zu den Partikeln. Partikeln sind gemss dieser Einteilungnicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezhlt. Es gibt einigeAdverbien, welche komparierbar sind (sehr, mehr, am meisten, gern, lieber, am liebsten . . . ).Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur fr Adjektiveals Flexion betrachtet.Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, istdie Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus undkomparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden.Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (d.h. in flektierter Position) verwendet werden knnen? Hmmh, dann musses wohl noch andere Grnde geben, ein Adjektiv-Lexem zu sein.Welche denn?
23
-
Fachbegriff Deutsch Englisch STTS BeispielMaskulinum mnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum schlich neuter Neut HuhnUnterspezifiziert n/a n/a * Ferien
Tabelle 3.1: bersicht: Genera
3.3.1 Genus
Das Genus (engl. gender): Grammatisches Geschlecht
BemerkungDer Plural von Genus lautet Genera.
Beispiel 3.3.2 (Bei welchen Wortarten ist die Kategorie Genus ausgeprgt?).
3.3.2 Numerus
Der Numerus (engl. number): Grammatische Zahl
Fachbegriff Deutsch Englisch STTS BeispielSingular Einzahl singular Sg HuhnPlural Mehrzahl plural Pl Hhner
Tabelle 3.2: bersicht: Numeri
BemerkungDer Plural von Numerus lautet Numeri.
Beispiel 3.3.3 (Bei welchen Wortarten ist die Kategorie Numerus ausgeprgt?).
3.3.3 Kasus
Der Kasus (engl. case): Fall
Fachbegriff Deutsch Englisch STTS BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Akk den Baum
Tabelle 3.3: bersicht: Kasus
BemerkungDer Plural von Kasus lautet Kasus.
Bei welchen Wortarten ist die Kategorie Kasus
24
-
3.3.4 Modus
Der Modus (engl. mode, mood): Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Mglichkeitsform subjunctive mood Konj er gehe
Tabelle 3.4: bersicht: Modi
BemerkungenDer Plural von Modus lautet Modi.Die Befehlsform (Imperativ) wird normalerweise auch als Modus aufgefasst. Im STTS ist diesdurch das V.IMP ausgedrckt.
3.3.5 Tempus
Das Tempus (engl. tense): grammatische Zeit, Zeitform
Fachbegriff Deutsch Englisch STTS BeispielPrsens Gegenwart present tense Pres er gehtPrteritum Vergangenheit past tense Past er ging
Tabelle 3.5: bersicht: Tempora
BemerkungenDer Plural von Tempus lautet Tempora.
3.3.6 Person
Die Person (engl. person)
Fachbegriff Deutsch Englisch STTS Beispiel1. Person Sprecher first person 1 ich gehe2. Person Angesprochene second person 2 du gehst3. Person Person, Sachverhalt third person 3 er geht
Tabelle 3.6: bersicht: Personen
BemerkungenDer Plural von Person lautet Personen; die Verwendung ist allerdings ungebruchlich.
Bei welchen Wortarten ist die Kategorie Person ausgeprgt?
25
-
Fachbegriff Deutsch Englisch STTS BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Hchststufe superlative Sup schlauste
Tabelle 3.7: bersicht: Komparation
3.3.7 Grad
Der Grad (engl. degree): Steigerung, Komparation
Bei welchen Wortarten ist die Kategorie Grad ausgeprgt?
3.3.8 Adjektiv-Flexion
Die Adjektiv-Flexion (engl. adjective inflection)
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best. Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein, kein,. . . mixed Mix keine schlauen FchseStarke Flexion ohne Artikel strong St schlaue Fchse
Tabelle 3.8: bersicht: Adjektiv-Flexion
Bei welchen Wortarten ist die Kategorie Adjektiv-Flexion ausgeprgt?
Beispiel 3.3.4 (Flexion von schlau).Darstellung bei den Canoo-Sprachtools: III
3.4 Vertiefung
Referenzkarte zu STTS und dem NEGRA-Sprachmodell [Referenzkarte 2007]
Manuals fr das Programm annotate [Plaehn 2000, Plaehn 1998]
http://www.canoo.net aus Basel hat eine sorgfltige traditionelle linguistische Termino-logie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem.
PflichtlektreNachschlagen von mindestens 30 Tags im Annotationshandbuch [Schiller et al. 1999] bei Un-sicherheit im Annotieren von Wortart und morphologischer Kategorie
26
http://www.canoo.net/services/Controller?dispatch=inflection&lang=de&view=split&input=schlauhttp://www.canoo.net
-
4 Linguistisches Propdeutikum II
Lernziele
Kenntnis der klassischen syntaktischen Proben
Kenntnis der Begriffe Satz, Konstituenz, Dependenz, Konstituente, Kern, Kopf, Satzglied,Phrase
Kenntnis der wichtigsten syntaktischen Funktionen
Kenntnis und Anwendung des NEGRA-Annotationsschemas mit Hilfe der Referenzkarte
Erfahrungen mit computerlinguistisch untersttzter, halbautomatischer linguistischer An-notation von syntaktischen Strukturen
Erfahrungen mit der einfachen Suche von syntaktischen Strukturen in einer Baumbank
4.1 Linguistische Proben
Linguistische Testverfahren
Definition 4.1.1 (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, umgrammatische Aussagen verifizieren (besttigen) oder falsifizieren (verwerfen) zu knnen.
4.1.1 Ersatzprobe
Ersatzprobe
Definition 4.1.2. In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestesmuss dabei unverndert bleiben.
Beispiel 4.1.3 (Bestimmung des Kasus).
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen.
Beispiel 4.1.4 (Bestimmung der Wortart von das).
Das ist das Angebot, das uns berzeugt hat.
27
-
Dieses ist das Angebot, welches uns berzeugt hat.
* Welches ist das Angebot, dieses uns berzeugt hat.
? Das ist dieses Angebot, welches uns berzeugt hat.
Probleme der Interpretation
Test bestanden vs. nicht bestanden ist manchmal abhngig von der ursprnglichen Inter-pretation des Satzes.
Ob die Interpretation des Satzrestes sich ndert durch den Ersatz, ist nicht immer leichtzu beurteilen.
4.1.2 Einsetzprobe
Einsetzprobe
Definition 4.1.5. In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt, der ihn grammatisch eindeutig interpretiert.
Beispiel 4.1.6 (Bestimmung der Wortart).
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis *Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfr Verben oder Steigerung fr Adjektive.
4.1.3 Weglassprobe
Weglassprobe
Definition 4.1.7. In der Weglassprobe wird von einem grsseren mehrdeutigen Ausdruck sovielMaterial wie mglich entfernt, um einen eindeutigen Ausdruck zu erhalten.
Beispiel 4.1.8 (Bestimmung eines Satzglieds).
1. Schon einen Tag nach der Abreise seiner Freundin fhlte er sich einsam.
2. Schon einen Tag nach der Abreise seiner Freundin fhlte er sich einsam.
3. Schon einen Tag nach der Abreise seiner Freundin fhlte er sich einsam.
4. Schon einen Tag nach der Abreise seiner Freundin fhlte er sich einsam.
FrageWarum nicht Variante 4?
28
-
4.1.4 Verschiebeprobe
Verschiebeprobe
Definition 4.1.9. In der Verschiebeprobe werden Wrter und Wortgruppen im Satz umgestellt,so dass der Satz grammatisch bleibt und sich am Inhalt hchstens die Gewichtung ndert.Damit lassen sich die Anfang und Ende von Satzgliedern erkennen.
Beispiel 4.1.10 (Bestimmung von Satzgliedern).
1. Die Sitzung mit dem Chef bereite ich morgen vor.
2. Morgen bereite ich die Sitzung mit dem Chef vor.
3. Ich bereite die Sitzung mit dem Chef morgen vor.
Regeln: Tausche immer 2 Kandidaten aus, um nicht unntig ungrammatische (Pseudo-)Stze zuerzeugen. Ersetze in einfachen Stzen immer das Satzglied vor dem flektierten Verb.
Verschiebeprobe
Beispiel 4.1.11 (Unzulssiges Verschieben).
1. Die Sitzung mit dem Chef bereite ich morgen vor.
2. * Morgen ich bereite die Sitzung mit dem Chef vor.
3. #Die Sitzung bereite ich morgen mit dem Chef vor.
GrndePseudo-Satz 2 ist ungrammatisch. . . . Satz 3 hat eine andere Bedeutung bekommen durch dieUmstellung.
4.1.5 Umformungsproben
Umformungsprobe
Definition 4.1.12. In der Umformungsprobe werden Stze umfassend umgebaut.
Beispiel 4.1.13 (Funktion von Nebenstzen).
1. Es wrde mich freuen, wenn du mitkmest .
2. Dein Mitkommen wrde mich freuen.
Der Nebensatz mit wenn erfllt eine analoge Funktion wie Es.Beispiel 4.1.14 (Infinitivumformung zur Subjekterkennung).
1. Die Lrche ist ein Nadelbaum.
2. ein Nadelbaum sein / die Lrche
29
-
4.2 Satz
Satz
Definition 4.2.1 (nach [Bumann 1990]). Satz (engl. clause oder sentence). Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, diehinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollstndig und unabhngigist.
Definition 4.2.2 (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht. Darber hinaus kann der Satzzustzliche Angaben enthalten.
4.3 Syntaxanalyse
4.3.1 Konstituenz
Konstituenz
Definition 4.3.1 (nach [Bumann 1990]). Konstituente. In der strukturellen Satzanalyse (sog.Konstituentenanalyse) Bezeichnung fr jede sprachliche Einheit (Wort, Wortgruppe) die Teileiner grsseren sprachlichen Einheit ist.
Definition 4.3.2 (nach [Bumann 1990]). Ziel und Ergebnis der Konstituentenanalyse ist dieZerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierte Abfolge.
Definition 4.3.3 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Przedenz zwischen Konstituenten.
Konstituenten in der annotate-Darstellung
!"#
$$%&
'($)(*(+,-
.#/#0
1123+
'($)($4#5(306
.#78.9#
:;"06?0.#0
++
2#-(:==($)(*
?06
@A+
!!
&"5"=#0
++
+#?9(:==($)(*
#"0
$B@1C
!!
D
ED
!!
F#45?G/#0
1123+
'($)($4#5(306
"/4#
$$A!:B
*(:==($)
HI.)"G/=#"9#0
++
2#-(:==($)(*
8?5J?4#"J#0
113CK
!!
(
E(
!!
+@ +@ +@ +@
+$
L< L; L re(1brevity) falls c r
Beispiel 10.3.4 (Realistischer Faktor).Wenn Kandidatenbersetzung 1000 Token zhlt (c = 1000) und Referenzlnge als 1100 Tokenzhlt (l = 1100), dann BP = e11.1 = e0.1 = 0.905
BLEU als FormelBLEU-Score ergibt sich aus Multiplikation von Brevity Penalty mit der geometrisch gemitteltenPrzision aus 1-4-Grammen.
BLEU = BP (P1 P2 P3 P4)1/4 = BP P
Wert von 1 heisst perfekte bereinstimmung, Wert 0 heisst keine bereinstimmung.
EigenschaftenBLEU betont enge lokale bereinstimmung und vernachlssigt Unstimmigkeiten, welche sichdarber hinaus ergeben knnen:Ensures that the military it is a guide to action which alwaysobeys the commands of the party. wre gleich gut wie Kandidat 1.
106
-
Wie zuverlssig bildet BLEU das menschliches Urteil ab?
Wortvarianz (Synonyme) wird nur bercksichtigt, wenn in Referenzbersetzungen enthal-ten
Unwichtige und wichtige Inhalts-Wrter werden gleich behandelt
Fr denselben BLEU-Score gibt es Millionen von Kombinationen mit unterschiedlichsterbersetzungsqualitt
Regelbasierte bersetzungssysteme werden gegenber statistischen gerne abgestraft
Abbildung 10.11: Korrelation von menschlichen und BLEU-Bewertungen nach[Callison-Burch et al. 2006]
10.3.2 Parallele Baumbanken
Einsatz von parallelen Baumbanken
Korpus von bilingual syntaktisch annotierten Stzen
Annotation von (Miss-)Matches der bersetzungen durch Zuordnung auf Wort- und Kon-stituentenebene
Anwendungen
bersetzungsevaluation mit vertieftem linguistischen Wissen
Evaluationskorpus fr Wort-, Phrasen- und Satzalignierung
Trainingskorpus fr Regeln der die Transferbersetzung
107
-
Quelle: SMULTRON http://www.cl.uzh.ch/kitt/smultron/
Abbildung 10.12: Paralleler Syntaxbaum DE-EN
10.4 Vertiefung
Reichhaltiges Sammelsurium zur maschinellen bersetzung und ihrer Geschichte http://www.mt-archive.info/
Lerneinheit Satz- und Phrasenhnlichkeit http://www.cl.uzh.ch/clab/satzaehnlichkeit/
108
http://www.cl.uzh.ch/kitt/smultron/http://www.mt-archive.info/http://www.mt-archive.info/http://www.cl.uzh.ch/clab/satzaehnlichkeit/
-
11 Maschinelle bersetzung II
Lernziele
Kenntnis ber linguistische Probleme bei der bersetzung
Kenntnis ber die wichtigen Anstze zur maschinellen bersetzung: Direkte bersetzung,Transfer-bersetzung, Interlingua-bersetzung
11.1 Probleme der bersetzung
Ideale Sprachen fr MTMaschinelle bersetzung von QS nach ZS wre trivial, wenn folgende Bedingungen erfllt wren:
Jede Wortform von QS hat genau eine entsprechende Wortform in ZS.
Jeder Satz von QS hat genau eine syntaktische Analyse.
Jeder Satz von QS hat genau eine Bedeutung.
Jedem Konstruktionstyp in QS entspricht genau ein Konstruktionstyp in ZS.
11.1.1 Mehrdeutigkeit
Mehrdeutigkeit der Wortart
Beispiel 11.1.1 (Mehrdeutige Wortform: Englisch nach Franzsisch).
You must not use abrasive cleaners on the printer casing.
The use of abrasive cleaners on the printer casing is not recommended.
DiagnoseDieselbe Wortform in der QS (use) steht fr verschiedene Wortformen in der ZS (emploi/N,employer/V).
Minimaler LsungsansatzBestimmen der Wortart in der QS, d.h. Tagging.
Mehrdeutigkeit von morphologischen Merkmalen
Beispiel 11.1.2 (Mehrdeutige Wortform: Englisch nach Deutsch).
We just loved to play football.
He played quarterback and loved to play football.
109
-
DiagnoseDieselbe Wortform in der QS (loved) steht fr verschiedene Wortformen in der ZS:liebten/VVFIN:1.Pl.Past.Ind, liebte/VVFIN:3.Sg.Past.Ind.
LsungsansatzUm die korrekte finite Wortform im Deutschen zu whlen, muss man wissen:
Was ist das Subjekt dieses finiten Verbs?
Welche Person und Numerus hat dieses Subjekt?
Dieses Wissen kann eine syntaktische Analyse liefern.
Mehrdeutigkeit von morphologischen Merkmalen
Beispiel 11.1.3 (Mehrdeutige Wortform: Englisch nach Deutsch).
When John drank the winei in the glass he spilled iti.Als Hans den Wein im Glas trank, verschttete er ihn.
When John drank the wine in the glassi he broke itiAls Hans den Wein im Glas trank, zerbrach er es.
DiagnoseDieselbe Wortform in der QS (it) steht fr verschiedene Wortformen in der ZS:ihn/PPER:3.Sg.Masc.Akk, es/PPER:3.Sg.Neut.Akk.
LsungsansatzEine syntaktische Analyse allein liefert noch keine Entscheidungsgrundlage.
Lexikalisches Sortenwissen und DesambiguierungDie korrekte bersetzung von it ins Deutsche erfordert eine Bestimmung der Bezugsgrsse desPronomens.
Beispiel 11.1.4 (Aus dem elektronischen Lexikon WordNet III).
(v) spill, slop, splatter (cause or allow (a liquid substance) to run or flow from a container)spill the milk; splatter water
(v) break (destroy the integrity of; usually by force; cause to separate into pieces or frag-ments) He broke the glass plate; She broke the match
Selektionsrestriktionen von Verben als AusschlusskriterienDas Akkusativobjekt von to spill bezeichnet eine Flssigkeit. Das Objekt von to break kannkeine Flssigkeit sein, weil diese nicht in Stcke gebrochen werden knnen.
110
http://wordnet.princeton.edu
-
Lexikalisches Sortenwissen in der CLWoher weiss der Computer, dass wine eine Flssigkeit bezeichnet?
Beispiel 11.1.5 (Begriffshierarchie fr wine aus WordNet III).(n) wine, vino (fermented juice (of grapes especially)) (n) alcohol, alcoholic beverage, in-toxicant, inebriant (a liquor or brew containing alcohol as the active agent) (n) liquid (asubstance that is liquid at room temperature and pressure) (n) fluid (a substance that is fluidat room temperature and pressure) (n) substance, matter (that which has mass and occupiesspace) (n) physical entity (an entity that has physical existence) (n) entity (that which isperceived or known or inferred to have its own distinct existence (living or nonliving))
FrageWarum kann man trotzdem sagen Er verschttet ein Glas Wein?
Mehrdeutigkeit von syntaktischen Funktionen
Beispiel 11.1.6 (Mehrdeutige syntaktischen Funktionen: Deutsch nach Englisch).
Brieftrger beien Hunde selten.Dogs seldom bite postmen.Postmen seldom bite dogs.
DiagnoseDie halbfreie Wortstellung des Deutschen muss fr die ZS Englisch ins SVO-Schema gebrachtwerden. Das Subjekt ist in der QS aber nicht morphologisch markiert.
Mehrdeutigkeit von syntaktischen Funktionen
Beispiel 11.1.7 (Anbindung von PP: Deutsch nach Englisch).
Den Mann sah die Frau mit dem Fernglas.The woman with the telescope saw the man.The woman saw the man with the telescope.
DiagnoseOb die PP als postnominaler Modifikator oder als Verb-Modifikator fungiert muss in der ber-setzung partiell aufgelst werden.
Lsungsansatz fr PP-AnbindungsdesambiguierungHeuristiken (Bevorzuge eine enge Anbindung!) oder statistische Angaben ber Prferenzen derPaare V NPP (sehen-Fernglas) vs. N NPP (Frau-Fernglas).Falls die ZS die Mehrdeutigkeit ebenfalls ausdrcken kann, muss allerdings nicht aufgelst wer-den.
Mehrdeutigkeit von Wortbedeutungen
HauptproblemDie meisten Wrter haben mehrere Bedeutungen, welche in der ZS unterschiedlich lexikalisiertwerden knnen!
Beispiel 11.1.8 (box in dict.leo.org: Englisch nach Deutsch).
111
http://wordnet.princeton.edudict.leo.org
-
Kasten, Behltnis, Dose, ...
Buchs, Anhieb, Achsbchse
Eingabefeld
Glotze, Sarg
LsungsansatzMarkierung der bersetzungspaare nach Fachgebiet (Agronomie, Botanik, Technik) und Stile-bene. Heuristik:Bevorzuge hnlich mehrdeutige Ausdrcken in der ZS!
Mehrdeutigkeit von Wortbedeutungen (Klassiker)
Beispiel 11.1.9 (Mehrdeutige Wortform: Englisch nach Deutsch).
The pen was in the box.Die Schreibfeder war in der Schachtel.Das Laufgitter war in der Schachtel.
The box was in the pen.Die Schachtel war im Laufgitter.Die Schachtel war in der Schreibfeder.
DiagnoseDie plausiblen bersetzungen von pen in einem einzelnen Satz erfordern Weltwissen ber dietypische Beschaffenheit von Gegenstnden und ber gngige Situationen.
Welche Situationen sind typisch? [Melby 2001]Siehe Abbildungen 11.1 und 11.2.
Abbildung 11.1: Situationen zu The pen was in the box nach [Melby 2001]
112
-
Abbildung 11.2: Situationen zu The pen was in the box nach [Melby 2001]
Enzyklopdisches WeltwissenWir wissen, dass die involvierten Gegenstnde typischerweise etwa folgende Ausdehnung haben:
Schreibfeder: ca. 10cm lang und 1cm breit
Schachtel: ca. 5 bis 100cm lang/breit
Laufgitter: ca. 50 bis 500cm lang/breit
Damit werden gewisse Verschachtelungen unwahrscheinlich.
Unwahrscheinlich, aber nicht unmglichLittle Johnny was unhappy. On Christmas eve he got a pen (auch Pferch) for his toy horse.Now he had lost it. Suddenly he found it. The pen was in the box. He was happy again.
Mensch vs. MaschineMenschen setzen Weltwissen bzw. Welterfahrung unbewusst und problemlos ein. MaschinelleReprsentationen davon sind jedoch schwierig!
Mehrdeutigkeit von pragmatischen KategorienBeispiel 11.1.10 (Mehrdeutige Wortform: Englisch nach Franzsisch).
Thank you for coming. Merci de venir.
A: Would you like a coffee? B: Thank you. B: Sil vous plat.
DiagnoseDieselben Wortformen in der QS (thank you) stehen fr verschiedene Wortformen in der ZS(merci, Sil vous plat).
LsungsansatzUm die korrekte bersetzung zu finden, muss man wissen, ob es sich um eine Antwort aufeine Angebots-Frage handelt. Dieses Sprechakt-Wissen liefert eine Analyse auf der Ebene derPragmatik.
113
-
11.1.2 Idiome und Kollokationen
Definition 11.1.11 (idiomatische Wendung, Redewendung). Ein Idiom ist eine feste, mehrteili-ge Wortgruppe, welche eine semantische Einheit bildet, die nicht aus den Einzelteilen abgeleitetwerden kann. Modifikationen oder Austausch von Elementen sind schlecht mglich.
Beispiel 11.1.12 (Idiom).
jemanden auf die Palme bringen
#jemanden auf die hohe Palme bringen
#jemanden auf die Birke bringen
to drive someone crazy
bersetzbarkeit von IdiomenIdiom lassen sich nur in Ausnahmefllen wrtlich von der QS in die ZS bersetzen.
Kollokationen
Definition 11.1.13 (collocation). Eine Kollokation ist eine Kombination von Wrtern, welchesich gegenseitig bevorzugt verbinden und andere semantisch denkbare Kombinationen unter-drcken.
Beispiel 11.1.14 (Kollokation).
Ein starker Raucher ist jemand, der intensiv raucht.
Ein starker Schreiber ist aber nicht jemand, der intensiv schreibt.
bersetzbarkeit von KollokationenWie bei den Idiomen kann die bersetzung nicht wortweise isoliert erfolgen.
Beispiel: Intensivator als KollokationEine korrekte bersetzung von heavy smoker in Deutsch oder Franzsisch bedingt:
Die Erkennung von heavy als kollokativer Intensivator.
Die Kenntnis, dass der Intensivator fr fumeur im Franzsischen grand lautet.
Die Kenntnis, dass der Intensivator fr Raucher im Deutschen stark lautet.
Die Intensivierung kann als lexikalische Funktion betrachtet werden, welche vom Kopf einerKonstituente abhngig ist. [Arnold et al. 1994, 127]
114
-
Beispiel: Verbgefge als Kollokationen
Beispiel 11.1.15 (support verbs im Englischen ).
They took (*made) a walk.
They make (*took) an attempt.
They had (*made,*took) a talk.
Lexikalische FunktionDer Kern solcher Kollokationen liegt im Nomen. Die Funktion des Verbs kann sprachbergrei-fend abstrakt als support verb reprsentiert werden. Die genaue Verbalisierung ist aber nichtvorhersagbar, sondern muss im Lexikon erfasst werden.
11.1.3 Sprachbau
Globale DiskrepanzenDie komparative Grammatikschreibung hat die verschiedenen grammatikalischen Prinzipien ge-sucht und ihre unterschiedlichen Parametrisierungen in den Einzelsprachen beschrieben.
Stellung des Kopfes innerhalb von Konstituenten
Stellung der Modifikatoren bezglich Kopf
Verwendung von morphosyntaktischen Merkmalen wie Genus und Kasus (Englisch vs.Deutsch)
Verwendung von Artikeln (Russisch vs. Deutsch)
Optionalitt von lexikalischen Subjekten (Italienisch vs. Deutsch)
global mismatchesGlobale Unterschiede wie etwa Wortstellungsabweichungen stellen fr primitive Anstze bereitseine hohe Hrde dar.
Stellungsregularitt Subjekt(S)-Objekt(O)-Verb(V)Bei bersetzungen zwischen Sprachen mit unterschiedlicher SVO-Ordnung sind manchmal gros-se Umstellungen notwendig.
Beispiel 11.1.16 (Englisch vs. Japanisch).
SVO: He adores listening to music.
SOV: he music to listening adoreskare ha ongaku wo kiku no ga daisuki desu
115
-
Lokale Diskrepanzen
Beispiel 11.1.17 (Wortstellung bei Objekt und Vollverb in Partizipform).
I have seen him
Ich haben ihn gesehen.
Beispiel 11.1.18 (Wortstellung bei Fragewort und Prposition).
What doctor did John go to?
Zu welchem Doktor ging John?
Beispiel 11.1.19 (Wortstellung bei Verneinung).
He never sleeps long.
Er schlft nie lange.
Beispiel 11.1.20 (Head Switching: Hauptverb vs. Adverb).
I like swimming.
I schwimme gerne.
Beispiel 11.1.21 (Head Switching: Modalverb vs. Adverb).
John usually goes home.
Juan suele ir a casa.
Beispiel 11.1.22 (Passivkonstruktion).
She insists on being given the books.
Sie besteht darauf, dass ihr die Bcher gegeben werden.
Beispiel 11.1.23 (Gerundiv-Konstruktionen).
He did not neglect writing to her.
Er versumte es nicht, ihr zu schreiben.
Lexikalische Divergenz
Beispiel 11.1.24 (Zuordnung thematische Rolle zu syntaktischer Funktion).
cautionner qn vs brgen fr jmdn.
applaudir qn vs. jmdm. applaudieren
Beispiel 11.1.25 (Zuordnung thematische Rolle zu syntaktischer Funktion).
I miss my dictionary.
Mon dictionnaire me manque.
116
-
11.2 Anstze
Oettingers Automatic Russian-English Dictionary
Beispiel 11.2.1 (Russisch zu Englisch).Humanbersetzung:
In recent times Boolean algebra has been successfully employed in the analysis ofrelay networks of the series-parallel type.
Rohbersetzung:
(In,At,Into,To,For,On) (last,latter,new,latest,worst) (time,tense) for analysis and syn-thesis relay-contact electrical (circuit, diagram, scheme) parallel-(series, successive,consecutive, consistent) (connection, junction, combination) (with, from) (success,luck) (to be utilize, to be take advantage of) apparatus Boolean algebra.
[Locke und Booth 1955, 55]
Wort-fr-Wort-bersetzungDer einfachste Ansatz zur M basiert auf einem bilingualen Lexikon und einfachsten Modifika-tionen auf der Wortebene.
Vorgehen
Im Prinzip wortweises bersetzen der erkannten Lexikoneintrge
Anpassungen der Wortfolge in der Rohbersetzung Austauschen von 2 benachbarten Wrtern
Weglassen eines Worts (z.B. keine Artikel im Russischen)
Einfgen eines Worts
FrageWas muss man dafr eigentlich knnen?
Probleme solcher lexikalischer bersetzung
Lemma-basierte bersetzung: Mit der Reduktion auf Lemmata geht wesentliche Informa-tion ber die syntaktischen Abhngigkeiten verloren.
Wortfolge: Sprachen unterscheiden sich oft so stark, dass lokales Umstellen von Wrternnicht gengt. (z.B. SVO vs. SOV)
Lexikalische Mehrdeutigkeit: Die meisten Wrter in den meisten Sprachen sind mehrdeu-tig (ambig)! Wie findet man die intendierte Bedeutung? Dies erfordert sog. word sensedisambiguation (WSD) (Wortbedeutungsdesambiguierung).
117
-
4 wichtige AnstzeDie bertragung von der QS in die ZS ist primr gesteuert durch:
Wortfolge mit mophosyntaktischer Information: Direkte bersetzung
Syntaktische Struktur: Transfer-bersetzung
Semantische Reprsentation: Interlingua-bersetzung
Frequenzdaten von bersetzungspaaren: Statistische bersetzung
11.2.1 Direkte bersetzung
Direkte bersetzungDie direkte bersetzung fhrt die QS ohne linguistisch motivierte Zwischenreprsentation in dieZS ber.
Ablauf
Bestimmung von Wortarten, Grundformen und morphosyntaktischen Merkmalen der Wr-ter in der QS
Wortwahl (=Lemmawahl) in der ZS
Anwenden von bertragungsregeln anhand der lexikalischen und morphosyntaktischen In-formation
Lokales Umordnen von Wrtern in ZS
Morphologische Generierung der Wortformen der ZS
Beispiel 11.2.2 (Wortwahl much/many).if preceding word is how return wieviel(e) else if preceding word is as return soviel(e)
Beispiel: Regeln fr Direkte bertragung
Beispiel 11.2.3 (Adjektiv-Stellung und Nominalkomposita von Englisch zu Franzsisch).
a visual indicator un indicateur visuel
installation configuration configuration dinstallation
Regeln fr die direkte bertragung
ArtE AdjE NE ArtF NF AdjF Falls in der QS die Folge Artikel, Adjektiv, Nomenvorliegt, dann produziere in der ZS die Reihenfolge Artikel, Nomen, Adjektiv.
N1E N2E N2F de N1F Falls in der QS zwei Nomen hintereinander stehen, dannproduziere in der ZS die vertauschte Reihenfolge mit einem de-Element dazwischen.
118
-
Probleme/Vorteile der direkten bersetzung
Eine grosse Anzahl bertragungsregeln entsteht wegen der schlechten syntaktischen Ab-straktion. So muss fr the preliminary installation configuration la configurationdinstallation prliminaire eine weitere Regel gemacht werden. Welche?
Jede bersetzungsrichtung braucht ein eigenes Programm.
Wartung und Weiterentwicklung wird schnell zu komplex, weil die syntaktische Strukturnicht explizit reprsentiert ist.
Die direkte bersetzung ist grundstzlich robust gegenber syntaktischen Schwierigkeiten(Fehler oder zu komplexe Strukturen).
Allgemeine Behandlung von unbegrenzten Konstruktionen wie Komposita ist schlechtmachbar. computer periphery installation configuration manual
11.2.2 Transfer-bersetzung
Transfer-bersetzung im Bild
Ausgangsgssprache
Satz
Zielsprache
Satz
Ausgangsgssprache
Analyse Synthese
Zielsprache
Syntax Syntax
Transfer
Abbildung 11.3: Transfer-bersetzung im Bild
Beispiel: Regeln fr Transfer von SyntaxstrukturenDie Transfer-Regeln operieren nicht bloss auf der Wortebene, sondern auf allen Konstituenten.(Vgl. http://www.cl.uzh.ch/clab/ecl1/ilap_transf/)
Komponenten eines Transfersystems
Syntaxanalyse der QS (Grammatik, Lexikon, Parser)
Transfer-Modul (lexikalische und syntaktische Transfer-Regeln)
Generierungsmodul der ZS (Grammatik, Lexikon, Generator)
119
http://www.cl.uzh.ch/clab/ecl1/ilap_transf/
-
Maschinelle bersetzung (TransferMethode)
unedonne capitalized(jean) pomme endpunct(.)capitalized(marie)
det cnp_name vt pn
num: sing
cat: p_name
gend: mascnum: singdef: indefgend: fem
cat: det
num: singgend: fem
cat: cn cat: p_name
num: singgend: fem
num: singpers: 3tense: presmood:indic
cat: tv
S
VP
mood:indictense: pres
type: assertion
NP
NPNP num: singnum: sing
VP
mood:indictense: pres
type: assertion
NP
NP num: singPP
NPnum: sing
p_name vt det cn pnprep
S
jean pomme donner unjohn a appleto_give
num: sing num: sing
num: sing
def: indef
num: singpers: 3
def: indef
pers: 3
Wortformenanalyse
Satzgenerierung
Eingabevorbereitung Ausgabeaufbereitung
Syntax
Transfer
gend: fem
gend: fem
gend: masc gend: masc
gend: fem
gend: fem
Wortformengenerierung
cat: prepnum: singcat: p_name
num: singgend: masc
cat: p_namenum: singpers: 3tense: presmood:indic
cat: tv cat: cn
num: sing
cat: det
num: singdef: indef
capitalized(mary) endpunct(.)applean gives
Lookup
Lexikon
capitalized(john)
John gives Mary an apple. Jean donne une pomme Marie.
to_givejohn a apple end_of_sentencemary end_of_sentencejean donner pommeun marie
mary marie
Satzanalyse
Quelle: [Hess 2005]
Abbildung 11.4: Transfer-bersetzung im Detail
garonboy girlloves therich
S
Np Vp
Art Adj NGr Np
Art NGr
V
Np Vp
S
NGrArt
Art NGr Adj V Np
NN N N
le lariche aime fillethe
Quelle: [Hess 2005]
Abbildung 11.5: Transfer-Regeln
120
-
Morphologie-Module fr QS und ZS
Module zur Auflsung von Mehrdeutigkeiten
Fazit zur Transfer-bersetzung
Dominierendes Paradigma der heutigen M (aber schon 1950 konzipiert)
Nur die Transfer-Regeln mssen fr jede bersetzungsrichtung entwickelt werden. Gene-rierung und Analyse bleiben (hoffentlich) gleich.
Unbegrenzte Konstruktionen lassen sich rekursiv elegant bertragen.
Sprachen, welche wenig hnlichkeiten haben, sind viel schwieriger als verwandte Sprachen.
Welche syntaktischen Konstruktionen existieren berhaupt?
Was tun, wenn Stze der QS nicht geparst werden knnen? Wie bekommt man die inten-dierte Analyse?
11.2.3 Interlingua-bersetzung
Interlingua-bersetzung
Bei der Transfer-bersetzung mssen die syntaktischen Analyseresultate so gewhlt wer-den, dass der Transfer zu verschiedenen Sprachen optimal ist.
Der Interlingua-Ansatz versucht, alle Einzelsprachen auf eine gemeinsame Reprsentation(meist bedeutungsorientiert) abzubilden.
In der Praxis haben sich diese Systeme nicht durchgesetzt trotz der an sich bestechendenIdee.
Problem: Wie soll diese Interlingua genau aussehen? Welche begrifflichen Differenzierungenverlangt sie?
LexikalisierungsproblemVerschiedene Sprachen machen unterschiedlich feine Bedeutungsunterscheidungen.Wieviele Differenzierungen muss eine Interlingua enthalten, wenn noch mehr Sprachen ins Spielkommen?
11.2.4 Kombinierte Anstze
Anstze der M und reale SystemeReale bersetzungssysteme sind meistens Kombinationen der geschilderten Anstze. Wo keinetiefen Analysen mglich sind, werden flache bertragungen gemacht.
121
-
Quelle: [Jurafsky und Martin 2008] nach Somers
Abbildung 11.6: Lexikalische berschneidungen nach Somers
Quelle: [Jurafsky und Martin 2008]
Abbildung 11.7: Verbindung von direkter, Transfer- und Interlingua-bersetzung
11.3 Statistische Maschinelle bersetzung
Lernende Verfahren
Regelbasiert vs. datenbasiertAnstelle von komplexen Regelsystemen wird aus alignierten Satzpaaren die bersetzungsrelationgelernt.
Noisy Channel Model fr EN FRDie bersetzung versucht, aus einem verrauschten Signal, das wie Englisch tnt, das wahr-scheinlichste franzsische Original zu rekonstruieren.
ZSQSnoisy channel
Fluency und Faithfulness im SMT
Optimieren von Fluency und Faithfulness in wortbasierter MT
Faithfulness: Wie wahrscheinlich kann von einer franzsischen Wortfolge auf eine englischeWortfolge bersetzt werden? bersetzungsmodell: P (f | e)
122
-
Fluency: Wie englisch ist das bersetzte? ZS-Modell: P (e)
Abbildung 11.8: Fluency und Faithfullness in SMT nach [Al-onaizan et al. 1999]
Candide Modell 3 fr bersetzungsrichtung FR ENNach [Al-onaizan et al. 1999, 13]
Probabilistisches Lexikon: Mit welchen Wahrscheinlichkeiten wird ein englisches Wort ausfranzsischen Wrtern bersetzt?
Fruchtbarkeit (fertility): Wahrscheinlichkeit, dass ein franzsisches Wort in n englischeWrter bersetzt wird.
Verzerrung (Distortion): Wahrscheinlichkeit, dass ein englisches Token an Position i ineinem Satz an Position j im franzsischen Satz erscheint.
Null-Einsetzung (NULL-insertion): Globale Wahrscheinlichkeit, dass irgendwo ein NULLElement im Englischen erscheint.
Statistische Verfahren
Seit Mitte 90-Jahre sehr aktives Forschungsgebiet. Aber: Keine wirklichen Durchbrcheim Vergleich mit den regelbasierten Anstzen.
Wortbasierte Anstze wurden von phrasen-basierten (Chunks) Anstzen abgelst.
Im Prinzip kann jedes Problem im klassischen bersetzungsparadigma durch probabilisti-sche Verfahren gelst werden (Wortsinndesambiguierung, Syntax-Analyse, Strukturver-nderungen)
11.4 Vertiefung
Kapitel Maschinelle bersetzungssysteme in [Hess 2005], das noch zustzliches Materialund Referenzen enthlt.
Quiz Mehrdeutigkeit von Wortarten
123
http://www.cl.uzh.ch/ict-open/QUIZ/100
-
ILAP Transfer-bersetzung http://www.cl.uzh.ch/clab/ecl1/ilap_transf
Eine lesbare technische Einfhrung in Maschinelle bersetzung: [Knight 1997]
124
http://www.cl.uzh.ch/clab/ecl1/ilap_transf
-
12 Formales Propdeutikum I
Lernziele
Kenntnis der grundlegenden mengentheoretischen Konstrukte und Notationskonventionen
Mengennotation, Elementbeziehung, Teilmenge, Potenzmenge, Paare, Relationen, Funk-tionen
Kenntnis ber grundlegende Eigenschaften von Relationen wie Symmetrie, Transitivitt,Totalitt, Reflexivitt
Kenntnis ber die Eigenschaften, welche Funktionen partiell, total, injektiv, surjektiv oderbijektiv machen
Herzlichen Dank an Manfred Klenner bzw. Ralf Klabunde fr Quelltexte.
12.1 Mengen
Mengen
Definition 12.1.1 (Naive Mengenlehre nach [Cantor 1895]).
Abbildung 12.1: Faksimile der Bestimmung des Mengenbegriffs bei Georg Cantor
Kommentar zur TerminologieEs gibt also Objekte, Mengen und Elemente.
Beispiel 12.1.2 (Mengen aus der Welt der Linguistik).Menge der Stze einer Zeitungausgabe, der Wortformen eines Satzes, der Lexeme eines Satzes,der Buchstaben eines Wortes, der Bedeutungen eines Wortes, . . .
Formale Notationen fr Mengen
Definition 12.1.3 (Aufzhlung einer Menge). Eine Mengenaufzhlung besteht aus Zeichen(-ketten), welche die Objekte einer Menge bezeichnen und zwischen geschweiften Klammern ste-hen. Zwischen den Zeichen werden Kommata geschrieben. Die Reihenfolge der Zeichen ist irre-levant.
125
-
Beispiel 12.1.4 (Menge der Farben der franzsischen Flagge ).
{blau,weiss, rot} oder {weiss, blau, rot} oder {bleu, blanc, rouge} oder {a, b, c}, falls z.B. fest-gelegt ist, dass a fr Rot, b fr Blau und c fr Weiss steht. Welche Konvention legt fest, dassbleu fr die Farbe Blau stehen soll?
Mehrfachschreibung von ZeichenDie Notation {a, a, b, c, c, c} bezeichnet die gleiche Menge wie {a, b, c}.
Unterschiedliche Zeichen fr dasselbe Objekt (Objektgleichheit)Wenn gilt: a = b, dann bezeichnen {a, b} und {a} dieselbe Menge.
Beispiel 12.1.5 (Token).Die MengeM der Token des Satzes Wenn hinter Fliegen Fliegen fliegen, fliegt eine Fliege Fliegennach.M = {Wenn, hinter, Fliegen, fliegen, ,, fliegt, eine, Fliege, nach, .}
Lexem als Menge von TokenLexemFliege = {Fliege, Fliegen}
Lexemverband als Menge von LexemenLexemverbandflieg = {{Fliege,Fliegen}, {fliegt,fliegen,fliegst,. . . }, . . .}
Formale Notationen fr Mengen
Definition 12.1.6 (Charakterisierung (Beschreibung) einer Menge). Eine Mengencharakterisie-rung besteht aus einer Variablen x (oder y, z), einem senkrechten Strich und einem Bedingungs-teil, der angibt, unter welchen Bedingungen irgendein Objekt x Element der damit notiertenMenge ist.
{x | Bedingung(en) ber x}
Gesprochen: Die Menge aller x, fr die gilt: x . . . Die Variable x ist innerhalb der Klammerngebunden.
Beispiel 12.1.7 (Menge der Farben der franzsischen Flagge ).
{ x | x ist eine Farbe der franzsischen Flagge } { x | x ist die Farbe blau oder x ist die Farberot oder x ist die Farbe weiss }
Elementbeziehung
Definition 12.1.8 (Notation der Elementbeziehung). Gehrt ein Objekt x zur Menge A, sonennt man x ein Element der Menge A und schreibt x A.Gehrt y nicht zur Menge A, schreibt man y / A.
A
xy
126
-
Russelsche Paradoxie [Irvine 2003]Ob ein Objekt Element einer Menge ist oder nicht, lsst sich nicht in jedem Fall entscheiden.Sei M die Menge, welche durch { x | x / x } charakterisiert wird. Gilt M M?
1. Falls M / M , so ist M M wegen der Mengencharakterisierung. Dies ergibt einenWiderspruch.
2. Falls M M ist, so ist M / M wegen der Mengencharakterisierung. Dies ergibt einenWiderspruch.
Rekursiv charakterisierte MengenMengen mit beliebig vielen Elementen lassen sich rekursiv (induktiv) beschreiben.
Beispiel 12.1.9 (Natrliche Zahlen N).
Rekursionsbasis: 0 ist eine natrliche Zahl.
Rekursionsschritt: Wenn x eine natrliche Zahl ist, dann ist der Nachfolger (successor)s(x), d.h. x+ 1 ebenfalls eine natrliche Zahl.
Verwendung von rekursiver DefinitionenZeige, dass s(s(s(0))) Element der Menge der natrlichen Zahlen ist.s(s(s(0))) N, falls s(s(0)) N (Rekursionschritt)s(s(0)) N , falls s(0) N (Rekursionschritt)s(0) N, falls 0 N (Rekursionschritt)0 N (Rekursionsbasis)
Logische Verknpfungen und ihre Wahrheitswerte
Disjunktion A oder (auch) B A BKonjunktion A und B A BNegation nicht A AImplikation wenn A, dann B A BBikonditional A genau dann, wenn B A B
Wahrheits- und Falschheitsbedingungen
A B ist falsch, falls A und B falsch sind; sonst wahr
A B ist wahr, falls A und B wahr sind; sonst falsch
A B ist falsch, falls A wahr und B falsch ist; sonst wahr
A B ist wahr, falls A und B beide wahr oder falsch sind; sonst falsch
127
-
Allquantor Fr alle x gilt: . . . xExistenzquantor Es gibt mindestens ein x, fr das gilt: . . . x
Quantoren und Prdikate
Einige Wahrheits- und FalschheitsbedingungenSei m(x) das Prdikat x ist menschlich und s(x) das Prdikat x ist sterblich
x(m(x) s(x)) ist falsch, falls mindestens ein Objekt existiert, das ein Mensch ist, abernicht sterblich; sonst wahr
y(m(y)s(y)) ist wahr, falls mindestens ein Objekt existiert, das ein Mensch und sterblichist; sonst falsch
Mengengleichheit
Definition 12.1.10 (Extensionalittsprinzip). Zwei MengenM und N sind gleic