flaches parsing mit endlichen automaten referat und implementierung jutta jäger 24.06.2002
DESCRIPTION
Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002. Übersicht. Einführung Vorhandene Systeme/Ansätze Implementierung. Partielles oder Flaches Parsing. Anwendungsbereiche z.B. Information Retrieval oder Information Extraction - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/1.jpg)
Flaches Parsing mit endlichen Automaten
Referat und Implementierung
Jutta Jäger
24.06.2002
![Page 2: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/2.jpg)
Übersicht
EinführungEinführung Vorhandene Systeme/AnsätzeVorhandene Systeme/Ansätze ImplementierungImplementierung
![Page 3: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/3.jpg)
Partielles oder Flaches Parsing
Anwendungsbereiche z.B. Information Anwendungsbereiche z.B. Information Retrieval oder Information ExtractionRetrieval oder Information Extraction
Implementierung durch endliche Automaten Implementierung durch endliche Automaten bzw. Reguläre Ausdrücke statt kontextfreier bzw. Reguläre Ausdrücke statt kontextfreier GrammatikenGrammatiken
![Page 4: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/4.jpg)
Eigenschaften
Keine Baumstrukturen, sondern Keine Baumstrukturen, sondern inkrementelles Erkennen von Teilstruktureninkrementelles Erkennen von Teilstrukturen
Keine RekursionKeine Rekursion
![Page 5: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/5.jpg)
Eigenschaften
RobustRobust SchnellSchnell Leichtes Entwerfen und Anpassen des Leichtes Entwerfen und Anpassen des
ParsersParsers Keine 100%ige AbdeckungKeine 100%ige Abdeckung
![Page 6: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/6.jpg)
Reguläre Ausdrücke
SymboleSymbole aa KonkatenationKonkatenation abab VereinigungVereinigung a|ba|b SternbildungSternbildung a*a*
usw.usw.
![Page 7: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/7.jpg)
Weitere Operatoren
Rechter und linker KontextRechter und linker Kontext A => L _ RA => L _ R
Left-to right, longest match mark up Left-to right, longest match mark up A @A @ B ... C B ... C
Perl: andere NotationPerl: andere Notation
![Page 8: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/8.jpg)
Vorgehensweisen
TokenizierungTokenizierung POS-TaggingPOS-Tagging Mehrere einfache Finite State Transducer Mehrere einfache Finite State Transducer
werden aufeinander bezogenwerden aufeinander bezogen Von einfachen Strukturen (NPs oder Von einfachen Strukturen (NPs oder
NounGroups) zu syntaktischen Rollen (z.B. NounGroups) zu syntaktischen Rollen (z.B. Subjekt)Subjekt)
![Page 9: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/9.jpg)
Abney – Finite State Cascades
Phrasen auf einem höheren Level werden Phrasen auf einem höheren Level werden durch Phrasen aus einem niedrigeren Level durch Phrasen aus einem niedrigeren Level zusammengesetztzusammengesetzt
Es werden keine Tags in den Text gesetzt, Es werden keine Tags in den Text gesetzt, sondern die erkannten Sequenzen des Inputs sondern die erkannten Sequenzen des Inputs werden durch ein Label ersetztwerden durch ein Label ersetzt
![Page 10: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/10.jpg)
Philosophie
Easy-first parsingEasy-first parsing Islands of certaintyIslands of certainty Containment of ambiguityContainment of ambiguity
![Page 11: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/11.jpg)
Grefenstette – Finite State Filters
Noun- und Verb-GroupsNoun- und Verb-Groups HeadNouns werden markiertHeadNouns werden markiert Syntaktische Funktionen werden Syntaktische Funktionen werden
herausgefiltertherausgefiltert
![Page 12: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/12.jpg)
Implementierung fürs Deutsche
PerlPerl 2 Ansätze: 2 Ansätze:
Parsre.plParsre.pl Subj_filter.plSubj_filter.pl
![Page 13: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/13.jpg)
Ansatz 1 (Parsre.pl)
Freier, nicht tokenisierter oder getaggter Freier, nicht tokenisierter oder getaggter TextText
NP-DetectorNP-Detector Reguläre Ausdrücke beschreiben einfache Reguläre Ausdrücke beschreiben einfache
NPsNPs Alles, was matcht, wird ausgegeben (Filter)Alles, was matcht, wird ausgegeben (Filter)
![Page 14: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/14.jpg)
Reguläre Ausdrücke
Geschlossene Wortartenklassen aus dem Geschlossene Wortartenklassen aus dem Negra-Korpus => vorkompilierte PatternNegra-Korpus => vorkompilierte Pattern
z.B. z.B. $ART = qr/das|dem|den|der|des|die|einem|einen|einer|eines|eine|ein/;
![Page 15: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/15.jpg)
Regulärer Ausdruck für NP
Vereinfacht:
($ART | $PPOSAT)? ($ADJE (\, | ([\n ] $KON)) ? )*$SUBST
![Page 16: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/16.jpg)
Evaluierung
Ersten 100 Sätze aus Negra-KorpusErsten 100 Sätze aus Negra-Korpus Im Korpus getaggte NPs: Im Korpus getaggte NPs:
349349 Durch den regulären Ausdruck erkannte:Durch den regulären Ausdruck erkannte:
395395
![Page 17: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/17.jpg)
Ansatz 2 – Mark up
Nutzen der POS-TagsNutzen der POS-Tags Regulärer Ausdruck für NPsRegulärer Ausdruck für NPs NP-Tags werden eingefügtNP-Tags werden eingefügt PP-Tags werden eingefügtPP-Tags werden eingefügt
![Page 18: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/18.jpg)
Diskontinuität
Mit Mark-up kann man diskontinuierliche Mit Mark-up kann man diskontinuierliche Konstituenten (z.B. Prädikate) nicht Konstituenten (z.B. Prädikate) nicht erfassen, da Einfügen von Klammern oder erfassen, da Einfügen von Klammern oder Tags unmöglichTags unmöglich
Im Deutschen sind viele Prädikate Im Deutschen sind viele Prädikate diskontinuierlich, z.B. diskontinuierlich, z.B. Passivkonstruktionen, Perfekt, VerbzusatzPassivkonstruktionen, Perfekt, Verbzusatz
Lösung: Filter (?)Lösung: Filter (?)
![Page 19: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/19.jpg)
Ansatz 2 – Filter (Subj_filter.pl)
Erste NP vor einem finiten VerbErste NP vor einem finiten Verb=> Subjekt=> Subjekt
ABER: Im Deutschen sind verschiedene ABER: Im Deutschen sind verschiedene Satzbaupläne möglich, z.B.Satzbaupläne möglich, z.B.
Adverb – finites Verb – NP (=SUBJ)Adverb – finites Verb – NP (=SUBJ)
Kongruenzprüfung nötigKongruenzprüfung nötig
![Page 20: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/20.jpg)
Regulärer Ausdruck für Subjekt und PrädikatNP (=SUBJ) (NP|PP|ADV)* VVFIN (=PRÄD)NP (=SUBJ) (NP|PP|ADV)* VVFIN (=PRÄD)
ODERODER
NP (=SUBJ) (NP|PP|ADV)* VAFIN (=PRÄD) (NP|NP (=SUBJ) (NP|PP|ADV)* VAFIN (=PRÄD) (NP|PP|ADV)* (ADJD|VVPP) (=PRÄD)PP|ADV)* (ADJD|VVPP) (=PRÄD)
unvollständig, da Testcharakterunvollständig, da Testcharakter
![Page 21: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/21.jpg)
Diskontinuität II
Perl bietet Möglichkeit, Teile einer RegEx Perl bietet Möglichkeit, Teile einer RegEx zu speichernzu speichern
Keine Möglichkeit, komplexe Keine Möglichkeit, komplexe Teilausdrücke zu negieren, etwa [^(ADJD|Teilausdrücke zu negieren, etwa [^(ADJD|VVPP) ], um auf diese Art Konstituenten zu VVPP) ], um auf diese Art Konstituenten zu „überspringen“, also: positive und fast „überspringen“, also: positive und fast zwangsläufig unvollständige Aufzählungzwangsläufig unvollständige Aufzählung
![Page 22: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/22.jpg)
Evaluierung
NP/PP-ErkennungNP/PP-Erkennung im Negra-Korpus getaggte im Negra-Korpus getaggte
NPs und PPs 349NPs und PPs 349davon PPs 144davon PPs 144
durch die Transducer getaggte durch die Transducer getaggte NPs 321NPs 321davon PPs 120davon PPs 120
![Page 23: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/23.jpg)
Resümee Verschachtelte Strukturen sind durch einen Verschachtelte Strukturen sind durch einen
Regulären Ausdruck nicht zu beschreibenRegulären Ausdruck nicht zu beschreibenz.B. eine PP z.B. eine PP innerhalbinnerhalb einer NP einer NP[NP die [PP vom Baum ] gefallene Katze][NP die [PP vom Baum ] gefallene Katze]
diskontinuierliche Konstituenten sind diskontinuierliche Konstituenten sind problematisch, Verben bzw. Prädikate sind problematisch, Verben bzw. Prädikate sind im Deutschen sehr häufig diskontinuierlichim Deutschen sehr häufig diskontinuierlich
Für das Herausfiltern von „Chunks“ sehr Für das Herausfiltern von „Chunks“ sehr geeignet, aber kein komplettes Parsengeeignet, aber kein komplettes Parsen
![Page 24: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002](https://reader035.vdocuments.site/reader035/viewer/2022081520/568150af550346895dbec84b/html5/thumbnails/24.jpg)
Links & Literatur
Steven Abney, Partial Parsing via Finite State CascadesSteven Abney, Partial Parsing via Finite State Cascadeshttp://http://citeseerciteseer..njnj..necnec..comcom/abney96partial./abney96partial.htmlhtml
Gregory Grefenstette, Light Parsing as Finite State Gregory Grefenstette, Light Parsing as Finite State FilteringFilteringhttp://http://citeseerciteseer..njnj..necnec..comcom/grefenstette96light./grefenstette96light.html html
Negra-KorpusNegra-Korpushttp://http://wwwwww..colicoli.uni-sb.de/sfb378/.uni-sb.de/sfb378/negranegra--corpuscorpus//
Xerox-Seite Xerox-Seite http://www.xrce.xerox.com/competencies/content-http://www.xrce.xerox.com/competencies/content-analysis/fsCompiler/home.en.htmlanalysis/fsCompiler/home.en.html