vortrag zur definitionsextraktion mit evolutionären algorithmen

Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen

von Christian Wellner

Referenz:

Claudia Borg, Mike Rosner, Gordon Pace (2009): Evolutionary Algorithms for Definition Extraction

In: Workshop on Definition Extraction 2009, Borrovets, Bulgaria, pp. 26-32.

Überblick

Definitionsextraktion Schritt 1: Merkmalsfindung Schritt 2: Merkmalsgewichtung Kombination der Schritte Fazit

Definitionsextraktion

Als „Definitionsextraktion“ wird das Auslesen von Definitionen aus einem Text bezeichnet Dieser Satz war bereits eine solche Definition

Die gesammelten Definitionen werden in einem Glossar zusammengefasst

Teilaufgabe des Information Retrieval Sehr (zeit-)aufwendig „per Hand“ durchzuführen


Bisheriger Ansatz: Erkennung von einfachen Mustern, durch Menschen erstellt [X] ist ein [Y] [Y] wird als [X] bezeichnet …

Halbwegs akzeptable Performanz bei gut strukturierten Texten vor allem Lehrbücher


Wird umso komplizierter, je freier die linguistische Form des Textes Mehr Muster werden benötigt, um hohe Abdeckung

zu erreichen Jedes zusätzliche Muster kann die Präzision

verringern Muster sind sehr unflexibel (keine Gewichtung)

Für die meisten Textsorten liefert reine Mustererkennung schlechte Ergebnisse


Neuer Ansatz: Evolutionäre AlgorithmenZwei dieser Verfahren werden benutzt

Die Genetische Programmierung zum Finden geeigneter Merkmale

Der Genetische Algorithmus zur Gewichtung der Merkmale

Genetischer Algorithmus

Basiert auf evolutionären Prinzipien

Verwendet einfache Arrays als Individuen

Schnellstes evolutionäres Verfahren

Allerdings sehr beschränkter Suchraum

Genetische Programmierung

Basiert auf evolutionären Prinzipien

Verwendet Bäume (Programme) als Individuen

Extrem umfangreicher Suchraum

Allerdings entsprechend langsamer

Das System

Durch Menschen vorgenommene Schritte sind optional und dienen der Kontrolle und Optimierung

Ein annotiertes Trainingsset wird vorausgesetzt

Das eigentliche System arbeitet völlig automatisch

Merkmalsfindung mit GP

IndividuenReguläre AusdrückeBasiselemente: Part-of-Speech-TagsGeben, angewandt auf einen Satz, einen

Wahrheitswert zurück (Matching)z.B. DET ? . Adj* . N . Vfin

Eine Pflanze wächst. -> true


Verwendete Struktur:


Operatoren: sfeature ? = Optionalität sfeature * = Kleene-Hülle sfeature . sfeature = Verkettung sfeature + sfeature = Alternative

sfeature & feature = Konjunktion


FitnessfunktionWie gut matcht das Individuum die Sätze aus

dem Trainingsset?F-Score wird berechnetTendiert dazu, nur Regeln auszuwählen, die

mehrere Sätze abdecken


Experimente200 – 1000 IndividuenVariation der linguistischen Objekte (lobj)

Spezieller: mit einzelnen Vokabeln (‚to define‘ etc.) Genereller: Zusammenfassung ähnlicher POS-

Tags (z.B. aller Nomen)


ExperimenteErgebnis, aufgeteilt in 3 Kategorien:

Speziellere linguistische Objekte brachten in der Regel bessere Ergebnisse


Zwischenergebnis:Merkmalsfindung mit GP erzielt allein für sich

auch keine wirklich überzeugenden Ergebnisse

Aber immerhin AutomatisierungUnd geringere Chance, dass ein gutes Muster

übersehen wird

Merkmalsgewichtung mit GA

Individuen Merkmalsvektoren Jedem Merkmal wird ein

Gewicht zugeordnet „Compound Feature“:

Addition aller Werte eines Individuums

Feature Gewicht

f1 1

f2 3

f3 -1

f4 7

f5 -4

f6 0

… …

Compound Feature = 6


FitnessfunktionDas Individuum wird auf jede Trainingsinstanz

angewendetDas Compound Feature für die wahren

Features einer Instanz wird berechnetWird ein bestimmter Wert T überschritten,

wird das Individuum als Definition getaggtF-Score wird berechnet


Der Wert T („treshold“)Option 1: Fixer Wert (z.B. 0)Option 2: Teil des Chromosoms

Sehr unpraktisch, da nur Single-Point-Crossover verwendet wird

Option 3: Berechnung eines Optimalwerts für jedes Individuum

Option 3 erwies sich als erfolgreicher


Experimente Mit 10 einfachen Features

Contains a form of „to be“ Has sequence „is a“ Has sequence „[Foreign Word] is“ Has possessive pronoun Has punctuation in the middle of the sentence Has a marked term (keyword) Has rendering (italic, bold) Has a chunk marked as organization Has a chunk marked as person Has a chunk marked as location


Experimente3 verschiedene Experimente (1, 2, 3)das erste mit variierten Parametern, um

Recall bzw. Precision zu favorisieren (1a, 1b)Parameter wurden nicht genau spezifiziert,

vermutlich die Mutations-, Selektions- und Crossover-Algorithmen


ExperimenteErgebnis:


Vergleich mit Standard-VerfahrenManuell erstellte Regeln ohne GewichtungSteigerung der Precision von 17% auf 62%Kein Vergleichswert für Recall angegeben

In verwandten Experimenten ist ~30% Precision und ~70% Recall üblich (~42% F Measure)

Es sind jedoch auch höhere Werte möglich


Zwischenergebnis:Gewichtung der Merkmale verbessert die

Performance spürbarAuch mit nur 10 handgeschriebenen Regeln

schon ein überdurchschnittliches ErgebnisÜberlegene Systeme müssen sehr viel

aufwendiger erstellt werden

Kombination der Schritte

Nochmal das System:

Experiment: 10 der Is-A-Merkmale aus der GP werden mit dem GA gewichtet

Kombination der Schritte

Ergebnis:F-Score steigt von 28% auf 68% !

Recall steigt dabei von 39% auf 51%Precision steigt dabei von 22% auf 100% !

Fazit

Precision von 100%?Klingt ziemlich gutKönnte aber darauf verweisen, dass das

System nur auswendig lernt Und somit nicht auf andere Daten anwendbar ist

Auf jeden Fall unsauberes Design: Trainingsdaten werden mehrmals verwendet

Fazit

Precision von 100%?Könnte aber auch daran liegen, dass nur Is-A-

Merkmale verwendet wurden „Leichteste“ Kategorie

Muss noch durch weitere Experimente genauer untersucht werden

Fazit

Dagegen Recall von 51%Andersherum wäre wünschenswerter

Precision kann leicht „nachträglich“ erhöht werden, indem ein Mensch die Ergebnisse durchsieht

Das geht für den Recall nicht Mögliche Verbesserungen:

„Liberalere“ Merkmalsfindung Verwendung von mehr als 10 Merkmalen und von zusätzlichen, menschgemachten

Fazit

„überwachtes“ SystemLinguistische Objekte werden manuell

gewählt zusätzliche Merkmale werden vorgegebenErgebnis wird manuell überprüft

Trade-off von Precision und Recall

Fazit

Nicht angesprochen: Rechenzeit In der Trainingsphase vermutlich sehr hoch! In der Testphase vermutlich nur unwesentlich

höher als bei der MustererkennungAlso ein „Eager Learner“Für die Aufgabe eine angemessene

Zeitverteilung Lernphase muss nur einmal durchlaufen werden

Fazit

Menschlicher AufwandSehr stark steuerbar Im Extremfall nicht viel kleiner als bisherDabei allerdings bessere Ergebnisse, vor

allem durch MerkmalsgewichtungUnd höhere Objektivität

Insgesamt ein nützlicher, wenn auch nicht unbedingt bahnbrechender, Ansatz

Vielen Dank für die Aufmerksamkeit!

vortrag zur definitionsextraktion mit evolutionären algorithmen

Documents