vortrag zur definitionsextraktion mit evolutionären algorithmen

34
Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen von Christian Wellner

Upload: eagan

Post on 17-Jan-2016

28 views

Category:

Documents


3 download

DESCRIPTION

Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen. von Christian Wellner. Referenz: Claudia Borg, Mike Rosner, Gordon Pace (2009): Evolutionary Algorithms for Definition Extraction In: Workshop on Definition Extraction 2009 , Borrovets, Bulgaria, pp. 26-32. Überblick. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Vortrag zur Definitionsextraktion mit Evolutionären Algorithmen

von Christian Wellner

Page 2: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Referenz:

Claudia Borg, Mike Rosner, Gordon Pace (2009): Evolutionary Algorithms for Definition Extraction

In: Workshop on Definition Extraction 2009, Borrovets, Bulgaria, pp. 26-32.

Page 3: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Überblick

Definitionsextraktion Schritt 1: Merkmalsfindung Schritt 2: Merkmalsgewichtung Kombination der Schritte Fazit

Page 4: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Definitionsextraktion

Als „Definitionsextraktion“ wird das Auslesen von Definitionen aus einem Text bezeichnet Dieser Satz war bereits eine solche Definition

Die gesammelten Definitionen werden in einem Glossar zusammengefasst

Teilaufgabe des Information Retrieval Sehr (zeit-)aufwendig „per Hand“ durchzuführen

Page 5: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Definitionsextraktion

Bisheriger Ansatz: Erkennung von einfachen Mustern, durch Menschen erstellt [X] ist ein [Y] [Y] wird als [X] bezeichnet …

Halbwegs akzeptable Performanz bei gut strukturierten Texten vor allem Lehrbücher

Page 6: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Definitionsextraktion

Wird umso komplizierter, je freier die linguistische Form des Textes Mehr Muster werden benötigt, um hohe Abdeckung

zu erreichen Jedes zusätzliche Muster kann die Präzision

verringern Muster sind sehr unflexibel (keine Gewichtung)

Für die meisten Textsorten liefert reine Mustererkennung schlechte Ergebnisse

Page 7: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Definitionsextraktion

Neuer Ansatz: Evolutionäre AlgorithmenZwei dieser Verfahren werden benutzt

Die Genetische Programmierung zum Finden geeigneter Merkmale

Der Genetische Algorithmus zur Gewichtung der Merkmale

Page 8: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Genetischer Algorithmus

Basiert auf evolutionären Prinzipien

Verwendet einfache Arrays als Individuen

Schnellstes evolutionäres Verfahren

Allerdings sehr beschränkter Suchraum

Page 9: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Genetische Programmierung

Basiert auf evolutionären Prinzipien

Verwendet Bäume (Programme) als Individuen

Extrem umfangreicher Suchraum

Allerdings entsprechend langsamer

Page 10: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Das System

Durch Menschen vorgenommene Schritte sind optional und dienen der Kontrolle und Optimierung

Ein annotiertes Trainingsset wird vorausgesetzt

Das eigentliche System arbeitet völlig automatisch

Page 11: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsfindung mit GP

IndividuenReguläre AusdrückeBasiselemente: Part-of-Speech-TagsGeben, angewandt auf einen Satz, einen

Wahrheitswert zurück (Matching)z.B. DET ? . Adj* . N . Vfin

Eine Pflanze wächst. -> true

Page 12: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsfindung mit GP

Verwendete Struktur:

Page 13: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsfindung mit GP

Operatoren: sfeature ? = Optionalität sfeature * = Kleene-Hülle sfeature . sfeature = Verkettung sfeature + sfeature = Alternative

sfeature & feature = Konjunktion

Page 14: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsfindung mit GP

FitnessfunktionWie gut matcht das Individuum die Sätze aus

dem Trainingsset?F-Score wird berechnetTendiert dazu, nur Regeln auszuwählen, die

mehrere Sätze abdecken

Page 15: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsfindung mit GP

Experimente200 – 1000 IndividuenVariation der linguistischen Objekte (lobj)

Spezieller: mit einzelnen Vokabeln (‚to define‘ etc.) Genereller: Zusammenfassung ähnlicher POS-

Tags (z.B. aller Nomen)

Page 16: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsfindung mit GP

ExperimenteErgebnis, aufgeteilt in 3 Kategorien:

Speziellere linguistische Objekte brachten in der Regel bessere Ergebnisse

Page 17: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsfindung mit GP

Zwischenergebnis:Merkmalsfindung mit GP erzielt allein für sich

auch keine wirklich überzeugenden Ergebnisse

Aber immerhin AutomatisierungUnd geringere Chance, dass ein gutes Muster

übersehen wird

Page 18: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsgewichtung mit GA

Individuen Merkmalsvektoren Jedem Merkmal wird ein

Gewicht zugeordnet „Compound Feature“:

Addition aller Werte eines Individuums

Feature Gewicht

f1 1

f2 3

f3 -1

f4 7

f5 -4

f6 0

… …

Compound Feature = 6

Page 19: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsgewichtung mit GA

FitnessfunktionDas Individuum wird auf jede Trainingsinstanz

angewendetDas Compound Feature für die wahren

Features einer Instanz wird berechnetWird ein bestimmter Wert T überschritten,

wird das Individuum als Definition getaggtF-Score wird berechnet

Page 20: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsgewichtung mit GA

Der Wert T („treshold“)Option 1: Fixer Wert (z.B. 0)Option 2: Teil des Chromosoms

Sehr unpraktisch, da nur Single-Point-Crossover verwendet wird

Option 3: Berechnung eines Optimalwerts für jedes Individuum

Option 3 erwies sich als erfolgreicher

Page 21: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsgewichtung mit GA

Experimente Mit 10 einfachen Features

Contains a form of „to be“ Has sequence „is a“ Has sequence „[Foreign Word] is“ Has possessive pronoun Has punctuation in the middle of the sentence Has a marked term (keyword) Has rendering (italic, bold) Has a chunk marked as organization Has a chunk marked as person Has a chunk marked as location

Page 22: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsgewichtung mit GA

Experimente3 verschiedene Experimente (1, 2, 3)das erste mit variierten Parametern, um

Recall bzw. Precision zu favorisieren (1a, 1b)Parameter wurden nicht genau spezifiziert,

vermutlich die Mutations-, Selektions- und Crossover-Algorithmen

Page 23: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsgewichtung mit GA

ExperimenteErgebnis:

Page 24: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsgewichtung mit GA

Vergleich mit Standard-VerfahrenManuell erstellte Regeln ohne GewichtungSteigerung der Precision von 17% auf 62%Kein Vergleichswert für Recall angegeben

In verwandten Experimenten ist ~30% Precision und ~70% Recall üblich (~42% F Measure)

Es sind jedoch auch höhere Werte möglich

Page 25: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Merkmalsgewichtung mit GA

Zwischenergebnis:Gewichtung der Merkmale verbessert die

Performance spürbarAuch mit nur 10 handgeschriebenen Regeln

schon ein überdurchschnittliches ErgebnisÜberlegene Systeme müssen sehr viel

aufwendiger erstellt werden

Page 26: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Kombination der Schritte

Nochmal das System:

Experiment: 10 der Is-A-Merkmale aus der GP werden mit dem GA gewichtet

Page 27: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Kombination der Schritte

Ergebnis:F-Score steigt von 28% auf 68% !

Recall steigt dabei von 39% auf 51%Precision steigt dabei von 22% auf 100% !

Page 28: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Fazit

Precision von 100%?Klingt ziemlich gutKönnte aber darauf verweisen, dass das

System nur auswendig lernt Und somit nicht auf andere Daten anwendbar ist

Auf jeden Fall unsauberes Design: Trainingsdaten werden mehrmals verwendet

Page 29: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Fazit

Precision von 100%?Könnte aber auch daran liegen, dass nur Is-A-

Merkmale verwendet wurden „Leichteste“ Kategorie

Muss noch durch weitere Experimente genauer untersucht werden

Page 30: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Fazit

Dagegen Recall von 51%Andersherum wäre wünschenswerter

Precision kann leicht „nachträglich“ erhöht werden, indem ein Mensch die Ergebnisse durchsieht

Das geht für den Recall nicht Mögliche Verbesserungen:

„Liberalere“ Merkmalsfindung Verwendung von mehr als 10 Merkmalen und von zusätzlichen, menschgemachten

Page 31: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Fazit

„überwachtes“ SystemLinguistische Objekte werden manuell

gewählt zusätzliche Merkmale werden vorgegebenErgebnis wird manuell überprüft

Trade-off von Precision und Recall

Page 32: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Fazit

Nicht angesprochen: Rechenzeit In der Trainingsphase vermutlich sehr hoch! In der Testphase vermutlich nur unwesentlich

höher als bei der MustererkennungAlso ein „Eager Learner“Für die Aufgabe eine angemessene

Zeitverteilung Lernphase muss nur einmal durchlaufen werden

Page 33: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Fazit

Menschlicher AufwandSehr stark steuerbar Im Extremfall nicht viel kleiner als bisherDabei allerdings bessere Ergebnisse, vor

allem durch MerkmalsgewichtungUnd höhere Objektivität

Insgesamt ein nützlicher, wenn auch nicht unbedingt bahnbrechender, Ansatz

Page 34: Vortrag zur Definitionsextraktion  mit Evolutionären Algorithmen

Vielen Dank für die Aufmerksamkeit!