pg 520 intelligence service gezielte suche im internet lehrstuhl für künstliche intelligenz...
TRANSCRIPT
![Page 1: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/1.jpg)
PG 520Intelligence Service
Gezielte Suche im Internet
Lehrstuhl für künstliche Intelligenz
Forschung Praxis
![Page 2: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/2.jpg)
Informationen im Internet
• Suchmaschinen:– Es werden nur Dokumente geliefert, die den
Suchbegriff enthalten. – Die Seiten sind von sehr unterschiedlicher
Qualität. – Vorwissen über zuverlässige Seiten und ihre
Struktur wird nicht ausgenutzt.
![Page 3: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/3.jpg)
Intelligence Service
• Zusammenhänge zwischen Dokumenten:– Firmen wollen ihre Konkurrenz beobachten.– Anleger wollen eine Entwicklung verfolgen.– Bürger wollen wissen, wie es zu einer
Entscheidung in der Politik kam.
• Direkte Fragebeantwortung:– Innerhalb des Dokuments muss die betreffende
Textstelle gefunden werden! Forschungsthema Named Entity Recognition!
![Page 4: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/4.jpg)
![Page 5: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/5.jpg)
![Page 6: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/6.jpg)
16.Wahlperiode, Drucksache, Antrag
Typ
Drs-Nr.
Fraktion
![Page 7: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/7.jpg)
16.Wahlperiode, Drucksache, Antrag
Typ
Person
Drs-Nr.
![Page 8: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/8.jpg)
16.Wahlperiode, 57. Sitzung, 19.10.2006, TOP 5
16/267
16/2790
![Page 9: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/9.jpg)
Direkte Fragebeantwortung
• Der Antrag der FDP zur Entsorgung radioaktiven Abfalls wurde abgelehnt.
• Der Antrag der Grünen zur ergebnisoffenen Standortwahl für Endlagerung radioaktiven Mülls wurde an Ausschüsse verwiesen.
Für diese Antworten braucht man manuell 7 Stunden
![Page 10: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/10.jpg)
PG-Arbeit
• Gezielte Recherche gemäß der Struktur bestimmter Webserver (Suchanfragen)
• Indexierung gemäß bestimmter Entitäten:Themen, Personen, Orte, Firmen...
• Named Entity Recognition:– Einige Dokumente nach Entitäten annotieren,
– maschinell Annotationsregeln lernen– Annotationsregeln anwenden
• Informationen zu den Entitäten zusammenstellen
![Page 11: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/11.jpg)
Named Entity Recognition
• Ursprung Message Understanding Contest– Fragebeantwortung– Dann: Markierung der Entitäten
• Traditionelle NE: Personen, Orte, Firmen
• Intelligence Service: Personen, Orte, Firmen, Datum, DrucksachenNr., Fraktionen, etc.
Tom arbeitet bei Mercedes Benz
PER O O ORG ORG
![Page 12: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/12.jpg)
Probleme
• Alle möglichen NEs in Listen zu sammeln ist keine perfekte Lösung bzw. nicht immer möglich
• Beide Arten der Evidenz beachten:– interne – Merkmale des Wortes an sich– externe – Merkmale des das Wort
umgebenden Kontextes
• Tom arbeitet bei Mercedes Benz
• intern/ extern
![Page 13: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/13.jpg)
• Intern:– Das Wort enthält Sonderzeichen (reg. Ex.)– Das Wort ist ‘Hans’– Das Wort enthält das 3-gram ‘ans’
• Extern:– Vor dem Wort steht das Wort ‘Herr’– Das Wort steht am Satzanfang– Das Wort vor dem Wort hat die Markierung
PERSON
Beispiele für interne/externe Evidenz
![Page 14: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/14.jpg)
NER-Verfahren
• Regelbasierte Verfahren– kontextfreie Grammatiken– endliche Automaten
• Verfahren des ML– Transformationsbasiertes Regellernen– SVM– Graphenbasiert: HMM -> MEMM -> CRF
![Page 15: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/15.jpg)
• Bilden bestseparierende Hyperebene
• Lösen somit binäres Klassifikations-problem
• Können viele und hochdimensionale Daten verarbeiten
• Sind robust gegenüber overfitting
• Für NER ist aufgrund mehrerer NEs ein Verbund aus SVMs nötig
Support Vector Machines
![Page 16: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/16.jpg)
• Hidden Markov Model (HMM)– Generatives (gerichtetes) Modell
Hidden Markov Models
Y1 Y2 Y3 Labelsequenz Y
X1 X2 X3 Beobachtungs-sequenz X
T
iiiii yxpyypyxp
11 )|()|(),(
)(
),(maxargˆ
xp
yxpy y
![Page 17: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/17.jpg)
• Maximum Entropy Markov Model (MEMM)– Bedingtes (gerichtetes) Modell
– Label hängt vom Vorgänger und Beobachtung ab
Maximum Entropy Markov Models
Y1 Y2 Y3Y0
X1 X2 X3
Labelsequenz Y
Beobachtungs-sequenz X
![Page 18: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/18.jpg)
• Conditional Random Fields (CRF)– Bedingtes ungerichtetes Modell
– Labelsequenz hängt von Beobachtungs-sequenz ab
– Beste Labelsequenz erfüllt die meisten features für Beobachtungssequenz
Conditional Random Fields
Labelsequenz Y
Beobachtungs-sequenz X
Y1 Y2 Y3
X
![Page 19: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/19.jpg)
• YALE als grundlegende Lernumgebung
• Fast alle Lernverfahren vorhanden– u.a. auch SVM
• Problem: NER-Umgebung noch in der Entwicklung begriffen!– Ausgereift: statistische Textanalyse– Statistische Textanalyse beachtet nicht den
sequentiellen Charakter des Textes– CRF-Plugin liefert erste Grundlagen für NER
Anwendung von NER-Verfahren
![Page 20: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/20.jpg)
• Statistische Verfahren analysieren Wortvorkommen sowie ihre Anzahl
• Text wird in ‘bag of words’ zerlegt– or; is; has; …; politician; …; nuclear; …– Dient zur Klassifikation von Texten
• NER benötigt Texte in ursprünglicher Form– mit zusätzlichen Informationen– Preprocessing liefert diese Informationen
Statistische Textanalyse vs. NER
![Page 21: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/21.jpg)
• CRF-Plugin bietet Preprocessing mit unterschiedlichen Merkmalen– Präfix, Suffix, NGramme, Reguläre Ausdrücke, …
• Außerdem:– CRF-Model-Learner– CRF-Model-Applier
• Ziel:– modulare, allgemeinnutzbare Preprocessing-
Operatoren– Möglichkeit zur Einbindung vieler Lernverfahren– Einsatz von evolutionären Algorithmen zum Lernen
des besten Experiment-Setups für versch. NER-tasks
Aktuell in YALE vorhanden
![Page 22: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/22.jpg)
Rahmenterminplan 1. Semester
• 1. Seminarphase 08. – 12.10.2007• Lernverfahren
– SVM– MEMM– HMM– CRF
• Methoden der Personalisierung von Suchmaschinen• Basistechniken des WWW
– Indexierung– XML (RSS)
• Werkzeuge der PG– Yale– Google API– CVS– Crawling
![Page 23: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/23.jpg)
Rahmenterminplan 1. Semester
• Aufgaben des ersten Semesters– Wahl eines Anwendungsszenarios, Festlegen
der Fragen und der NE– Erstellung eines Anfrageplans– Erstellen der Trainingsdatensätze– Experimente mit vorhandenen NER-Verfahren– Ansätze zur Verbesserung der NER
• 2. Seminarphase 04. – 08.02.2008– Zusammentragen der Ergebnisse
![Page 24: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/24.jpg)
Rahmenterminplan 2. Semester
• 3. Seminarphase Anfang April 2008• automatische Thesaurus-Erstellung• automatische Fragebeantwortung• Text-Clustering• Webseiten-Ranking• First-Story Detection• Topic Tracking
• u. U. noch andere Themen möglich!
![Page 25: PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis](https://reader035.vdocuments.site/reader035/viewer/2022062404/55204d6149795902118b4e6b/html5/thumbnails/25.jpg)
Rahmenterminplan 2. Semester
• Aufgaben des zweiten Semesters– Sammeln der Daten (Anfrageplan beachten)– Konkrete Ausnutzung der NER aus erstem
Semester– Verbesserung der NER (?)
• Ende des zweiten Semesters:– PG Abschlussbericht und -präsentation