kann man automatisch klassifizieren? probleme und ansätze automatischer klassifikation
DESCRIPTION
Kann man automatisch klassifizieren? Probleme und Ansätze automatischer Klassifikation. DMV Jahrestagung 2006 Minisymposium Information, Kommunikation und Bibliotheken für die Mathematik 19.9.2006. Agenda. Einführende Bemerkungen Automatische Klassifizierung Erste Experimente - PowerPoint PPT PresentationTRANSCRIPT
Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) Wolfram Sperber
Kann man automatisch klassifizieren? Probleme und
Ansätze automatischer Klassifikation
DMV Jahrestagung 2006
Minisymposium Information, Kommunikation und Bibliotheken für die Mathematik
19.9.2006
Wolfram Sperber
2
Agenda
Einführende Bemerkungen
Automatische Klassifizierung
Erste Experimente
State of the art / Nächste Schritte
Wolfram Sperber
3
Agenda
Einführende Bemerkungen
Automatische Klassifizierung
Erste Experimente
State of the art / Nächste Schritte
Wolfram Sperber
4
Einführende Bemerkungen (I)
Klassifikation ist ein „klassisches“ Problem, mit dem sich schon Aristoteles beschäftigte.
Klassifikation ist ein wichtiges Problem: Viele Probleme lassen sich als Klassifikationsprobleme formulieren.
Klassifikationsschemata sind typischerweise hierarchisch organisiert.
Wolfram Sperber
5
Einführende Bemerkungen (II)
Die Objekte einer Klasse haben dieselben Eigenschaften.
Klassifikationschemata stellen Relationen zwischen Konzepten (Klassen) eines Gebietes dar.
Klassifikationsschemata sind nützliche Hilfsmittel zum Verstehen: Eigenschaften von Klassen werden top-down vererbt.
Wolfram Sperber
6
Klassifikation – ein schwieriges Problem (I)
Klassifikationsschemata sind subjektiv: nicht ein universelles Klassifikationsschema Schemata unterscheiden sich in Gebiet,
Zielsetzung und Granularität
Klassifikationssysteme sind abhängig von ihrer Zeit (dynamisch) : müssen an die Entwicklung des Gebietes
angepasst werden
Klassifikationssysteme sind unvollständig Kein Klassifikationsschema kann eine
komplette Beschreibung aller Eigenschaften der Objekte einer Klasse bieten.
Wolfram Sperber
7
Klassifikation – ein schwierigesProblem (II)
Klassifikationen sind nicht eindeutig: jede Klasse hat Repräsentanten, die typisch
für die Klasse sind („Kernbereich“ der Klasse), andere Objekte sind atypisch für die Klasse
oder gehören zu verschiedenen Klassen („Randzonen“ einer Klasse)
Wolfram Sperber
8
Klassifikation – ein schwieriges Problem (III)
Bis heute wird die Klassifizierung durch Menschen vorgenommen, die
über verschiedenes Wissen verfügen(das betrifft auch das Wissen über die Struktur und den Umgang mit den Klassifikationschemata)
unterschiedliche Erfahrungen haben unterschiedliche Ziele und Interessen
verfolgen
Wolfram Sperber
9
Klassifikation in der Mathematik Der erste systematische Versuch:
Das Jahrbuch über die Fortschritte der Mathematik (1868)
MSC MSC – Überblick MSC – die Klassen
neue Player definieren ihre eigene Systematik Wikipedia – die Eingangsseite Wikipedia – die Kategorien
Verschiedene Klassifikationsschemata: die MSC ist die wichtigste für die Klassifikation mathematischer Forschungsartikel und Bücher.
Wolfram Sperber
10 Mathematische Klassikationschemata Klassifikation erfolgt durch
Autoren (z.B. ArXiv server) Experten (Math Reviews, Zentralblatt)
Qualität der Klassifikation Es ist keine systematische Evaluation der Klassifikationen mathematischer Publikationen bekannt, aber zumindest auf der Top Level Ebene scheinen die Klassifikationen korrekt zu sein. Aber Experten klassifizieren unterschiedlich Was ist mit der Klassifikation auf dem zweiten und
dritten Level Was ist mit der Vollständigkeit (alle relevanten MSC
Klassen)?
Wolfram Sperber
11 Kann eine mathematische Publikation korrekt klassifiziert werden?
Prinzipiell ja
Wie?
Die Idee: Automatische Klassifizierung in Kombination mit Experten Klassifizierung.
Wolfram Sperber
12
Agenda
Einführende Bemerkungen
Automatische Klassifizierung
Erste Experimente
State of the art / Nächste Schritte
Wolfram Sperber
13
Automatische Klassifikation
Klassifikation und Mathematik: Was kann die Mathematik tun, um das Problem der Klassifikation zu lösen?
Wolfram Sperber
14
Automatische Klassifikation mathematischer Texte
Verschiedene Aspekte Analysis der mathematischen Formeln Kontext Analyse
Der Kontext eines Dokuments ist gegeben durch z.B. die Profile der Autoren, der Journale, die Referenzen einer Publikation)
Text Kategorisierung (Text Analysis) Ein Dokument wird anhand der Wörter und Phrasen, die in dem Dokument auftreten, klassifiziert
Wolfram Sperber
15
Eine Definition des Begriffs Text Kategorisierung
Definition (Sebastiani): Text Kategorisierung (Klassifikation) ist die Aufgabe, jedem Paar (dj,ci) D ×C einen Booleschen Wert zuzuordnen, wobei D eine Menge von Dokumenten und C = [c1, …,c|C|] eine Menge gegebener Kategorien ist.Der Wert T für das Paar (dj,ci) heißt, dass das Dokument dj zu ci zuzuordnen ist, während der Wert F bedeutet, das das Dokument dj nicht zu ci gehört.
Wolfram Sperber
16
Text Kategorisierung: das Prinzip (I)
Textkategorisierung ist eine Methode des Machine Learning Ausgangspunkt: eine Menge schon klassifizierter Dokumente, um das Klassifikationsverfahren zu trainieren
Wolfram Sperber
17
Drei Schritte: Bearbeiten der Dokumente / Erstellen der
WortlistenIndexieren der Dokumente: Extraction der Terme, Elimination der Stopwörter, Stemming, ...
Klassifikationsverfahrendas auf der Analyse (dem Vergleich) des Vokabulars der Dokumente untereinander oder des Vokabulars der Dokumente mit dem der Klassen besteht
Evaluation der Ergebnisse Vergleich der Resultate der automatischen Klassifikationsverfahren mit denen menschlichen Experten mittels statistischer Verfahren
Wolfram Sperber
18
Bemerkungen Natürlich verliert man Informationen, wenn
man ein Dokument durch die in dem Dokument auftretenden Wörter ersetzt (subjekt-spezifisch).
Die Qualität der Klassifikation verschlechtert sich, je mehr die Klassifikation verfeinert wird,das Vokabular überlappt sich stärkerZahlentheorie versus DifferentialgleichungenoderGewöhnliche versus Partielle Differentialgleichungen
Konsequenzen: Hierarchische Klassifizierung?
Wolfram Sperber
19
Bearbeiten der Dokumente Erstellen der Wortlisten:
Term Vektoren: typischerweise sind hier Terme Einzelwörter oder Wortkombinationen aus zwei oder drei Wörtern (Wortstämmen)
Probleme: Dimension = Wort
Vektoren sind hoch dimensional (> 100.000) eine Vielzahl von Wörtern ist überflüssig (trägt
nichts zur Klassifikation bei) Wichtung der Terme
Einfachwörter versus Doppel und Tripelwörtern (die Berücksichtigung von Wortkombinationen erhöht die Dimension)
Wolfram Sperber
20
Dimensionsreduzierung (I) Stopwortlisten
Stopwörter sind von verschiedener Art, z.B., generelle Stopwörter wie Artikel, Prädikate,
Verben, … korpus-spezifische Stopwordlisten (z.B.,
„Springer Verlag“ bei Journalartikeln) subject und level-spezifische Stopwortlisten
(z.B., Mathematik in einer Menge mathematischer Documente)
Problem: Automatisierung Stemming
Problem: führt z.T. zu falschen Zusammenfassungen
Wolfram Sperber
21
Dimensionsreduzierung (II) Eine weitere Methode: Latent Semantic
Indexing (LSI): Konzepte lassen sich auf viele
verschiedene Arten beschreiben. LSI ist ein Versuch, die semantische
Struktur eines Textes zu erkennen. Die Idee von LSI:
Ausgangspunkt: die Term-Dokument Matrix Singulärwertzerlegung der Term-Dokument
Matrix: A = T S DT mit
Wolfram Sperber
22
Dimensionsreduzierung (III)
T Matrix der Eigenvektoren von A × AT D Matrix der Eigenvektoren von AT× AS Diagonalmatrix der Singulärwerte (Wurzeln der Eigenwerte)
Man benutzt dann die folgende Approximation
Ak = Tk Sk Dk
ist in bestimmten Sinn optimal
Problem: die Interpretation der neuen Dimensionen
T
Wolfram Sperber
23
Klassifikationsverfahren
Verschiedene Methoden: k-Nearest Neighbors Bayes Support Vector Machines (SVM) LP …
Wolfram Sperber
24
k-Nearest Neighbors ein sehr einfacher Ansatz für die
Klassifikation:Als Ähnlichkeitsmaß wird der cosinus zwischen zwei Vektoren verwendet.
Die Klassifikation der k-nächsten Nachbarn entscheidet über die Klassifikation eines Dokumentes (k??, Sind die k-nächsten Nachbarn repräsentativ für die Klassen?)
Spezialfall: Rocchio MethodeVerwendung der Schwerpunkte der Trainings- dokumente jeder Klasse anstelle der k-nächsten Nachbarn.
Wolfram Sperber
25
k-NN
Wolfram Sperber
26
Bayes probablistisches Klassifikationsverfahren
Ausgangspunkt Formel von Bayes
P(Cl|Dk) = P(Dk|Cl) P(Cl) / P(Dk)
= P(T1k|Cl) x … x P(Tmk|Cl) P(Cl) / P(Dk)
Probleme: „Naive Bayes Verfahren“ gehen davon aus,
dass die Terme unabhängig voneinander auftreten.
Wie geht man mit neuen Termen um (solche Terme, die in den Dokumenten auftauchen, aber nicht in den Termlisten der Kategorien)?
Wolfram Sperber
27
SVM Trennen der Dokumente der
Trainingsmenge, die zu einer Klasse gehören, von den Dokumenten, die nicht zu der Klasse gehören,durch eine Hyperebene (verallgemeinert; andere nichtlineare Fläche als Trennfläche)
Probleme: eine Trennung der Mengen ist häufig nicht
möglich weak separation
Nichtlineare Flächen sind häufig der natürlichere Ansatz
Wolfram Sperber
28
LP das Trennungsproblem kann als LP
umformuliert werden
(Mangarsarian / Bennett)): Misclassification problem – „beste Trennung“ zweier konvexer Mengen im Rn
kann als lineares Optimierungsproblem umformuliert werden
Wolfram Sperber
29
Ergebnisse des Klassifikationsprozesses
Man erhält Rankinglisten für die Klassifizierung eines Dokuments
Problem: wie interpretiert man die Rankinglisten (wie bestimmt man die „thresholds“ für eine Klasse?)
Wolfram Sperber
30
Bewertung der Ergebnisse
Dafür sind verschiedene Parameter üblich (man bedient sich dafür der Statistik), z.B. Accuracy (Anzahl der korrekten
Klassifikationen dividiert durch die Gesamtzahl der Klassifikationen)
Precision (Genauigkeit, Fehler zweiter Art)
Recall (Vollständigkeit, Fehler erster Art)Bemerkung: Die Evaluierung erfolgt für jeder Klasse und wird dann gemittelt.
Wo setzt man den Schwerpunkt?
Wolfram Sperber
31
Agenda
Einführende Bemerkungen
Automatische Klassifizierung
Erste Experimente
State of the art / Nächste Schritte
Wolfram Sperber
32
Testmengen
e-prints vom arXiv Server (Cornell University) Klassen Math Mathematical Physics
10.000 e-prints (alle e-prints dieser beiden Klassen, die mittels MSC klassifiziert sind)
Mathematische Journale:Springer, Kluwer, Elsevier: 27.000 Dokumente insgesamt (Volltexte)
Wolfram Sperber
33
Vorarbeiten Zwei Formate: pdf, TeX
pdf ist gut geeignet für die TextKlassifikation,TeX macht Schwierigkeiten (Entfernen der TeX-Konstrukte)
Konversion:die pdf Files wurden in text Files gewandelt (kleinere Probleme).
Trainingsmengen:Die Klassifikationen der Files in den Trainingsmengen müssen bekannt sein (durch Abgleich der Artikel mit den entsprechenden Einträgen in der Datenbank Zentralblatt Math)
Wolfram Sperber
34
Vorgehensweise beim Indexieren
Auswahl der Trainingsmengen Mindestens 50 Dokumente aus jeder Klasse wurden ausgewählt.
Den Dokumenten wurden Term-Häufigkeits-vektoren zugeordnet.Verschiedene Verfahren: Einzelwörter, Terme aus zwei und drei Wörtern (unterschiedliche Wichtung), Stemming, Keyword Extraktionsverfahren, …)
Berechnung der Schwerpunkte der Trainingsmengen in den Klassen
Wolfram Sperber
35
Ergebnisse für den arXiv Server: Top Level der MSC (xx)
10.000 e-prints (TeX or PS):TeX erfordert spezielle Aufbereitung
Ein erster Test: 4 ausgewählte KlassenAccuracy: ~ 90%
Wolfram Sperber
36
Test Report für mathematische Journale: Top level der MSC (xx) 27.000 Objekte (23.000 Artikel) Accuracy
Übereinstimmung der Primary MSC Kategorie (von Experten ermittelt) mit der ersten MSC Kategorie, die die automatischen Klassifikationsverfahren ergeben haben: ~55%
Übereinstimmung der Primary MSC Kategorie (von Experten ermittelt) mit den fünf ersten MSC Kategorien, die die automatischen Klassifikationsverfahren haben: ~ 80%
Wolfram Sperber
37Test Report für mathematische Jour-nale: Zweite Ebene der MSC (xxx)
Accuracy Übereinstimmung der Primary MSC
(Experte) und der ersten MSC Kategorie der automatischen Klassifikationsverfahren: ~ 40%
Übereinstimmung der Primary MSC (Experte) und der drei wichtigsten MSC Kategorien der automatischen Klassifikationsverfahren: ~ 55%
Wolfram Sperber
38Test Report für mathematische Jour-nale: Dritte Ebene der MSC (xxxxxx)
Accuracy Übereinstimmung der Primary MSC
(Experte) und der ersten MSC Kategorie der automatischen Klassifikationsverfahren: ~ 20%
Übereinstimmung der Primary MSC (Experte) und der drei wichtigsten MSC Kategorien der automatischen Klassifikationsverfahren: ~ 30%
Wolfram Sperber
39
Kommentar
Zur Zuverlässigkeit der TextkategorisierungAus der Literatur bekannt: Resultate der Text- kategorisierung sind stark vom Gebiet abhängig.
Ähnliche Resultate wurden von Nigam und seinen Mitarbeitern im Jahre 2000 bei der Klassifizierung von e-prints im Bereich Computer Science erzielt.
Wolfram Sperber
40
Weitere Bemerkungen (I)
Typischerweise sind mathematische Publikationen mehreren MSC Klassen zugeordnet (z.B. mathematische Aspekte, Anwendungsgebiete). Es ist wichtig, alle relevanten Klassifikationen zu erhalten. Auch auf der dritten MSC Ebene?
Es gibt signifikante Überlappungen zwischen verschiedenen MSC Klassen. Was sind die Konsequenzen für die automatische Klassifikation?
Wolfram Sperber
41
Weitere Bemerkungen (II)
Zum Umfang der Trainingmengen: In manchen Trainingsmengen einer Klasse waren keine 50 Dokumente enthalten. Kleinere Trainingsmengen verschlechtern die Ergebnisse dramatisch. Sind 50 Dokumente genug?
Wolfram Sperber
42
Eine Bemerkung zum Indexieren
Indexieren: Die Transformationen von Dokumenten zu Term- vektoren ist essentiell für den Klassifikations- prozess. Die Termvektoren der Dokumente sind zu schlecht.
Was kann gemacht werden? bessere Stopwortlisten Wichtung der Terme: Wie signifikant ist ein Term für
die Klassifikation?,insbesondere:- ist ein Term signifikant für spezielle Klassen?- Wichtung von Einfachwörtern versus Doppel- versus Dreifachtermen
Wolfram Sperber
43
Eine Bemerkung zu den Klassifikationsverfahren
Es wurden verschiedene Klassifikationsverfahren getestet. Die Ergebnisse unterscheiden sich nur geringfügig. I. A. keine Methode, die den anderen Methoden überlegen ist. Verwendung anderer Methoden, z.B. LP-Solver)?Kombination verschiedener Methoden?Kombination mit anderen Klassifikationsverfahren z.B. Zitationsanalyse (Google Methodik)?
Wolfram Sperber
44
Agenda
Einführende Bemerkungen
Automatische Klassifizierung
Erste Experimente
State of the art / Nächste Schritte
Wolfram Sperber
45
State of the art / Nächste Schritte
Die Qualität der Textkategorisierung ist unbefriedigend. Die bisherigen Ergebnisse können nur als Startpunkt weiterer Untersuchungen angesehen werden.
Nächste Schritte: Systematische Analyse des Indexierens Evaluation von weiteren
Klassifikationsverfahren
Wolfram Sperber
46
Eine weitere Idee: Hierarchische Klassifikation
Start auf der Topebene der MSC Bestimme die ersten drei (n) Kategorien mittels
Textkategorisierung Analysiere den Kontext des Dokuments
(Autoren, Journale, Referenzen) und bestimme die relevanten Kategorien
Starte mit einer ausgewählten Menge von Kategorien auf der Topebene und wiederhole das Verfahren auf der zweiten und dritten Ebene.
Wolfram Sperber
47
Anwendung der Ergebnisse Metadatenanreicherung:
Viele Preprints sind nicht klassifiziert. Die Klassifizierung könnte mit automatischen Mitteln erfolgen.
Präklassifikation:Die Datenbanken Zentralblatt Math und Mathematical Reviews könnten die Methoden für eine automatische Präklassification verwenden.
Ein zusätzliches Ergebnis: Mittels Textkategorisierung lassen sich kontrollierte Vokabulare für die MSC Klassen erzeugen.
Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) Wolfram Sperber
Martin Grötschel
Hochschulstrategien zu Open AccessHochschulrektorenkonferenz
Bonn, 13. Februar 2006Wissenschaftszentrum
Danke
Wolfram Sperber
49
Test report for the ArXive server: On the top level of MSC (xx) All classes Accuracy of automatic classification
first MSC category (author) match the top- ranked category by the classifier: nearly 65%
first MSC category (author) match the five top-ranked categories by the classifier: nearly 80%