die dt-gbi-methode als klassifikator für graphstrukturierte daten und ihre anwendungen kadar...
TRANSCRIPT
Die DT-GBI-Methode als Die DT-GBI-Methode als Klassifikator für Klassifikator für graphstrukturierte Daten graphstrukturierte Daten und Ihre Anwendungen und Ihre Anwendungen KADAR CRISTINAcristina.kadar {at} gmail {dot} com
Stand:1. Juli 2008
Seminar zu Datenbanksystemen Fachgebiet Datenbanken und InformationssystemeLeibniz Universität HannoverDeutschland
ÜbersichtÜbersicht1. Einführung2. GBI wieder besucht 3. DT-GBI4. Anwendung auf DNA-Daten5. Anwendung auf Hepatitis-Daten6. Schluss
Kadar Cristina, Die DT-GBI-Methode 2
Einführung 1Einführung 1Data Mining
◦Ziel: das Finden von Zusammenhängen und Mustern in oft sehr großen Datenbeständen
◦Anwendungsgebiete: Bioinformatik, Genetik, Warenkorbanalyse, Kundenpflege, Marketing
◦Unstrukturierte vs. strukturierte Daten
Kadar Cristina, Die DT-GBI-Methode 3
Einführung 2Einführung 2Klassifikation
◦Ziel: aus Daten Prognose für die Zukunft zu treffen
◦Übliches Hilfsmittel: der Entscheidungsbaum Innere Knoten := Attribute (Eigenschaften
der einzelnen Datensätze) Blätter := Klassen (Gruppen von
gleichartigen Elementen) Kanten := Tests (Prüfer der Attribute)
Kadar Cristina, Die DT-GBI-Methode 4
Die Daten:Beispiel 1Beispiel 1
5
Tag Aussicht Temperatur
Feuchtigkeit
Wind Tennisspielen = KLASSEN
1 sonning heiß hoch schwach
NEIN
2 sonning heiß hoch stark NEIN3 bedeckt heiß hoch schwac
hJA
4 regnerisch
mild hoch schwach
JA
5 regnerisch
kühl normal schwach
JA
6 regnerisch
kühl normal stark NEIN
7 bedeckt kühl normal stark JA8 sonning mild hoch schwac
hNEIN
9 sonning kühl normal schwach
JA
10 regnerisch
mild normal schwach
JA
11 sonning mild normal stark JA12 bedeckt mild hoch stark JA13 bedeckt heiß normal schwac
hJA
14 regnerisch
mild hoch stark NEIN
Kadar Cristina, Die DT-GBI-Methode
Kadar Cristina, Die DT-GBI-Methode 6
Aussicht
Feuchtigkeit Wind
sonnig bedec
ktregnerisch
hoch
normal
„JA“
„JA“„NEIN“
stark
schwach
„NEIN“ „JA“
Beispiel 2Beispiel 2Das Entscheidungsbaum:
Klassifikation IKlassifikation I
Kadar Cristina, Die DT-GBI-Methode 7
1. Welche Klassen?2. Eine Menge von Datensätzen sammeln,
die bereits klassifiziert sind◦ Trainingsmenge (zum Lernen)◦ Testmenge (zum Schätzen des
Klassifikationsfehlers)3. Kriterien für Klassifizierung ableiten
◦ z.B. Induktion von Entscheidungsbäume◦ 2 Phasen-Aufbau des Entscheidungsbaums:
◦ Growing-Phase: ein Entscheidungsbaum wird mit Hilfe von Splitting-Kriterien (z.B. InformationGain) aufgebaut
◦ Pruning-Phase: stutzt den Entscheidungsbaum und verbessert damit den Klassifikationsfehler
Klassifikation IIKlassifikation II
Kadar Cristina, Die DT-GBI-Methode 8
4. Klassifikationsfehler: Anteil der falsch klassifizierten Datensätze, beurteilt anhand der Testmenge wie gut ein Klassifikator eine Menge klassifiziert
5. Der Klassifikator auf neuen (noch nicht klassifizierte) Daten anwenden
InformationGainInformationGain
Kadar Cristina, Die DT-GBI-Methode 9
In jedem Schritt müssen wir entscheiden, nach welchem Attribut wir am besten partitionieren
Ideal wäre es, wenn man mit einem einzigen Attribut bereits die Klasse vorhersagen könnte, was in der Praxis fast nie vorkommt. Man wählt in jedem Schritt das Attribut, das den größten Informationsgewinn liefert.
GBI - GrundlagenGBI - GrundlagenUnteralgorithmus: konstruiert die
benötigten Attribute für die Klassifizierung
Eingabe: ein GraphAusgabe: eine Liste typischer Muster im
Graph
Typikalität: meistens durch Häufigkeit beurteilt
Kadar Cristina, Die DT-GBI-Methode 10
BeispielBeispiel
Kadar Cristina, Die DT-GBI-Methode 11
PseudocodePseudocodeGBI(G)
Zähle alle Knotenpaare Palle aus G aufWähle eine Teilmenge P von Knotenpaaren aus Palle aufgrund des TypikalitätskriteriumsWähle ein Paar p aus Pallle aufgrund des ErsetzungskriteriumsErsetze das ausgewählte Paar p durch einen Knoten cGc := aus G kontrahierter Graphsolange Abbruchkriterium nicht erreichtP := P U GBI(Gc)return P
Kadar Cristina, Die DT-GBI-Methode 12
OptimierungOptimierungGreedy, kein Backtracking => Viele mögliche Muster nicht erkannt
Ein Beam-Search-Verfahren vergrößert den Suchraum
Eine bestimmte Anzahl an Knotenpaaren werden ausgewählt und danach parallel extrahiert
Eine Konstante b schränkt die Verzweigungsbreite ein => B-GBI Algorithmus
Kadar Cristina, Die DT-GBI-Methode 13
kanonisches Labelkanonisches LabelKnotenpaare werden immer durch einen
Knoten mit einem neuen Bezeichner ersetzt =>neue Knoten können entstehen, die unterschiedliche Bezeichner haben, aber zum selben Muster gehören
Knoten werden nach ihren Bezeichner und Grad (Invarianten) gruppiert und lexikographisch sortiert
Die Adjazenzmatrix wird erzeugt
Für ungerichtete Graphen, konkatenieren wir die Spalten des oberen Rechecks:
Kadar Cristina, Die DT-GBI-Methode 14
DT-GBI - Grundlagen DT-GBI - Grundlagen Konstruiert einen Klassifikator für
graphstrukturierte Daten
Eingabe: eine Menge von Graphen
Ausgabe: Binärer Entscheidungsbaum mit ◦Attribute = Muster in Graphen◦Tests = liegt das Muster in dem Graphen?◦2 Klassen = das Muster kommt vor oder
nichtKadar Cristina, Die DT-GBI-Methode 15
Beispiel 1Beispiel 1
Kadar Cristina, Die DT-GBI-Methode 16
4 Graphen als Eingabe:
13 verschiedene Knotenpaaren: a→a, a→b, a→c, a→d, b→a, b→b, b→c, b→d, c→b, c→c, d→a, d→b, d→c
(Attribut, Attributwert) Tabelle beim 1. Schritt:
Wir wählen das Paar mit dem höchsten Informationsgewinn und benutzen es als Wurzel im Entscheidungsbaum: a→a
Schritt 2: Das Paar (a→a)→d teilt jetzt die Graphenmenge in 2 Partitionen ein
Beispiel 2Beispiel 2
Kadar Cristina, Die DT-GBI-Methode 17
Beispiel 3Beispiel 3
Kadar Cristina, Die DT-GBI-Methode 18
Entscheidungsbaum als Ausgabe:
Um eine Überanpassung der Trainingsmenge zu vermeiden, werden Pruning-Ansätze benutzt:◦ Naive Prepruning: der Algorithmus soll aufhören
sobald die Anzahl der Graphen im Blatt <= 10 ist ◦ Postpruning: es wird erstmal ein überangepasster
Baum erzeugt und erst danach wird er zurückgeschnitten
PseudocodePseudocodeDT-GBI(D)
Erzeuge einen Knoten DT für Dfalls Abbruchkriterium erfülltreturn DTsonstP := GBI(D) (die Anzahl von Knoten die zusammenfallen ist festgelegt)Wähle ein Paar p aus PUnterteile D in Dy (enthält p) und Dn (enthält p nicht)Ersetze das Paar p durch c in DyDyc := aus Dy kontrahierter GraphFür Di := Dyc, DnDti := DT-GBI(Di)Füge Dti an DT als Ja/Nein-Nachfolger hinzureturn P
Kadar Cristina, Die DT-GBI-Methode 19
KlassifizierungKlassifizierung
Kadar Cristina, Die DT-GBI-Methode 20
Die Testmenge wird nun mit dem erzeugten Entscheidungsbaum klassifiziert
Schlüsseloperation: wir suchen den Eingabegraph nach Vorkommen eines Musters => Subgraph-Isomorphie-Problem (NP vollständig)
Lösung: ◦ Wir erzeugen Kandidaten für Teilgraphen wie bei
GBI (die Ersetzungsreihenfolge wurde gespeichert) ◦ Wir prüfen ob das kanonische Label des Subgraphs
mit dem kanonischen Label des Musters übereinstimmt
Anwendung auf DNA-Anwendung auf DNA-Daten 1Daten 1
Kadar Cristina, Die DT-GBI-Methode 21
Wir wollen Promotoren in DNA-Sequenzen erkennen
DNA-Sequenz = eine Zeichenkette aus NukleotidenNukleotid = ein Molekül, das als Grundbaustein
von Nukleinsäuren fungiert; bei der DNA handelt es sich um 4 verschieden Arten von Nukleotiden: A, G, C, T
Promotor = eine Nukleotidkette, die für den Start der Transkription eines Gens sorgt
Eingabe: 106 Datensätzen, wobei 53 positive und 53 negative Instanzen sind
a t g c a t ...
Wir stellen die Zeichenketten als Graphen dar!
Für die Klassifizierung:◦ Attribute = Teilsequenzen (Teilgraphen)◦ Klassen = Promoter, Nicht-Promoter◦ Tests = enthält der Graph das Attribut oder nicht?
Anwendung auf DNA-Anwendung auf DNA-Daten 2Daten 2
Kadar Cristina, Die DT-GBI-Methode 22
Anwendung auf DNA-Anwendung auf DNA-Daten 3Daten 3
Kadar Cristina, Die DT-GBI-Methode 23
Die Klassifikationsfehlerquote wird als Durchschnitt aus den 10 Einzeldurchläufen einer 10-fachen Kreuzvalidierung errechnet
K-fache Valiedierung: die Datenmenge wird in k Teilmengen T1, ..., Tk aufgeteilt; k Testläufe werden gestartet, bei denen jeweils die i-te Teilmenge Ti als Testmenge und die verbleibenden k-1 Teilmengen als Trainingsmenge verwendet werden
Anwendung auf DNA-Anwendung auf DNA-Daten 4Daten 4
Kadar Cristina, Die DT-GBI-Methode 24
InformationGain als Entscheidungskriterium; Postpruning-Ansatz
Mehrere Experimente werden ausgeführt um festzulegen wie die Parameter auf die Effizienz des Algorithmus einwirken
nr Der Alg. ersetzt ein Muster nr-mal am Wurzelknoten und nur einmal an allen anderen Knoten
ne Der Alg. ersetzt ein Muster ne-mal an allen Knoten im Entscheidungsbaum
b Beam-width von B-GBI
Anwendung auf DNA-Anwendung auf DNA-Daten 3Daten 3
Kadar Cristina, Die DT-GBI-Methode 25
Die Klassifikationsfehlerquote wird als Durchschnitt aus den 10 Einzeldurchläufen einer 10-fachen Kreuzvalidierung errechnet
InformationGain als Entscheidungskriterium; Postpruning-Ansatz
Mehrere Experimente werden ausgeführt um festzulegen wie die Parameter auf die Effizienz des Algorithmus einwirken
nr Der Alg. ersetzt ein Muster nr-mal am Wurzelknoten und nur einmal an allen anderen Knoten
ne Der Alg. ersetzt ein Muster ne-mal an allen Knoten im Entscheidungsbaum
b Beam-width von B-GBI
Anwendung auf DNA-Anwendung auf DNA-Daten 5Daten 5
Kadar Cristina, Die DT-GBI-Methode 26
Intuitiv: je größer die Paramenter nr, ne, und b sind, desto größer der Suchraum ist und damit auch die Klassifikationsgenauigkeit
Außerdem sollte sich ne effizienter als nr auf den Algorithmus auswirken
Für nr=5, b=12 ist die Klassifikationsfehlerquote= 4,06%
Für ne=4, b=10 ist die Klassifikationsfehlerquote= 3,77%
Anwendung auf DNA-Anwendung auf DNA-Daten 6Daten 6
Ein Entscheidungsbaum für ne=4, b=10:
Kadar Cristina, Die DT-GBI-Methode 27
Datenbestand: Aufzeichnungen von Patienten mit Hepatitis B oder C◦ Verwaltungsdaten: Alter, Typ, Biopsie-Ergebnis,
Erfolgswirksamkeit der Interferon-Therapie◦ Bluttest, Urinstatus
Problem: Knotenbezeichner := Untersuchungsergebnis
Lösung: ◦ Numerische Attribute: wir diskretisieren die Werte
in 3 Klassen(L-low, N-normal, H-high)◦ Andere: wir diskretisieren die Standardabweichung
vom Normalwert in 3 oder Klassen (1-die niedrigste, 3 oder 5 die größte)
Anwendung auf Hepatitis-Anwendung auf Hepatitis-Daten IDaten I
Kadar Cristina, Die DT-GBI-Methode 28
Anwendung auf Hepatitis-Anwendung auf Hepatitis-Daten 2Daten 2Wir möchten die Daten als Graph darstellen
Ein gerichteter Graph= eine PatientenaufzeichnungEin sterförmiger Subgraph= die durschnittliche
UntersuchungsergebnisseDer Mittelknoten= hypothetischer Knoten für das 2-
monatige ZeitintervallKante= eine UntersuchungKnoten= das Untersuchungsergebnis
Kadar Cristina, Die DT-GBI-Methode 29
Vier verschiedene Experimente wurden durchgeführt:◦ Attribute = Teilgraphen
◦ Klassen = 1.+2. Biopsie-Ergebnisse [Phasen F0 – F4] 3. Hepatitis-Typ [B oder C] 4. Erfolgswirksamkeit der Interferon-Theraphie [R-der
Virus ist verschwunden oder N-keine Reaktion auf die Behandlung]
◦ Tests = Enthält der Graph das Attribut oder nicht?
Anwendung auf Hepatitis-Anwendung auf Hepatitis-Daten 3Daten 3
Kadar Cristina, Die DT-GBI-Methode 30
g
Anwendung auf Hepatitis-Anwendung auf Hepatitis-Daten 4Daten 4
Eine Biopsie zeigt wie fortgeschritten die Fibrose ist: von Phase F0 (normal) bis Phase F4 (akut = Zirrhose)
Wir möchten nur zwischen Zirrhose und den anderen Phasen unterscheiden
Problem: Anzahl der Instanzen in F4 [Z] = 43 Anzahl der Instanzen in allen anderen nicht- Zirrhose-Phasen [nicht-Z] = 219
Kann zu einem unausgewogenen Entscheidungsbaum führen!
Lösung: Wir selektieren nur 65 Instazen von den nicht-Z Klasse => Verhältniszahl von 2:3
Z-Klasse = die Minoritätsklassenicht-Z-Klasse = die dominante Klasse
Kadar Cristina, Die DT-GBI-Methode 31
Anwendung auf Hepatitis-Anwendung auf Hepatitis-Daten 5Daten 5
Nicht-Z-Klasse nur von F0 und F1 ausgewählt
Für nr=20, b=15 ist die Klassifikationsfehlerquote= 15%
Für ne=20, b=15 ist die Klassifikationsfehlerquote= 12,5%
Wie erwartet, ist die Fehlerquote für ne geringer
Es ist wichtig, dass man nicht-Z-Patienten nicht als Z-Patienten falsch Klassifiziert
Wichtiger ist es aber, Z-Patienten richtig zu identifizieren und die Behandlung anzufangen
Kadar Cristina, Die DT-GBI-Methode 32
Tatsächliche Klasse
Vorhergesagte KlasseZ-Klasse Nicht-Z-Klaase
Z-Klasse 364 66Nicht-Z-Klasse 69 581
Anwendung auf Hepatitis-Anwendung auf Hepatitis-Daten 5Daten 5
Kadar Cristina, Die DT-GBI-Methode 33
Die Fehlerquote für die Z-Klasse ist aber größer als für die nicht-Z-Klasse (15.35% vs. 10.62%), da die Klassen nicht gleich verteilt sind (43 vs 65)
Die Ergebnisse sind also nicht günstig
SchlussSchluss◦ Klassifikationsfehlerquote ist befriedigend und
vergleichbar mit anderen Methoden◦ Einige extrahierte Muster stimmen mit der
Erfahrung der Spezialisten überein◦ Nüzliches Hilfsmittel für Evidenzbasierte Medizin
◦ Neigt dazu, mehr Elemente mit der Minderheitsklase als mit der dominanten Klasse falsch zu klassifizieren
◦ Die Vorverarbeitung der Daten (Diskretisierung, Durchschnittsberechnung, Umwandlung in eine Graphendarstellung) ist aufwändig und erfolgt nur mit der Hilfe der Spezialisten
Kadar Cristina, Die DT-GBI-Methode 34
Danke für Ihre Danke für Ihre Aufmerksamkeit!Aufmerksamkeit!
Fragen?
Kadar Cristina, Die DT-GBI-Methode 35