die dt-gbi-methode als klassifikator für graphstrukturierte daten und ihre anwendungen kadar...

Die DT-GBI-Methode als Die DT-GBI-Methode als Klassifikator für Klassifikator für graphstrukturierte Daten graphstrukturierte Daten und Ihre Anwendungen und Ihre Anwendungen KADAR CRISTINAcristina.kadar {at} gmail {dot} com

Stand:1. Juli 2008

Seminar zu Datenbanksystemen Fachgebiet Datenbanken und InformationssystemeLeibniz Universität HannoverDeutschland

ÜbersichtÜbersicht1. Einführung2. GBI wieder besucht 3. DT-GBI4. Anwendung auf DNA-Daten5. Anwendung auf Hepatitis-Daten6. Schluss

Kadar Cristina, Die DT-GBI-Methode 2

Einführung 1Einführung 1Data Mining

◦Ziel: das Finden von Zusammenhängen und Mustern in oft sehr großen Datenbeständen

◦Anwendungsgebiete: Bioinformatik, Genetik, Warenkorbanalyse, Kundenpflege, Marketing

◦Unstrukturierte vs. strukturierte Daten


Einführung 2Einführung 2Klassifikation

◦Ziel: aus Daten Prognose für die Zukunft zu treffen

◦Übliches Hilfsmittel: der Entscheidungsbaum Innere Knoten := Attribute (Eigenschaften

der einzelnen Datensätze) Blätter := Klassen (Gruppen von

gleichartigen Elementen) Kanten := Tests (Prüfer der Attribute)


Die Daten:Beispiel 1Beispiel 1

5

Tag Aussicht Temperatur

Feuchtigkeit

Wind Tennisspielen = KLASSEN

1 sonning heiß hoch schwach

NEIN

2 sonning heiß hoch stark NEIN3 bedeckt heiß hoch schwac

hJA

4 regnerisch

mild hoch schwach

JA

5 regnerisch

kühl normal schwach

JA

6 regnerisch

kühl normal stark NEIN

7 bedeckt kühl normal stark JA8 sonning mild hoch schwac

hNEIN

9 sonning kühl normal schwach

JA

10 regnerisch

mild normal schwach

JA

11 sonning mild normal stark JA12 bedeckt mild hoch stark JA13 bedeckt heiß normal schwac

hJA

14 regnerisch

mild hoch stark NEIN

Kadar Cristina, Die DT-GBI-Methode


Aussicht

Feuchtigkeit Wind

sonnig bedec

ktregnerisch

hoch

normal

„JA“

„JA“„NEIN“

stark

schwach

„NEIN“ „JA“

Beispiel 2Beispiel 2Das Entscheidungsbaum:

Klassifikation IKlassifikation I


1. Welche Klassen?2. Eine Menge von Datensätzen sammeln,

die bereits klassifiziert sind◦ Trainingsmenge (zum Lernen)◦ Testmenge (zum Schätzen des

Klassifikationsfehlers)3. Kriterien für Klassifizierung ableiten

◦ z.B. Induktion von Entscheidungsbäume◦ 2 Phasen-Aufbau des Entscheidungsbaums:

◦ Growing-Phase: ein Entscheidungsbaum wird mit Hilfe von Splitting-Kriterien (z.B. InformationGain) aufgebaut

◦ Pruning-Phase: stutzt den Entscheidungsbaum und verbessert damit den Klassifikationsfehler

Klassifikation IIKlassifikation II


4. Klassifikationsfehler: Anteil der falsch klassifizierten Datensätze, beurteilt anhand der Testmenge wie gut ein Klassifikator eine Menge klassifiziert

5. Der Klassifikator auf neuen (noch nicht klassifizierte) Daten anwenden

InformationGainInformationGain


In jedem Schritt müssen wir entscheiden, nach welchem Attribut wir am besten partitionieren

Ideal wäre es, wenn man mit einem einzigen Attribut bereits die Klasse vorhersagen könnte, was in der Praxis fast nie vorkommt. Man wählt in jedem Schritt das Attribut, das den größten Informationsgewinn liefert.

GBI - GrundlagenGBI - GrundlagenUnteralgorithmus: konstruiert die

benötigten Attribute für die Klassifizierung

Eingabe: ein GraphAusgabe: eine Liste typischer Muster im

Graph

Typikalität: meistens durch Häufigkeit beurteilt


BeispielBeispiel


PseudocodePseudocodeGBI(G)

Zähle alle Knotenpaare Palle aus G aufWähle eine Teilmenge P von Knotenpaaren aus Palle aufgrund des TypikalitätskriteriumsWähle ein Paar p aus Pallle aufgrund des ErsetzungskriteriumsErsetze das ausgewählte Paar p durch einen Knoten cGc := aus G kontrahierter Graphsolange Abbruchkriterium nicht erreichtP := P U GBI(Gc)return P


OptimierungOptimierungGreedy, kein Backtracking => Viele mögliche Muster nicht erkannt

Ein Beam-Search-Verfahren vergrößert den Suchraum

Eine bestimmte Anzahl an Knotenpaaren werden ausgewählt und danach parallel extrahiert

Eine Konstante b schränkt die Verzweigungsbreite ein => B-GBI Algorithmus


kanonisches Labelkanonisches LabelKnotenpaare werden immer durch einen

Knoten mit einem neuen Bezeichner ersetzt =>neue Knoten können entstehen, die unterschiedliche Bezeichner haben, aber zum selben Muster gehören

Knoten werden nach ihren Bezeichner und Grad (Invarianten) gruppiert und lexikographisch sortiert

Die Adjazenzmatrix wird erzeugt

Für ungerichtete Graphen, konkatenieren wir die Spalten des oberen Rechecks:


DT-GBI - Grundlagen DT-GBI - Grundlagen Konstruiert einen Klassifikator für

graphstrukturierte Daten

Eingabe: eine Menge von Graphen

Ausgabe: Binärer Entscheidungsbaum mit ◦Attribute = Muster in Graphen◦Tests = liegt das Muster in dem Graphen?◦2 Klassen = das Muster kommt vor oder

nichtKadar Cristina, Die DT-GBI-Methode 15

Beispiel 1Beispiel 1


4 Graphen als Eingabe:

13 verschiedene Knotenpaaren: a→a, a→b, a→c, a→d, b→a, b→b, b→c, b→d, c→b, c→c, d→a, d→b, d→c

(Attribut, Attributwert) Tabelle beim 1. Schritt:

Wir wählen das Paar mit dem höchsten Informationsgewinn und benutzen es als Wurzel im Entscheidungsbaum: a→a

Schritt 2: Das Paar (a→a)→d teilt jetzt die Graphenmenge in 2 Partitionen ein





Entscheidungsbaum als Ausgabe:

Um eine Überanpassung der Trainingsmenge zu vermeiden, werden Pruning-Ansätze benutzt:◦ Naive Prepruning: der Algorithmus soll aufhören

sobald die Anzahl der Graphen im Blatt <= 10 ist ◦ Postpruning: es wird erstmal ein überangepasster

Baum erzeugt und erst danach wird er zurückgeschnitten

PseudocodePseudocodeDT-GBI(D)

Erzeuge einen Knoten DT für Dfalls Abbruchkriterium erfülltreturn DTsonstP := GBI(D) (die Anzahl von Knoten die zusammenfallen ist festgelegt)Wähle ein Paar p aus PUnterteile D in Dy (enthält p) und Dn (enthält p nicht)Ersetze das Paar p durch c in DyDyc := aus Dy kontrahierter GraphFür Di := Dyc, DnDti := DT-GBI(Di)Füge Dti an DT als Ja/Nein-Nachfolger hinzureturn P


KlassifizierungKlassifizierung


Die Testmenge wird nun mit dem erzeugten Entscheidungsbaum klassifiziert

Schlüsseloperation: wir suchen den Eingabegraph nach Vorkommen eines Musters => Subgraph-Isomorphie-Problem (NP vollständig)

Lösung: ◦ Wir erzeugen Kandidaten für Teilgraphen wie bei

GBI (die Ersetzungsreihenfolge wurde gespeichert) ◦ Wir prüfen ob das kanonische Label des Subgraphs

mit dem kanonischen Label des Musters übereinstimmt

Anwendung auf DNA-Anwendung auf DNA-Daten 1Daten 1


Wir wollen Promotoren in DNA-Sequenzen erkennen

DNA-Sequenz = eine Zeichenkette aus NukleotidenNukleotid = ein Molekül, das als Grundbaustein

von Nukleinsäuren fungiert; bei der DNA handelt es sich um 4 verschieden Arten von Nukleotiden: A, G, C, T

Promotor = eine Nukleotidkette, die für den Start der Transkription eines Gens sorgt

Eingabe: 106 Datensätzen, wobei 53 positive und 53 negative Instanzen sind

a t g c a t ...

Wir stellen die Zeichenketten als Graphen dar!

Für die Klassifizierung:◦ Attribute = Teilsequenzen (Teilgraphen)◦ Klassen = Promoter, Nicht-Promoter◦ Tests = enthält der Graph das Attribut oder nicht?





Die Klassifikationsfehlerquote wird als Durchschnitt aus den 10 Einzeldurchläufen einer 10-fachen Kreuzvalidierung errechnet

K-fache Valiedierung: die Datenmenge wird in k Teilmengen T1, ..., Tk aufgeteilt; k Testläufe werden gestartet, bei denen jeweils die i-te Teilmenge Ti als Testmenge und die verbleibenden k-1 Teilmengen als Trainingsmenge verwendet werden



InformationGain als Entscheidungskriterium; Postpruning-Ansatz

Mehrere Experimente werden ausgeführt um festzulegen wie die Parameter auf die Effizienz des Algorithmus einwirken

nr Der Alg. ersetzt ein Muster nr-mal am Wurzelknoten und nur einmal an allen anderen Knoten

ne Der Alg. ersetzt ein Muster ne-mal an allen Knoten im Entscheidungsbaum

b Beam-width von B-GBI



Die Klassifikationsfehlerquote wird als Durchschnitt aus den 10 Einzeldurchläufen einer 10-fachen Kreuzvalidierung errechnet

InformationGain als Entscheidungskriterium; Postpruning-Ansatz

Mehrere Experimente werden ausgeführt um festzulegen wie die Parameter auf die Effizienz des Algorithmus einwirken

nr Der Alg. ersetzt ein Muster nr-mal am Wurzelknoten und nur einmal an allen anderen Knoten

ne Der Alg. ersetzt ein Muster ne-mal an allen Knoten im Entscheidungsbaum

b Beam-width von B-GBI



Intuitiv: je größer die Paramenter nr, ne, und b sind, desto größer der Suchraum ist und damit auch die Klassifikationsgenauigkeit

Außerdem sollte sich ne effizienter als nr auf den Algorithmus auswirken

Für nr=5, b=12 ist die Klassifikationsfehlerquote= 4,06%

Für ne=4, b=10 ist die Klassifikationsfehlerquote= 3,77%


Ein Entscheidungsbaum für ne=4, b=10:


Datenbestand: Aufzeichnungen von Patienten mit Hepatitis B oder C◦ Verwaltungsdaten: Alter, Typ, Biopsie-Ergebnis,

Erfolgswirksamkeit der Interferon-Therapie◦ Bluttest, Urinstatus

Problem: Knotenbezeichner := Untersuchungsergebnis

Lösung: ◦ Numerische Attribute: wir diskretisieren die Werte

in 3 Klassen(L-low, N-normal, H-high)◦ Andere: wir diskretisieren die Standardabweichung

vom Normalwert in 3 oder Klassen (1-die niedrigste, 3 oder 5 die größte)

Anwendung auf Hepatitis-Anwendung auf Hepatitis-Daten IDaten I


Anwendung auf Hepatitis-Anwendung auf Hepatitis-Daten 2Daten 2Wir möchten die Daten als Graph darstellen

Ein gerichteter Graph= eine PatientenaufzeichnungEin sterförmiger Subgraph= die durschnittliche

UntersuchungsergebnisseDer Mittelknoten= hypothetischer Knoten für das 2-

monatige ZeitintervallKante= eine UntersuchungKnoten= das Untersuchungsergebnis


Vier verschiedene Experimente wurden durchgeführt:◦ Attribute = Teilgraphen

◦ Klassen = 1.+2. Biopsie-Ergebnisse [Phasen F0 – F4] 3. Hepatitis-Typ [B oder C] 4. Erfolgswirksamkeit der Interferon-Theraphie [R-der

Virus ist verschwunden oder N-keine Reaktion auf die Behandlung]

◦ Tests = Enthält der Graph das Attribut oder nicht?

Anwendung auf Hepatitis-Anwendung auf Hepatitis-Daten 3Daten 3


g


Eine Biopsie zeigt wie fortgeschritten die Fibrose ist: von Phase F0 (normal) bis Phase F4 (akut = Zirrhose)

Wir möchten nur zwischen Zirrhose und den anderen Phasen unterscheiden

Problem: Anzahl der Instanzen in F4 [Z] = 43 Anzahl der Instanzen in allen anderen nicht- Zirrhose-Phasen [nicht-Z] = 219

Kann zu einem unausgewogenen Entscheidungsbaum führen!

Lösung: Wir selektieren nur 65 Instazen von den nicht-Z Klasse => Verhältniszahl von 2:3

Z-Klasse = die Minoritätsklassenicht-Z-Klasse = die dominante Klasse



Nicht-Z-Klasse nur von F0 und F1 ausgewählt

Für nr=20, b=15 ist die Klassifikationsfehlerquote= 15%

Für ne=20, b=15 ist die Klassifikationsfehlerquote= 12,5%

Wie erwartet, ist die Fehlerquote für ne geringer

Es ist wichtig, dass man nicht-Z-Patienten nicht als Z-Patienten falsch Klassifiziert

Wichtiger ist es aber, Z-Patienten richtig zu identifizieren und die Behandlung anzufangen


Tatsächliche Klasse

Vorhergesagte KlasseZ-Klasse Nicht-Z-Klaase

Z-Klasse 364 66Nicht-Z-Klasse 69 581



Die Fehlerquote für die Z-Klasse ist aber größer als für die nicht-Z-Klasse (15.35% vs. 10.62%), da die Klassen nicht gleich verteilt sind (43 vs 65)

Die Ergebnisse sind also nicht günstig

SchlussSchluss◦ Klassifikationsfehlerquote ist befriedigend und

vergleichbar mit anderen Methoden◦ Einige extrahierte Muster stimmen mit der

Erfahrung der Spezialisten überein◦ Nüzliches Hilfsmittel für Evidenzbasierte Medizin

◦ Neigt dazu, mehr Elemente mit der Minderheitsklase als mit der dominanten Klasse falsch zu klassifizieren

◦ Die Vorverarbeitung der Daten (Diskretisierung, Durchschnittsberechnung, Umwandlung in eine Graphendarstellung) ist aufwändig und erfolgt nur mit der Hilfe der Spezialisten


Danke für Ihre Danke für Ihre Aufmerksamkeit!Aufmerksamkeit!

Fragen?


die dt-gbi-methode als klassifikator für graphstrukturierte daten und ihre anwendungen kadar...

Documents