twoing & chaid von johannes kremer und thomas hetz
TRANSCRIPT
Einführung
Verzweigung von Entscheidungsbäumen Bewertung der Splits
Beispiel Entropy: Bewertung Mutterknoten Bewertung Kinderknoten Verbesserung?
Allgemein: Verbessert der Split meine „Information“?
„Wähle den Split mit dem größten Informationsgewinn!“
Twoing
Binäre Verzweigung -)|]²
Twoing-split versucht einen 50/50 Split herzustellen Bäume relativ „breit“
Mutterknoten
Tochterknoten
Tochterknoten
Grundgesamtheit
Split 1
CHAID (Chi-squared Automatic Interaction Detector)
Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche
Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze
Kennzahl für die „Güte“ der Wahl einer Kategorie nach welcher verzweigt wird p-value
Stärken des Verfahrens Geeignet auch für nicht metrische Kategorien Geringe Wahrscheinlichkeit von Overfitting aufgrund der p-value Grenze
CHAID (Chi-squared Automatic Interaction Detector)
Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche Ausprägungen
(z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze
Hohe Abhängigkeit, hoher Chi² Wert, kleiner p-value
Gut Schlecht
Σ
Rot 10 5 15Gelb 12 3 15Grün 10 20 30Orange 8 22 30Σ 40 50 90
Gut Schlecht ΣRot/Gelb 22 8 30Grün/ Orange
18 42 60
Σ 40 50 90
CHAID (Chi-squared Automatic Interaction Detector)
Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche
Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze
Kennzahl für die „Güte“ der Wahl einer Kategorie nach welcher verzweigt wird p-value
Vergleich der p-Values: bei welcher Kategorie ist er am kleinsten?
Mutterknoten
Rot/Gelb Grün/Orange
Mutterknoten
groß/mittelgroß klein
Mutterknoten
alt jung
vs. vs.
CHAID (Chi-squared Automatic Interaction Detector)
Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche
Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze
Kennzahl für die „Güte“ der Wahl einer Kategorie nach welcher verzweigt wird p-value
Stärken des Verfahrens Geeignet auch für nicht metrische Kategorien Geringe Wahrscheinlichkeit von Overfitting aufgrund der p-value Grenze