twoing & chaid von johannes kremer und thomas hetz

7
Twoing & CHAID VON JOHANNES KREMER UND THOMAS HETZ

Upload: dominik-schmidt

Post on 06-Apr-2016

214 views

Category:

Documents


0 download

TRANSCRIPT

Twoing & CHAIDVON JOHANNES KREMER UND THOMAS HETZ

Einführung

Verzweigung von Entscheidungsbäumen Bewertung der Splits

Beispiel Entropy: Bewertung Mutterknoten Bewertung Kinderknoten Verbesserung?

Allgemein: Verbessert der Split meine „Information“?

„Wähle den Split mit dem größten Informationsgewinn!“

Twoing

Binäre Verzweigung -)|]²

Twoing-split versucht einen 50/50 Split herzustellen Bäume relativ „breit“

Mutterknoten

Tochterknoten

Tochterknoten

Grundgesamtheit

Split 1

CHAID (Chi-squared Automatic Interaction Detector)

Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche

Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze

Kennzahl für die „Güte“ der Wahl einer Kategorie nach welcher verzweigt wird p-value

Stärken des Verfahrens Geeignet auch für nicht metrische Kategorien Geringe Wahrscheinlichkeit von Overfitting aufgrund der p-value Grenze

CHAID (Chi-squared Automatic Interaction Detector)

Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche Ausprägungen

(z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze

Hohe Abhängigkeit, hoher Chi² Wert, kleiner p-value

Gut Schlecht

Σ

Rot 10 5 15Gelb 12 3 15Grün 10 20 30Orange 8 22 30Σ 40 50 90

Gut Schlecht ΣRot/Gelb 22 8 30Grün/ Orange

18 42 60

Σ 40 50 90

CHAID (Chi-squared Automatic Interaction Detector)

Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche

Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze

Kennzahl für die „Güte“ der Wahl einer Kategorie nach welcher verzweigt wird p-value

Vergleich der p-Values: bei welcher Kategorie ist er am kleinsten?

Mutterknoten

Rot/Gelb Grün/Orange

Mutterknoten

groß/mittelgroß klein

Mutterknoten

alt jung

vs. vs.

CHAID (Chi-squared Automatic Interaction Detector)

Grundprinzip Für jede Kategorie (z.B. Farbe, Alter etc.) wird ermittelt, welche

Ausprägungen (z.B. rot, blau, gelb) sich mit Minimalen Informationsverlust zusammenfassen lassen. Festlegung einer p-value Grenze

Kennzahl für die „Güte“ der Wahl einer Kategorie nach welcher verzweigt wird p-value

Stärken des Verfahrens Geeignet auch für nicht metrische Kategorien Geringe Wahrscheinlichkeit von Overfitting aufgrund der p-value Grenze