logistische regression datenauswertung. logistische regression – zwischenbilanz...
TRANSCRIPT
LOGISTISCHE REGRESSIONDatenauswertung
Logistische Regression – Zwischenbilanz
OLS-Regression Logistische Regression
Konstante c
Regressionskoeffizient b
F-Wert und F-Test
Sums of Squares
Determinantionskoeffizient R²
t-Wert und T-Test
bxcy ˆ bxc logit(Y)
Maximum Likelihood Estimation
In der logistischen Regression wird die Likelihood-Funktion maximiert.
Logistische Regression: Modelgüte
ii Yi
Yi
n
iPPLF
1
11 )(
Vorhersage
1 0,9 gut 0,91 = 0,9 0,10=1 0,9
1 0,7 0,71 = 0,7 0,30=1 0,7
1 0,6 0,61 = 0,6 0,40=1 0,6
1 0,5 0,51 = 0,5 0,50=1 0,5
1 0,4 0,41 = 0,4 0,60=1 0,4
1 0,2 0,21 = 0,2 0,80=1 0,2
1 0,1 0,11 = 0,1 0,90=1 0,1
1 0,01 schlecht 0,011 = 0,01 0,990=1 0,01
Y i P i )( P iY i 1 1 )(* PP i
YY ii
i 1 1
Likelihoods bei verschiedenen vorhergesagte Wahrscheinlichkeiten Pi
P iY i
Vorhersage
0 0,9 schlecht 0,90 = 1 0,11 = 0,1 0,1
0 0,7 0,70 = 1 0,31 = 0,3 0,3
0 0,6 0,60 = 1 0,41 = 0,4 0,4
0 0,5 0,50 = 1 0,51 = 0,5 0,5
0 0,4 0,40 = 1 0,61 = 0,6 0,6
0 0,2 0,20 = 1 0,81 = 0,8 0,8
0 0,1 0,10 = 1 0,91 = 0,9 0,9
0 0,01 gut 0,010 = 1 0,991 = 0,99 0,99
Y i P i )( P iY i 1 1 )(* PP i
YY ii
i 1 1
Likelihoods bei verschiedenen vorhergesagte Wahrscheinlichkeiten Pi
P iY i
Vorhersage
1 0,9 gut 0,91 = 0,9 0,10=1 0,9
1 0,7 0,71 = 0,7 0,30=1 0,7
1 0,6 0,61 = 0,6 0,40=1 0,6
1 0,5 0,51 = 0,5 0,50=1 0,5
1 0,4 0,41 = 0,4 0,60=1 0,4
1 0,2 0,21 = 0,2 0,80=1 0,2
1 0,1 0,11 = 0,1 0,90=1 0,1
1 0,01 schlecht 0,011 = 0,01 0,990=1 0,01
0 0,9 schlecht 0,90 = 1 0,11 = 0,1 0,1
0 0,7 0,70 = 1 0,31 = 0,3 0,3
0 0,6 0,60 = 1 0,41 = 0,4 0,4
0 0,5 0,50 = 1 0,51 = 0,5 0,5
0 0,4 0,40 = 1 0,61 = 0,6 0,6
0 0,2 0,20 = 1 0,81 = 0,8 0,8
0 0,1 0,10 = 1 0,91 = 0,9 0,9
0 0,01 gut 0,010 = 1 0,991 = 0,99 0,99
Y i P i )( P iY i 1 1 )(* PP i
YY ii
i 1 1
Likelihoods bei verschiedenen vorhergesagte Wahrscheinlichkeiten Pi
P iY i
Logistische Regression: Modelgüte
Maximum Likelihood Estimation durch Berechnung derlog Likelihood-Funktion
)ln()(lnln iiii
n
iPYPYLFLL
11
1
ii Yi
Yi
n
iPPLF
1
11 )(
Likelihood-Funktion
Logistische Regression: Omnibus-Signifikanztest des Modells:
Es gilt:
0
10
LL
LFschlechteModellanpassung
guteModellanpassung
Logistische Regression: Omnibus-Signifikanztest des Modells:
Es gilt:
schlechteModellanpassung
guteModellanpassung
20 LL
Logistische Regression: Omnibus-Signifikanztest des Modells:
Vergleich des Modells mit Prädiktoren mit einem Modell ohne Prädiktorenbaseline model: Wahrscheinlichkeiten werden nicht
durch andere Faktoren beeinflusst alle Koeffizienten bi= 0
nur Konstante c = durchschnittliche Wahrscheinlichkeit (grand mean)
Logistische Regression: Omnibus-Signifikanztest des Modells:
Je größer die Differenz zwischen baseline log likelihood und model log likelihood, umso besser erklären die Koeffizienten des Modells die beobachteten Werte.
Logistische Regression: Omnibus-Signifikanztest des Modells:
Likelihood-Ratio-TestLikelihood ratio = ln(baseline likelihood/model likelihood)
Log-likelihood-Differenz= baseline log likelihood – model log likelihood
mit
Log-likelihood-Differenz ∙ (-2) [sprich: minus-two log likelihood]bzw. Likelihood-ratio (-2)∙
sind chi-quadrat-verteilt mit df= Zahl der unabhängigen Variablen
LL20
Logistische Regression: PRE-Maße
relative Verbesserung der Vorhersage im Vergleich zum Baseline-Model (nur Konstante)
Pseudo-R² nach McFadden
)ln(
)ln()ln(
02
12022
L
LLRpseudo
Logistische Regression: PRE-Maße
Pseudo-R²-Maße
Mc-Fadden‘s Pseudo-R ² Pseudo-R²-Werte können nur in hierarchischen Modellen („geschachtelt bzw. „nested“) miteinander verglichen werden
Cox-Snell Pseudo-R²
Nagelkerke‘s Pseudo-R²
Akaike's Information Criterion AICModellspezifische AIC-Werte bzw. BIC-Werte können über verschiedene Modelle hinweg verglichen werden. Je kleiner AIC bzw. BIC, umso besser ist das Modell
Bayesian Information Criterion BIC
Logistische Regression: PRE-Maße
𝐴𝐼𝐶=−2𝐿𝐿+2 (𝑘+1 )
𝐵𝐼𝐶=−2𝐿𝐿+ ln(n) ∙(𝑘+1)
Akaike information criterion
Baysian information criterion
Logistische Regression: PRE-Maße
If you want R², why not use R²? (Menard 2010: 52)
1. Speichere die vorhergesagten Werte des logistischen Regressionsmodells.
2. Berechne die Produkt-Moment-Korrelation r zwischen den beobachteten Werten der abhängigen Variable und den vorhergesagten Werten
3. Die quadrierte Produkt-Moment-Korrelation r² ist der durch das Modell erklärte Anteil an Variation der abhängigen Variable
Logistische Regression: Signifikanztests
Test der einzelnen Koeffizienten durch den Wald-Test
Wald =Koeffizient/Standardfehler des Koeffizienten
W ist z-verteilt
Logistische Regression – Bilanz
OLS-Regression Logistische Regression
Konstante c
Regressionskoeffizient b
F-Wert (F-Test) -2LL-Differenz (χ²-Test)
Sums of Squares -2LLs bzw. LLs
Determinantionskoeffizient R² Pseudo-R², AIC, BIC
t-Wert und T-Test Wald-Wert (Wald-Test)
bxcy ˆ bxc logit(Y)