logistische regression datenauswertung. logistische regression – zwischenbilanz...

LOGISTISCHE REGRESSIONDatenauswertung

Logistische Regression – Zwischenbilanz

OLS-Regression Logistische Regression

Konstante c

Regressionskoeffizient b

F-Wert und F-Test

Sums of Squares

Determinantionskoeffizient R²

t-Wert und T-Test

bxcy ˆ bxc logit(Y)

Maximum Likelihood Estimation

In der logistischen Regression wird die Likelihood-Funktion maximiert.

Logistische Regression: Modelgüte

ii Yi

Yi

n

iPPLF

1

11 )(

Vorhersage

1 0,9 gut 0,91 = 0,9 0,10=1 0,9

1 0,7 0,71 = 0,7 0,30=1 0,7

1 0,6 0,61 = 0,6 0,40=1 0,6

1 0,5 0,51 = 0,5 0,50=1 0,5

1 0,4 0,41 = 0,4 0,60=1 0,4

1 0,2 0,21 = 0,2 0,80=1 0,2

1 0,1 0,11 = 0,1 0,90=1 0,1

1 0,01 schlecht 0,011 = 0,01 0,990=1 0,01

Y i P i )( P iY i 1 1 )(* PP i

YY ii

i 1 1

Likelihoods bei verschiedenen vorhergesagte Wahrscheinlichkeiten Pi

P iY i

Vorhersage

0 0,9 schlecht 0,90 = 1 0,11 = 0,1 0,1

0 0,7 0,70 = 1 0,31 = 0,3 0,3

0 0,6 0,60 = 1 0,41 = 0,4 0,4

0 0,5 0,50 = 1 0,51 = 0,5 0,5

0 0,4 0,40 = 1 0,61 = 0,6 0,6

0 0,2 0,20 = 1 0,81 = 0,8 0,8

0 0,1 0,10 = 1 0,91 = 0,9 0,9

0 0,01 gut 0,010 = 1 0,991 = 0,99 0,99

Y i P i )( P iY i 1 1 )(* PP i

YY ii

i 1 1


P iY i

Vorhersage

1 0,9 gut 0,91 = 0,9 0,10=1 0,9

1 0,7 0,71 = 0,7 0,30=1 0,7

1 0,6 0,61 = 0,6 0,40=1 0,6

1 0,5 0,51 = 0,5 0,50=1 0,5

1 0,4 0,41 = 0,4 0,60=1 0,4

1 0,2 0,21 = 0,2 0,80=1 0,2

1 0,1 0,11 = 0,1 0,90=1 0,1

1 0,01 schlecht 0,011 = 0,01 0,990=1 0,01

0 0,9 schlecht 0,90 = 1 0,11 = 0,1 0,1

0 0,7 0,70 = 1 0,31 = 0,3 0,3

0 0,6 0,60 = 1 0,41 = 0,4 0,4

0 0,5 0,50 = 1 0,51 = 0,5 0,5

0 0,4 0,40 = 1 0,61 = 0,6 0,6

0 0,2 0,20 = 1 0,81 = 0,8 0,8

0 0,1 0,10 = 1 0,91 = 0,9 0,9

0 0,01 gut 0,010 = 1 0,991 = 0,99 0,99

Y i P i )( P iY i 1 1 )(* PP i

YY ii

i 1 1


P iY i

Logistische Regression: Modelgüte

Maximum Likelihood Estimation durch Berechnung derlog Likelihood-Funktion

)ln()(lnln iiii

n

iPYPYLFLL

11

1

ii Yi

Yi

n

iPPLF

1

11 )(

Likelihood-Funktion

Logistische Regression: Omnibus-Signifikanztest des Modells:

Es gilt:

0

10

LL

LFschlechteModellanpassung

guteModellanpassung


Es gilt:

schlechteModellanpassung

guteModellanpassung

20 LL


Vergleich des Modells mit Prädiktoren mit einem Modell ohne Prädiktorenbaseline model: Wahrscheinlichkeiten werden nicht

durch andere Faktoren beeinflusst alle Koeffizienten bi= 0

nur Konstante c = durchschnittliche Wahrscheinlichkeit (grand mean)


Je größer die Differenz zwischen baseline log likelihood und model log likelihood, umso besser erklären die Koeffizienten des Modells die beobachteten Werte.


Likelihood-Ratio-TestLikelihood ratio = ln(baseline likelihood/model likelihood)

Log-likelihood-Differenz= baseline log likelihood – model log likelihood

mit

Log-likelihood-Differenz ∙ (-2) [sprich: minus-two log likelihood]bzw. Likelihood-ratio (-2)∙

sind chi-quadrat-verteilt mit df= Zahl der unabhängigen Variablen

LL20

Logistische Regression: PRE-Maße

relative Verbesserung der Vorhersage im Vergleich zum Baseline-Model (nur Konstante)

Pseudo-R² nach McFadden

)ln(

)ln()ln(

02

12022

L

LLRpseudo


Pseudo-R²-Maße

Mc-Fadden‘s Pseudo-R ² Pseudo-R²-Werte können nur in hierarchischen Modellen („geschachtelt bzw. „nested“) miteinander verglichen werden

Cox-Snell Pseudo-R²

Nagelkerke‘s Pseudo-R²

Akaike's Information Criterion AICModellspezifische AIC-Werte bzw. BIC-Werte können über verschiedene Modelle hinweg verglichen werden. Je kleiner AIC bzw. BIC, umso besser ist das Modell

Bayesian Information Criterion BIC


𝐴𝐼𝐶=−2𝐿𝐿+2 (𝑘+1 )

𝐵𝐼𝐶=−2𝐿𝐿+ ln(n) ∙(𝑘+1)

Akaike information criterion

Baysian information criterion


If you want R², why not use R²? (Menard 2010: 52)

1. Speichere die vorhergesagten Werte des logistischen Regressionsmodells.

2. Berechne die Produkt-Moment-Korrelation r zwischen den beobachteten Werten der abhängigen Variable und den vorhergesagten Werten

3. Die quadrierte Produkt-Moment-Korrelation r² ist der durch das Modell erklärte Anteil an Variation der abhängigen Variable

Logistische Regression: Signifikanztests

Test der einzelnen Koeffizienten durch den Wald-Test

Wald =Koeffizient/Standardfehler des Koeffizienten

W ist z-verteilt

Logistische Regression – Bilanz

OLS-Regression Logistische Regression

Konstante c

Regressionskoeffizient b

F-Wert (F-Test) -2LL-Differenz (χ²-Test)

Sums of Squares -2LLs bzw. LLs

Determinantionskoeffizient R² Pseudo-R², AIC, BIC

t-Wert und T-Test Wald-Wert (Wald-Test)

bxcy ˆ bxc logit(Y)

logistische regression datenauswertung. logistische regression – zwischenbilanz...

Documents