multiple lineare regression (teil 2) · multiple lineare regression (teil 2) ... massnahmen und...
TRANSCRIPT
![Page 1: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/1.jpg)
Multiple Lineare Regression (Teil 2)
Peter von Rohr
06 März 2017
![Page 2: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/2.jpg)
Massnahmen und Alternativen
Was passiert, wenn Annahmen nicht erfüllt sind?
I Falls Annahme 3 (konstante Varianzen) verletzt ist, verwendenwir weighted least squares
I Falls Annahme 5 der Normalität nicht gilt, verwenden wirrobuste Methoden
I Falls Annahme 2 falsch ist, brauchen wir eine Methode namens“errors in variables”
I Falls Annahme 1 nicht zutrifft, brauchen wir ein nicht-linearesModell
![Page 3: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/3.jpg)
Annahmen 1 und 4 nicht erfüllt
![Page 4: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/4.jpg)
Mehrere Regressionen mit einer Variablen
I Wichtig: Multiple lineare Regression nicht durch mehrereRegressionen mit einer Variablen ersetzen
I Beispiel: y = 2 ∗ x1− x2
x1 0 1 2 3 0 1 2 3x2 -1 0 1 2 1 2 3 4y 1 2 3 4 -1 0 1 2
![Page 5: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/5.jpg)
Einfache Regression mit x2
x1 <- c(0, 1, 2, 3, 0, 1, 2, 3)x2 <- c(-1,0,1,2,1,2,3,4)y <- 2*x1-x2dfData <- data.frame(x1=x1, x2=x2, y=y)lm_simple_x2 <- lm(y ~ x2, data = dfData)
![Page 6: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/6.jpg)
Resultat
Table 2: Fitting linear model: y ~ x2
Estimate Std. Error t value Pr(>|t|)
x2 0.1111 0.4057 0.2739 0.7934(Intercept) 1.333 0.8607 1.549 0.1723
I Original: y = 2 ∗ x1− x2
![Page 7: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/7.jpg)
Eigenschaften der Least Squares Schätzer
I Modell: y = Xβ + ε, mit E [ε] = 0, Cov(ε) = I ∗ σ2
1. E [β] = β → unverzerrter Schätzer (unbiasedness)2. E [Y] = E [Y] = Xβ → E [r] = 03. Cov(β) = σ2(XT X)−1
4. Cov(Y) = σ2P, Cov(r) = σ2(I− P)
wobei P = X(XT X)−1XT
![Page 8: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/8.jpg)
Verteilung der Schätzer
Annahme, dass ε normal-verteilt sind, daraus folgt
1. β ∼ Np(β, σ2(XT X)−1)2. Y ∼ Nn(Xβ, σ2P)
3. σ2 ∼ σ2
n−pχ2
![Page 9: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/9.jpg)
Tests und Vertrauensintervalle
I Angenommen, wir möchten wissen, ob eine bestimmteerklärende Variable βj relevant ist in unserem Modell, danntesten wir die Nullhypothese
H0 : βj = 0
gegenüber der Alternativhypothese
HA : βj 6= 0
I Bei unbekanntem σ2 ergibt sich folgende Teststatistik
Tj = βj√σ2(XT X)−1
jj
∼ tn−p
wobei tn−p für die Student-t Verteilung mit n − p Freiheitsgradensteht.
![Page 10: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/10.jpg)
Probleme bei t-Tests
I Multiples Testen bei vielen βj , d.h. falls wir 100 Tests mitIrrtumswahrscheinlchkeit 5% machen, sind automatisch 5 Testssignifikant
I Es kann passieren, dass für kein βj die Nullhypothese verworfenwerden kann, aber die erklärende Variable trotzdem einenEinfluss hat. Der Grund dafür sind Korrelationen zwischenerklärenden Variablen
I Individuelle t-tests für H0 : βj = 0 sind so zu interpretieren,dass diese den Effekt von βj quantifizieren nach Abzug desEinflusses aller anderen Variablen auf die Zielgrösse Y
→ falls z. Bsp. βi und βj stark korreliert sind und wir testen diebeiden Nullhypothesen H0j : βj = 0 und H0i : βi = 0, kann durchdie Korrektur der anderen Variablen der Effekt von βi und βj auf Ydurch den t-Test nicht gefunden werden.
![Page 11: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/11.jpg)
Globaler Test eines Modells
I Beim t-Test hatten wir jede einzelne erklärende Variablegetestet.
I Test, ob überhaupt eine der erklärenden Variablen einenEinfluss auf die Zielgrösse hat
I Zerlegung der Länge der totalen quadrierten Abweichungen derBeobachtungswerte y um deren Mittel y in
||y− y||2 = ||y− y||2 + ||y− y||2
wobei: ||y− y||2 der Länge der quadrierten Abweichungen dergefitteten Werte (y = Xβ) um das globale Mittel(y = 1 ∗ 1/n
∑ni=1 yi) und r = y− y den Residuen entspricht
![Page 12: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/12.jpg)
Geometrische Begründung
Y - Y
Y - Y
r = Y - Y
![Page 13: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/13.jpg)
Zerlegung als Varianzanalyse (ANOVA)
I ANOVA Tabelle sieht wie folgt aus
sums of squares degrees of freedom mean squareregression ||y− y||2 p − 1 ||y− y||2/(p − 1)error ||y− y||2 n − p ||y− y||2/(n − p)total ||y− y||2 n − 1
I Relevante Teststatistik lautet
F = ||y− y||2/(p − 1)||y− y||2/(n − p) ∼ Fp−1,n−p
unter der globalen Nullhypothese H0 : βj = 0 für alle j
![Page 14: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/14.jpg)
Bestimmtheitsmass des Modells
I Nützliche Grösse für die Qualität eines Modells ist dasBestimmtheitsmass (coefficient of determination)
R2 = ||y− y||2||y− y||2
diese sagt aus, wieviel der totalen Variation von y um y durch dieRegression erkärt wird.
![Page 15: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/15.jpg)
Vertrauensintervall der Schätzung
I Basierend auf der Teststatistik des t-Tests
Tj = βj√σ2(XT X)−1
jj
∼ tn−p
I Vertrauensintervall für den unbekannten Parameter βj als
βj ±√σ2(XT X)−1
jj ∗ tn−p,1−α/2
→ somit beinhaltet das Intervall zwischen den angegebenen Grenzenden wahren Wert mit Wahrscheinlichkeit 1− α, wobei tn−p,1−α/2das 1− α/2 Quantil der Verteilung tn−p darstellt
![Page 16: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/16.jpg)
Vertrauensintervall im Bild
![Page 17: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/17.jpg)
R Output
1
2
3
4
![Page 18: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/18.jpg)
R Output Bedeutung
1. Funktionsaufruf mit welchem das Resultatobjekt erzeugt wurde.Wichtig, falls Resultate als R-objekt (.rda) gespeichert werden
2. Verteilung der Residuen aufgrund der Quantile3. Schätzwert und Schätzfehler für die Paramter βj zu jeder
erklärenden Variablen. Werte der t-Teststatistik4. Schätzung der Rest-Standardabweichung σ. Zusätzliche
Modellinformationen, wie F-Teststatistik, R2 und das umAnzahl erklärende Variablen korrigierte R2, wobei
R2 = R2 − (1− R2)p − 1n − p
![Page 19: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/19.jpg)
Überprüfung der Modellannahmen anhand Analyse derResiduen
I Residuen ri = yi − yi als Approximation der unbekanntenFehler εi bei der Überprüfung der Modellannahmen verwenden
I Tukey-Anscombe Plot: zeigt Residuen ri versus gefitteteWerte yi . Dieser sollte keine erkennbaren Muster aufweisen
![Page 20: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/20.jpg)
Probleme bei Modellannahmen
Folgende Plots deuten auf Probleme hin
![Page 21: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/21.jpg)
Tukey-Anscombe Plot in R
data(anscombe)reg <- lm(y1 ~ x1, data = anscombe)plot(fitted(reg), resid(reg))
![Page 22: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/22.jpg)
Tukey-Anscombe Plot - Das Resultat
5 6 7 8 9 10
−2
−1
01
fitted(reg)
resi
d(re
g)
![Page 23: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/23.jpg)
QQ (quantile-quantile) Plot
I Überprüfung der Verteilung der Zufallsvariablen (Zielgrösse undResiduen)
I Empirische Verteilung der Residuen (y-Achse) wird gegentheoretische Quantile der Normalverteilung (x-Achse)aufgezeichnet
I Falls Normalverteilung zutrifft, dann liegen alle Punkte aufeiner Linie
![Page 24: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/24.jpg)
In R:qqnorm(anscombe$y1)qqline(anscombe$y1)
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
45
67
89
1011
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
![Page 25: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/25.jpg)
Probleme mit Verteilung
![Page 26: Multiple Lineare Regression (Teil 2) · Multiple Lineare Regression (Teil 2) ... Massnahmen und Alternativen Waspassiert,wennAnnahmennichterfülltsind? I FallsAnnahme3(konstanteVarianzen)verletztist,verwenden](https://reader033.vdocuments.site/reader033/viewer/2022050101/5f40b55c30348022fd477128/html5/thumbnails/26.jpg)
Quellen
Tukey-Anscombe Plots und QQ-Plots stammen aus dem Skript:
Computational StatisticsPeter Bühlmann and Martin MächlerSeminar für Statistik ETH ZürichVersion of January 31, 2014