probleme im linearen modell oder was schiefgehen kann geht ......was tun mit kategorialen...

Probleme im linearen Modell oder wasschiefgehen kann geht schief

Regressionsmodelle für Politikwissenschaftler

WiederholungKomplikationen

Schätzungen und ihre EigenschaftenAnnahmeverletzungen: Konsequenzen

Übersicht

Wiederholung

KomplikationenKategoriale UnabhängigeInteraktionenWas tun mit nichtlinearen Zusammenhängen?

Schätzungen und ihre EigenschaftenWiederholung: SchätzungenEigenschaften von Schätzverfahren

Annahmeverletzungen: Konsequenzen

Regressionsmodelle für Politikwissenschaftler Probleme im linearen Modell



Was haben wir letzte Woche gelernt?

◮ Regression betrachtet den konditionalen Mittelwert einerVariablen






◮ In Abhängigkeit vom Niveau der unabhängigen Variablen folgtdieser Mittelwert einem Pfad







◮ Im klassischen linearen Modell entspricht dieser Pfad der Linie /Fläche /Hyperfläche, die die SAQ minimieren ➔ partielleAbleitungen auf null setzen








◮ Das Gleichungssystem, mit dessen Hilfe b0, b1, . . . gefundenwerden, läßt sich mit Hilfe von etwas Matrix-Algebra sehreffizient analytisch lösen









◮ Datenmatrix muß genug unabhängige Informationen enthalten➔ keiner der Spaltenvektoren darf Linearkombination andererVektoren darstellen (perfekte Kollinearität)









◮ Datenmatrix muß genug unabhängige Informationen enthalten➔ keiner der Spaltenvektoren darf Linearkombination andererVektoren darstellen (perfekte Kollinearität)

◮ Mittel zur Datenverdichtung – ist OLS aber auch ein guterSchätzer für die unbekannten Parameter der Grundgesamtheit?




Kategoriale UnabhängigeInteraktionenWas tun mit nichtlinearen Zusammenhängen?

Vorab: Komplikationen

◮ Auf welche Komplikationen sind wir letzte Woche gestoßen?







1. Kategoriale unabhängige Variablen








2. Interaktionen








2. Interaktionen

3. Nicht-lineare Zusammenhänge





Was tun mit kategorialen Unabhängigen?

◮ Keine Verteilungsannahmen für die unabhängigen Variablen?






◮ Keine Verteilungsannahmen für die unabhängigen Variablen?◮ Unabhängige Variablen können kategorial sein






◮ Keine Verteilungsannahmen für die unabhängigen Variablen?◮ Unabhängige Variablen können kategorial sein◮ Gar kein Problem bei dichotomen Variablen ➔ 0/1 kodieren(Dummies)







◮ Effekt entspricht der Differenz zwischen den Mittelwerten vonGruppe 0/1







◮ Effekt entspricht der Differenz zwischen den Mittelwerten vonGruppe 0/1

◮ Identisch mit t-Test für unabhängige Stichproben






◮ Nominale Variablen mit k > 2 Kategorien durch k − 1 Dummiesrepräsentieren







◮ Beispiel Konfession mit Kategorien katholisch / protestantisch /andere durch kath/prot oder kath/andere oder prot/andere







◮ Beispiel Konfession mit Kategorien katholisch / protestantisch /andere durch kath/prot oder kath/andere oder prot/andere

◮ Warum nicht drei Dummies?





y p k a

12 1 0 013 0 1 010 0 0 111 0 1 014 1 0 0

◮ Jeweils einer der drei Vektoren p, k, a perfekteLinearkombination der anderen beiden z. B. a = 1 − p − k





y p k a

12 1 0 013 0 1 010 0 0 111 0 1 014 1 0 0


◮ (Perfekte) Kollinearität





y p k a

12 1 0 013 0 1 010 0 0 111 0 1 014 1 0 0


◮ (Perfekte) Kollinearität◮ Matrix X′X nicht invertierbar





y p k a

12 1 0 013 0 1 010 0 0 111 0 1 014 1 0 0


◮ (Perfekte) Kollinearität◮ Matrix X′X nicht invertierbar◮ In Normalgleichungen mehr Unbekannte als voneinanderunabhängige Normalgleichungen





y p k a

12 1 0 013 0 1 010 0 0 111 0 1 014 1 0 0


◮ (Perfekte) Kollinearität◮ Matrix X′X nicht invertierbar◮ In Normalgleichungen mehr Unbekannte als voneinanderunabhängige Normalgleichungen

◮ Information redundant; einen beliebigen Dummy weglassen





y p k a

12 1 0 013 0 1 010 0 0 111 0 1 014 1 0 0

◮ Die weggelassene Kategorie heißt „Referenzgruppe“





y p k a

12 1 0 013 0 1 010 0 0 111 0 1 014 1 0 0

◮ Die weggelassene Kategorie heißt „Referenzgruppe“◮ Konstante plus gegebenenfalls Effekte anderer Variablen =erwarteter Wert für Referenzgruppe





y p k a

12 1 0 013 0 1 010 0 0 111 0 1 014 1 0 0


◮ Effekte der übrigen Kategorie entsprechen der Abweichungdieser Gruppen vomWert der Referenzgruppe





y p k a

12 1 0 013 0 1 010 0 0 111 0 1 014 1 0 0



◮ y = 10 + 3p + 2k





y p k a

12 1 0 013 0 1 010 0 0 111 0 1 014 1 0 0



◮ y = 10 + 3p + 2k◮ y = 12 + 1p − 2a





y p k a

12 1 0 013 0 1 010 0 0 111 0 1 014 1 0 0



◮ y = 10 + 3p + 2k◮ y = 12 + 1p − 2a◮ y = 13 − 1k − 3a





y p k a

12 1 0 013 0 1 010 0 0 111 0 1 014 1 0 0



◮ y = 10 + 3p + 2k◮ y = 12 + 1p − 2a◮ y = 13 − 1k − 3a◮ Verfahren entspricht Varianzanalyse (auch andere Kodierungenmöglich)





Wie kommt es sonst zu perfekter Kolllinearität?

◮ Kodierungsfehler






◮ Kodierungsfehler◮ Kohortenanalyse (APK-Ansatz)






◮ Kodierungsfehler◮ Kohortenanalyse (APK-Ansatz)◮ Abhängige Variable wird beeinflußt von







◮ Alter des Befragten







◮ Alter des Befragten◮ Periode (Zeitpunkt der Untersuchung)







◮ Alter des Befragten◮ Periode (Zeitpunkt der Untersuchung)◮ Kohorte (Generation)








◮ Z. B. in Nichtwählerstudien








◮ Z. B. in Nichtwählerstudien◮ Aber: A = P − K, P = K + A, K = P − A








◮ Z. B. in Nichtwählerstudien◮ Aber: A = P − K, P = K + A, K = P − A◮ Lösungen









◮ (Willkürliche) Restriktionen









◮ (Willkürliche) Restriktionen◮ Eine oder mehrere Variablen durch Inhaltliches ersetzen





Was ist ein Interaktionseffekt?

◮ Standardmodell geht davon aus, daß unabhängige Variablenadditiv zusammenwirken







◮ Effekt von x1 vom Niveau von x2 . . . unabhängig







◮ Effekt von x1 vom Niveau von x2 . . . unabhängig◮ Diese Annahme wird bei Interaktionen aufgegeben:








◮ Effekt von x1 hängt vom Niveau von x2 ab und umgekehrt








◮ Effekt von x1 hängt vom Niveau von x2 ab und umgekehrt◮ Durch Produktterm (x1 × x2) modelliert








◮ Effekt von x1 hängt vom Niveau von x2 ab und umgekehrt◮ Durch Produktterm (x1 × x2) modelliert◮ b1 und b2 müssen jetzt konditional interpretiert werden








◮ Effekt von x1 hängt vom Niveau von x2 ab und umgekehrt◮ Durch Produktterm (x1 × x2) modelliert◮ b1 und b2 müssen jetzt konditional interpretiert werden◮ b1 entspricht der Wirkung von x1 wenn x2 = 0 und umgekehrt





Ein Beispiel?

◮ y = 5 + 2x1 + 3x2 + 0, 3x1x2 + ǫ





Ein Beispiel?5

67

89

10y

0 .2 .4 .6 .8 1x1

x2=0 x2=10





Signifikanz von Interaktionseffekten

◮ Koeffizient für multiplikativen Interaktionsterm = 0 ➔ keineInteraktion in GG?

◮ Koeffizient entspricht Differenz zwischen Effekt von x1 fürverschiedene Niveaus von x2 (oder umgekehrt)

◮ Beliebige lineare Transformationen von x1 und x2 zulässig ➔Signifikanz des Koeffizienten kann beliebig manipuliert werden

◮ Lösung: Stärke und Signifikanz des Effekte von x1 fürverschiedene Niveaus von x2 berechnen/plotten und umgekehrt





Was sind nicht-lineare Effekte?

◮ In manchen (wenigen) Fällen ist die Linearitätsannahmeoffensichtlich unplausibel







◮ Z. B. kurvilinearer Zusammenhang zwischen Alter undRechtsextremismus








◮ Wenn gute theoretische Begründung vorhanden, könnenTransformationen von y und/oder x sinnvoll sein, die denZusammenhang zwischen beiden linearisieren









◮ In diesem Fall ist OLS unproblematisch









◮ In diesem Fall ist OLS unproblematisch◮ Verwendet werden normalerweise das Quadrat, dieQuadratwurzel, deren Kehrwerte und der natürlicheLogarithmus („ladder of powers“)









◮ In diesem Fall ist OLS unproblematisch◮ Verwendet werden normalerweise das Quadrat, dieQuadratwurzel, deren Kehrwerte und der natürlicheLogarithmus („ladder of powers“)

◮ Tendenziell: Vorsicht




Wiederholung: SchätzungenEigenschaften von Schätzverfahren

Was wird wie geschätzt?

◮ OLS ist zunächst ein Verfahren, um eine Linie / Fläche /Hyperfläche durch eine Punktewolke zu legen







◮ Wenn Voraussetzungen erfüllt ist, ist OLS darüber hinaus eingutes Schätzverfahren








◮ Schluß von Stichprobe auf Grundgesamtheit








◮ Schluß von Stichprobe auf Grundgesamtheit◮ Das Stichprobenwerte als Schätzung für Paramter derGrundgesamtheit dienen können, ist nicht selbstverstländlich








◮ Schluß von Stichprobe auf Grundgesamtheit◮ Das Stichprobenwerte als Schätzung für Paramter derGrundgesamtheit dienen können, ist nicht selbstverstländlich

◮ Z. B. unterschätzt Stichprobenvarianz Varianz in derGrundgesamtheit





Was sind nochmal Standardfehler?

◮ Gedankenexperiment: Aus einer großen Grundgesamtheitimmer wieder unter essentiell identischen BedingungenStichproben gleicher Größe ziehen







◮ Mit OLS Koeffizienten des Modell berechnen







◮ Mit OLS Koeffizienten des Modell berechnen◮ Über eine unendliche Zahl von Wiederholungen hinwegVerteilung (mit Mittelwert, Varianz) für jeden Parameter








◮ Außerdem Kovarianzen zwischen den Schätzungen, wenn diesenicht völlig unabhängig voneinander sind









◮ Zu jeder Modellschätzung gehört Varianz-Kovarianz-Matrix









◮ Zu jeder Modellschätzung gehört Varianz-Kovarianz-Matrix◮ Standardfehler: Quadratwurzel aus Varianz des Parameters(über unendlich viele Stichproben hinweg)





Von was hängt Standardfehler ab?

◮ Formel für Varianz der Schätzungen im bivariaten Fall:







V(b1) =σ

2ǫ∑

(xi−x̄)2







V(b1) =σ

2ǫ∑

(xi−x̄)2

◮ Was bedeutet das in Worten?







V(b1) =σ

2ǫ∑

(xi−x̄)2

◮ Was bedeutet das in Worten?◮ Varianz / Standardfehler umso größer, je größer Varianz von ǫ







V(b1) =σ

2ǫ∑

(xi−x̄)2

◮ Was bedeutet das in Worten?◮ Varianz / Standardfehler umso größer, je größer Varianz von ǫ◮ Wenn V(ǫ) = 0 liegen in der Grundgesamtheit alle Punkte exaktauf der Geraden ➔ kein Stichprobenfehler möglich







V(b1) =σ

2ǫ∑

(xi−x̄)2


◮ Varianz / Standardfehler umso kleiner, je größer die SAQx







V(b1) =σ

2ǫ∑

(xi−x̄)2


◮ Varianz / Standardfehler umso kleiner, je größer die SAQx◮ Präzisere Schätzungen mit größeren Stichproben







V(b1) =σ

2ǫ∑

(xi−x̄)2


◮ Varianz / Standardfehler umso kleiner, je größer die SAQx◮ Präzisere Schätzungen mit größeren Stichproben◮ Präzisere Schätzungen, wenn mehr Varianz von x (mehrInformation)







V(b1) =σ

2ǫ∑

(xi−x̄)2


◮ Varianz / Standardfehler umso kleiner, je größer die SAQx◮ Präzisere Schätzungen mit größeren Stichproben◮ Präzisere Schätzungen, wenn mehr Varianz von x (mehrInformation)

◮ Keine Schätzung möglich, wenn x nicht variiert






◮ Formel für die Varianz der Schätzungen im multivariaten Fall:







V(bj) = 11−R2j×

σ2ǫ∑n

i=1(xij−x̄j)2 mit j , 0







V(bj) = 11−R2j×

σ2ǫ∑n


◮ beziehungsweise in Matrix-SchreibweiseV = σ2ǫ× (X′X)−1







V(bj) = 11−R2j×

σ2ǫ∑n



◮ V ist die Varianz-Kovarianz-Matrix, Quadrate derStandardfehler auf der Hauptdiagonalen







V(bj) = 11−R2j×

σ2ǫ∑n




◮ Was bedeutet das in Worten?







V(bj) = 11−R2j×

σ2ǫ∑n




◮ Was bedeutet das in Worten?◮ Wenn ein xmit allen anderen x unkorreliert ist, bleibt alles wiezuvor







V(bj) = 11−R2j×

σ2ǫ∑n





◮ Ansonsten Standardfehler umso größer, je enger lineareZusammenhänge zwischen den x







V(bj) = 11−R2j×

σ2ǫ∑n





◮ Ansonsten Standardfehler umso größer, je enger lineareZusammenhänge zwischen den x

◮ Lineare Abhängigkeiten machen Schätzungen unpräzise, imExtremfall sogar unmöglich





Welche Eigenschaften sind wichtig?

◮ Häufig werden drei Eigenschaften von Schätzverfahrenbetrachtet:






◮ Häufig werden drei Eigenschaften von Schätzverfahrenbetrachtet:1. (Asymptotische) Verzerrung (Bias)






◮ Häufig werden drei Eigenschaften von Schätzverfahrenbetrachtet:1. (Asymptotische) Verzerrung (Bias)2. (Asymptotische) Effizienz






◮ Häufig werden drei Eigenschaften von Schätzverfahrenbetrachtet:1. (Asymptotische) Verzerrung (Bias)2. (Asymptotische) Effizienz3. Konsistenz






◮ Häufig werden drei Eigenschaften von Schätzverfahrenbetrachtet:1. (Asymptotische) Verzerrung (Bias)2. (Asymptotische) Effizienz3. Konsistenz4. (Suffizienz)





Was bedeutet Verzerrung (Bias)?

◮ Der Mittelwert der Stichprobenkennwertverteilung (Verteilungder b . . .







◮ soll mit dem wahren Parameter β zusammenfallen







◮ soll mit dem wahren Parameter β zusammenfallen◮ Wichtig, aber nicht um jeden Preis: Was nützt geringer bias,wenn Varianz der Schätzungen sehr hoch ist?








◮ Eventuell ist ein geringer bias ein akzeptabler Preis für kleineVarianz









◮ Mean Squared Error (MSE) = (bias)2 + V









◮ Mean Squared Error (MSE) = (bias)2 + V◮ Asymptotisch = auf große Stichproben bezogen; asymptotischunverzerrt = bias geht gegen null, wenn Stichprobenumfanggegen unendlich geht









◮ Mean Squared Error (MSE) = (bias)2 + V◮ Asymptotisch = auf große Stichproben bezogen; asymptotischunverzerrt = bias geht gegen null, wenn Stichprobenumfanggegen unendlich geht

◮ Generelles Problem: σ2 in der Regel unbekannt, muß ausResiduen (e) geschätzt werden





Was bedeutet Effizienz?

◮ Relatives Konzept






◮ Relatives Konzept◮ Bezieht sich auf Varianz der Schätzungen






◮ Relatives Konzept◮ Bezieht sich auf Varianz der Schätzungen◮ Unter allen unverzerrten Schätzern ist der mit der geringstenVarianz der effizienteste






◮ Relatives Konzept◮ Bezieht sich auf Varianz der Schätzungen◮ Unter allen unverzerrten Schätzern ist der mit der geringstenVarianz der effizienteste

◮ Effizienz ist der Kehrwert des MSE





Was bedeutet Konsistenz?

◮ β̂n ist ein Schätzer für β bei einem Stichprobenumfang von n






◮ β̂n ist ein Schätzer für β bei einem Stichprobenumfang von n◮ Konsistenz heißt: Wenn ich für n immer größere Werte wähle . . .






◮ β̂n ist ein Schätzer für β bei einem Stichprobenumfang von n◮ Konsistenz heißt: Wenn ich für n immer größere Werte wähle . . .◮ kann ich die Wahrscheinlichkeit, daß β̂n um mehr als einentrivialen Betrag von β abweicht . . .







◮ beliebig nahe an null heranbringen







◮ beliebig nahe an null heranbringen◮ Wenn bias und Varianz der Schätzung bei steigender Fallzahlgegen null streben, ist das eine hinreichende Bedingung fürKonsistenz




Welche Annahmen treffen wir?

◮ OLS ist unverzerrter und effizienter Schätzer, wenn eine Reihevon Annahmen erfüllt ist:






1. Die unabhängige Variable ist intervallskaliert und unbeschränkt.Variablen werden ohne Fehler gemessen







2. Alle unabhängigen Variablen haben Varianz







2. Alle unabhängigen Variablen haben Varianz3. Keine perfekte Multikollineariät







2. Alle unabhängigen Variablen haben Varianz3. Keine perfekte Multikollineariät4. Für jede mögliche Kombination der unabhängigen Variablen ist

der (konditionale) Mittelwert von ǫ = 0








der (konditionale) Mittelwert von ǫ = 05. Keine Kovarianz zwischen xi und ǫ








der (konditionale) Mittelwert von ǫ = 05. Keine Kovarianz zwischen xi und ǫ6. Für jedes beliebige Paar von Beobachtungen i und h sind ǫi und

ǫh unkorreliert (keine Autokorrelation)









ǫh unkorreliert (keine Autokorrelation)7. Für jede mögliche Kombination der unabhängigen Variablen ist

die (konditionale) Varianz von ǫ gleich σ2 und damit konstant(Homoskedaszität)









ǫh unkorreliert (keine Autokorrelation)7. Für jede mögliche Kombination der unabhängigen Variablen ist

die (konditionale) Varianz von ǫ gleich σ2 und damit konstant(Homoskedaszität)

8. Für jede mögliche Kombination der unabhängigen Variablen istǫ normalverteilt




Was bedeutet „i.i.d.“?

◮ Bedingungen 6 und 7 werden auch als „independently andindentically distributed“ (i.i.d.) bezeichnet






◮ Wie können zwei einzelne Werte eine (bzw. zwei) Verteilungenhaben?

◮ Wie können zwei einzelne Werte („Fehler“, ǫ) eineKorrelation/Kovarianz haben?








◮ Z.B. Fall 1 und Fall 2◮ Stichprobenziehung wiederholt ➔ andere Fälle bzw.◮ Sozialer Prozeß läuft weiter ➔ neue Fälle◮ Jeweils mit einem zufälligen Einfluß, der aus einer separatenStandardverteilung gezogen wird








◮ Z.B. Fall 1 und Fall 2◮ Stichprobenziehung wiederholt ➔ andere Fälle bzw.◮ Sozialer Prozeß läuft weiter ➔ neue Fälle◮ Jeweils mit einem zufälligen Einfluß, der aus einer separatenStandardverteilung gezogen wird

◮ Diese Verteilungen sind unabhängig (keine Kovarianz) und habenidentische Varianz




i.i.d.

Dichte

ǫ1ǫ2

ǫ̂1 = ǫ̂2 = 0, V(ǫ1) = V(ǫ2) = 1, cov(ǫ1, ǫ2) = 0Regressionsmodelle für Politikwissenschaftler Probleme im linearen Modell



Heteroskedastizität

Dichte

ǫ1ǫ2

ǫ̂1 = ǫ̂2 = 0, V(ǫ1) = 1, V(ǫ2) = 3, cov(ǫ1, ǫ2) = 0Regressionsmodelle für Politikwissenschaftler Probleme im linearen Modell



„Fehler“ (ǫ) nicht unabhängig

Dichte

ǫ1ǫ2

ǫ̂1 = ǫ̂2 = 0, V(ǫ1) = V(ǫ2) = 1, cov(ǫ1, ǫ2) = 0.9Regressionsmodelle für Politikwissenschaftler Probleme im linearen Modell



Was passiert, wenn Annahme 1 nicht erfüllt ist?

„Die unabhängige Variable ist intervallskaliert und unbeschränkt.Variablen werden ohne Fehler gemessen“◮ Abhängige Variable hat häufig wenig diskrete Ausprägungen(Ratingskalen)






◮ Erwartete Werte außerhalb des gültigen Wertebereichs






◮ Erwartete Werte außerhalb des gültigen Wertebereichs◮ Annahme eines linearen Zusammenhangs, obwohl tatsächlichnicht-linear ➔ Modelle für ordinale Daten







◮ In der Literatur wenig diskutiert, häufig wird angenommen, daßModell relativ robust ist








◮ Alle sozialwissenschaftlichen Variablen fehlerbehaftet








◮ Alle sozialwissenschaftlichen Variablen fehlerbehaftet◮ Relativ unproblematisch, wenn Fehler voneinander unabhängig








◮ Alle sozialwissenschaftlichen Variablen fehlerbehaftet◮ Relativ unproblematisch, wenn Fehler voneinander unabhängig◮ Zusätzliche Unsicherheit, bei großen Stichproben kein großesProblem









◮ Fehler bei ywird von ǫ absorbiert, OLS weniger effizient









◮ Fehler bei ywird von ǫ absorbiert, OLS weniger effizient◮ Fehler bei x schwächt im bivariaten Fall Zusammenhang ab,multivariat auf jeden Fall bias









◮ Fehler bei ywird von ǫ absorbiert, OLS weniger effizient◮ Fehler bei x schwächt im bivariaten Fall Zusammenhang ab,multivariat auf jeden Fall bias

◮ Kann z. B. mit Strukturgleichungsmodellen explizit modelliertwerdenRegressionsmodelle für Politikwissenschaftler Probleme im linearen Modell




„ Alle unabhängigen Variablen haben Varianz“◮ Inhaltlich: Falls die betreffende Variable einen Effekt hat, wirddieser nicht sichtbar





„ Alle unabhängigen Variablen haben Varianz“◮ Inhaltlich: Falls die betreffende Variable einen Effekt hat, wirddieser nicht sichtbar

◮ Mathematisch: Division durch 0, Standardfehler nicht definiert





„ Keine perfekte Multikollineariät“◮ Oben diskutiert, keine eindeutige Lösung für Gleichungssystem





„ Keine perfekte Multikollineariät“◮ Oben diskutiert, keine eindeutige Lösung für Gleichungssystem◮ Bei nicht perfekter Kollinearität große Standardfehler





„ Keine perfekte Multikollineariät“◮ Oben diskutiert, keine eindeutige Lösung für Gleichungssystem◮ Bei nicht perfekter Kollinearität große Standardfehler◮ Eventuell numerische Instabilität





„ Keine perfekte Multikollineariät“◮ Oben diskutiert, keine eindeutige Lösung für Gleichungssystem◮ Bei nicht perfekter Kollinearität große Standardfehler◮ Eventuell numerische Instabilität◮ Eng korrelierte Variablen durch Index oder Faktor ersetzen





„ Keine perfekte Multikollineariät“◮ Oben diskutiert, keine eindeutige Lösung für Gleichungssystem◮ Bei nicht perfekter Kollinearität große Standardfehler◮ Eventuell numerische Instabilität◮ Eng korrelierte Variablen durch Index oder Faktor ersetzen◮ Möglichst keine überflüssigen Variablen im Modell, vor allemwenn Fallzahl klein, da OLS ansonsten ineffizient






◮ Problem?






◮ Problem? Möglichst alle relevanten Variablen müssen in dasModell






◮ Problem? Möglichst alle relevanten Variablen müssen in dasModell

◮ Das sind Variablen, die Einfluß haben, Einfluß haben könnten, inBeziehung mit anderen relevanten Variablen stehen




Warum müssen alle relevanten Variablen ins Modell?

◮ Wenn x1 und x2 unkorreliert sind, ist Schätzung für β1unverzerrt, auch wenn x2 nicht berücksichtigt wird






◮ Aber: Wenn Korrelation zwischen x1 und x2 ungleich null, sindSchätzungen verzerrt (Drittvariablenproblem)







◮ Kein Probem bei echten Experimenten mit Randomisierung(warum?)







◮ Kein Probem bei echten Experimenten mit Randomisierung(warum?)

◮ Ansonsten: Möglichst viele mögliche unabhängige Variablenberücksichtigen?!?





„ Für jede mögliche Kombination der unabhängigen Variablen ist der(konditionale) Mittelwert von ǫ = 0“◮ Wird u. a. verletzt, wenn Stichprobe bei Auswahl verzerrt wird(Beispiel im Text)






◮ Falls Mittelwert von ǫ für alle Kombinationen um einenkonstanten Betrag größer oder kleiner als null, wird Differenzvon Konstante absorbiert ➔ verzerrte Schätzung für Konstante






◮ Falls Mittelwert von ǫ für alle Kombinationen um einenkonstanten Betrag größer oder kleiner als null, wird Differenzvon Konstante absorbiert ➔ verzerrte Schätzung für Konstante

◮ Ansonsten Linearitätsannahme verletzt, relevante Variableausgelassen beziehungsweise Korrelation zwischen ǫ und x





„ Für jede mögliche Kombination der unabh�

probleme im linearen modell oder was schiefgehen kann geht ......was tun mit kategorialen...

Documents