ein Imprint von Pearson EducationM�nchen · Boston · San Francisco · Harlow, England
Don Mills, Ontario · Sydney · Mexico CityMadrid · Amsterdam
Einf�hrung in die�konometrie
Peter Hackl
Lineare Regression:Sch�tzverfahren
33.1 Eigenschaften der OLS-Sch�tzer . . . . . . . . . . . . . . . . . . 44
3.1.1 Erwartungstreue von b . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.1.2 Effizienz von b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.1.3 Konsistenz von b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Beispiel: Einfache Regression . . . . . . . . . . . . . . . . . . . . . 48
3.3 ML-Sch�tzer der Regressionskoeffizienten . . . . . . . 50
3.4 Eigenschaften der ML-Sch�tzer . . . . . . . . . . . . . . . . . . . 513.4.1 Eigenschaften von ~� . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.4.2 Eigenschaften von ~�2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5 Wahrscheinlichkeitsverteilung von b . . . . . . . . . . . . . 52
3.A Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.A.1 Empirische Anwendungen . . . . . . . . . . . . . . . . . . . . . . . 533.A.2 Allgemeine Aufgaben und Probleme . . . . . . . . . . . . . . . . 54
Anhang 3.A Erwartungstreue des OLS-Sch�tzers . . . . . 54
Anhang 3.B Das Gauss-Markov-Theorem . . . . . . . . . . . . . 55
�B
ER
BL
IC
K
In Abschnitt 2.2 wurde die OLS-Sch�tzung als Verfahren vorgestellt, zu den Regressions-koeffizienten eines linearen Regressionsmodells durch Anpassen der Regressionsgeraden aneinen Datensatz entsprechende Zahlenwerte zu finden. Die OLS-Sch�tzung ist nicht dieeinzige Mçglichkeit, zu Sch�tzern f�r die Parameter eines Regressionsmodells zu kommen.Die verschiedenen Sch�tzverfahren unterscheiden sich (i) in den Voraussetzungen ihrerAnwendbarkeit, (ii) in den Eigenschaften der Sch�tzer und (iii) in weiteren Punkten wieetwa dem zu leistenden Aufwand.
Die OLS-Sch�tzung hat zwei Vorteile: (i) Sie kommt mit minimalen Annahmen aus, wobeisich diese auf die Regressoren und auf die Stçrgrçßen beziehen, und (ii) die mit dieserMethode erhaltenen Sch�tzer haben, wie wir sehen werden, eine hervorragende Qualit�t:Die OLS-Sch�tzer sind beste lineare erwartungstreue und konsistente Sch�tzer. Aufdiese Eigenschaften und ihre Bedeutung gehen die Abschnitte 3.1 und 3.2 ein; die Detailszum Gauss-Markov-Theorem bringt der Anhang B des Kapitels. Leider ist die (exakte)Wahrscheinlichkeitsverteilung der OLS-Sch�tzer nicht bekannt; ihre Kenntnis ist aberVoraussetzung f�r das Anwenden von Verfahren des statistischen Schließens wie dasTesten von Nullhypothesen �ber den wahren Wert eines Regressionskoeffizienten oder dasBerechnen eines Konfidenzintervalls.
Alternative Konzepte f�r das Sch�tzen der Parameter eines Regressionsmodells sind
n die Maximum Likelihood (ML)-Sch�tzung, deren Anwendung auf das Sch�tzen derRegressionsparameter die Abschnitte 3.3 und 3.4 bringen,
n und die Hilfsvariablen-Sch�tzung, die in Kapitel 15 behandelt wird.
Die Idee der ML-Sch�tzung ist es, f�r die Parameter solche Werte als Sch�tzer zu nehmen,dass die Wahrscheinlichkeit maximal wird, genau die erhaltene Stichprobe zu realisieren,auf deren Basis die Sch�tzung erfolgt. �blicherweise geht man bei der Herleitung derML-Sch�tzer f�r die Parameter des Regressionsmodells davon aus, dass die Stçrgrçßennormalverteilt sind, wie das auch im Abschnitt 3.3 geschieht. Die Eigenschaften derML-Sch�tzer sind Gegenstand des Abschnitts 3.4. Schließlich werden wir in Abschnitt 3.5die Verteilung der OLS- und ML-Sch�tzer der Regressionskoeffizienten behandeln, wobei wirauf zwei Situationen eingehen: (i) Den Fall, dass uns eine f�r das Verwenden derasymptotischen Verteilung ausreichend große Datenmenge zur Verf�gung steht, und(ii) den Fall, dass wir die Normalverteilung der Stçrgrçßen unterstellen.
3.1 Eigenschaften der OLS-Sch�tzerDie OLS-Sch�tzer b des k-Vektors b der Regressionskoeffizienten des Regressionsmodells
y ¼ Xb þ u
haben wir in Abschnitt 2.2 abgeleitet. Entsprechend Gleichung (2.2.8) ergeben sich dieOLS-Sch�tzer zu
b ¼ ðX0XÞ�1X0y (3.1.1)
¼ b þ ðX0XÞ�1X0u :
EIGENSCHAFTEN DER OLS-SCH�TZER
44
3
Die Komponenten von b kçnnen wir also als Linearkombinationen der Werte Yt derabh�ngigen Variablen oder auch der Stçrgrçßen ut, t ¼ 1; . . . ;n schreiben.
Sch�tzer sind generell Zufallsvariable. Die G�te eines Sch�tzers ist durch seineWahrscheinlichkeitsverteilung oder deren Kenngrçßen bestimmt. W�nschenswerte Ei-genschaften eines Sch�tzers � f�r den Parameter � sind (siehe dazu auch den AnhangD.2):
1. Erwartungstreue: Der Erwartungswert Ef�g von � ist gleich dem wahren Wert von �:
Ef�g ¼ � :
W�rden wir wiederholt und unabh�ngig voneinander Datens�tze (gleichen Umfangs)zum Sch�tzen von � besorgen und � berechnen, so bedeutet Erwartungstreue, dass derDurchschnitt dieser Sch�tzer gleich dem wahren Wert � ist. Die Differenz Ef�g � �,der systematische Fehler oder so genannte Bias (im Englischen bias) von �, hat f�reinen erwartungstreuen Sch�tzer den Wert Null.
2. Effizienz: Wenn wir den Sch�tzer � mit einem beliebigen anderen Sch�tzer �� f�r �vergleichen, so sagen wir, � ist effizienter als ��, wenn f�r die Varianzen gilt:
Varf�g < Varf��g ;
der Sch�tzer � heißt effizient, wenn seine Varianz geringer ist als die aller anderen(aus der Klasse der in den Vergleich einbezogenen) Sch�tzer. Genau genommen giltdie so definierte Eigenschaft f�r erwartungstreue Sch�tzer. Die allgemeinere Idee ist,dass der effiziente Sch�tzer die in den Daten zur Verf�gung stehende Informationbesser n�tzt als die anderen Sch�tzer. Wir sagen auch, � ist (in der Klasse deruntersuchten Sch�tzer) der beste Sch�tzer.
3. Konsistenz: Diese Eigenschaft bezieht sich auf das Verhalten des Sch�tzers � beiwachsendem Stichprobenumfang. Um den Stichprobenumfang in der Darstellung zuber�cksichtigen, indizieren wir den Sch�tzer entsprechend: Wir schreiben �n, wobeider Index n des Sch�tzers f�r den Stichprobenumfang steht. �n ist ein konsistenterSch�tzer von �, wenn die Wahrscheinlichkeitsverteilung von �n bei n!1 in �
kollabiert, also limn!1 Pðj�n � �j � "Þ ¼ 0; wir schreiben daf�r
plimn!1
�n ¼ � :
Das ist beispielsweise der Fall, wenn die Varianz Varf�ng eines erwartungstreuenSch�tzers �n mit wachsendem n gegen Null geht; wir sprechen dann von Konvergenzim quadratischen Mittel.
Wir kçnnen nun �berlegen, ob und unter welchen Bedingungen die OLS-Sch�tzer b aus(3.1.1) diese Eigenschaften besitzen. F�r die Verteilung der Stçrgrçßen u soll Efutg ¼ 0f�r alle t gelten, eine Eigenschaft, die wir als Gleichung (2.1.3) bereits in Abschnitt 2.1eingef�hrt haben.
Lineare Regression: Sch�tzverfahren
45
3.1.1 Erwartungstreue von bWenn wir davon ausgehen, dass die Elemente der Matrix X der Regressoren nicht-stochastische Grçßen sind, so erhalten wir f�r EfðX0XÞ�1X0ug ¼ ðX0XÞ�1X0Efug. Dannsind die OLS-Sch�tzer b erwartungstreue Sch�tzer der Regressionskoeffizienten b,
Efbg ¼ b þ EfðX0XÞ�1X0ug ¼ b ;
wenn Efutg ¼ 0 f�r alle t.Die meisten çkonomischen Variablen sind allerdings als stochastische Grçßen anzu-
sehen, so dass diese Argumentation nicht gerechtfertigt werden kann. Die Aussage giltaber weiterhin, wenn wir sie unter der Bedingung der analysierten Daten machen. Dabeigehen wir davon aus, dass f�r alle t ¼ 1; . . . ;n die Annahme EfutjXg ¼ 0 gilt. DieAbleitung der Beziehung Efbg ¼ b wird im Anhang A dieses Kapitels gezeigt. DieNotwendigkeit, den Erwartungswert der ut zu bedingen, werden wir in Abschnitt 4.4diskutieren.
3.1.2 Effizienz von bF�r aþAu mit einem beliebigen reellen Vektor a und einer beliebigen reellen Matrix Agilt VarfaþAug ¼ AVarfugA0. Damit erhalten wir f�r die Kovarianzmatrix der OLS-Sch�tzer
Varfbg ¼ Varfb þ ðX0XÞ�1X0ug¼ ðX0XÞ�1X0VarfugXðX0XÞ�1 :
Wenn wir die Annahme
Varfug ¼ �2I (3.1.2)
treffen, so ergibt sich ein sehr einfacher Ausdruck f�r die Kovarianzmatrix von b:
Varfbg ¼ �2ðX0XÞ�1 : (3.1.3)
Zum besseren Verst�ndnis werden wir in Abschnitt 3.2 die Varianz des Sch�tzers f�r denAnstieg einer einfachen Regression anschreiben und diskutieren.
Die Annahme (3.1.2) bedeutet zweierlei:
1. Da f�r die Diagonalelemente der Kovarianzmatrix Varfug gilt:
Varfutg ¼ �2; t ¼ 1; . . . ;n ;
haben alle Stçrgrçßen die gleiche Varianz; wir sprechen von der Homoskedastizit�tder Stçrgrçßen. Das Nichtzutreffen dieser Eigenschaft nennen wir Heteroskedastizi-t�t.
2. Die Eigenschaft, die sich aus den Nicht-Diagonalelementen ergibt:
Covfut;usg ¼ 0; t; s ¼ 1; . . . ;n; t 6¼ s ;
bedeutet die Unkorreliertheit der Stçrgrçßen. Bei Nichtzutreffen dieser Eigenschaftsprechen wir von autokorrelierten oder seriell korrelierten Stçrgrçßen.
EIGENSCHAFTEN DER OLS-SCH�TZER
46
3
Im Zusammenhang mit Aufgaben der Regressionsanalyse wird standardm�ßig die An-nahme (3.1.2) getroffen: Die Stçrgrçßen werden als homoskedast und unkorreliertunterstellt. Bei çkonometrischen Analysen muss – u.a. wegen des Zeitreihencharaktersder analysierten Daten – mit korrelierten Stçrgrçßen gerechnet werden. Im Rahmen desdiagnostischen �berpr�fens der erhaltenen Regressionsbeziehung wird jedenfalls dasZutreffen dieser Annahme zu �berpr�fen sein; bei Benutzern von çkonometrischenProgramm-Paketen wird der Durbin-Watson-Test entsprechend großes Interesse finden.Wenn diagnostische Tests die Korreliertheit oder die Heteroskedastizit�t der Stçrgrçßenanzeigen, m�ssen alternative Verfahren in Erw�gung gezogen werden. Auch mit derAnnahme (3.1.2) werden wir uns in Abschnitt 4.4 befassen.
Wenn wir die Annahme (3.1.2) der Homoskedastizit�t und Unkorreliertheit derStçrgrçßen treffen, so besagt das Gauß-Markov-Theorem, dass die OLS-Sch�tzer unterallen linearen, erwartungstreuen Sch�tzern jene mit der minimalen Varianz sind; sie sindalso beste lineare erwartungstreue Sch�tzer oder BLU-Sch�tzer (best linear unbiased).Das Gauß-Markov-Theorem wird im Anhang B dieses Kapitels behandelt.
3.1.3 Konsistenz von bDa uns das Verhalten der OLS-Sch�tzer b f�r n!1 interessiert, indizieren wir mit demUmfang n der verf�gbaren Beobachtungen und schreiben f�r den Sch�tzer
bn ¼ b þ X0nXn
n
� ��1 X0nun
n
� �
und
Varfbng ¼�2
n1n
X0nXn
� ��1
;
die Indizes von bn und Xn bedeuten, dass wir diese Grçßen auf Basis eines Datensatzesvom Umfang n ermittelt haben. Eine in diesem Fall einfache Mçglichkeit, die Konsistenzvon bn nachzuweisen, besteht darin, die Konvergenz im quadratischen Mittel zu zeigen:Sie impliziert das Kollabieren der Wahrscheinlichkeitsverteilung von bn an der Stelle b,also Konsistenz. Wir setzen voraus, dass es zu Xn eine positiv definite oder regul�reMatrix Q gibt, so dass
limn!1
1n
X0nXn ¼ Q : (3.1.4)
Dann erhalten wir
limn!1
Varfbng ¼ limn!1
�2
nlim
n!1
1n
X0nXn
� ��1
¼ limn!1
�2
nQ�1 ¼ 0 :
Der Erwartungswert von bn ist unabh�ngig von n gleich b, die Kovarianzmatrix von bn
geht asymptotisch in eine Nullmatrix �ber. Bei Zutreffen der Annahme (3.1.4) gilt somit,dass
plimn!1
bn ¼ b ; (3.1.5)
die OLS-Sch�tzer sind also konsistente Sch�tzer, wenn die zweiten Momente dererkl�renden Variablen die durch (3.1.4) definierte Eigenschaft haben.
Lineare Regression: Sch�tzverfahren
47
Wir werden die Bedeutung der Annahme (3.1.4) und ihre Relevanz f�r çkonometrischeModellierung in Abschnitt 4.3 behandeln.
3.2 Beispiel: Einfache RegressionDie OLS-Sch�tzer f�r die Regressionskoeffizienten von
Yt ¼ �þ �Xt þ ut
haben sich ergeben [siehe (2.2.4) und (2.2.5)] zu
b ¼ sxy
s2x¼P
tðXt � �XÞðYt � �YÞP
tðXt � �XÞ2;
a ¼ �Y � b �X :
Aus dem in Abschnitt 3.1 Gesagten wissen wir, dass a und b erwartungstreue Sch�tzervon � und � sind, wenn wir annehmen kçnnen, dass Efutg ¼ 0 f�r alle t.
Die G�te der Sch�tzer wird durch ihre Standardfehler charakterisiert, die Standard-abweichungen sb und sa der OLS-Sch�tzer b und a. Wir erhalten sie als Wurzeln aus denDiagonalelementen der Matrix �2ðX0XÞ�1 [vergleiche (3.1.3)], wenn wir voraussetzen,dass die Stçrgrçßen homoskedast und unkorreliert sind. F�r die Matrix X der Regresso-ren erhalten wir
X ¼1 X1
..
. ...
1 Xn
0B@
1CA :
Damit ergibt sich
X0X ¼ n n �Xn �X
Pt X2
t
� �:
Invertieren von X0X liefert die Matrix
ðX0XÞ�1 ¼ 1n2s2
x
Pt X2
t �n �X�n �X n
� �;
wobei s2x die Varianz der Xt ist. Die Varianzen der OLS-Sch�tzer erhalten wir als die
Diagonalelemente
Varfbg ¼ �2½ðX0XÞ�1�22 ¼�2
ns2x; (3.2.1)
Varfag ¼ �2½ðX0XÞ�1�11 ¼�2P
t X2t
n2s2x
: (3.2.2)
Die Standardfehler sb und sa sind die Wurzeln aus diesen Ausdr�cken. Die Sch�tzer aund b sind umso genauer, d.h. sie haben umso kleinere Standardfehler,
n je grçßer n
n je grçßer sx
BEISPIEL: EINFACHE REGRESSION
48
3
sind. Wesentlich ist, dass die Standardfehler sb und sa von der Standardabweichung sx
der Beobachtungen X der Regressoren und damit vom „Design“ der Beobachtungen Xt
abh�ngen! Je grçßer der Bereich der X-Werte ist, den die Beobachtungen Xt abdecken,umso grçßer ist die Varianz s2
x und umso genauer sind die OLS-Sch�tzer a und b. Wie inAbschnitt 3.1 ausgef�hrt, sind die OLS-Sch�tzer a und b unter allen linearen, erwar-tungstreuen Sch�tzern jene mit den minimalen Varianzen und damit die besten Sch�tzer.
Die Erwartungswerte von a und b sind – unabh�ngig von n – gleich � und �. Wie wirgesehen haben, werden die Standardfehler sb und sa bei wachsendem Umfang derverf�gbaren Daten beliebig klein und gehen gegen Null f�r n!1. Die Verteilung derSch�tzer a und b kollabiert in � und �, die Sch�tzer a und b sind konsistent.
Wie in Abschnitt 3.1 ausgef�hrt, ist Voraussetzung der Konsistenz, dass die Matrix
Q ¼ limn!1
1n
X 0nXn ¼ limn!1
1 �X�X 1
n
Pt X2
t
� �
regul�r ist; die Matrix Xn der Regressoren ist hier wie in Abschnitt 3.1 mit dem Umfangder verf�gbaren Daten indiziert. Das l�uft (in der hier behandelten Situation) daraufhinaus, dass das durchschnittliche Quadrat ð
Pt X2
t Þ=n der f�r Xt beobachteten Werteauch bei ins Unendliche gehendem Datenumfang endlich bleibt.
Beispiel 3.1 Einkommen und Konsum
F�r die Daten aus der AWM-Datenbasis, 1970:1 bis 2002:4, die dem Beispiel 2.1zugrunde liegen, haben wir in Beispiel 2.2 die Regressionsbeziehung
C ¼ 0:011þ 0:747 Y
erhalten; dabei steht C f�r die j�hrliche Zuwachsrate des realen Privaten KonsumsPCR und Y f�r die j�hrliche Zuwachsrate des realen Verf�gbaren Einkommens derHaushalte PYR. Den Standardfehler sb der marginalen Konsumneigung erhaltenwir nach (3.2.1) durch Einsetzen in sb ¼ �=ð
ffiffiffinp
sxÞ. F�r die Standardabweichung �der Stçrgrçßen verwenden wir den Sch�tzer s ¼ 0:0079 (siehe Abbildung 2.2); dieStandardabweichung der Einkommen Y betr�gt 0.0168. Damit ergibt sich
sb ¼0:0079
ðffiffiffiffiffiffiffiffi128p
Þ ð0:0168Þ¼ 0:0418 :
Mit weiter wachsender Anzahl n von Beobachtungen w�rde sich der Standard-fehler sb weiter verringern. Da der Regressor, das Einkommen Y , einen Trend zuimmer grçßeren Werten hat, was dem stetigen Wirtschaftswachstum w�hrend desBeobachtungszeitraumes entspricht, wird auch die Standardabweichung sy derEinkommen Y immer grçßer werden. Die Standardabweichung � der Stçrgrçßensollte sich nicht wesentlich �ndern. Daher kçnnen wir erwarten, dass sich derStandardfehler sb mit wachsendem n weiter verringert.
Lineare Regression: Sch�tzverfahren
49
Enth�lt der Regressor einer einfachen Regression einen Trend, so wird das entsprechendeElement der Matrix X 0nXn beliebig groß. Die Folge ist, dass X 0nXn nicht gegen eine regul�reMatrix konvergiert, und dass der Standardfehler sb noch rascher gegen Null geht, als esbei einer regul�ren Matrix Q der Fall w�re. Die Forderung nach einer regul�ren Matrix Qist offensichtlich zu restriktiv, wenn wir es mit einem trendbehafteten Regressor zu tunhaben, wie es das Beispiel 3.1 illustriert. Weniger restriktive Annahmen sind die sogenannten Grenander-Bedingungen.
3.3 ML-Sch�tzer der RegressionskoeffizientenDie Vorz�ge der OLS-Sch�tzung sind,
n dass wir nur minimale Annahmen �ber die Stçrgrçßen treffen m�ssen, und
n dass die mit dieser Methode erhaltenen Sch�tzer beste lineare erwartungstreue undkonsistente Sch�tzer sind, also hervorragende Eigenschaften haben.
Die Wahrscheinlichkeitsverteilung der OLS-Sch�tzer kennen wir allerdings nicht. Damitist die Anwendung von Verfahren des statistischen Schließens wie das Testen vonNullhypothesen �ber den wahren Wert eines Regressionskoeffizienten oder das Berech-nen eines Konfidenzintervalls nicht ohne weiteres mçglich. Wir werden auf die Wahr-scheinlichkeitsverteilung der OLS-Sch�tzer in Abschnitt 3.5 zur�ckkommen.
Ein alternatives Konzept f�r das Sch�tzen der Parameter eines Regressionsmodells istdie Maximum Likelihood (ML)-Sch�tzung. Die Idee dieses Verfahrens ist es, f�r dieParameter solche Werte als Sch�tzer zu nehmen, f�r die die Wahrscheinlichkeit maximalwird, genau die erhaltene Stichprobe zu realisieren, auf deren Basis die Sch�tzungerfolgt. Voraussetzung der ML-Sch�tzung ist, dass wir die Verteilung der Stçrgrçßenkennen oder �ber sie eine realistische Annahme treffen, damit wir die Wahrscheinlich-keit f�r die erhaltene Stichprobe anschreiben kçnnen. Zur ML-Sch�tzung siehe auch denAnhang D.3.
Wir gehen davon aus, dass die Stçrgrçßen des Modells y ¼ Xb þ u der Normalvertei-lung
u � Nð0; �2IÞ
folgen. Damit legen wir nicht nur die Form der Verteilung der Stçrgrçßen fest, sonderntreffen dar�ber hinaus wiederum die Annahmen (2.1.3) und (3.1.2), d.h. wir setzenEfutg ¼ 0 und insbesondere homoskedaste und unkorrelierte Stçrgrçßen voraus. F�r diegemeinsame Dichtefunktion der Stçrgrçßen schreiben wir
pðuÞ ¼ ð2��2Þ�n=2 exp � 12�2 u0u
� �:
Durch Einsetzen von u ¼ y� Xb erhalten wir die gemeinsame Dichtefunktion derBeobachtungen fðx0t;YtÞ; t ¼ 1; . . . ;ng
pðy; X; b; �2Þ ¼ ð2��2Þ�n=2 exp � 12�2 ðy� XbÞ0ðy� XbÞ
� �:
ML-SCH�TZER DER REGRESSIONSKOEFFIZIENTEN
50
3
Die Likelihood-Funktion interpretiert diese Wahrscheinlichkeitsdichte als Funktion derunbekannten Parameter b und �2 f�r die gegebenen Beobachtungen:
Lðb; �2; y;XÞ ¼ ð2��2Þ�n=2 exp � 12�2 ðy� XbÞ0ðy� XbÞ
� �:
Nach dem ML-Prinzip suchen wir jene Werte ~b und ~�2 als ML-Sch�tzer unsererParameter, f�r welche die Likelihood-Funktion maximiert wird. Wegen der Monotonit�tder logarithmischen Funktion haben L und die logarithmierte Likelihood-Funktion
log L ¼ ‘ðb; �2Þ ¼ � n2
log ð2�Þ � n2
log �2 � 12�2 ðy� XbÞ0ðy� XbÞ
die gleichen Extremstellen; die logarithmierte Likelihood-Funktion ‘ ist aber einfacher zubehandeln. Zum Ableiten der ML-Sch�tzer setzen wir die ersten Ableitungen derlogarithmierten Likelihood-Funktion gleich Null. Mit
SðbÞ ¼ ðy� XbÞ0ðy� XbÞ (3.3.1)
ergeben sich die Ableitungen zu
@‘
@b¼ � @SðbÞ
@b1
2�2 ;
@‘
@�2 ¼ �n
2�2 þSðbÞ2�4 :
Die Likelihood-Gleichungen lauten
ðiÞ @Sð~bÞ@b
¼ 2X0y� 2X0X~b ¼ 0 ;
ðiiÞ ~�2 ¼ Sð~bÞn¼ 1
nðy� X~bÞ0ðy� X~bÞ :
Als ML-Sch�tzer erhalten wir
~b ¼ ðX0XÞ�1X0y ; (3.3.2)
~�2 ¼ 1nðy� X~bÞ0ðy� X~bÞ ¼ 1
ne0e ; (3.3.3)
mit den Residuen e ¼ y� X~b ¼ y� y. Das Residuum et ist die Abweichung zwischen derBeobachtung Yt und dem Sch�tz- oder (ex post)-Prognosewert Yt ¼ x0t ~b.
Es ist zu beachten, dass uns das ML-Sch�tzverfahren nicht nur einen Sch�tzer f�r bliefert, sondern auch einen f�r die Varianz �2 der Stçrgrçßen. Einen Sch�tzer f�r �2 habenwir im Zusammenhang mit der OLS-Sch�tzung noch nicht kennen gelernt.
3.4 Eigenschaften der ML-Sch�tzerWir behandeln zuerst die Eigenschaften der ML-Sch�tzer ~b f�r die Regressionskoeffi-zienten, dann die von ~�2.
Lineare Regression: Sch�tzverfahren
51
3.4.1 Eigenschaften von ~�
Wir gehen wieder davon aus, dass f�r die Stçrgrçßen die Annahme der Normalverteilungzutrifft. Die ML-Sch�tzer ~b nach (3.3.2) stimmen – f�r normalverteilte Stçrgrçßen u – mitden OLS-Sch�tzern b �berein; siehe (3.1.1). Das ist nicht �berraschend, da sich beide ausdem Maximieren der gleichen Funktion ergeben, n�mlich der Summe der FehlerquadrateSðbÞ; siehe Gleichung (2.2.6) aus Abschnitt 2.2.
Aus der Tatsache, dass die ML-Sch�tzer ~b mit den OLS-Sch�tzern b �bereinstimmen,kçnnen wir schließen, dass die Eigenschaften der OLS-Sch�tzer, wie wir sie in Abschnitt3.1 kennen gelernt haben, auch f�r die ML-Sch�tzer ~b gelten m�ssen: Die ~b sind
n erwartungstreu,
n effizient und
n konsistent.
Aus der Theorie der ML-Sch�tzung kennen wir Eigenschaften, die sich auf das asymp-totische Verhalten beziehen und allgemeine G�ltigkeit haben; siehe dazu den AnhangD.3.2. So ist die Konsistenz von ~b eine Eigenschaft, die jeder ML-Sch�tzer hat. Dagegenist die Erwartungstreue keine Eigenschaft, die ein ML-Sch�tzer notwendigerweisebesitzt. Eine wichtige Eigenschaft von ML-Sch�tzern ist, dass sie asymptotisch normal-verteilt sind. Darauf kommen wir im folgenden Abschnitt zu sprechen.
3.4.2 Eigenschaften von ~�2
Der Sch�tzer ~�2 ¼ e0e=n nach (3.3.3) f�r die Stçrgrçßen-Varianz �2 ist ein konsistenterSch�tzer, eine Eigenschaft, die – wie oben erw�hnt – f�r alle ML-Sch�tzer gilt. Wirwerden in Abschnitt 5.2 sehen, dass ~�2 kein erwartungstreuer Sch�tzer ist. Tats�chlicherhalten wir f�r ~�2 systematisch zu große Werte; �2 wird durch ~�2 �bersch�tzt. Dersystematische Fehler wird allerdings mit wachsendem n rasch vernachl�ssigbar.
3.5 Wahrscheinlichkeitsverteilung von bDa OLS- und ML-Sch�tzer �bereinstimmen, folgen sie auch der gleichen Wahrschein-lichkeitsverteilung. ML-Sch�tzer folgen unter weitgehend allgemein g�ltigen Voraus-setzungen asymptotisch der Normalverteilung. Dementsprechend gilt f�r OLS-Sch�tzer bund die ML-Sch�tzer ~b, dass sie asymptotisch normalverteilt sind. Dabei setzen wirwiederum voraus, dass (i) die Stçrgrçßen homoskedast und unkorreliert sind, und dass(ii) eine regul�re Matrix Q zu Xn existiert, so dass limn!1ð1=nÞX0nXn ¼ Q. In derpraktischen Anwendung verwenden wir
b ¼ ~b _� N b; �2ðX0XÞ�1� �(3.5.1)
als n�herungsweise Verteilung der OLS-Sch�tzer, ersetzen also Q�1=n durch ðX0XÞ�1 und�2 durch �2 oder einen anderen Sch�tzer f�r �2.
Treffen wir – wie bei der Ableitung der ML-Sch�tzer – die Annahme
u � Nð0; �2IÞ ;
WAHRSCHEINLICHKEITSVERTEILUNG VON b
52
3
nehmen wir also an, dass die Stçrgrçßen normalverteilt sind, so sind die OLS-Sch�tzer –und die ML-Sch�tzer – f�r beliebigen Umfang n der verf�gbaren Daten und damit auchf�r endlichen Datenumfang normalverteilt:
b ¼ ~b � N ½b; �2ðX0XÞ�1� : (3.5.2)
Die Verteilung der b spielt bei der Bewertung der erhaltenen Regressionsbeziehung einegroße Rolle. So ermçglicht uns die Kenntnis der Verteilung der b beispielsweise, Null-hypothesen �ber den wahren Wert eines Regressionskoeffizienten zu testen oder Kon-fidenzintervalle f�r Regressionskoeffizienten zu berechnen.
3.A Aufgaben
3.A.1 Empirische Anwendungen
1. Die Konsumfunktion C ¼ �1 þ �2Y þ u kann auf Basis der AWM-Datenbasisgesch�tzt werden, wobei f�r C die logarithmisch transformierte Zeitreihe PCR(realer Privater Konsum) und f�r Y die logarithmisch transformierte ZeitreihePYR (reales Verf�gbares Einkommen der Haushalte) verwendet wird.
(a) Zeichnen Sie mittels EViews das Streudiagramm der Variablen C �ber derVariablen Y .
(b) Sch�tzen Sie mittels EViews die Konsumfunktion und interpretieren Sie dieSch�tzer der Regressionskoeffizienten.
(c) Analysieren Sie die Residuen: (i) Berechnen Sie die �blichen deskriptivenStatistiken (Mittelwert, Standardabweichung, Schiefe) zur Beschreibung ihrerVerteilung; (ii) zeichnen Sie ein Histogramm und ein Q-Q-Plot zur Beur-teilung, ob die Residuen normalverteilt sind; (iii) zeichnen Sie ein Streu-diagramm der Residuen �ber der Variablen C.
(d) Zeichnen Sie ein Streudiagramm der gesch�tzten Werte von C �ber C;interpretieren Sie den Wert des Bestimmtheitsmaßes R2 der angepasstenKonsumfunktion.
2. Die AWM-Datenbasis enth�lt die Zeitreihen MTR (reale Ausgaben f�r Importevon G�tern und Dienstleistungen) und FDD (Gesamte Nachfrage); in Mio EUR,Basis 1995. F�hren Sie die �bungen (a) bis (d) der Aufgabe 1 f�r die Import-gleichung MTR ¼ �þ �FDDþ u aus.
3. Der Datensatz DatS01 enth�lt die Zeitreihen, die zum Sch�tzen der Konsumfunk-tion
CRt ¼ �1 þ �2YDRt þ �3Mpt þ �4PIt þ ut
bençtigt werden. Die Variablen CR (Privater Konsum), YDR (Verf�gbares Ein-kommen der privaten Haushalte) und Mp (Privates Geldvermçgen) sind inPreisen von 1995 und in Mrd Euro angegeben; die Inflationsrate PI ist aus demKonsumdeflator PC zu berechnen.
Lineare Regression: Sch�tzverfahren
53
(a) Zeichnen Sie mittels EViews Streudiagramme der Variablen CR �ber denVariablen YDR, Mp und PI (horizontale Achse).
(b) Sch�tzen Sie mittels EViews die Konsumfunktion und interpretieren Sie dieSch�tzer der Regressionskoeffizienten.
(c) Analysieren Sie die Residuen: (i) Berechnen Sie die �blichen deskriptivenStatistiken (Mittelwert, Standardabweichung, Schiefe) zur Beschreibung ihrerVerteilung; (ii) zeichnen Sie ein Histogramm und ein Q-Q-Plot zur Beur-teilung, ob die Residuen normalverteilt sind; (iii) zeichnen Sie ein Streu-diagramm der Residuen �ber der Variablen CR.
(d) Zeichnen Sie ein Streudiagramm der gesch�tzten Werte von CR �ber CR;interpretieren Sie den Wert des Bestimmtheitsmaßes R2 der angepasstenKonsumfunktion.
3.A.2 Allgemeine Aufgaben und Probleme
1. Zeigen Sie, dass der OLS-Sch�tzer b ¼ sxy=s2x [siehe Gleichung (2.2.4)] f�r � aus
der einfachen linearen Regression Yt ¼ �þ �Xt þ ut erwartungstreu ist.
2. Ermitteln Sie die Matrix Qn ¼ n�1X0nXn f�r (a) das Modell yt ¼ �0 þ �1t þ ut undf�r (b) das Modell yt ¼ �0 þ �1at þ ut mit (i) jaj < 1 und (ii) jaj > 1, wobei tjeweils f�r t ¼ 1; . . . ;n definiert ist. Untersuchen Sie Qn bzw. Q ¼ limn!1Qn.
Anhang 3.A Erwartungstreue des OLS-Sch�tzersIn Abschnitt 3.1 wird die Erwartungstreue der OLS-Sch�tzer b behandelt. Die zentraleAussage lautet:
Die OLS-Sch�tzer b ¼ ðX0XÞ�1X0y sind erwartungstreue Sch�tzer der Regressionskoef-fizienten b,
Efbg ¼ b þ EfðX0XÞ�1X0ug ¼ b ;
wenn EfutjXg ¼ 0 f�r alle t.Der Beweis f�r die Richtigkeit dieser Aussage kann wie folgt gef�hrt werden:F�r den bedingten Erwartungswert von b schreiben wir
EfbjXg ¼ b þ EfðX0XÞ�1X0ujXg¼ b þ ðX0XÞ�1X0EfujXg ¼ b :
Da also EfbjXg ¼ b f�r beliebige X gilt, erhalten wir
Efbg ¼ ExfEfbjXgg ¼ Exfbg ¼ b ;
dabei steht Ex f�r den Erwartungswert hinsichtlich der Verteilung der Regressoren.Wenn die Elemente der Matrix X der Regressoren fixe, also nicht-stochastische Grçßen
sind, ist der Beweis der Richtigkeit besonders einfach, da dann die bedingte Verteilungf ðujXÞ nicht von X abh�ngig ist: f ðujXÞ ¼ f ðuÞ. Es gen�gt dann, die Erwartungswertehinsichtlich der Verteilung von u zu bilden.
ERWARTUNGSTREUE DES OLS-SCH�TZERS
54
3
Anhang 3.B Das Gauß-Markov-TheoremDas Gauß-Markov-Theorem besagt:F�r
y ¼ Xb þ u
gelten (i) Efug ¼ 0 und (ii) Varfug ¼ �2I. Der OLS-Sch�tzer b nach (3.1.1) ist der bestelineare, erwartungstreue Sch�tzer f�r b, d.h. f�r jeden beliebigen linearen, erwartungs-treuen Sch�tzer b� gilt
Varfb�g � Varfbg � 0 :
F�r zwei Matrizen A und B bedeutet A� B � 0, dass die Differenzmatrix A� B positivsemidefinit ist.
Das Gauß-Markov-Theorem besagt also, dass es keinen linearen, erwartungstreuenSch�tzer b� gibt, der eine kleinere Varianz als der OLS-Sch�tzer b hat. Die Varianz jederKomponente von b kann von der Varianz eines beliebigen anderen linearen, erwartungs-treuen Sch�tzers b� nicht unterschritten werden. Auch unter den Sch�tzern einerbeliebigen Linearkombination w0b hat w0b minimale Varianz.
Zum Beweis des Gauß-Markov-Theorems nehmen wir an, dass
b� ¼ Cyþ c
ein linearer, erwartungstreuer, aber sonst beliebiger Sch�tzer ist:
Efb�g ¼ EfCXb þ Cuþ cg ¼ CXb þ c :
Da wir f�r b� Erwartungstreue voraussetzen, gilt CXb þ c ¼ b; daraus folgen CX ¼ I undc ¼ 0. Wir erhalten
Varfb�g ¼ VarfCXb þ Cug ¼ C�2IC0 ¼ CC0�2 :
Nun f�hren wir die Differenzmatrix D ein, um die sich C von ðX0XÞ�1X0 unterscheidet:
C ¼ ðX0XÞ�1X0 þ D :
F�r D kçnnen wir zwei Eigenschaften zeigen:
(i) Aus CX ¼ I folgt wegen ðX0XÞ�1X0Xþ DX ¼ Iþ DX ¼ I
DX ¼ 0 :
(ii) Da f�r einen beliebigen Vektor z 6¼ 0 gilt: z0DD0z ¼ t0t � 0, ist DD0 positiv semidefinit.
Damit ergibt sich
CC0 ¼ ½ðX0XÞ�1X0 þ D�½ðX0XÞ�1X0 þ D�0
¼ ðX0XÞ�1X0XðX0XÞ�1 þ DD0
¼ ðX0XÞ�1 þ DD0
und
Lineare Regression: Sch�tzverfahren
55
CC 0 � ðX0XÞ�1 ¼ DD0 � 0 ;
CC 0 ist positiv semidefinit. Damit haben wir gezeigt, dass
Varfb�g � Varfbg � 0 :
In Abschnitt 3.1 haben wir als Kriterien f�r die G�te eines Sch�tzers den Bias und dieVarianz kennen gelernt. Der OLS-Sch�tzer ist der beste Sch�tzer in der Klasse derlinearen, erwartungstreuen Sch�tzer: In dieser Klasse hat der OLS-Sch�tzer die minimaleVarianz. Ein Kriterium f�r die G�te eines Sch�tzers, das Bias und Varianz einbezieht, istder mittlere quadratische Fehler des Sch�tzers. Er ist f�r den OLS-Sch�tzer definiert zu
Efðb� bÞ2g ¼ Varfbg þ ðEfbg � bÞ2 :
Achtung! Der OLS-Sch�tzer hat nicht notwendigerweise den kleinsten mittleren, qua-dratischen Fehler. Ein Beispiel f�r einen Sch�tzer, der einen Bias in Kauf nimmt, ist derso genannte ridge Sch�tzer f�r die Koeffizienten eines linearen Regressionsmodells: Erwird so bestimmt, dass der mittlere, quadratische Fehler minimiert wird. Bei entspre-chender Struktur der Matrix X der Regressoren kann der ridge Sch�tzer einen kleinerenmittleren, quadratischen Fehler haben als der analoge OLS-Sch�tzer.
DAS GAUß-MARKOV-THEOREM
56
3