analiza danych z uzyciem programu gretl - portal ...astaszewska.swspiz.pl/userfiles/gretl1.pdf ·...
TRANSCRIPT
Analiza danych z uzyciem programu Gretl
Gretl
I Gretl to pakiet ekonometryczny stworzony przez Allina Cottrella z
Uniwersytetu Wake Forest w PoÃlnocnej Karolinie w Stanach
Zjednoczonych
I Od roku 2000 pakiet jest systematycznie rozwijany
I Gretl jest programem o swobodnym dostepie dla wszystkich
uzytkownikow
I Nazwa Gretl pochodzi od Gnu Regression, Econometrics and
Time-series Library
I Program i podrecznik dostepne sa na stronie:
http://gretl.sourceforge.net/
Charakterystyka programu
I W programie Gretl dostepne sa nastepujace estymatory: KMNK,
wazonej metody najmniejszych kwadratow, nieliniowej metody
najmniejszych kwadratow, metody zmiennych instrumentalnych, a
takze estymatory metody najwiekszej wiarygodnosci do szacowania
parametrow modeli takich jak: probitowy, logitowy, tobitowy,
ARIMA lub GARCH
I Do tworzenia wykresow Gretl wykorzystuje odrebny program gnuplot
I Istnieje mozliwosc zapisania wynikow przeprowadzanej analizy w
LaTeX-u
PosÃlugiwanie sie programem
I W programie korzystac mozna z rozwijalnych menu lub samodzielnie
wpisywac komendy
I Spis i informacje o dostepnych komendach i funkcjach znalezc mozna
w Gretl Command Reference i Function Reference (w menu Help)
I Aby wpisac komende nalezy otworzyc Tools>Gretl console (lub
kliknac w odpowiedni przycisk z dolnego paska narzedzi)
I Jesli komend jest wiecej mozna utworzyc z nich program (skrypt)
I Aby utworzyc skrypt wybrac nalezy: File>Script files>New script
PosÃlugiwanie sie programem cd.
I Kazda nowa komenda powinna znajdowac sie w nowym wierszu
I Jesli pojedyncza komenda nie miesci sie w linii nalezy uzyc znaku
kontynuacji \
I Uruchomienie skryptu wykonuje sie za pomoca przycisku Run
I Skrypt mozna zapisac i wykonywac ponownie pozniej
I Programujac nalezy pamietac, iz w programie rozrozniane sa duze i
maÃle litery, tzn. x oznacza cos innego, niz X
Operacje na danych
I Gretl umozliwia import danych zapisanych w wielu formatach, takich
jak: ASCII, CSV, xls, a takze formatach programow Eviews, Stata,
SPSS, SAS, czy JMulti
I Podobnie, dane mozna eksportowac do innego formatu
I Dane, ktore wykorzystywane beda na zajeciach:
http://www.learneconometrics.com/gretl.html (Gretl Data Sets for
Principles of Econometrics)
I Demonstracja: wczytywanie danych (plik food), wyswietlanie i edycja
danych, dodawanie obserwacji, okreslanie typu danych (menu Data)
I Aby zmienic opis zmiennej nalezy kliknac w odpowiednia linijke
prawym przyciskiem myszy i wybrac Edit attributes (lub menu
Variable>Edit attributes)
I Aby zmienic opis np. zmiennej x za pomoca komendy nalezy
wykorzystac setinfo: np. setinfo x -d “(100$) Weekly Income”
I Jak podaje Command Reference po -d nalezy w cudzysÃlowie podac
opis zmiennej
I Opis mozna dodatkowo rozszerzyc o nazwe zmiennej, ktora
umieszczana bedzie na wykresach: setinfo x -d “(100$) Weekly
Income” -n “Income”
Wykresy
I Aby utworzyc wykres nalezy wybrac: View>Graph specified vars
I Do wstepnej analizy zwiazku pomiedzy dwoma zmiennymi
wykorzystac mozna np. wykres punktowy (scatter plot). Na
wykresie pojawia sia dodatkowo linia regresji
Model regresji liniowej z jedna zmienna objasniajaca
I Model ma postac:
yt = α0 + α1xt + εt , t = 1, 2, . . . , T
I yt to zmienna objasniana, xt to zmienna objasniajaca, εt to skÃladnik
losowy, α0 oraz α1 to parametry, ktorych wartosc nalezy oszacowac
I ZakÃlada sie, ze dla kazdego t: E (εt) = 0, var(εt) = σ2
(homoskedastycznosc), cov(εt , εs) = 0 (brak autokorelacji)
I ZaÃlozenia dotyczace skÃladnika losowego zapisac mozna jako:
εt ∼ iid(0; σ2)
I iid pochodzi od angielskiego independently and identically
distributed i oznacza, ze skÃladniki losowe maja identyczne i
niezalezne rozkÃlady
I Czesto zakÃlada sie, iz sa to rozkÃlady normalne
I Analize regresji w programie Gretl wykonac mozna wybierajac:
Model>Ordinary Least Squares
I Alternatywnie skorzystac mozna z komendy: ols y const x lub
wykorzystujac ID zmiennych: ols 1 0 2
I Wyniki analizy pojawiaja sie w oknie zaopatrzonym w dodatkowe
menu pozwalajace na wykonywanie operacji na utworzonym modelu
(wykresy, testy, itd.)
I Wyniki sa nastepujace:
yt = 83.4160(43.410)
+ 10.2096(2.0933)
xt
T = 40 R2 = 0.3688 F (1, 38) = 23.789 σ = 89.517
I ZaÃlozmy, ze interesuja nas dodatkowe rezultaty dotyczace
elastycznosci srednich wydatkow na zywnosc wzgledem zmian w
dochodach
I Elastycznosc to relacja miedzy procentowa zmiana jednej zmiennej i
procentowa zmiana drugiej zmiennej:
ε =∆y/y
∆x/x
I W rozwazanym przypadku:
ε =∆E (y)/E (y)
∆x/x= α1
x
E (y)
I E (y) oraz x zwykle zastepuje sie srednimi z proby a α1 ocena tego
parametru
I Srednie x i y uzyskac mozna podswietlajac obie te zmienne i
wybierajac: View>Summary statistics i kontynuujac obliczenia
samodzielnie
I Alternatywnie, napisac mozna skrypt:
ols y const x −−quiet
genr elast=$coeff(x)*mean(x)/mean(y)
I Do ocen MNK parametrow regresji prostej odwoÃlujemy sie piszac:
$coeff(const) i $coeff(x)
I Przy wykorzystaniu opcji −−quiet wyniki analizy regresji nie pojawia
sie na ekranie
I W podobny sposob program wykorzystac mozna do prognozowania
I Wyznaczmy srednie wydatki na zywnosc gospodarstwa domowego z
tygodniowym dochodem wynoszacym 2000$
I Wartosc prognozy to:
yP = 83.42 + 10.21 ∗ 20 = 287.61
I W programie Gretl otrzymujemy ja wpisujac:
genr yp = $coeff(const) + $coeff(x)*20
WÃlasciwosci estymatora MNK
I Znane sa wÃlasciwosci estymatora MNK
I Estymator MNK jest BLUE (Best Linear Unbisaed Estimator), co
oznacza, iz jest on liniowym, nieobciazonym estymatorem o
najmniejszej wariancji
I Najmniejsza wariancja oznacza, iz otrzymujemy oceny parametrow,
ktore srednio sa bardziej precyzyjne od ocen parametrow, ktore
moglibysmy uzyskac stosujac alternatywne estymatory
I Nieobciazonosc oznacza, iz E (α0) = α0 oraz E (α1) = α1
I Wartosc oczekiwana i wariancje estymatora MNK zbadamy
symulacyjnie (za pomoca metody Monte Carlo)
Badanie wÃlasciwosci estymatora MNK
I Na podstawie modelu wydatkow na zywnosc i prawdziwych
obserwacji na zmiennej x wygenerujemy 1000 szeregow 40-tu
obserwacji na zmiennej y
I ZaÃlozymy, ze prawdziwy model ma postac:
yt = 80 + 10xt + εt , εt ∼ N(0, 882)
I Dla kazdej proby oszacujemy MNK parametry prawdziwego modelu
I WÃlasciwosci estymatora MNK zbadamy wyznaczajac wartosci
statystyk opisowych (sredniej i wariancji) dla 1000 wynikow estymacji
I Wykorzystamy nastepujacy skrypt:
open “c:\Program Files\gretl\data\poe\food.gdt”
set seed 3213789
loop 1000 −− progressive
genr u = 88*normal()
genr y1 = 80 + 10*x + u
ols y1 const x
genr b1 = $coeff(const)
genr b2 = $coeff(x)
print b1 b2
store coeff.gdt b1 b2
endloop
I komenda open... otwiera plik z danymi
I set seed 3213789 – ustala wartosc zarodka, od ktorego rozpocznie
sie generacja liczb pseudolosowych
I petla loop NMC −−progressive zakonczona endloop oznacza, iz
chcemy wykonac NMC powtorzen komend opisanych w petli
(chcemy wykonac NMC replikacji w metodzie Monte Carlo). Opcja
−−progressive powoduje, iz wyniki kazdej iteracji nie pojawia sie na
ekranie a zostana zapisane w pliku
I Komenda genr u = 88*normal() nakazuje wygenerowanie realizacji
zmiennej u o rozkÃladzie normalnym z odchyleniem standardowym 88
I genr y1 = 80 + 10*x + u powoduje, iz generowane sa wartosci
zmiennej y
I ols y1 const x oznacza, iz dla wygenerowanych obserwacji na y i
danych o x wyznaczamy oceny parametrow modelu regresji MNK
I genr b1 = $coeff(const) i genr b2 = $coeff(x) powoduje, iz oceny
parametrow zapisywane sa jako b1 i b2
I print b1 b2 i store coeff.gdt b1 b2 zapisuje oceny parametrow w
zbiorze danych coeff.gdt.
I Komenda genr u = 88*normal() nakazuje wygenerowanie realizacji
zmiennej u o rozkÃladzie normalnym z odchyleniem standardowym 88
I genr y1 = 80 + 10*x + u powoduje, iz generowane sa wartosci
zmiennej y
I ols y1 const x oznacza, iz dla wygenerowanych obserwacji na y i
danych o x wyznaczamy oceny parametrow modelu regresji MNK
I genr b1 = $coeff(const) i genr b2 = $coeff(x) powoduje, iz oceny
parametrow zapisywane sa jako b1 i b2
I print b1 b2 i store coeff.gdt b1 b2 zapisuje oceny parametrow w
zbiorze danych coeff.gdt.
I Eksperyment podsumowany zostaje poprzez wyznaczenie srednich i
odchylen standardowych ocen obydwu parametrow
I Srednia ocena wyrazu wolnego wynosi 79.3864, parametru przy
zmiennej x zas 10.0303
I Odchylenia standardowe rowne sa odpowiednio: 42.1597 i 2.03458
I Okazuje sie, ze gdybysmy mieli mozliwosc szacowania interesujacych
parametrow na podstawie wielu prob, to srednio oceny te byÃlyby
zblizone do prawdziwych wartosci parametru
I W praktyce mamy do dyspozycji tylko jedna probe danych
I Wyniki dla pojedynczych prob zobaczyc mozna otwierajac plik
coeff.gdt
I Chociaz srednio wyniki estymacji sa dobre, to znalezc mozna proby,
dla ktorych wyniki znacznie odbiegaja od prawdy