monte carlo, bootstrap, jacknifewte.dserwa.pl/slajdy/wte6.pdf · • b. efron (1979) bootstrap...
TRANSCRIPT
Monte Carlo, bootstrap,
jacknife
2
Literatura
• Bruce Hansen (2012 +) Econometrics,
ze strony internetowej:
http://www.ssc.wisc.edu/~bhansen/econometrics/
– Monte Carlo: rozdział 9.17, 9.18
– Bootstrap: rozdział 13
• Slajdy 4-31 wykorzystują materiały z tego
podręcznika
3
Literatura
• B. Efron (1979) Bootstrap methods: another look at the
jackknife, Annals of Statistics 7, 1-26.
• C.F.J.Wu (1986) Jackknife, bootstrap and other
resampling methods in regression analysis, Annals of
Statistics 14, 1261-1295.
• J.Shao, C.F.J.Wu (1989) A general theory for jackknife
variance estimation, Annals of Statistics 17, 1176-1197.
• C.F.J.Wu (1990) On the asymptotic properties of the
jacknife histogram, Annals of Statistics 18, 1438-1452.
4
Monte Carlo
• Niech oznaczają obserwacje losowo
wybrane z populacji
• Niech oznacza parametr,
a niech będzie
interesującą nas statystyką,
np. estymatorem lub statystyką t:
5
Monte Carlo
• Dystrybuanta statystyki oznaczona
będzie jako:
• Często rozkład statystyki nie jest znany w
skończonych próbach.
• Metoda Monte Carlo symuluje numerycznie
prawdziwy rozkład statystyki dla wybranych
(w skończonych próbach, dla wybranych
przypadków)
6
Opis metody Monte Carlo
• Wybieramy rozkład i wielkość próby
– rozkład określa lub jest bezpośrednio
ustalony
• Losujemy niezależnie par
z rozkładu (stosując generator liczb pseudolosowych)
• Liczymy interesującą nas statystykę:
7
Opis metody Monte Carlo
• Powtarzamy losowanie B razy (zwykle
1000, 5000) i zapamiętujemy każdy wynik:
• Wyniki te stanowią próbę losową o
wielkości B z rozkładu:
( B – experiments, replications)
8
Zastosowania Monte Carlo
• Na podstawie próby możemy policzyć
różne charakterystyki rozkładu statystyki.
Na przykład:
– „obciążenie” (ang. bias)
– błąd średniokwadratowy
– wariancja rozkładu
gdzie:
9
Zastosowania Monte Carlo
• Obliczenia błędu 1. rodzaju, np. dla ( )
dwustronnego testu t :
– Obliczamy
• Obliczenia kwantyla rozkładu :
– sortujemy próbę rosnąco
– kwantyl to liczba nr
10
Zastosowanie Monte Carlo
• Precyzja symulacji:
– We wcześniejszym przykładzie zmienna losowa
ma rozkład zero-jedynkowy
– przyjmuje wartość 1 z prawdopodobieństwem:
– jest zatem nieobciążonym estymatorem
z odchyleniem standardowym
• Na przykład dla testu z 5% poziomem istotności
Dla B =100, 1000, 5000 0,022 ; 0,007 ; 0,003
11
Przykład 1
• Prosty model:
• Testujemy hipotezę:
• Statystyka testowa:
• Teraz testujemy równoważną hipotezę:
12
Przykład 1
• Statystyka testowa ma rozkład:
• Przyjmijmy dla
13
Zastosowanie Monte Carlo
• Dla różnych r mamy różne wartości statystyki
Walda, a powinny być identyczne, bo hipoteza
H0 jest identyczna, a r wybrane arbitralnie.
• Przeanalizujmy symulacyjnie błąd 1. rodzaju:
• 50000 wylosowanych prób obserwacji o
odpowiedniej długości , odchyleniu stand. ,
parametrze i przy założeniu, że .
14
Zastosowanie Monte Carlo
• Najlepsze wyniki dla r = 1.
15
Przykład 2
• Model:
• Testujemy hipotezę:
• Niech będą oszacowaniami
MNK modelu, a wariancją oszacowań.
16
Przykład 2
• Niech .
Odchylenie standardowe to:
gdzie: to wektor
17
Przykład 2
• Statystyka testowa .
• Inny zapis hipotezy:
• Statystyka testowa:
gdzie:
18
Zastosowanie Monte Carlo
• Niech i niezależne z rozkładu N(0,1)
• Załóżmy , ,
• Generujemy 50000 prób i liczymy błędy 1.
rodzaju:
19
Bootstrap
• Niech oznaczają obserwacje losowo
wybrane z populacji
• Niech oznacza parametr,
a niech będzie
interesującą nas statystyką,
• Dystrybuanta statystyki oznaczona
będzie jako:
20
Bootstrap
• Próbujemy przybliżać rozkład statystyki
wykorzystując zgodne oszacowanie
• Rozkładem bootstrap nazywamy rozkład:
• Niech oznaczają obserwacje losowe
wybrane z rozkładu
21
Bootstrap
• Statystyka ma
rozkład , czyli (bootstrap statistic)
• Rozkład statystyki jest zmienną losową
zależną od
22
Empiryczna dystrybuanta
• Rozkład:
• Analogicznie, zgodnie z metodą momentów:
– zgodny estymator nieparametryczny dla
23
Bootstrap
• Empiryczna dystrybuanta:
nieparametryczna metoda bootstrap
• Funkcje obserwacji z próby:
– średnia z próby empirycznej
24
Opis metody bootstrrap
• Wielkość próby równa wielkości
oryginalnej próby
• Losujemy niezależnie par
z rozkładu empirycznego (ze zwracaniem)
• Liczymy interesującą nas statystykę:
• Liczba replikacji: B=1000 zwykle wystarcza (teoria: Andrews, Buchinsky 2000)
25
Bootstrap - zastosowania
• Obciążenie to .
• Niech , to
• Odpowiedniki „bootstrapowe”:
• Estymator:
• „Bootstrapowe” oszacowanie obciążenia:
26
Bootstrap - zastosowania
• Oszacowanie obciążenia można policzyć:
• Estymator z (oszacowaną) korektą obciążenia:
– można by , ale nieznane
– zatem
27
Bootstrap - zastosowania
• Niech . Wariancja
• Niech . Wariancja
• Oszacowanie z symulacji bootstrap:
wariancja
odchylenie standardowe
28
Bootstrap - zastosowania
• Przedziały ufności dla :
– Niech kwantyl z oryginalnego rozkładu,
a kwantyl z rozkładu
bootstrapowego
– Można policzyć przedział ufności dla
sortując i wyliczając:
– Lepiej jednak posortować
i wstawić kwantyle do:
29
Bootstrap w modelach regresji
• Model oryginalny:
• Symulowanie danych metodą
bootstrap prowadzi do modelu:
ale
30
Bootstrap w modelach regresji
• Rozwiązanie 1: niezależne i
– losujemy z EDF
lub losujemy z rozkładu parametrycznego
lub przyjmujemy stałe w replikacjach
– losujemy z reszt liczonych MNK
lub losujemy z rozkładu parametrycznego
np.
31
Bootstrap w modelach regresji
• Rozwiązanie 2: „wild bootstrap”
– konstruujemy taki rozkład , że:
– dla każdego symulujemy z rozkładu
dwupunktowego
32
Metoda jackknife
• Umożliwia próbkowanie z oryginalnego,
często nieznanego rozkładu
– wybieramy podpróby (m<n) z próby (n) zwykle
w sposób deterministyczny
• Bootstrap - próbkowanie z rozkładu
empirycznego
33
„delete-1” jackknife
• Podpróby budujemy poprzez usunięcie 1
obsewacji (m=n-1)
• Nie losujemy podprób, wybieramy
wszystkie n możliwych podprób
• Podpróba bez i-tej obserwacji: x(i)
34
„delete-1” jackknife
• pojedyncza replikacja statystyki
metodą jackknife:
• Na przykład: replikacja średniej
• Wyliczenie końcowej statystyki wymaga
wyliczenia wszystkich n replikacji
)(ˆ xs
nis ii ,...,1)(ˆ)( x
)()(11
1)( i
i
ij
ji xn
xxnx
ns
x
35
„delete-1” jackknife
• Oszacowanie średniej metodą jacknife:
• Oszacowanie wariancji metodą jacknife
• Oszacowanie obciążenia estymatora
n
i
iJJn
nv
1
2
)1()1( )ˆˆ(1
xxnn
n
i
i
n
i
iJ 1
)(
1
)1(
1ˆ1ˆ
ˆˆ)1( )1()1( JJ nB
36
Jackknife w modelu regresji
• Oszacowanie parametrów MNK
• Oszacowanie jacknife:
– w i-tej replikacji usuwamy parę xi, yi
– obliczamy „pseudowartości”
– oszacowanie parametrów (zwykle większa wariancja
niż MNK)
– szacunek wariancji parametrów zwykle obciążony
YXXX ')'(ˆ 1
)(ˆ)1(ˆ
ii nnp
n
i
iJ pn 1
)1(
1̂
n
i
JiJiJ ppnn
v1
)1()1()1( )'ˆ)(ˆ()1(
1
37
Problem
• Metoda „delete-1” jackknife nie nadaje się
do wyliczania mediany, kwantyli,
histogramu
– niezgodne i asymptotycznie obciążone
oszacowania dla funkcji statystyk
niedostatecznie „gładkich” (ang. smooth,
gdzie małe zmiany w danych powodują duże
zmiany w wartości statystyki)
38
„delete-d” jackknife
• Podpróby budujemy poprzez usunięcie d
obsewacji (m=n-d)
• Wybieramy wszystkie możliwe podpróby
• Do wyliczania kwantyli, histogramu wybieramy
)!(!
!
dnd
n
d
nJ
ndn
39
„delete-d” jackknife
• Oszacowanie średniej metodą jacknife:
• Oszacowanie wariancji metodą jacknife
J
i
idJdJdJ
mv
1
2
)()( )ˆˆ(
J
i
idJJ 1
)(ˆ1ˆ
40
„delete-d” jackknife
• Możliwość zmniejszenia liczby replikacji
– „balanced subsampling”: m<<J
1. Każdy i występuje w tej samej liczbie f podprób
2. Każda para (i,j), i<j, występuje razem w tej samej
liczbie podprób
– ewentualnie (ale gorsze własności) „grouped
jacknife”: n=gh (h – rozmiar grupy usuniętej z
próby w i-tej replikacji, g – liczba grup)
J
i
iidJg
gv
1
2
)( )ˆˆ(1