monte carlo, bootstrap, jacknifewte.dserwa.pl/slajdy/wte6.pdf · • b. efron (1979) bootstrap...

Monte Carlo, bootstrap,

jacknife

2

Literatura

• Bruce Hansen (2012 +) Econometrics,

ze strony internetowej:

http://www.ssc.wisc.edu/~bhansen/econometrics/

– Monte Carlo: rozdział 9.17, 9.18

– Bootstrap: rozdział 13

• Slajdy 4-31 wykorzystują materiały z tego

podręcznika

http://www.ssc.wisc.edu/~bhansen/econometrics/

3

Literatura

• B. Efron (1979) Bootstrap methods: another look at the

jackknife, Annals of Statistics 7, 1-26.

• C.F.J.Wu (1986) Jackknife, bootstrap and other

resampling methods in regression analysis, Annals of

Statistics 14, 1261-1295.

• J.Shao, C.F.J.Wu (1989) A general theory for jackknife

variance estimation, Annals of Statistics 17, 1176-1197.

• C.F.J.Wu (1990) On the asymptotic properties of the

jacknife histogram, Annals of Statistics 18, 1438-1452.

4

Monte Carlo

• Niech oznaczają obserwacje losowo

wybrane z populacji

• Niech oznacza parametr,

a niech będzie

interesującą nas statystyką,

np. estymatorem lub statystyką t:

5

Monte Carlo

• Dystrybuanta statystyki oznaczona

będzie jako:

• Często rozkład statystyki nie jest znany w

skończonych próbach.

• Metoda Monte Carlo symuluje numerycznie

prawdziwy rozkład statystyki dla wybranych

(w skończonych próbach, dla wybranych

przypadków)

6

Opis metody Monte Carlo

• Wybieramy rozkład i wielkość próby

– rozkład określa lub jest bezpośrednio

ustalony

• Losujemy niezależnie par

z rozkładu (stosując generator liczb pseudolosowych)

• Liczymy interesującą nas statystykę:

7

Opis metody Monte Carlo

• Powtarzamy losowanie B razy (zwykle

1000, 5000) i zapamiętujemy każdy wynik:

• Wyniki te stanowią próbę losową o

wielkości B z rozkładu:

( B – experiments, replications)

8

Zastosowania Monte Carlo

• Na podstawie próby możemy policzyć

różne charakterystyki rozkładu statystyki.

Na przykład:

– „obciążenie” (ang. bias)

– błąd średniokwadratowy

– wariancja rozkładu

gdzie:

9

Zastosowania Monte Carlo

• Obliczenia błędu 1. rodzaju, np. dla ( )

dwustronnego testu t :

– Obliczamy

• Obliczenia kwantyla rozkładu :

– sortujemy próbę rosnąco

– kwantyl to liczba nr

10

Zastosowanie Monte Carlo

• Precyzja symulacji:

– We wcześniejszym przykładzie zmienna losowa

ma rozkład zero-jedynkowy

– przyjmuje wartość 1 z prawdopodobieństwem:

– jest zatem nieobciążonym estymatorem

z odchyleniem standardowym

• Na przykład dla testu z 5% poziomem istotności

Dla B =100, 1000, 5000 0,022 ; 0,007 ; 0,003

11

Przykład 1

• Prosty model:

• Testujemy hipotezę:

• Statystyka testowa:

• Teraz testujemy równoważną hipotezę:

12

Przykład 1

• Statystyka testowa ma rozkład:

• Przyjmijmy dla

13


• Dla różnych r mamy różne wartości statystyki

Walda, a powinny być identyczne, bo hipoteza

H0 jest identyczna, a r wybrane arbitralnie.

• Przeanalizujmy symulacyjnie błąd 1. rodzaju:

• 50000 wylosowanych prób obserwacji o

odpowiedniej długości , odchyleniu stand. ,

parametrze i przy założeniu, że .

14


• Najlepsze wyniki dla r = 1.

15

Przykład 2

• Model:

• Testujemy hipotezę:

• Niech będą oszacowaniami

MNK modelu, a wariancją oszacowań.

16

Przykład 2

• Niech .

Odchylenie standardowe to:

gdzie: to wektor

17

Przykład 2

• Statystyka testowa .

• Inny zapis hipotezy:

• Statystyka testowa:

gdzie:

18


• Niech i niezależne z rozkładu N(0,1)

• Załóżmy , ,

• Generujemy 50000 prób i liczymy błędy 1.

rodzaju:

19

Bootstrap

• Niech oznaczają obserwacje losowo

wybrane z populacji

• Niech oznacza parametr,

a niech będzie

interesującą nas statystyką,

• Dystrybuanta statystyki oznaczona

będzie jako:

20

Bootstrap

• Próbujemy przybliżać rozkład statystyki

wykorzystując zgodne oszacowanie

• Rozkładem bootstrap nazywamy rozkład:

• Niech oznaczają obserwacje losowe

wybrane z rozkładu

21

Bootstrap

• Statystyka ma

rozkład , czyli (bootstrap statistic)

• Rozkład statystyki jest zmienną losową

zależną od

22

Empiryczna dystrybuanta

• Rozkład:

• Analogicznie, zgodnie z metodą momentów:

– zgodny estymator nieparametryczny dla

23

Bootstrap

• Empiryczna dystrybuanta:

nieparametryczna metoda bootstrap

• Funkcje obserwacji z próby:

– średnia z próby empirycznej

24

Opis metody bootstrrap

• Wielkość próby równa wielkości

oryginalnej próby

• Losujemy niezależnie par

z rozkładu empirycznego (ze zwracaniem)

• Liczymy interesującą nas statystykę:

• Liczba replikacji: B=1000 zwykle wystarcza (teoria: Andrews, Buchinsky 2000)

25

Bootstrap - zastosowania

• Obciążenie to .

• Niech , to

• Odpowiedniki „bootstrapowe”:

• Estymator:

• „Bootstrapowe” oszacowanie obciążenia:

26


• Oszacowanie obciążenia można policzyć:

• Estymator z (oszacowaną) korektą obciążenia:

– można by , ale nieznane

– zatem

27


• Niech . Wariancja

• Niech . Wariancja

• Oszacowanie z symulacji bootstrap:

wariancja

odchylenie standardowe

28


• Przedziały ufności dla :

– Niech kwantyl z oryginalnego rozkładu,

a kwantyl z rozkładu

bootstrapowego

– Można policzyć przedział ufności dla

sortując i wyliczając:

– Lepiej jednak posortować

i wstawić kwantyle do:

29

Bootstrap w modelach regresji

• Model oryginalny:

• Symulowanie danych metodą

bootstrap prowadzi do modelu:

ale

30


• Rozwiązanie 1: niezależne i

– losujemy z EDF

lub losujemy z rozkładu parametrycznego

lub przyjmujemy stałe w replikacjach

– losujemy z reszt liczonych MNK

lub losujemy z rozkładu parametrycznego

np.

31


• Rozwiązanie 2: „wild bootstrap”

– konstruujemy taki rozkład , że:

– dla każdego symulujemy z rozkładu

dwupunktowego

32

Metoda jackknife

• Umożliwia próbkowanie z oryginalnego,

często nieznanego rozkładu

– wybieramy podpróby (m<n) z próby (n) zwykle

w sposób deterministyczny

• Bootstrap - próbkowanie z rozkładu

empirycznego

33

„delete-1” jackknife

• Podpróby budujemy poprzez usunięcie 1

obsewacji (m=n-1)

• Nie losujemy podprób, wybieramy

wszystkie n możliwych podprób

• Podpróba bez i-tej obserwacji: x(i)

34


• pojedyncza replikacja statystyki

metodą jackknife:

• Na przykład: replikacja średniej

• Wyliczenie końcowej statystyki wymaga

wyliczenia wszystkich n replikacji

)(ˆ xs

nis ii ,...,1)(ˆ)( x

)()(11

1)( i

i

ij

ji xn

xxnx

ns

x

35


• Oszacowanie średniej metodą jacknife:

• Oszacowanie wariancji metodą jacknife

• Oszacowanie obciążenia estymatora

n

i

iJJn

nv

1

2

)1()1( )ˆˆ(1

xxnn

n

i

i

n

i

iJ 1

)(

1

)1(

1ˆ1ˆ

ˆˆ)1( )1()1( JJ nB

36

Jackknife w modelu regresji

• Oszacowanie parametrów MNK

• Oszacowanie jacknife:

– w i-tej replikacji usuwamy parę xi, yi

– obliczamy „pseudowartości”

– oszacowanie parametrów (zwykle większa wariancja

niż MNK)

– szacunek wariancji parametrów zwykle obciążony

YXXX ')'(ˆ 1

)(ˆ)1(ˆ

ii nnp

n

i

iJ pn 1

)1(

1̂

n

i

JiJiJ ppnn

v1

)1()1()1( )'ˆ)(ˆ()1(

1

37

Problem

• Metoda „delete-1” jackknife nie nadaje się

do wyliczania mediany, kwantyli,

histogramu

– niezgodne i asymptotycznie obciążone

oszacowania dla funkcji statystyk

niedostatecznie „gładkich” (ang. smooth,

gdzie małe zmiany w danych powodują duże

zmiany w wartości statystyki)

38

„delete-d” jackknife

• Podpróby budujemy poprzez usunięcie d

obsewacji (m=n-d)

• Wybieramy wszystkie możliwe podpróby

• Do wyliczania kwantyli, histogramu wybieramy

)!(!

!

dnd

n

d

nJ

ndn

39


• Oszacowanie średniej metodą jacknife:

• Oszacowanie wariancji metodą jacknife

J

i

idJdJdJ

mv

1

2

)()( )ˆˆ(

J

i

idJJ 1

)(ˆ1ˆ

40


• Możliwość zmniejszenia liczby replikacji

– „balanced subsampling”: m<<J

1. Każdy i występuje w tej samej liczbie f podprób

2. Każda para (i,j), i<j, występuje razem w tej samej

liczbie podprób

– ewentualnie (ale gorsze własności) „grouped

jacknife”: n=gh (h – rozmiar grupy usuniętej z

próby w i-tej replikacji, g – liczba grup)

J

i

iidJg

gv

1

2

)( )ˆˆ(1

monte carlo, bootstrap, jacknifewte.dserwa.pl/slajdy/wte6.pdf · • b. efron (1979) bootstrap...

Documents