il campionamento casuale semplicegiovanna/didattica/teo/piani.pdf · 1/32 2 3 l2 3m 33 22 ? i ˚ p...

1/32 P�i?22333ML232

Il campionamento casuale semplice

• Metodi di estrazione del campione.

• Probabilita di inclusione.

– πi =n

N

– πij =n

N

n− 1

N − 1

• Stimatore corretto del totale e della media.

– Y = Ny e ˆY = y

• Varianza degli stimatori corretti.

– V (Y ) = N2 1− f

nS2 e V ( ˆY ) =

1− f

nS2

• Stimatore della varianza degli stimatori.

– v(Y ) = N2 1− f

ns2 e v( ˆY ) =

1− f

ns2

index.html

2/32 P�i?22333ML232

Il campionamento sistematico

• Lo schema di selezione

1. Si determini l’intero k che risulta prendendo la parte intera del rapporto N/n.

2. Si estragga un numero casuale intero r compreso tra 1 e k.

3. Il campione sistematico e formato dalle unita che nella lista occupano le posizioni

r, r + k, r + 2k, r + 3k, . . .

• k il passo di campionamento

• r il punto di partenza

• esempio: N = 50, n = 8, N/n = 6, 25 ⇒ k = 6.

Se r = 3 ⇒ s = {3, 9, 15, 21, 27, 33, 39, 45}.

• Se N multiplo di n ⇒ n(s) = n, altrimenti n(s) ≥ n.

index.html

3/32 P�i?22333ML232

Piano di campionamento

• I campioni sistematici costituiscono una partizione in k sottoinsiemi della popola-

zione:

p(s) =

1

kse s e un sistematico con punto di partenza r = 1, 2, . . . , k

0 altrimenti.

• Probabilita di inclusione

πi =1

k

πij =

1

kse i e j sono nello stesso campione

0 altrimenti.

• campionamento probabilistico, autoponderante ma non misurabile

index.html

4/32 P�i?22333ML232

Gli stimatori corretti del totale e della media

Y =n∑

i=1

Yi

πi

= ktyˆY =

Y

N=

ktyN

• Se N multiplo di n allora

Y = Ny ˆY = y

• Varianza dello stimatore (caso n fisso)

V (Y ) =N2

k

k∑i=1

(yi − Y )2 V ( ˆY ) =1

k

k∑i=1

(yi − Y )2,

dove yi e la media del campione sistematico i-esimo.

• Non esiste lo stimatore corretto della varianza; soluzione semplicistica: assimilare il

sistematico ad un casuale semplice.

index.html

5/32 P�i?22333ML232

L’efficienza del campionamento sistematico

• Effetto del disegno: il rapporto tra la varianza di uno stimatore corretto associato

ad un piano di campionamento qualsiasi e la varianza dello stesso stimatore nel

campionamento casuale semplice di pari numerosita campionaria.

• Esempio: Popolazione di 16 unita

Valore di y: 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66.

N = 16, Y = 58, 5 , S2 = 22, 66;

La varianza di y del campione casuale semplice di 4 unita e V (y) = 4, 25.

index.html

6/32 P�i?22333ML232

Popolazione con trend (stratificazione implicita)

Valore di y: 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66.

campione sistematico valori di y yi

1 51 55 59 63 57

2 52 56 60 64 58

3 53 57 61 65 59

4 54 58 62 66 60

E(y) = 58, 5 e V (y) = 1, 25 ⇒ Effetto del disegno Deff(y) = 0, 294

index.html

7/32 P�i?22333ML232

Popolazione casuale (approssimativamente)

Valore di y: 52, 60, 65, 62, 56, 55, 64, 51, 58, 61, 59, 57, 54, 63, 53, 66.


1 52 56 58 54 55

2 60 55 61 63 59,75

3 65 64 59 53 60,25

4 62 51 57 66 59


index.html

8/32 P�i?22333ML232

Popolazione ciclica

Valore di y: 51, 55, 59, 63, 52, 56, 60, 64, 53, 57, 61, 65, 54, 58, 62, 66.


1 51 52 53 54 52,5

2 55 56 57 58 56,5

3 59 60 61 62 60,5

4 63 64 65 66 64,5


index.html

9/32 P�i?22333ML232

Avvertenze per l’uso del sistematico

• Deff:

– popolazioni in cui unita vicine nella lista sono simili ⇒ maggiore efficienza

(stratificazione implicita),

– popolazioni in ordine casuale ⇒ analoga efficienza,

– popolazioni in cui unita vicine sono piu diverse ⇒ minore efficienza (popolazioni

periodiche).

• Comodo da realizzare.

• Utilizzabile in assenza di liste e dimensione della popolazione.

• Generalmente piu efficiente se in presenza di stratificazioni implicite.

• Equivalente ad un casuale semplice se la lista e in ordine casuale.

• Massima attenzione a possibili periodicita.

index.html

10/32 P�i?22333ML232

Il campionamento con probabilita variabili

Premessa: Proprieta delle osservazioni indipendenti e identicamente distribuite.

• Sia Z variabile casuale con E(Z) e V (Z) quantita finite.

• Siano Z1, Z2, . . . , Zn n osservazioni indipendenti di Z.

• Sia Z =∑n

i=1 Zi/n e s2z =

∑ni=1(Zi − Z)2/(n− 1)

ALLORA

1. E(Z) = E(Z);

2. V (Z) = V (Z)/n;

3. E(s2z) = V (Z);

4. E(s2z/n) = V (Z).

index.html

11/32 P�i?22333ML232

Estrazione di una unita con probabilita variabili

• x ⇒ misura d’ampiezza.

• Pi = Xi/X ⇒ misura d’ampiezza normalizzata e probabilita di selezione.

• Schema di selezione:

1. calcolare i valori cumulati Ti =∑i

j=1 Pj per i = 1, 2, . . . , N ;

2. estrarre un numero casuale ε in 0− 1;

3. selezionare l’unita i tale che Ti−1 < ε 6 Ti.

• Yu = Y1/P1 ⇒ stimatore corretto del totale.

• Yu assume i valori Yi/Pi con probabilita Pi, per i = 1, 2, . . . , N ⇒

E(Yu) = Y e

V (Yu) =N∑

i=1

Pi

(Yi

Pi

− Y

)2

index.html

12/32 P�i?22333ML232

Estrazione di n unita con probabilita variabili e CON

ripetizione

Yu1, Yu2, . . . , Yun ⇒ n osservazioni i.i.d. di Yu

• Yr =n∑

i=1

Yui

n=

n∑i=1

Yi

nPi

⇒ Stimatore di Hansen-Hurvitz.

• V (Yr) =V (Yu)

n=

1

n

N∑i=1

Pi

(Yi

Pi

− Y

)2

⇒ Varianza dello stimatore

• v(Yr) =s2

Yu

n=

1

n(n− 1)

n∑i=1

(Yi

Pi

− Yr

)2

⇒ Stimatore della varianza

index.html

13/32 P�i?22333ML232

Estrazione di n unita SENZA ripetizione• Le unita tali che nPi ≥ 1 sono incluse direttamente nel campione. Le unita rimanenti

costituiscono la popolazione da cui estrarre le unita che mancano per arrivare ad n.

• Schema di selezione sistematico casualizzato di n unita con probabilita variabili:

1. si costruisca la lista delle unita della popolazione da campionare ordinandole in

modo casuale;

2. si assegni ad ogni unita il valore cumulato Ti = n∑i

j=1 Pj con i = 1, 2, . . . , N ;

3. si estragga un numero casuale ε in 0− 1;

4. si prendano le unita i tali che Ti−1 < ε 6 Ti; Ti−1 < ε+1 6 Ti; Ti−1 < ε+2 6 Ti;

. . .; Ti−1 < ε + n− 1 6 Ti.

• πi = nPi

• v(Y ) =1− f

n(n− 1)

n∑i=1

(Yi

Pi

− Y

)2

⇒ Stimatore della varianza basato sul campio-

namento cion ripetizione.

index.html

14/32 P�i?22333ML232

Esempio: n = 4, ε = 0.757

Classe Ampiezza classe Xi Pi = Xi/X nPi Ti δi

1 15 0.08475 0.33898 0.33898 0

2 20 0.11299 0.45198 0.79096 1

3 18 0.10169 0.40678 1.19774 0

4 12 0.06780 0.27119 1.46893 0

5 25 0.14124 0.56497 2.03390 1

6 21 0.11864 0.47458 2.50847 0

7 20 0.11299 0.45198 2.96045 1

8 14 0.07910 0.31638 3.27684 0

9 15 0.08475 0.33898 3.61582 0

10 17 0.09605 0.38418 4.00000 1

177 1.00000 4.00000

index.html

15/32 P�i?22333ML232

Il campionamento stratificato

1. Si costruisce una partizione della popolazione, ciascun sottoinsieme della quale e

chiamato strato.

2. Da ogni strato si estrae un campione indipendente con un prefissato schema di

campionamento.

→ Il campione complessivo si dice campione stratificato.

• Notazione:

– h = 1, 2, . . . , H → indice di strato

– Nh, Yh e Yh → dimensione, totale e media di popolazione nello strato

– Yhi → valore del carattere y nell’unita i-esima dello strato h-esimo

– nh dimensione del campione nello strato h.

index.html

16/32 P�i?22333ML232

Stima del totale di popolazioneOgni strato puo essere visto come una popolazione a se stante, quindi lo stimatore

corretto del totale di strato e

Yh =

nh∑i=1

Yhi

πhi

con varianza data da V (Yh) e stima di varianza v(Yh). Ad esempio

V (Yh) =1

2

Nh∑i=1

Nh∑j 6=i

(πhiπhj − πhij)

(Yhi

πhi

− Yhj

πhj

)2

.

Poiche Y =∑H

h=1 Yh allora

Y =H∑

h=1

Yh

V (Y ) =H∑

h=1

V (Yh) e v(Y ) =H∑

h=1

v(Yh)

index.html

17/32 P�i?22333ML232

Stima della media di popolazione

Sia Wh = Nh/N il peso dello strato h nella popolazione, allora

Y =Y

N=

1

N

H∑h=1

Yh =H∑

h=1

Nh

N

Yh

Nh

=H∑

h=1

WhYh.

La sua stima sara data da

ˆY =H∑

h=1

WhˆYh

V ( ˆY ) =H∑

h=1

W 2hV ( ˆYh) e v( ˆY ) =

H∑h=1

W 2hv( ˆYh)

• Un campionamento stratificato e probabilistico e misurabile se lo sono i campiona-

menti all’interno di ciascuno strato

index.html

18/32 P�i?22333ML232

Il campionamento casuale stratificato

Stima della media

ˆY =H∑

h=1

Wh ˆyh con V ( ˆY ) =H∑

h=1

W 2h

1− fh

nh

S2h

Stima del totale

Y =H∑

h=1

Nh ˆyh con V (Y ) =H∑

h=1

N2h

1− fh

nh

S2h

index.html

19/32 P�i?22333ML232

L’allocazione proporzionale del campioneL’allocazione del campione negli strati si dice proporzionale quando la quota di unita

campionarie provenienti da uno strato e uguale al suo peso:

nh

n= Wh =

Nh

N

e quindinh

Nh

=n

N

Campionamento casuale stratificato con allocazione proporzionale comporta l’autopon-

derazione πh = π.

ˆY =H∑

h=1

nh

nˆyh = y

V (y) =1− f

n

H∑h=1

WhS2h.

index.html

20/32 P�i?22333ML232

L’effetto del disegno per il CCSTR con allocazione

proporzionale

Dalla scomposizione della varianza (Nh − 1 ∼ Nh)

S2 =H∑

h=1

Wh(Yh − Y )2 +H∑

h=1

WhS2h

varianza totale = var tra gli strati + var entro gli strati

Deff(y) =1−f

n

∑Hh=1 WhS

2h

1−fn

S2=

∑Hh=1 WhS

2h

S2< 1

index.html

21/32 P�i?22333ML232

La costruzione degli strati1. Scelta delle variabili di stratificazione

2. Determinazione del numero degli strati

3. Scelta della allocazione del campione

• proporzionale: nh = nWh;

• eguale o uniforme: nh = n/H;

• di compromesso: nh = 12(n/H + nWh);

• di Neyman: fra un po’...

Funzioni della stratificazione

• Incremento dell’efficienza

• Stima di parametri di sottopopolazioni (domini di studio)

• Organizzazione del lavoro sul campo

• Diversificazione di schemi di campionamento, modalita di raccolta dei dati.

index.html

22/32 P�i?22333ML232

Il campionamento a due stadi

Notazione

• U = {1, ..., j, ...,M}

• N grappoli di dimensione Mi, per i = 1, ..., N

• M =∑N

i=1 Mi dimensione della popolazione

• Y =∑N

i=1

∑Mi

j=1 Yij =∑N

i=1 Yio totale di popolazione di y

• Y = Y/M

Primo stadio: un campione di n unita di primo stadio e selezionato attraverso un piano

di campionamento p1(·).

Secondo stadio: per ogni i = 1, ..., n, un campione di mi unita di secondo stadio e

selezionato usando il piano di campionamento p2(·) . In questo modo il campione

complessivo avr dimensione m =∑n

i=1 mi.

index.html

23/32 P�i?22333ML232

Probabilita di inclusione• πi e πik al primo stadio

• πj|i e πjl|i condizionate al secondo stadio

Probabilita di inclusione del primo ordine dell’unita elementare j

πj = πiπj|i

Probabilita di inclusione del secondo ordine delle unita elementari j ed l

πjl =

πiπl|i se j = l

πiπjl|i se j e l appartengono allo stesso grappolo

πikπj|iπl|k se j e l non appartengono allo stesso grappolo

.

index.html

24/32 P�i?22333ML232

Stimatore di Horvitz–Thompson del totale

Y =n∑

i=1

mi∑j=1

Yij

πj

=n∑

i=1

1

πi

mi∑j=1

Yij

πj|i=

n∑i=1

Yio

πi

Correttezza:

E(Y ) = Esi[E(Y |si)] = Esi

[E(n∑

i=1

Yio

πi

|si)] = Esi[

n∑i=1

Yio

πi

] = Y

index.html

25/32 P�i?22333ML232

Varianza

V (Y ) = Vsi[E(

n∑i=1

Yio

πi

|si)] + Esi[V (

n∑i=1

Yio

πi

|si)]

= Vsi

(n∑

i=1

Yio

πi

)+ Esi

(n∑

i=1

V (Yio)

π2i

)= V1 + V2

V1 =N∑

i=1

Y 2io

1− πi

πi

+N∑

i=1

N∑j 6=i

Y 2io

πi

Y 2ko

πk

(πik − πiπk)

V2 =N∑

i=1

V (Yio)

πi

Se n = N → πi = 1, πik = 1 → V1 = 0, V2 =∑N

i=1 V (Yio)

index.html

26/32 P�i?22333ML232

Stima della media

ˆY =Y

M

V ( ˆY ) =V (Y )

M2

index.html

27/32 P�i?22333ML232

Campionamento con probabilita variabili al primo sta-

dio e campionamento casuale semplice al secondo

• Stimatore: Y =n∑

i=1

Yio

nPi

• Varianza: V (Y ) =1

n

N∑i=1

Pi(Yio

Pi

− Y )2 +1

n

N∑i=1

M2i

Pi

1− fi

mi

S2i

• Stimatore di varianza: v(Y ) =1

n(n− 1)

n∑i=1

(Yio

Pi

− Y )2

• Campionamento senza ripetizione: Pi = πi/n

index.html

28/32 P�i?22333ML232

Ingegneria del campionamento a due stadi

• Autoponderazione del campione: nPimi

Mi

= K

• Se Pi =Mi

Mallora mi =

KM

n= m e K =

mn

M

• In questo modo ˆY = y

index.html

29/32 P�i?22333ML232

L’efficienza del campionamento a due stadi

V ( ˆY ) =1

nM2

N∑i=1

Pi(Yio

Pi

− Y )2 +1

nM2

N∑i=1

M2i

Pi

1− fi

mi

S2i

Se Pi = Mi

Me mi = m e assumendo fi = 0, allora

V ( ˆY ) =1

n

N∑i=1

Wi(Yio − Y )2 +1

nm

N∑i=1

WiS2i

dove Wi = Mi/M .

Deff(y) =1n

∑Ni=1 Wi(Yio − Y )2 + 1

nm

∑Ni=1 WiS

2i

1nm

(∑N

i=1 Wi(Yio − Y )2 +∑N

i=1 WiS2i )

≥ 1

index.html

30/32 P�i?22333ML232

Il campionamento a due stadi stratificato

• Stimatore: Y =H∑

h=1

nh∑i=1

Yhio

nhPhi

• Varianza: V (Y ) =H∑

h=1

1

nh

Nh∑i=1

Phi(Yhio

Phi

− Yh)2 +

H∑h=1

1

nh

Nh∑i=1

M2hi

Phi

1− fhi

mhi

S2hi

• Stimatore di varianza: v(Y ) =H∑

h=1

1

nh(nh − 1)

nh∑i=1

(Yhio

Phi

− Yh)2

index.html

31/32 P�i?22333ML232

Ingegneria del campione a due stadi stratificato

• Autoponderazione del campione: nhPhimhi

Mhi

= K

• Se Phi =Mhi

Mh

allora mhi =KMh

nh

• Se nh = nMh/M , allora mhi =KM

n= m e K =

mn

M

• In questo modo ˆY = y

• Numero degli strati H = n o H = n/2.

• Varianza: V ( ˆY ) =1

n

H∑h=1

Nh∑i=1

Whi(Yhio − Yh)2 +

1

nm

H∑h=1

Nh∑i=1

WhiS2hi.

index.html

32/32 P�i?22333ML232

Fasi di costruzione del campione a 2 stadi stratificato

1. Si stabilisce m

2. Si stabilisce m.

3. m/m = n grappoli da estrarre.

4. Si stabilisce nh = 1 o = 2, sia n il valore prescelto.

5. H = n/n

6. Mh = M/H → costruzione degli H strati.

7. Estrazione degli n grappoli da ogni strato con probabilita Phi = Mhi/Mh (campione

di primo stadio).

8. Estrazione di un campione casuale semplice di dimensione m da ogni grappolo

(campione di secondo stadio).

index.html

il campionamento casuale semplicegiovanna/didattica/teo/piani.pdf · 1/32 2 3 l2 3m 33 22 ? i ˚ p...

Documents