il campionamento casuale semplicegiovanna/didattica/teo/piani.pdf · 1/32 2 3 l2 3m 33 22 ? i ˚ p...
TRANSCRIPT
1/32 P�i?22333ML232
Il campionamento casuale semplice
• Metodi di estrazione del campione.
• Probabilita di inclusione.
– πi =n
N
– πij =n
N
n− 1
N − 1
• Stimatore corretto del totale e della media.
– Y = Ny e ˆY = y
• Varianza degli stimatori corretti.
– V (Y ) = N2 1− f
nS2 e V ( ˆY ) =
1− f
nS2
• Stimatore della varianza degli stimatori.
– v(Y ) = N2 1− f
ns2 e v( ˆY ) =
1− f
ns2
2/32 P�i?22333ML232
Il campionamento sistematico
• Lo schema di selezione
1. Si determini l’intero k che risulta prendendo la parte intera del rapporto N/n.
2. Si estragga un numero casuale intero r compreso tra 1 e k.
3. Il campione sistematico e formato dalle unita che nella lista occupano le posizioni
r, r + k, r + 2k, r + 3k, . . .
• k il passo di campionamento
• r il punto di partenza
• esempio: N = 50, n = 8, N/n = 6, 25 ⇒ k = 6.
Se r = 3 ⇒ s = {3, 9, 15, 21, 27, 33, 39, 45}.
• Se N multiplo di n ⇒ n(s) = n, altrimenti n(s) ≥ n.
3/32 P�i?22333ML232
Piano di campionamento
• I campioni sistematici costituiscono una partizione in k sottoinsiemi della popola-
zione:
p(s) =
1
kse s e un sistematico con punto di partenza r = 1, 2, . . . , k
0 altrimenti.
• Probabilita di inclusione
πi =1
k
πij =
1
kse i e j sono nello stesso campione
0 altrimenti.
• campionamento probabilistico, autoponderante ma non misurabile
4/32 P�i?22333ML232
Gli stimatori corretti del totale e della media
Y =n∑
i=1
Yi
πi
= ktyˆY =
Y
N=
ktyN
• Se N multiplo di n allora
Y = Ny ˆY = y
• Varianza dello stimatore (caso n fisso)
V (Y ) =N2
k
k∑i=1
(yi − Y )2 V ( ˆY ) =1
k
k∑i=1
(yi − Y )2,
dove yi e la media del campione sistematico i-esimo.
• Non esiste lo stimatore corretto della varianza; soluzione semplicistica: assimilare il
sistematico ad un casuale semplice.
5/32 P�i?22333ML232
L’efficienza del campionamento sistematico
• Effetto del disegno: il rapporto tra la varianza di uno stimatore corretto associato
ad un piano di campionamento qualsiasi e la varianza dello stesso stimatore nel
campionamento casuale semplice di pari numerosita campionaria.
• Esempio: Popolazione di 16 unita
Valore di y: 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66.
N = 16, Y = 58, 5 , S2 = 22, 66;
La varianza di y del campione casuale semplice di 4 unita e V (y) = 4, 25.
6/32 P�i?22333ML232
Popolazione con trend (stratificazione implicita)
Valore di y: 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66.
campione sistematico valori di y yi
1 51 55 59 63 57
2 52 56 60 64 58
3 53 57 61 65 59
4 54 58 62 66 60
E(y) = 58, 5 e V (y) = 1, 25 ⇒ Effetto del disegno Deff(y) = 0, 294
7/32 P�i?22333ML232
Popolazione casuale (approssimativamente)
Valore di y: 52, 60, 65, 62, 56, 55, 64, 51, 58, 61, 59, 57, 54, 63, 53, 66.
campione sistematico valori di y yi
1 52 56 58 54 55
2 60 55 61 63 59,75
3 65 64 59 53 60,25
4 62 51 57 66 59
E(y) = 58, 5 e V (y) = 4, 28125 ⇒ Effetto del disegno Deff(y) = 1, 007
8/32 P�i?22333ML232
Popolazione ciclica
Valore di y: 51, 55, 59, 63, 52, 56, 60, 64, 53, 57, 61, 65, 54, 58, 62, 66.
campione sistematico valori di y yi
1 51 52 53 54 52,5
2 55 56 57 58 56,5
3 59 60 61 62 60,5
4 63 64 65 66 64,5
E(y) = 58, 5 e V (y) = 20, 0 ⇒ Effetto del disegno Deff(y) = 4, 71
9/32 P�i?22333ML232
Avvertenze per l’uso del sistematico
• Deff:
– popolazioni in cui unita vicine nella lista sono simili ⇒ maggiore efficienza
(stratificazione implicita),
– popolazioni in ordine casuale ⇒ analoga efficienza,
– popolazioni in cui unita vicine sono piu diverse ⇒ minore efficienza (popolazioni
periodiche).
• Comodo da realizzare.
• Utilizzabile in assenza di liste e dimensione della popolazione.
• Generalmente piu efficiente se in presenza di stratificazioni implicite.
• Equivalente ad un casuale semplice se la lista e in ordine casuale.
• Massima attenzione a possibili periodicita.
10/32 P�i?22333ML232
Il campionamento con probabilita variabili
Premessa: Proprieta delle osservazioni indipendenti e identicamente distribuite.
• Sia Z variabile casuale con E(Z) e V (Z) quantita finite.
• Siano Z1, Z2, . . . , Zn n osservazioni indipendenti di Z.
• Sia Z =∑n
i=1 Zi/n e s2z =
∑ni=1(Zi − Z)2/(n− 1)
ALLORA
1. E(Z) = E(Z);
2. V (Z) = V (Z)/n;
3. E(s2z) = V (Z);
4. E(s2z/n) = V (Z).
11/32 P�i?22333ML232
Estrazione di una unita con probabilita variabili
• x ⇒ misura d’ampiezza.
• Pi = Xi/X ⇒ misura d’ampiezza normalizzata e probabilita di selezione.
• Schema di selezione:
1. calcolare i valori cumulati Ti =∑i
j=1 Pj per i = 1, 2, . . . , N ;
2. estrarre un numero casuale ε in 0− 1;
3. selezionare l’unita i tale che Ti−1 < ε 6 Ti.
• Yu = Y1/P1 ⇒ stimatore corretto del totale.
• Yu assume i valori Yi/Pi con probabilita Pi, per i = 1, 2, . . . , N ⇒
E(Yu) = Y e
V (Yu) =N∑
i=1
Pi
(Yi
Pi
− Y
)2
12/32 P�i?22333ML232
Estrazione di n unita con probabilita variabili e CON
ripetizione
Yu1, Yu2, . . . , Yun ⇒ n osservazioni i.i.d. di Yu
• Yr =n∑
i=1
Yui
n=
n∑i=1
Yi
nPi
⇒ Stimatore di Hansen-Hurvitz.
• V (Yr) =V (Yu)
n=
1
n
N∑i=1
Pi
(Yi
Pi
− Y
)2
⇒ Varianza dello stimatore
• v(Yr) =s2
Yu
n=
1
n(n− 1)
n∑i=1
(Yi
Pi
− Yr
)2
⇒ Stimatore della varianza
13/32 P�i?22333ML232
Estrazione di n unita SENZA ripetizione• Le unita tali che nPi ≥ 1 sono incluse direttamente nel campione. Le unita rimanenti
costituiscono la popolazione da cui estrarre le unita che mancano per arrivare ad n.
• Schema di selezione sistematico casualizzato di n unita con probabilita variabili:
1. si costruisca la lista delle unita della popolazione da campionare ordinandole in
modo casuale;
2. si assegni ad ogni unita il valore cumulato Ti = n∑i
j=1 Pj con i = 1, 2, . . . , N ;
3. si estragga un numero casuale ε in 0− 1;
4. si prendano le unita i tali che Ti−1 < ε 6 Ti; Ti−1 < ε+1 6 Ti; Ti−1 < ε+2 6 Ti;
. . .; Ti−1 < ε + n− 1 6 Ti.
• πi = nPi
• v(Y ) =1− f
n(n− 1)
n∑i=1
(Yi
Pi
− Y
)2
⇒ Stimatore della varianza basato sul campio-
namento cion ripetizione.
14/32 P�i?22333ML232
Esempio: n = 4, ε = 0.757
Classe Ampiezza classe Xi Pi = Xi/X nPi Ti δi
1 15 0.08475 0.33898 0.33898 0
2 20 0.11299 0.45198 0.79096 1
3 18 0.10169 0.40678 1.19774 0
4 12 0.06780 0.27119 1.46893 0
5 25 0.14124 0.56497 2.03390 1
6 21 0.11864 0.47458 2.50847 0
7 20 0.11299 0.45198 2.96045 1
8 14 0.07910 0.31638 3.27684 0
9 15 0.08475 0.33898 3.61582 0
10 17 0.09605 0.38418 4.00000 1
177 1.00000 4.00000
15/32 P�i?22333ML232
Il campionamento stratificato
1. Si costruisce una partizione della popolazione, ciascun sottoinsieme della quale e
chiamato strato.
2. Da ogni strato si estrae un campione indipendente con un prefissato schema di
campionamento.
→ Il campione complessivo si dice campione stratificato.
• Notazione:
– h = 1, 2, . . . , H → indice di strato
– Nh, Yh e Yh → dimensione, totale e media di popolazione nello strato
– Yhi → valore del carattere y nell’unita i-esima dello strato h-esimo
– nh dimensione del campione nello strato h.
16/32 P�i?22333ML232
Stima del totale di popolazioneOgni strato puo essere visto come una popolazione a se stante, quindi lo stimatore
corretto del totale di strato e
Yh =
nh∑i=1
Yhi
πhi
con varianza data da V (Yh) e stima di varianza v(Yh). Ad esempio
V (Yh) =1
2
Nh∑i=1
Nh∑j 6=i
(πhiπhj − πhij)
(Yhi
πhi
− Yhj
πhj
)2
.
Poiche Y =∑H
h=1 Yh allora
Y =H∑
h=1
Yh
V (Y ) =H∑
h=1
V (Yh) e v(Y ) =H∑
h=1
v(Yh)
17/32 P�i?22333ML232
Stima della media di popolazione
Sia Wh = Nh/N il peso dello strato h nella popolazione, allora
Y =Y
N=
1
N
H∑h=1
Yh =H∑
h=1
Nh
N
Yh
Nh
=H∑
h=1
WhYh.
La sua stima sara data da
ˆY =H∑
h=1
WhˆYh
V ( ˆY ) =H∑
h=1
W 2hV ( ˆYh) e v( ˆY ) =
H∑h=1
W 2hv( ˆYh)
• Un campionamento stratificato e probabilistico e misurabile se lo sono i campiona-
menti all’interno di ciascuno strato
18/32 P�i?22333ML232
Il campionamento casuale stratificato
Stima della media
ˆY =H∑
h=1
Wh ˆyh con V ( ˆY ) =H∑
h=1
W 2h
1− fh
nh
S2h
Stima del totale
Y =H∑
h=1
Nh ˆyh con V (Y ) =H∑
h=1
N2h
1− fh
nh
S2h
19/32 P�i?22333ML232
L’allocazione proporzionale del campioneL’allocazione del campione negli strati si dice proporzionale quando la quota di unita
campionarie provenienti da uno strato e uguale al suo peso:
nh
n= Wh =
Nh
N
e quindinh
Nh
=n
N
Campionamento casuale stratificato con allocazione proporzionale comporta l’autopon-
derazione πh = π.
ˆY =H∑
h=1
nh
nˆyh = y
V (y) =1− f
n
H∑h=1
WhS2h.
20/32 P�i?22333ML232
L’effetto del disegno per il CCSTR con allocazione
proporzionale
Dalla scomposizione della varianza (Nh − 1 ∼ Nh)
S2 =H∑
h=1
Wh(Yh − Y )2 +H∑
h=1
WhS2h
varianza totale = var tra gli strati + var entro gli strati
Deff(y) =1−f
n
∑Hh=1 WhS
2h
1−fn
S2=
∑Hh=1 WhS
2h
S2< 1
21/32 P�i?22333ML232
La costruzione degli strati1. Scelta delle variabili di stratificazione
2. Determinazione del numero degli strati
3. Scelta della allocazione del campione
• proporzionale: nh = nWh;
• eguale o uniforme: nh = n/H;
• di compromesso: nh = 12(n/H + nWh);
• di Neyman: fra un po’...
Funzioni della stratificazione
• Incremento dell’efficienza
• Stima di parametri di sottopopolazioni (domini di studio)
• Organizzazione del lavoro sul campo
• Diversificazione di schemi di campionamento, modalita di raccolta dei dati.
22/32 P�i?22333ML232
Il campionamento a due stadi
Notazione
• U = {1, ..., j, ...,M}
• N grappoli di dimensione Mi, per i = 1, ..., N
• M =∑N
i=1 Mi dimensione della popolazione
• Y =∑N
i=1
∑Mi
j=1 Yij =∑N
i=1 Yio totale di popolazione di y
• Y = Y/M
Primo stadio: un campione di n unita di primo stadio e selezionato attraverso un piano
di campionamento p1(·).
Secondo stadio: per ogni i = 1, ..., n, un campione di mi unita di secondo stadio e
selezionato usando il piano di campionamento p2(·) . In questo modo il campione
complessivo avr dimensione m =∑n
i=1 mi.
23/32 P�i?22333ML232
Probabilita di inclusione• πi e πik al primo stadio
• πj|i e πjl|i condizionate al secondo stadio
Probabilita di inclusione del primo ordine dell’unita elementare j
πj = πiπj|i
Probabilita di inclusione del secondo ordine delle unita elementari j ed l
πjl =
πiπl|i se j = l
πiπjl|i se j e l appartengono allo stesso grappolo
πikπj|iπl|k se j e l non appartengono allo stesso grappolo
.
24/32 P�i?22333ML232
Stimatore di Horvitz–Thompson del totale
Y =n∑
i=1
mi∑j=1
Yij
πj
=n∑
i=1
1
πi
mi∑j=1
Yij
πj|i=
n∑i=1
Yio
πi
Correttezza:
E(Y ) = Esi[E(Y |si)] = Esi
[E(n∑
i=1
Yio
πi
|si)] = Esi[
n∑i=1
Yio
πi
] = Y
25/32 P�i?22333ML232
Varianza
V (Y ) = Vsi[E(
n∑i=1
Yio
πi
|si)] + Esi[V (
n∑i=1
Yio
πi
|si)]
= Vsi
(n∑
i=1
Yio
πi
)+ Esi
(n∑
i=1
V (Yio)
π2i
)= V1 + V2
V1 =N∑
i=1
Y 2io
1− πi
πi
+N∑
i=1
N∑j 6=i
Y 2io
πi
Y 2ko
πk
(πik − πiπk)
V2 =N∑
i=1
V (Yio)
πi
Se n = N → πi = 1, πik = 1 → V1 = 0, V2 =∑N
i=1 V (Yio)
27/32 P�i?22333ML232
Campionamento con probabilita variabili al primo sta-
dio e campionamento casuale semplice al secondo
• Stimatore: Y =n∑
i=1
Yio
nPi
• Varianza: V (Y ) =1
n
N∑i=1
Pi(Yio
Pi
− Y )2 +1
n
N∑i=1
M2i
Pi
1− fi
mi
S2i
• Stimatore di varianza: v(Y ) =1
n(n− 1)
n∑i=1
(Yio
Pi
− Y )2
• Campionamento senza ripetizione: Pi = πi/n
28/32 P�i?22333ML232
Ingegneria del campionamento a due stadi
• Autoponderazione del campione: nPimi
Mi
= K
• Se Pi =Mi
Mallora mi =
KM
n= m e K =
mn
M
• In questo modo ˆY = y
29/32 P�i?22333ML232
L’efficienza del campionamento a due stadi
V ( ˆY ) =1
nM2
N∑i=1
Pi(Yio
Pi
− Y )2 +1
nM2
N∑i=1
M2i
Pi
1− fi
mi
S2i
Se Pi = Mi
Me mi = m e assumendo fi = 0, allora
V ( ˆY ) =1
n
N∑i=1
Wi(Yio − Y )2 +1
nm
N∑i=1
WiS2i
dove Wi = Mi/M .
Deff(y) =1n
∑Ni=1 Wi(Yio − Y )2 + 1
nm
∑Ni=1 WiS
2i
1nm
(∑N
i=1 Wi(Yio − Y )2 +∑N
i=1 WiS2i )
≥ 1
30/32 P�i?22333ML232
Il campionamento a due stadi stratificato
• Stimatore: Y =H∑
h=1
nh∑i=1
Yhio
nhPhi
• Varianza: V (Y ) =H∑
h=1
1
nh
Nh∑i=1
Phi(Yhio
Phi
− Yh)2 +
H∑h=1
1
nh
Nh∑i=1
M2hi
Phi
1− fhi
mhi
S2hi
• Stimatore di varianza: v(Y ) =H∑
h=1
1
nh(nh − 1)
nh∑i=1
(Yhio
Phi
− Yh)2
31/32 P�i?22333ML232
Ingegneria del campione a due stadi stratificato
• Autoponderazione del campione: nhPhimhi
Mhi
= K
• Se Phi =Mhi
Mh
allora mhi =KMh
nh
• Se nh = nMh/M , allora mhi =KM
n= m e K =
mn
M
• In questo modo ˆY = y
• Numero degli strati H = n o H = n/2.
• Varianza: V ( ˆY ) =1
n
H∑h=1
Nh∑i=1
Whi(Yhio − Yh)2 +
1
nm
H∑h=1
Nh∑i=1
WhiS2hi.
32/32 P�i?22333ML232
Fasi di costruzione del campione a 2 stadi stratificato
1. Si stabilisce m
2. Si stabilisce m.
3. m/m = n grappoli da estrarre.
4. Si stabilisce nh = 1 o = 2, sia n il valore prescelto.
5. H = n/n
6. Mh = M/H → costruzione degli H strati.
7. Estrazione degli n grappoli da ogni strato con probabilita Phi = Mhi/Mh (campione
di primo stadio).
8. Estrazione di un campione casuale semplice di dimensione m da ogni grappolo
(campione di secondo stadio).