stratification a posterioriirma.math.unistra.fr/~mmaumy/enseignement/m1stats/...1 introduction 2...

IntroductionPrincipeExemple

Formules d’estimation d’une stratification a posterioriComparaison avec un SAS

Redressements sur critères multiples

Stratification a posteriori

Myriam Maumy-Bertrand1

1IRMA, Université de StrasbourgStrasbourg, France

Master 1ère Année 13-11-2014

Myriam Maumy-Bertrand Stratification a posteriori




RéférenceCe chapitre s’appuie essentiellement sur l’ouvrage :

« Méthodes statistiques des sondages »,de Jean-Marie Grosbras,aux éditions Economica, 1987.





Principe fondamentalDéfinition

Sommaire

1 Introduction

2 Principe

3 Exemple

4 Formules d’estimation d’une stratification a posteriori

5 Comparaison avec un SAS

6 Redressements sur critères multiples






RemarqueC’est la deuxième méthode (après le sondage stratifié) qui vautiliser une variable auxiliaire car il est rare que nous nedisposons pas d’une variable quantitative ou qualitative dont lavaleur/modalité est connue pour chacun des individus de lapopulation.

Principe fondamentalLorsque nous disposons d’une information auxiliaire, il fautchercher à l’utiliser dans le but d’obtenir des estimateurs plusprécis que les estimateurs simples de la moyenne ou du totalqui apparaissent dans le cadre du sondage à PESR ou à PISR.






L’information auxiliaire peut être utilisée au niveau de laconstruction de l’échantillon (stratification, tirage proportionnelà un critère de taille,. . .) ou au niveau de l’expression del’estimateur (techniques de redressement/calage).

Si plusieurs variables auxiliaires sont utilisées, nous pouvonsrecourir à une technique mixte dans laquelle certainesvariables servent à améliorer le tirage de l’échantillon, et lesautres à améliorer l’estimateur.






DéfinitionLa stratification a posteriori est une méthode de redressementd’échantillon sur une variable qualitative.

Cette méthode fait partie des méthodes de calage aux marges.Parmi les méthodes de calage aux marges, nous citons :

post-stratification (ce chapitre)estimation par quotient (chapitre 5)estimation par régression (chapitre 7)estimation par régression multiple (non traité)





Sommaire

1 Introduction

2 Principe

3 Exemple








PrincipeNous étudions un caractère X sur une population. Nousconnaissons un autre caractère Y sur cette même populationet surtout sa distribution.

L’échantillon n’est pas stratifié a priori sur Y mais pourchacune des unités échantillonnées on relève le couple (xi ; yi).

Nous définissons, à posteriori, des strates selon les valeurs deY .

Nous repondérons les données par les poids véritables desstrates définies sur Y .





Si ce critère Y est corrélé avec X , c’est-à-dire si la variabilité deX s’explique en partie par des différences entre les classes deY , le calage de l’échantillon lui donne alors une représentativitéplus fidèle et conduit à des résultats plus fiables.

C’est pourquoi les questionnaires comportent souvent en plusdes questions qui abordent le thème de l’étude, des élémentsde description de l’unité interrogée comme par exemple, lenombre de personnes du ménage, le nombre d’enfants, la CSPdes adultes, les caractéristiques du logement...

Ces éléments permettent de juger de la qualité de l’échantillonet de suggérer des calages éventuels.





Sommaire

1 Introduction

2 Principe

3 Exemple








ExempleUn échantillon de 1 000 personnes interrogées sur la question

« Allez-vous au cinéma au moins une fois par mois ? »

Nous avons croisé cette question avec une autre question

« Avez-vous une télévision ? »





Voici la répartition des réponses obtenues

Cinémaoui non total

Télé oui 20 680 700non 80 220 300total 100 900 1 000

100 personnes répondent « oui » à la première question, ce quinous permet d’estimer le pourcentage à 10%.Le calcul que nous avons fait s’écrit de la façon suivante

π̂ =20700× 700

1 000+

80300× 300

1 000= 0,10.





RemarqueDans l’échantillon, il y a une sous représentation despossesseurs de télévisions. Comment le savons-nous ? Pard’autres sources qui nous indiquent qu’il y a 80% de gens quipossèdent une télévision.

ConséquenceL’estimation du pourcentage ne se calcule plus de la mêmefaçon ! Rectifions le calcul

π̂ =20

700× 800

1 000+

80300× 200

1 000= 0,076

ou encore π̂ est égal à 7,6%. Que faut-il en conclure ?





Estimation d’une moyenne par stratification a posterioriEstimation d’un total par stratification a posterioriVariance de l’estimateur de la moyenneVariance de l’estimateur du total

Sommaire

1 Introduction

2 Principe

3 Exemple









DéfinitionL’estimateur d’une moyenne µ de la population U est défini par

µ̂post =k∑

h=1

Nh

Nµ̂h,

où Nh représente l’effectif des strates a posteriori et

µ̂h =1nh

nh∑i=1

Xhi .






RemarqueC’est la même formule que la moyenne µ̂st d’un échantillonstratifié a priori. Mais c’est seulement une apparence !

En effetDans le calcul de µ̂st , les µ̂h sont fondés sur des tailles nhfixées à l’avance.Dans le calcul de µ̂post , les µ̂h sont fondés sur des taillesnh qui ne sont pas fixées à l’avance, mais qui sont desrésultats constatés sur l’échantillon. Donc les tailles nhsont des quantités aléatoires.






Comment faire dans les calculs si les nh sont aléatoires ?La démarche se fait en deux étapes.

Nous fixons d’abord les nh.Puis nous introduisons l’aléatoire sur les nh.

C’est cette démarche qui va nous permettre de calculerl’espérance de µ̂post pour savoir si µ̂post est un estimateurbiaisé ou pas.






Calcul de l’espérance de µ̂post

Nous avons par conditionnement

E [µ̂post ] = E [E [µ̂post |nh]] .

D’autre part, nous avons

E [µ̂post |nh] =H∑

h=1

Nh

NE [µ̂h|nh]

=H∑

h=1

Nh

Nµh

= µ.






D’où, nous en concluons que

E [µ̂post ] = E [E [µ̂post |nh]]

= E [µ] d’après ce que nous venons d’établir= µ.

PropriétéNous montrons, par calcul, que µ̂post est un estimateur sansbiais d’une moyenne µ de la population U.






DéfinitionL’estimateur d’un total T d’une population U est défini par

T̂post =H∑

h=1

Nhµ̂h,

où Nh représente l’effectif des strates a posteriori et

µ̂h =1nh

nh∑i=1

xhi .






Propriété

Nous montrons, par calcul comme précedemment, que T̂postest un estimateur sans biais d’un total T d’une population U,i.e.

E[T̂post

]= E

[k∑

h=1

Nhµ̂h

]= T .






Calcul de la variance de µ̂post

Nous procédons de la même manière que nous avons calculél’espérance de cet estimateur, c’est à dire en conditionnant parnh.Par conséquent, nous obtenons

Var [µ̂post ] = Var [E [µ̂post |nh]] + E [Var [µ̂post |nh]] .

Or nous avons montré précedemment que

E [µ̂post |nh] = µ.

Par conséquent, nous avons

Var [E [µ̂post |nh]] = Var [µ] = 0.Myriam Maumy-Bertrand Stratification a posteriori





Reste plus qu’à calculer le second membre de l’équation de lavariance.

Var [µ̂post |nh] =k∑

h=1

N2h

N2 Var [µ̂h|nh]

=k∑

h=1

N2h

N2Nh − nh

NhnhS2

h,c

=k∑

h=1

N2h

N21nh

S2h,c −

1N

k∑h=1

Nh

NS2

h,c .






Par conséquent, nous avons

E[Var[µ̂post |nh]] = E

[k∑

h=1

N2h

N21nh

S2h,c −

1N

k∑h=1

Nh

NS2

h,c

]

=k∑

h=1

N2h

N2 S2h,cE

[1nh

]− 1

N

k∑h=1

Nh

NS2

h,c .

Il ne reste plus qu’à calculer

E[

1nh

].






Posonsπh =

Nh

Net π̂h =

nh

n.

Remarquons queE[π̂h] = πh.

De plus, nous avons

nh = nnh

n= nπ̂h = n(π̂h − πh + πh)

= nπh

(1 +

π̂h − πh

πh

).






Par conséquent nous en tirons que

1nh

=1

nπh× 1

1 +π̂h − πh

πh

.

Commeπ̂h − πh

πhtend vers 0, nous pouvons faire un

développement limité sur l’égalité ci-dessus et nous obtenonsque :

1nh

=1

nπh×

(1− π̂h − πh

πh+

(π̂h − πh)2

π2h

+ oP

((π̂h − πh)

2

π2h

)).






E[

1nh

]=

1nπh

E

[(1− π̂h − πh

πh+

(π̂h − πh)2

π2h

+oP

((π̂h − πh)

2

π2h

))]

=1

nπh

(1− 0

+E

[(π̂h − πh)

2

π2h

+ oP

((π̂h − πh)

2

π2h

)]).






Calculons maintenant

E

[(π̂h − πh)

2

π2h

+ oP

((π̂h − πh)

2

π2h

)].

En remarquant que E[(π̂h − πh)2] est égale à la variance de

l’estimateur π̂h et que l’on est dans un cas de tirage à PESR,nous obtenons que

E

[(π̂h − πh)

2

π2h

+ oP

((π̂h − πh)

2

π2h

)]' N − n

N − 1πh(1− πh)

n× 1π2

h.






Finalement, nous avons

E[

1nh

]' 1

nπh

(1 +

N − nNn

(1− πh)

πh

).






D’où, nous en déduisons que

Var [µ̂post ] 'k∑

h=1

π2hS2

h,c

(1

nπh+

N − nNn2

(1− πh)

π2h

)

− 1N

k∑h=1

πhS2h,c .






En développant et en réorganisant les termes, nous obtenons

Var [µ̂post ] '1n

k∑h=1

πhS2h,c −

1N

k∑h=1

πhS2h,c

+1n

N − nNn

k∑h=1

(1− πh)S2h,c

' N − nNn

k∑h=1

πhS2h,c +

1n

N − nNn

k∑h=1

(1− πh)S2h,c .






Finalement, nous obtenons que

Var (µ̂post) '(1− f )

n

H∑h=1

Nh

NS2

h,c +(1− f )

n2

H∑h=1

(1− Nh

N

)S2

h,c

variance de µ̂post + le prix à payer pourn’avoir pas tenu comptede la stratificationdès le départ.

RemarqueCette dernière quantité tend vers 0 lorsque n devient grand.






PropriétéNous montrons, par des calculs analogues à ceux développéspour l’estimateur de la moyenne, que

Var[

T̂post

]' N

((1− f )

n

k∑h=1

NhS2h,c

+(1− f )

n2

k∑h=1

(N − Nh)S2h,c

).





Sommaire

1 Introduction

2 Principe

3 Exemple








Comparaison avec un SASNous rappelons que

Var[µ̂] =(1− f )

nS2

c

' (1− f )n

(k∑

h=1

Nh

NS2

h,c +k∑

h=1

Nh

N(X h − µ

)2)

et

Var [µ̂post ] '(1− f )

n

(k∑

h=1

Nh

NS2

h,c +1n

k∑h=1

N − Nh

NS2

h,c

).





D’où, nous en déduisons que

n(1− f )

(Var [µ̂]− Var [µ̂post ])

'k∑

h=1

Nh

N(X h − µ

)2 − 1n

k∑h=1

N − Nh

NS2

h,c .

La stratification a posteriori se justifie lorsque cette quantité estlargement positive.





Remarques1. La variable étudiée doit-être corrélée avec le critère de

stratification, c’est-à-dire avoir une valeur élevée durapport de corrélation inter-strate.

2. n doit être assez grand, puisque on se sert de1/n→ 0 lorsque n→ +∞. Donc c’est inutile derepondérer les petits échantillons.

3. (N − Nh)/N doit être très petit, puisque on se sert de cettehypothèse pour faire un développement limité. Il faut doncque Nh/N doit être grand. Par conséquent, c’est inutiled’avoir beaucoup de petites strates.





Le problèmeLa méthode RASLa méthode ASAM

Sommaire

1 Introduction

2 Principe

3 Exemple









Retour à l’exemple « Cinéma et Télévision »Nous avons le tableau suivant :

B1 B2 totalA1 20 680 700A2 80 220 300

total 100 900 1 000

En réalité, la marge sur A est (800,200).






Comme nous l’avons montré au début de ce chapitre, lamoyenne calée sur A se calcule par

11 000

800700

∑i∈A1

yi +200300

∑i∈A2

yi

.Les observations de A1 sont redressées par 800/700 et cellesde A2 par 200/300.

Imaginons que l’échantillon soit déformé par rapport à B. Noussavons par d’autres sources, que la marge de B est en réalité(80,920).






ProblèmeNous voulons caler l’échantillon sur les deux critèressimultanément.

Solution idéaleConnaître les effectifs théoriques croisés mais en réalité on nedispose que des marges.






ProblèmeEstimer les coefficients de redressement par case, respectantles conditions à la marge.

Quatre Solutions• La méthode RAS• La méthode ASAM• L’ajustement par l’analyse des données• La méthode de Lemel (1976)

Nous ne développerons pas les deux dernières méthodes,mais nous renvoyons au livre de Jean-Marie Grosbras pour deplus amples renseignements sur ces deux méthodes.






La méthode RAS : Le principe

Le tableau à ajuster est A = (aij).Le total de ligne est ai., le total théorique est ri .Le total de ligne est a.j , le total théorique est sj .On commence par ajuster les totaux en ligne :aij → aij = aij ∗ (ri/ai.).Puis on ajuste les totaux en colonne :aij → aij = aij ∗ (sj/a.j).En ajustant les totaux en colonne, on a détruit l’ajustementdes totaux en ligne. On recommence...On itère le processus jusqu’à convergence.






Avec les données de l’exemple « Cinéma-Télévision », nousavons

A =

15 20 45 1245 67 23 1267 23 91 1577 33 91 35

r =

100150150200

s = [170 150 190 90]






La méthode RAS donne

16 24 42 18 10041 73 20 16 15051 21 62 16 15062 32 66 40 200

170 150 190 90 600






Ajustement Statistique et Algébrique d’une Matrice (ASAM)

Cette méthode est plus générale et englobe comme casparticulier la méthode RAS.

IdéeSi l’échantillon n’est pas trop mauvais, la structure croiséeobservée doit avoir des similitudes avec la « vraie » structure.

On a un tableau (aij) tel que T =∑

i∑

j aij .On chercher un tableau (xij), proche de (aij) tel que∑

j

xij = ri ,∑

i

xij = sj ,∑∑

xij = T .






La méthode ASAM consiste en la résolution du programmesuivant

minxij

∑i

∑j

1ρij

(xij − aij)2

avec ∑j

xij = ri ,∑

i

xij = sj ,∑

i

∑j

xij = T .

Les ρij sont à choisir si nous voulons moduler l’importance dechaque case.






RemarquesLa méthode ASAM est une méthode des moindres carréspondérés et contraints.Il existe des programmes traitant ce genre de problème.Le choix optimal pour les ρij est de les prendreproportionnels aux variances des aij , considérés commedes variables aléatoires

ρij = cVar[aij ].






Suite des remarquesNous prenons dons les ρij représentatifs de ce que nouspouvons connaître des variances des effectifs aij .La méthode RAS est un cas particulier de la méthodeASAM dans le cas où les aij sont proportionnels à leurvariance.La méthode ASAM est plus satisfaisante puisqu’ellerecherche une similitude de structure.Elle est évidemment plus coûteuse.


stratification a posterioriirma.math.unistra.fr/~mmaumy/enseignement/m1stats/...1 introduction 2...

Documents