aragongazen

6
Utilisation des proc´ edures SAS dans l’enseignement des sondages Yves Aragon Anne Ruiz-Gazen e-mail: [email protected], [email protected] 1. Introduction Depuis la version 8, SAS [6] propose trois proc´ edures pour les questions d’estimation en sondages. Il s’agit des proc surveyselect pour la s´ election d’´ echantillons, surveymeans pour l’estimation de moyennes, totaux et ratios et surveyreg pour l’estimation des coefficients d’une r´ egression. Les proc´ edure SAS sont relativement faciles d’utilisation. Elles permettent de compl´ eter des exercices de travaux dirig´ es et, si on dispose d’une popu- lation exhaustive, d’exp´ erimenter des propri´ et´ es th´ eoriques par simulation. La proc surveyselect offre de nombreuses possibilit´ es de tirages al´ eatoires tandis que surveymeans et surveyreg tiennent compte de plans de sondages complexes dans les estimations. Nous pr´ esentons ces diff´ erentes proc´ edures et illustrons leur usage sur la population des 554 communes de moins de 10000 habitants de la Haute-Garonne pour lesquelles nous disposons de donn´ ees issues du recensement de 1999. Nous nous int´ eressons ` a l’estimation du nombre total de logements vacants. L’ensemble des communes est partitionn´ e en 32 Bassins de vie quotidienne (BVQ). La variable nombre de logements est consid´ er´ ee comme une information auxiliaire. Les communes sont r´ eparties en 4 strates d’apr` es la variable auxiliaire. L’information exhaustive est connue mais, dans un but p´ edagogique, nous ´ echantillonnons suivant diff´ erentes m´ ethodes. Ce choix de donn´ ees est inspir´ e de l’exemple des municipalit´ es de Su` ede de [5]. 2. Tirage d’´ echantillons La proc surveyselect offre un ensemble d’algorithmes de tirages d’´ echantillons, notamment des tirages avec probabilit´ es proportionnelles ` a la taille, avec ou sans remise (voir [2] pour une description synth´ etique et compl` ete des possibilit´ es). 2.1. Exemple de plan ` a un degr´ e Les donn´ ees sont dans la table COMpop et les strates sont d´ efinies par la variable stratloge. Consid´ erons la election d’´ echantillons d´ ecrite par la syntaxe suivante : proc surveyselect data=COMpop method=srs n=(5 10 21 34) seed=57926 out=logestsi rep=1000; strata stratloge; run; Le plan de sondage est un plan stratifi´ e simple. La m´ ethode de tirage est donn´ ee par srs (simple random sampling) et les tailles d’´ echantillon dans chaque strate sont donn´ ees par n. La graine du g´ en´ erateur de nombres al´ eatoires a ´ et´ e fix´ ee (seed=...) et l’option rep=1000 permet de tirer 1000 ´ echantillons, ce qui est utile pour faire des comparaisons empiriques de m´ ethodes (voir la section 5). SAS fournit en sortie les ´ echantillons et les probabilit´ es d’inclusion du premier ordre, les poids (SamplingWeight), inverses des probabilit´ es d’inclusion, utilis´ es pour l’´ etape d’estimation et, pour certains plans, les probabilit´ es d’inclusion du second ordre (option JTPROBS). Yves Aragon et Anne Ruiz-Gazen: GREMAQ, UMR CNRS C5604, Universit´ e de Toulouse 1, 21 all´ ee de Brienne, 31000 Toulouse, France et Laboratoire de Statistique et Probabilit´ es, UMR CNRS C5583, Universit´ e Paul Sabatier, Toulouse.

Upload: maodo-hott

Post on 29-Jul-2015

109 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Aragongazen

Utilisation des procedures SAS dans l’enseignement des sondages

Yves Aragon � Anne Ruiz-Gazen

e-mail: [email protected], [email protected]

1. Introduction

Depuis la version 8, SAS [6] propose trois procedures pour les questions d’estimation en sondages. Il s’agit desproc surveyselect pour la selection d’echantillons, surveymeans pour l’estimation de moyennes, totauxet ratios et surveyreg pour l’estimation des coefficients d’une regression. Les procedure SAS sont relativementfaciles d’utilisation. Elles permettent de completer des exercices de travaux diriges et, si on dispose d’une popu-lation exhaustive, d’experimenter des proprietes theoriques par simulation. La proc surveyselect offre denombreuses possibilites de tirages aleatoires tandis que surveymeans et surveyreg tiennent compte de plansde sondages complexes dans les estimations. Nous presentons ces differentes procedures et illustrons leur usage surla population des 554 communes de moins de 10000 habitants de la Haute-Garonne pour lesquelles nous disposonsde donnees issues du recensement de 1999. Nous nous interessons a l’estimation du nombre total de logementsvacants. L’ensemble des communes est partitionne en 32 Bassins de vie quotidienne (BVQ). La variable nombrede logements est consideree comme une information auxiliaire. Les communes sont reparties en 4 strates d’apresla variable auxiliaire. L’information exhaustive est connue mais, dans un but pedagogique, nous echantillonnonssuivant differentes methodes. Ce choix de donnees est inspire de l’exemple des municipalites de Suede de [5].

2. Tirage d’echantillons

La proc surveyselect offre un ensemble d’algorithmes de tirages d’echantillons, notamment des tiragesavec probabilites proportionnelles a la taille, avec ou sans remise (voir [2] pour une description synthetique etcomplete des possibilites).

2.1. Exemple de plan a un degre

Les donnees sont dans la table COMpop et les strates sont definies par la variable stratloge. Considerons laselection d’echantillons decrite par la syntaxe suivante :

proc surveyselect data=COMpop method=srsn=(5 10 21 34)seed=57926 out=logestsi rep=1000;strata stratloge;

run;

Le plan de sondage est un plan stratifie simple. La methode de tirage est donnee par srs (simple randomsampling) et les tailles d’echantillon dans chaque strate sont donnees par n. La graine du generateur de nombresaleatoires a ete fixee (seed=...) et l’option rep=1000 permet de tirer 1000 echantillons, ce qui est utile pourfaire des comparaisons empiriques de methodes (voir la section 5).

SAS fournit en sortie les echantillons et les probabilites d’inclusion du premier ordre, les poids (SamplingWeight),inverses des probabilites d’inclusion, utilises pour l’etape d’estimation et, pour certains plans, les probabilitesd’inclusion du second ordre (option JTPROBS).

Yves Aragon et Anne Ruiz-Gazen: GREMAQ, UMR CNRS C5604, Universite de Toulouse 1, 21 allee de Brienne, 31000Toulouse, France et Laboratoire de Statistique et Probabilites, UMR CNRS C5583, Universite Paul Sabatier, Toulouse.

Page 2: Aragongazen

2 Yves Aragon, Anne Ruiz-Gazen

2.2. Exemple de plan a un degre avec remise et probabilites proportionnelles a la taille

On utilise l’information auxiliaire nombre de logements (loge) pour tirer avec remise un echantillon de 70 com-munes.

proc surveyselect data=COMpop method=pps_wr n=70seed=98556 out=logepps rep=1000 outhits ;size loge;

run;

Dans un plan avec remise, SAS cree une variable (NumberHits) indiquant le nombre d’apparitions de chaqueobservation. Par l’option outhits, chaque unite figure dans le fichier de sortie autant de fois qu’elle a ete tiree.Il est preferable d’utiliser cette option en vue des etapes d’estimation suivantes.

2.3. Exemple de plan a deux degres

On dispose de la table BVQpop des identifiants des �� � �� BVQ. On veut tirer un echantillon de communespresentant une dispersion spatiale. Pour ce faire on met en œuvre un plan a deux degres.

� Degre 1. On tire un echantillon �� de ���� �� BVQ suivant un plan SI, taux de sondage : �� � ����� .

proc surveyselect data= BVQpop sampsize= 6 seed= 25123stats out=bvqsel rep=500;

run;

La table en sortie contient notamment les variables replicate, numero d’echantillon, et BVQ_N, identifiant desBVQ tires dans chaque echantillon. On forme ensuite dans une etape data le fichier des communes des BVQechantillonnes : comsel1 ou les poids du sondage de ce premier degre sont renommes w1.

� Degre 2. Dans chaque BVQ � � �� , de �� communes, on tire un echantillon � � de ���� �� communes suivant unplan SI, taux de sondage : �� � �����.

proc surveyselect data= comsel1 sampsize= 3seed= 55268 out=comsel2 stats;

strata BVQ_N;by replicate;run;

On renomme w2 les poids de sondage de ce degre.

Dans le cas d’un plan a deux degres, il est important que l’utilisateur stocke par une etape data le produit despoids des deux degres w12 = w1 * w2 en vue de l’etape d’estimation.

3. Estimation de totaux, moyennes et ratios

Les proc surveymeans et surveyreg permettent de calculer des estimateurs de totaux, moyennes, ratios,et coefficients de regressions lineaires, en tenant compte du plan d’echantillonnage. Les poids d’observation sontpris en compte par la commande weight (qui existe aussi dans les proc means et reg) tandis que la structuredu plan de sondage est donnee par les commandes strata et cluster. Une moyenne est consideree commeun ratio et elle est estimee a l’aide de l’estimateur de Hajek, quotient des estimateurs du total et de la taille del’echantillon.

3.1. Exemple d’utilisation de la proc surveymeans

On tire 1000 echantillons de 70 communes selon un plan SI et on obtient les 1000 estimations du nombre total delogements vacants (variable logevac) stockees dans le fichier resultat par la syntaxe suivante :

proc surveyselect data=COMpop method=srs n=70 statsseed=47279 out=logsi rep=1000;

run;

Page 3: Aragongazen

Utilisation des procedures SAS dans l’enseignement des sondages 3

proc surveymeans data=logsi total=554 sum;var logevac;by Replicate;weight Samplingweight;ods select none;ods output Statistics = resultat;

run;ods select all;

C’est l’Output Delivery System (ODS) qui gere les sorties des procedures surveymeans et surveyreg. Lacommande ods output Statistics = resultat; envoie ces sorties dans un fichier resultat et lacommande ods select none; supprime toute impression dans la fenetre output.

3.2. Exemples d’utilisation de la proc surveyreg

Cette procedure realise essentiellement l’estimation des coefficients d’une regression a l’aide de donnees obtenuespar echantillonnage. Mais elle permet egalement des estimations par regression et par ratio de totaux ou demoyennes.

Considerons l’estimation par regression du nombre total de logements vacants (logevac) a l’aide de l’informationauxiliaire nombre de logements, d’apres le modele :

logevac� � �� � ��loge� � ��� �� � ��� ��

Sachant que le nombre total de logements est 197314, l’estimateur du total est : ��� � �� � ��� � ���. Lasyntaxe suivante realise cette estimation :

proc surveyreg data=logsi total=554;model logevac = loge / Solution;by Replicate;Estimate "logevac" Intercept 554 loge 197314;ods select none;ods output Estimates = resultat;

run;ods select all;

Une estimation par ratio du nombre total de logements vacants correspond au modele :

logevac� � ��loge� � ��� �� � ��� �loge��

Apres avoir calcule la variable ratiologe = 1/loge, on estime le total par la syntaxe :

proc surveyreg data=logsi total=554;model logevac = loge /Noint Solution;Weight ratiologe;by Replicate;Estimate "logevac" loge 197314;ods select none;ods output Estimates = resultat;

run;ods select all;

Des commandes strata et cluster sont egalement disponibles pour decrire la structure du plan. En presencede poids de sondages inegaux et d’un modele sur la variance, l’utilisateur doit calculer prealablement la variablede la commande Weight. Pour l’estimation par regression, SAS retient essentiellement une approche bas ee surun modele et non assistee par un modele (voir les discussions de [5] et [8] sur cette distinction).

Page 4: Aragongazen

4 Yves Aragon, Anne Ruiz-Gazen

4. Estimation de variances

4.1. Principe

SAS estime les variances des estimateurs de totaux, moyennes, ratios et coefficients de regression. Quand l’estimateurn’est pas lineaire, cas d’un ratio par exemple, SAS utilise la technique de linearisation a la facon de [9] (voir aussi[7] pour un expose recent). Par les commandes strata et cluster, SAS permet de prendre en compte les plansstratifies et a plusieurs degres. Pour un plan a plusieurs degres, l’utilisateur doit fournir le produit des poids desdifferents degres mais ne peut indiquer la structure du plan que pour le premier degre. Illustrons cette limitationsur un plan SI,SI.

4.2. Exemple d’estimation de variance dans un plan a deux degres

Dans un plan a plusieurs degres, la variance de l’estimateur du total est la somme des variances correspondant auxdifferents degres (voir [5] p. 137). Considerons en particulier un plan a deux degres SI,SI. L’estimation sans biaisde la variance du total s’ecrit :

�var���� � � � avec � � � �

� ����

������� et ���

��

���

��

� ����

��

����

Attention. � (resp. ) n’est pas un estimateur sans biais de la variance du premier (resp. deuxieme) degre et leterme � surestime la variance du premier degre (voir par exemple [5] p. 137).

Sur l’exemple du plan a deux degres de la section 2.3, deux solutions s’offrent a nous pour estimer la variance del’estimateur par les valeurs dilatees du nombre total de logements.

(1) Suivre les suggestions de SAS c’est-a-dire :– preciser le plan du premier degre par la commande cluster bvq_n;,– utiliser les poids produits des deux degres (w12 = w1 * w2),– preciser la correction de population finie (fpc1 = � � � ���� � � ��) par l’option rate=fpc1.

On obtient, �, estimateur biaise de la variance comme on l’a indique ci-dessus.

(2) Calculer l’estimateur sans biais �var���� en calculant aussi . Au facteur ����� pres, est la variance d’untotal dans un plan stratifie (strata BVQ_n).

5. Comparaisons empiriques

Revenons a l’estimation du nombre de logements vacants. Les tableaux ci-dessous permettent de comparer differentsplans de sondage et differentes methodes d’estimation. Pour chaque plan, on a realise 1000 tirages et on donne lesestimations moyennes du total et les coefficients de variation des estimateurs calcules a partir des variances em-piriques. Le nombre total de logements vacants fourni par le recensement est 10768.

5.1. Comparaison de plans d’echantillonnage

Nous avons considere les plans suivants :

SI : plan simple de taille � � �� communes,

STSI taille : plan simple stratifie avec affectation proportionnelle a la taille en nombre de communes,

STSI loge : plan simple stratifie avec affectation proportionnelle au nombre de logements,

pps : plan avec remise et probabilites proportionnelles au nombre de logements,

grappe : plan simple de taille � � BVQ et tirage des 4 grappes de communes associees.

Page 5: Aragongazen

Utilisation des procedures SAS dans l’enseignement des sondages 5

On a fixe les tailles d’echantillons a 4 BVQ pour le plan en grappes et a 70 communes pour les autres plans car4 BVQ correspondent en moyenne a 70 communes.

Plan Estimation total Coefficient de variationSI 10668 18.84%STSI taille 10776 13.35%STSI loge 10745 6.97%pps 10779 7.45%grappe 10758 31.96%

Tableau 1

Le tableau 1 illustre que, comparativement a un plan SI, un plan stratifie permet d’ameliorer la precision tandisqu’un plan en grappes conduit generalement a une perte de precision. Les meilleurs resultats sont obtenus enprenant en compte l’information auxiliaire, nombre de logements, que ce soit par echantillonnage stratifie ou parechantillonnage avec probabilite proportionnelle a la taille.

5.2. Comparaison des estimateurs par valeurs dilatees, par ratio et par regression pour un plan SI

Le tableau 2 ci-dessous, obtenu pour un plan SI de taille 70, montre l’interet de prendre en compte la variableauxiliaire nombre de logements dans l’estimation.

Methode d’estimation Estimation total Coefficient de variationpar valeurs dilatees 10668 18.84%par ratio 10854 11.25%par regression 10828 11.72%

Tableau 2

5.3. Comparaison des estimations de variance dans le plan a deux degres

0.7 0.8 0.9 1.0

050

100

150

200

Fig. 1. Histogramme du rapport “estimation suggeree par SAS/estimation sans biais”.

La figure ci-dessus donne l’histogramme des rapports A/(A+B) definis section 4.2 ; le numerateur corresponda l’estimation de variance suggeree par SAS tandis que le denominateur donne l’estimation sans biais. On observeque la grande majorite des valeurs sont superieures a 80%, ce qui justifie pour cet exemple l’utilisation de laformule simplifiee suggeree par SAS.

Page 6: Aragongazen

6 Yves Aragon, Anne Ruiz-Gazen: Utilisation des procedures SAS dans l’enseignement des sondages

6. Conclusion

La procedure surveyselect offre un choix important d’algorithmes de tirage avec des temps d’execution tressatisfaisants. Les procedures surveymeans, surveyreg et, dans la version 9, surveylogistic (voir [1])qui prennent en compte la structure de plans de sondage relativement complexes, constituent des avancees significa-tives par rapport aux procedures classiques means, reg et logistic. L’acces aux techniques de sondage s’entrouve facilite, que ce soit pour un enseignement ou dans une entreprise ne disposant pas d’un logiciel specifique.

Notons enfin que SAS propose aussi deux procedures pour le traitement des valeurs manquantes : les procmi et mianalyze.

References

1. An, R.P. (2002). ”Performing Logistic Regression on Survey Data with the New SURVEYLOGISTIC Procedure”, SUGI 27Paper 258-27 .

2. An, R.P., Watts D. and Stocks M. (1999). ”SAS Procedures for Analysis of Sample Survey Data”, The Survey Statistician,No. 41, http://www.cbs.nl/isi/survey-41-2.htm, part 2.

3. Berglund, P.A. (2002). ”Analysis of Complex Sample Survey Data Using the SURVEYMEANS and SURVEYREG Proceduresand Macro Coding”, SUGI 27 Paper 263-27.

4. Gossett, J.M., Simpson P., Parker J.G. and Simon W.L. (2002). ”How Complex Can Complex Survey Analysis Be with SAS?”, SUGI 27 Paper 266-27 .

5. Sarndal, C.E., Swensson B. and Wretman J. (1992). Model Assisted Survey Sampling, Springer-Verlag, New-York, 694pages.

6. SAS/STAT (2000). User’s Guide, Version 8, SAS Institute, Cary NC.7. Tille Y. (2001). Theorie des sondages - Echantillonnage et estimation en populations finies, Dunod, Paris, 284 pages.8. Valliant R., Dorfman A.H. and Royall R.M. (2000) Finite Population Sampling and Inference: A Prediction Approach,

Wiley, New-York, 536 pages.9. Woodruff R.S. (1971). ”A Simple Method for Approximating the Variance of a Complicated Estimate”, Journal of the

American Statistical Association, Vol. 66, pp. 411-414.