stt-2000 Échantillonnage

36
STT-2000 Échantillonnage Pierre Duchesne courriel: duchesne @ dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web: www.dms.umontreal.ca /~ duchesne Version: 27 juillet 2014

Upload: malloren-rasmussen

Post on 04-Jan-2016

82 views

Category:

Documents


2 download

DESCRIPTION

Pierre Duchesne courriel: [email protected] téléphone: 343-7267 bureau: 4251 web: www.dms.umontreal.ca/~duchesne Version: 27 juillet 2014. STT-2000 Échantillonnage. Plan de cours. 1. Structure d’une enquête par sondage. 2. Méthodes d’échantillonnage. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: STT-2000 Échantillonnage

STT-2000Échantillonnage

Pierre Duchesne

courriel: [email protected]

téléphone: 343-7267

bureau: 4251

web: www.dms.umontreal.ca/~duchesneVersion: 27 juillet 2014

Page 2: STT-2000 Échantillonnage

STT-2000; Échantillonnage

2

Plan de cours

1. Structure d’une enquête par sondage. 2. Méthodes d’échantillonnage. 3. Utilisation de variables auxiliaires. 4. Sondages empiriques. 5. Types d’erreur de sondage. 6. Méthode de Monte Carlo.

Page 3: STT-2000 Échantillonnage

STT-2000; Échantillonnage

3

Barême Le barême proposé est le suivant:

– Examen intra : 30%.– Examen final : 40%.– Sondage : 7.5%.– Devoirs : 7.5% x 3 = 22.5%.

Ouvrages de référenceLohr (2009), Sampling : Design and Analysis, Seconde édition, NY: Duxbury Press.

Särndal, Swensson et Wretman (1992), Model Assisted Survey Sampling, NY: Springer-Verlag (Obligatoire)(Fortement recommandé).

Page 4: STT-2000 Échantillonnage

Échantillonnage (STT-2000)

Section 1

Structure d’une enquête par sondage.

Page 5: STT-2000 Échantillonnage

STT-2000; Échantillonnage

5

Qu’est ce qu’un sondage?

Dans la société actuelle, nous avons besoin d’une grande quantité d’information qui doit être précise.– Préférences, choix.– Besoins.– Comportement des individus.

Page 6: STT-2000 Échantillonnage

STT-2000; Échantillonnage

6

Qu’est ce qu’un sondage?

La partie la plus visible du grand public sont les sondages d’opinion.

De manière générale, on peut considérer que ceux qui ont besoin des sondages sont:– Gouvernements.– Entreprises.– Institutions sociales.

Page 7: STT-2000 Échantillonnage

STT-2000; Échantillonnage

7

Qu’est ce qu’un sondage?

La partie la plus visible du grand public sont les sondages d’opinion.

De manière générale, on peut considérer que ceux qui ont besoin des sondages sont:– Gouvernements.– Entreprises.– Institutions sociales.

Page 8: STT-2000 Échantillonnage

STT-2000; Échantillonnage

8

Industries des sondages

Secteur gouvernemental– Statistique Canada, Institut de la statistique du Québec, U.S.

Bureau of Census Secteur privé

– Gallup, Harris Survey, Reid. Ces agences sondent l’opinion publique sur des « sujets chauds ».

Recherche– Universités, hôpitaux.

Gestion, affaires– Études de marché, marketing.

Page 9: STT-2000 Échantillonnage

STT-2000; Échantillonnage

9

Définition d’un sondage

Méthode de collecte de l’information sur un échantillon d’individus (unités). Ces unités pourraient être des humains, des animaux, des maisons ou encore des entreprises.

Remarque: l’échantillon n’est qu’une fraction de la population, contrairement à un recensement où tous les membres de la population sont étudiés.

Page 10: STT-2000 Échantillonnage

STT-2000; Échantillonnage

10

Exemples de sondages

Exemple 1:Un échantillon de personnes aptes à voter est questionnée à l’avance sur une élection pour déterminer comment le public perçoit un candidat et les résultats.

Exemple 2: Département de la santé publique veut déterminer la proportion des enfants allant à l’école primaire qui ont été vaccinés contre les maladies infentiles (polio, tétanos, etc).

Page 11: STT-2000 Échantillonnage

STT-2000; Échantillonnage

11

Concentrons-nous sur le second exemple

Pour des raisons administratives: un mois. Option 1

– On réunit le personnel nécessaire et on va voir chaque enfant dans la région/province.

Frais du personnel? Temps? Frais de déplacement? Contraintes de coûts?

Option 2– On choisit un échantillon représentatif, c’est-à-dire un

sous-ensemble de toutes les mesures, la population. Pour une fraction du coût, permet de gagner du temps.

Page 12: STT-2000 Échantillonnage

STT-2000; Échantillonnage

12

Erreurs lorsque l’on dispose d’un échantillon (SSW, p. 14; Lohr, p.15)

Erreurs dues à l’échantillonnage.– Échantillon n’est pas la population.

Erreurs non dues à l’échantillonnage.– Erreurs de mesures; biais de sélection.

Biais de sélection (Lohr; p. 4)– Représentation exagérée d’une partie de la population; Sous-

couverture de la population; doubles dans la base de sondage; interviewer néglige certaines personnes; population cible n’est pas la population échantillonnée; choix délibéré des personnes à interviewer; non-réponse.

Avec un recensement, qu’en est-il?

Page 13: STT-2000 Échantillonnage

STT-2000; Échantillonnage

13

Échantillon versus recensement

Un échantillon est souvent plus fiable qu’un recensement!

Il ne faut pas penser strictement en termes mathématiques!

Il est vrai qu’avec un échantillon, pas d’erreurs quantitatives dues à l’échantillonnage.

Cependant, les ressources nécessaires pour effectuer un recensement peuvent être telles que:

– Besoin de personnel qualifié en quantité suffisante.– Travail bâclé s’il est trop d’envergure.– Jamais à l’abri de la non-réponse pouvant fausser les

résultats. Avec un échantillon, on peut mobiliser les ressources

afin de contrôler la qualité de l’information recueillie.

Page 14: STT-2000 Échantillonnage

STT-2000; Échantillonnage

14

Comment choisir l’échantillon?

À l’aveuglette? NON!– On veut une méthode objective.

Parmi les volontaires? NON!– Sur les questions sensibles, seulement ceux qui se sentent

concernés sans être compromis sont susceptibles de participer.

NON aux SLOPS! (self-selected opinion polls)– Sondages télé où les gens appellent; lignes ouvertes.– Les gens avec des préjugés, fortes opinions (souvent

négatives) s’expriment souvent sur ces questions (avortement, racisme, etc).

Page 15: STT-2000 Échantillonnage

STT-2000; Échantillonnage

15

Comment choisir l’échantillon? (suite)

On veut une méthode scientifique telle que chaque personne dans la population possède une chance mesurable (que l’on peut quantifier) de sélection.

Commenter l’affirmation suivante: pour obtenir un échantillon, il faut que chaque unité possède une chance égale de faire partie de l’échantillon. (ATTENTION au piège!)

Page 16: STT-2000 Échantillonnage

STT-2000; Échantillonnage

16

Avantages de la méthode scientifique

Avec la méthode scientifique, tout le monde se voit poser les mêmes questions dans le même ordre.

On peut projeter les résultats de l’échantillon sur toute la population.

Le but d’un sondage n’est pas de décrire un individu en particulier. On veut une image, un profil, de la population.

Page 17: STT-2000 Échantillonnage

STT-2000; Échantillonnage

17

Taille de l’échantillon?

C’est quoi le n? – On va y revenir! Il faut introduire des critères.– De manière générale, cela dépends de la qualité de

l’information que l’on désire.– Dans les sondages nationaux, souvent n=1000 fait l’affaire.

Si 1000 individus peut refléter plusieurs caractéristiques de la population qui peut comporter des millions d’individus, cela donne un poids à l’utilisation des sondages en pratique.

Remarque: dans une population de 100 000 ou 1 000 000 d’individus, n=1000 fournira une précision comparable. La taille de la population n’est pas une considération si importante que ça.

Page 18: STT-2000 Échantillonnage

STT-2000; Échantillonnage

18

Les étapes d’un sondage

1. Sélection d’un échantillon.2. Collecte de données.3. Vérification et imputation.4. Estimation et analyse.5. Publication des résultats.

Page 19: STT-2000 Échantillonnage

STT-2000; Échantillonnage

19

Sélection d’un échantillon

On doit procéder à l’identification de la population cible; population visée?

Construction d’une base de sondage.– Idéalement, on tente de trouver une base de sondage

existante. Sinon, l’on doit en construire une.– Une base de sondage contient la numérotation de

tous les éléments de la population cible; elle contient des étiquettes.

Page 20: STT-2000 Échantillonnage

STT-2000; Échantillonnage

20

Base de sondage versus population visée

Choses à être conscient:

Est que la base de sondage corresponds à la population visée?

Si on s’intéresse à la population québécoise et que l’on utilise les listes de téléphone, est-ce que la population cible = base de sondage?

On peut contourner certaines difficultés? Conséquences sinon?

Page 21: STT-2000 Échantillonnage

STT-2000; Échantillonnage

21

1. Sélection d’un échantillon

Une fois que l’on dispose d’une base de sondage, on cherche à choisir un échantillon s dans la population:

U={1,2,…,k,…,N}. On aura ainsi que . Pour obtenir l’échantillon, on procède à un

échantillonnage, c’est-à-dire que l’on procède à une sélection dans U selon un plan d’échantillonnage p.

Us

Page 22: STT-2000 Échantillonnage

STT-2000; Échantillonnage

22

2. Collecte des données

On a besoin d’instruments– Téléphone (méthode CATI).– Interview personnelle (interviewer qui se déplace à la

maison) (méthode CAPI).– Courrier (mail surveys). Doit retourner un

questionnaire.– Accès Internet.

Pour l’enregistrement– Papier/crayon versus ordinateur (CATI/CAPI)

Page 23: STT-2000 Échantillonnage

STT-2000; Échantillonnage

23

Méthode CATI (Computer assisted telephone interview)

L’interviewer a devant lui un ordinateur. Les questions apparaissent à l’écran. La personne interviewée réponds et les données sont

immédiatement entrées. Avantages: ordre dans les questions toujours le même,

rapide, qualité. Inconvénients: peut être dispendieux à mettre en

œuvre pour les petites boîtes et pour les sondages non-répétés (occasionnels).

Page 24: STT-2000 Échantillonnage

STT-2000; Échantillonnage

24

Méthode CAPI (Computer assisted personal interview)

L’interviewer se présente chez les gens avec un ordinateur portatif (laptop).

L’interviewer ou le répondant peut entrer directement les réponses.

Exemple: le sondage mensuel CPS (Current Population Survey) de la population américaine utilise un mélange des méthodes CAPI/CATI.

Page 25: STT-2000 Échantillonnage

STT-2000; Échantillonnage

25

Interviewers

Traditionnellement, travail à temps partiel. De plus en plus, être interviewer est un travail

à plein temps dans les grosses boîtes.– Entraînement,– Formation,– Etc.

Page 26: STT-2000 Échantillonnage

STT-2000; Échantillonnage

26

Questionnaire (Lohr, p.10)

Nécessite la présence des « experts du sujet » (sociologues, psychologues).

Les questions doivent être validées. Exemple: Aux USA, dans un sondage NBC/Wall Street

J.– 1. Êtes-vous en faveur de couper dans les

programmes tels la sécurité du revenu, les soins médicaux, les subventions agricoles afin de réduire de déficit?

– 2. Êtes-vous en faveur de coupures gouvernementales afin de réduire le déficit?

Page 27: STT-2000 Échantillonnage

STT-2000; Échantillonnage

27

Résultats du sondage NBC/Wall Street J.

Gens qui ont répondus à la première question:– Pour: 23%– Contre: 66%– Sans opinion: 11%.

Gens qui ont répondus à la seconde question:– Pour: 61%– Contre: 25%– Sans opinion: 14%.

Page 28: STT-2000 Échantillonnage

STT-2000; Échantillonnage

28

3. Vérification et analyse

Si pas déjà dans un fichier ordinateur, alors il faut procéder à une transcription des données.– Codification. Parfois les logiciels traitent seulement

l’information chiffrées. – Variable Sexe; 1=H, 2=F.

Vérification– Est-ce que l’information est cohérente?

Date de naissance: 29/03/90; Permis de conduire: Oui.

– Vérification manuelle/automatique.

Page 29: STT-2000 Échantillonnage

STT-2000; Échantillonnage

29

Imputation (SSW, Chap. 15)

L’information peut être manquante.– Questionnaire non-rendu.– Trous dans le questionnaire

Non-réponse par item (au moins une question est répondue mais pas toutes)

Non-réponse par unité (la personne ou l’unité ne donne aucune réponse).

Dans de tels cas, il peut être envisagé de procéder à de l’imputation. Imputation: méthodes pour boucher les trous.

Page 30: STT-2000 Échantillonnage

STT-2000; Échantillonnage

30

Méthodologie dans un recensement

Il est intéressant de noter que si un recensement est entrepris, beaucoup de la méthodologie des sondages doit être mise en œuvre:– Base de sondage à créer, valider,– Personnel à former pour les interviews,– Etc.

Rappelons les sources d’erreurs reliées à un recensement…

Page 31: STT-2000 Échantillonnage

STT-2000; Échantillonnage

31

4. Estimation et analyse

On doit choisir un estimateur pour chaque paramètre à estimer de la population finie. Exemples:– Moyenne.

– Total.

– Variance.

U kU y

Ny

1

U kyU yt

U UkyU yy

NS 22 )(

1

1

Page 32: STT-2000 Échantillonnage

STT-2000; Échantillonnage

32

Estimations ponctuelles

Une estimation ponctuelle consiste en un seul chiffre pour estimer un paramètre.

On pourrait le noter:

Un seul chiffre n’est cependant suffisant pour apprécier de la qualité de l’estimation. On utile un estimateur de la variance:

Uy

UyV ˆˆ

Page 33: STT-2000 Échantillonnage

STT-2000; Échantillonnage

33

Estimateurs

En fait, le chiffre qui servira à estimer le paramètre inconnu est un estimateur.

Un estimateur est une variable aléatoire. Pour chaque échantillon possible, l’estimateur prend une certaine valeur.

La distribution de l’estimateur est obtenue sur l’ensemble de tous les échantillons possibles.

Page 34: STT-2000 Échantillonnage

STT-2000; Échantillonnage

34

V versus V chapeau

Remarque: On aimerait idéalement utiliser la vraie variance de l’estimateur:

Cependant, cette dernière est inconnue en pratique.

UyV ˆ

Page 35: STT-2000 Échantillonnage

STT-2000; Échantillonnage

35

Estimation par intervalles de confiance

Un intervalle de confiance de niveau 95% pour le paramètre moyenne est donné par

Pour que cet intervalle marche, que faut-il?

UU yVy ˆˆ96.1ˆ

Page 36: STT-2000 Échantillonnage

STT-2000; Échantillonnage

36

5. Publication des résultats

La dernière étape du sondage consiste à publier les résultats.

Cette étape ne doit pas être prise à la légère. On devrait retrouver:

– Conditions de la réalisation du sondage.– Lignes de conduite (dans la précision des résultats).– Discussions des erreurs

Erreurs non dues à l’échantillonnage. Erreurs dues à l’échantillonnage.

Présentation de l’information– Tableaux, graphiques, couleurs, etc.