opération et systèmes de décision faculté des sciences de ladministration mqt-21919...
TRANSCRIPT
Opération et systèmes de décisionFaculté des Sciences de l’administration
MQT-21919 Probabilités et statistique
L’échantillonnage et les distributions d'échantillonnage
Chapitre 7
LecturesLectures
Volume du cours : Chapitre 7
Volume recommandé: "Statistique en gestion et en économie", Martel et Nadeau, 4.1, 4.2, 4.3 et pages 179-183
Exemple: U-RéussiteExemple: U-Réussite L’université U-Réussite reçoit 7,000 applications par
année provenant d’éventuels étudiants. Le formulaire de demande d’admission inclut le score d’un test d’aptitude (SAT) ainsi que l’information sur le lieu de résidence de l’étudiant. Le directeur des admissions aimerait avoir une idée :
– du score moyen SAT des postulants, et
– de la proportion des postulants qui sont résidents de la province?
Il y a deux façons d’obtenir cette information.
Option #1: effectuer un recensement des 7,000 postulants– Scores SAT
– Moyenne de la population
– Écart-type de la population
– Les postulants résidants de la province
• Proportion de la population
xi
7 000990
,
xi
7 000990
,
( ),xi
2
7 00080 ( )
,xi
2
7 00080
p 5 040
7 0000 72
,
,,p
5 040
7 0000 72
,
,,
Exemple: U-RéussiteExemple: U-Réussite
Option #2: Prendre un échantillon de 50 postulants Données obtenues d’un échantillon aléatoire simple de 50
postulants
No. Postulant Score Résidant
1 Connie Reight 1025 Oui
2 Willie Haggard 950 Oui
3 Fannie Lennox 1090 Non
4 Eric Pacman 1120 Oui
5 Winona Jiver 1015 Oui
. . . .
. . . .
50 Kevin Costmore 965 Non
Total 49,850 34 Oui
Exemple: U-RéussiteExemple: U-Réussite
L’inférence statistiqueL’inférence statistique
Le but de l’analyse statistique est d’apporter de l’information sur des phénomènes insuffisamment connus– tirer des conclusions ou prendre des décisions plus éclairées
Analyse d’une masse de données numériques concernant le phénomène étudié– résultat de l’observation d’une partie de la population
concernée Avec de bonnes méthodes d’échantillonnage, les
résultats provenant d’un échantillon fourniront une “bonne” estimation des caractéristiques de la population
L’inférence regroupe l’ensemble des méthodes qui, à partir d’un échantillon prélevé de la population, permettent de tirer des conclusions soit sur les paramètres d’une variable étudiée dans cette population, soit sur la distribution ou tout autre aspect de cette variable. Deux grandes parties composent l’inférence statistique :
• L’estimation de paramètres
• Les tests d’hypothèses
L’inférence statistiqueL’inférence statistiqueL’inférence statistiqueL’inférence statistique
L’estimation ponctuelleL’estimation ponctuelle
Estimer un paramètre, une moyenne (), une variance (2), une proportion (p) etc., c’est chercher une valeur approchée en se basant sur les résultats d’un échantillon.
Lorsqu'une caractéristique d'une population (un paramètre) est estimée par un seul nombre déduit des résultats de l’échantillon, ce nombre est appelé une estimation ponctuelle du paramètre.– C'est une variable statistique
Estimations ponctuelles– comme estimateur ponctuel de
– s comme estimateur ponctuel de
– comme estimateur ponctuel de p
Note: D’autres nombres aléatoires auraient identifié d’autres postulants
xx
pp
99750850,49
50
i
xx 997
50850,49
50
i
xx
2,7549
097,27749
)( 2
xx
s i 2,7549
097,27749
)( 2
xx
s i
68,05034 p 68,05034 p
Exemple: U-RéussiteExemple: U-Réussite
Rappel - paramètres d'une Rappel - paramètres d'une populationpopulation
Moyenne de la variable aléatoire X, valeur espérée de X, espérance de X, (X), X signifient la même chose. On peut aussi simplement écrire s’il y a seulement une variable aléatoire X
Variance de la variable aléatoire X, Var(X), X, (X)
signifient la même chose. On peut aussi simplement écrire s’il y a seulement une variable aléatoire X
L’écart-type (X) ou X est la racine carrée de la variance. On peut aussi simplement écrire s’il y a seulement une variable aléatoire X
L’inférence statistiqueL’inférence statistique
Terminologie :– Statistique :
• Toute mesure (caractéristique) calculée à partir des données provenant d’un échantillon, e.g. :
– Moyenne, écart-type, proportion de l’échantillon
– Paramètre :
• Toute mesure (caractéristique) calculée à partir de l’ensemble des données d’une population, e.g. : p
– Moyenne, écart-type, proportion de la population
x ,s, p
L’estimation ponctuelleL’estimation ponctuelle
Dans l’estimation ponctuelle on utilise les données de l’échantillon afin de calculer une valeur d’une statistique de l’échantillon qui sert d’estimation du paramètre de la population
On dit que est l’estimateur ponctuel de la moyenne de la population .
s est l’estimateur ponctuel de l’écart-type de la population .
est l’estimateur ponctuel de la proportion de population p.
xx
pp
L’inférence statistiqueL’inférence statistique
Raisons pour faire un échantillonnage au lieu d’un recensement :
– Lorsque la population est très grande
– Par souci d’économie
– Si le test est destructif
– Obtenir de l’information rapidement
L’inférence statistiqueL’inférence statistique
Si on considère le processus de choisir un échantillon aléatoire comme une expérience aléatoire, les statistiques sont des descriptions numériques de résultats d'expérience.
– sont donc des variables aléatoires
– Excel: estimation.xls
x ,s, p
x ,s , p
La moyenne d’un échantillon aléatoireLa moyenne d’un échantillon aléatoire
étant une variable aléatoire, on peut alors parler de distribution de probabilité et de valeurs caractéristiques de cette v.a.
n
x
x
n
ii
1
La distribution d’échantillonnage de est la distribution
de probabilité de toutes les valeurs possibles
des moyennes d’échantillons
xx
xx
xx
xx
Distribution d’échantillonnageDistribution d’échantillonnage
Comme toute variable aléatoire, la statistique a une valeur espérée, un écart-type et une distribution de probabilité
La distribution d’échantillonnage est la distribution de probabilité d’une statistique.
La distribution d’échantillonnage peut fournir des informations probabilistes sur l’écart entre la statistique calculée à partir de l’échantillon et la valeur réelle du paramètre de la population
x
x
L'espérance E( ) = = où est la moyenne de la populationLa variance : VAR ( ) = n (population infinie)
VAR ( ) = (population finie)
où 2 est la variance de la population
– Une population finie est considérée comme infinie si n/N < 0,05.– est le facteur de correction à utiliser si n/N > 0,05
1
2
N
nN
n
Paramètre de la distribution d'échantillonnage deParamètre de la distribution d'échantillonnage de
x
( ) / ( )N n N 1( ) / ( )N n N 1
xx
x
x
Théorème central limiteThéorème central limite
En sélectionnant à partir d’une population, des échantillons aléatoires simples de taille n, la distribution d’échantillonnage de la moyenne d’échantillon peut être approchée par une distribution de probabilité normale, lorsque la taille de l’échantillon devient importante.
x
Lorsque la variance de la population est connue et que l’échantillon prélevé est grand (n 30), alors grâce au théorème central limite:
Ceci est aussi vrai lorsque l'échantillon est petit et que la variable aléatoire X suit une loi normale
),(2
nNx
Distribution d’échantillonnage de Distribution d’échantillonnage de x
Exemple :
X = taille
n = 25 observations
Quelle est la probabilité que la taille moyenne de l’échantillon soit supérieure à 172 cm ?
2170 25X N( cm, cm )
Distribution d’échantillonnage de Distribution d’échantillonnage de x
Lorsque la variance de la population est inconnue et que l’échantillon prélevé est grand (n 30), alors grâce au théorème central limite:
),(2
n
sNx
Distribution d’échantillonnage de Distribution d’échantillonnage de x
Exemple :
n = 400 observations d'une variable aléatoire X
Quelle est la probabilité que la moyenne de l’échantillon soit supérieure à 10,25, si la moyenne E(X) =10 et la variance échantillonnale est 4?
Distribution d’échantillonnage de Distribution d’échantillonnage de x
Paramètres de la population:– scores
– Proportion de résidants dans la population
xi
7 000990
,
xi
7 000990
,
( ),xi
2
7 00080 ( )
,xi
2
7 00080
p 5 040
7 0000 72
,
,,p
5 040
7 0000 72
,
,,
Example: U-RéussiteExample: U-Réussite
La distribution échantillonnale de pour les scores SAT
xx
Exemple: U-RéussiteExemple: U-Réussite
E x( ) 990E x( ) 990
8011 3
50x ,
n
80
11 350
x ,n
xx
La distribution échantillonnale de pour les scores SAT– Quelle est la probabilité qu’un échantillon aléatoire
simple de 50 postulants fournira une estimation du score SAT moyen dans un intervalle de plus ou moins 10 de la vraie valeur ? En d’autres termes quelle est la probabilité que soit entre 980 et 1000?
• Distribution normale puisque la taille de l’échantillon est plus grande que 30 et que l’écart-type de la population est connu
• P(980≤ ≤1000)
• On définit Z la variable normale centrée réduite
xx
Exemple: U-RéussiteExemple: U-Réussite
xx
xx
P(-0,88≤Z ≤0,88)
À l’aide de la table de probabilité pour la loi normale centrée réduite on obtient:
z = 10/11,3 = 0,88, on a une surface = (0,3106)(2) = 0,6212
xx
La distribution échantillonnale de La distribution échantillonnale de
xx
10001000980980 990990
Aire = 0,3106Aire = 0,3106Aire = 0,3106Aire = 0,3106
Exemple: U-RéussiteExemple: U-Réussite
xx
-0,88 0,88
La distribution échantillonnale de est la distribution de toutes les valeurs possibles des proportions échantillonnales
Espérance de
où:
p = est la proportion de la population
La distribution d’échantillonnage deLa distribution d’échantillonnage de
pp
pp
E p p( ) E p p( )
pp
pp
Distribution d’échantillonnage deDistribution d’échantillonnage de
Écart-type de
Population Finie Population infinie
– est l’écart-type de la proportion estimée
pp
pp
pp p
nN nN
( )11
pp p
nN nN
( )11 p
p pn
( )1 pp p
n ( )1
p p
si n/N ≤0,05 On utilise la formule de la population infnie (plus grande variance)
Cas spécial : la distribution d'échantillonnage de d’un échantillon de taille n > 30 suit (approximativement) une distribution Normale
Distribution d’échantillonnage deDistribution d’échantillonnage de
finie) n(populatio
infinie) n(populatio
1
)1(,
)1(,
N
nN
n
pppNp
n
pppNp
Si X prend seulement la valeur 1 ou 0
pp
pp
Distribution d’échantillonnage pour les résidants de la province
pp
72,0)( ppE 72,0)( ppE
Exemple: U-RéussiteExemple: U-Réussite
0 72 1 0 720 0635
50p
, ( , ),
Distribution d’échantillonnage pour les résidants de la province
Quelle est la probabilité qu’un échantillon aléatoire simple de 50 postulants fournira une estimation de la proportion des postulants qui est à plus ou moins 0,05 de la vraie proportion?
C’est-à-dire quelle est la probabilité que soit entre 0,67 et 0,77? P(0,67≤ ≤0,77)
On définit Z la variable normale centrée réduite
Exemple: U-RéussiteExemple: U-Réussite
pp
pp
pp
Distribution d’échantillonnage des résidants de la province
P(-0,79≤Z ≤0,79)
Pour z = 0,05/0,0635 = 0,79, la surface = (0,2852)(2) = 0,5704.
La probabilité est de 0,5704 que la proportion de l’échantillon sera à l’intérieur de +/-0,05 de la proportion de la population
0,770,770,670,67 0,720,72
Surface = 0,2852Surface = 0,2852Surface = 0,2852Surface = 0,2852
pp
Exemple: U-RéussiteExemple: U-Réussitepp
-0,79 0,79
ExempleExemple
p = 0,8 (proportion de Canadiens satisfaits du libre échange)
n = 100 personnes interrogées
Quelle est la probabilité que la proportion des personnes interrogées satisfaites du libre échange soit supérieure ou égale à 0,9 ?
)1(
,xou
n
pppNp
suit une loi Normale de moyenne 0,8 et écart-type 0,04xx
n/N plus petit que 0,05, population infinie
ExempleExemple
Pour estimer l’âge moyen d’une population de 4000 employés, un échantillon aléatoire de 40 employés est sélectionné. Quelle est la probabilité que l’âge moyen des employés de l’échantillon soit compris entre l’âge moyen de la population 2 si l’on sait que l’écart type de la population est de 8,2 ans?
Rép. 0,8764
ExempleExemple
Les revenus annuels des jeunes cadres d’une grande entreprise sont distribués normalement avec un écart type de 800$. S’il y a 10,2% des chances pour que la moyenne d’un échantillon aléatoire de 25 de ces revenus annuels soit inférieure à 25 000 $, quel est le revenu annuel moyen de cette population de jeunes cadres ?
Rép. 25203,2
Distribution d’échantillonnage deDistribution d’échantillonnage de
x- s nt /
Si la variance de la population est inconnue, si la variable X suit une distribution Normale, et si la taille de l’échantillon est petite (n<30), on utilise la statistique suivante :
qui suit la distribution du t (de Student) à n-1 degrés de liberté et qui ressemble à la distribution Normale.
1x
t( n )s
n
x
La distribution du La distribution du tt (de Student) (de Student)
Une distribution du t dépend d’un paramètre appelé degrés de liberté et dénoté n : t(x)
Plus le nombre de degrés de liberté est grand, plus la différence entre la distribution du t et la distribution nomale centrale réduite diminue
Une distribution du t avec plus de degrés de liberté a moins de dispersion.
La moyenne de la distribution du t est zéro et sa variance est (n/(n-2))
La distribution du La distribution du tt de Student de Student
The Student distributionThe Student distribution
Valeur de t: Table 2 dans le livre– Valeur de t value à 9 degrés de liberté. Dans la table, nous trouvons
que pour t = 2.262 la probabilité est 0,025.
Degrés Surface à droite de t
de liberté .10 .05 .025 .01 .005
. . . . . .
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
. . . . . .
Degrés Surface à droite de t
de liberté .10 .05 .025 .01 .005
. . . . . .
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
. . . . . .
La distribution de La distribution de tt de Student de Student
Exemple. Pour estimer le montant hebdomadaire moyen dépensépar les familles de 4 personnes pour leur épicerie, on tire un échantillon aléatoire de 25 personnes. On suppose que les montants dépensés sont distribués normalement avec une moyenne = 120 $ et une variance inconnue. Si la variance de l'échantillon de taille 25 est s2 = 36, calculerla probabilité que la moyenne de l'échantillon soit supérieure ou égale à 123 $.
123 120
6 25
x-P (x 123)=P
s/ n /
=P(t 2,5)=0,01
Statistique T
Résumé des distributions d’échantillonnage deRésumé des distributions d’échantillonnage de
Si n est grand (plus grand que 30), alors suit une loi Normale et:– Si la valeur de est connue alors:
– Si la valeur de est inconnue alors:
Si n est petit (plus petit que 30), et X suit une loi normale, et:– Si la valeur de est connue alors:
– Si la valeur de est inconnue alors:
),(2
n
sNx
),(2
nNx
x
),(2
nNx
1x
t( n )s
n
x
2xx
Erreur d’échantillonnageErreur d’échantillonnage
En généralisant à toute la population l’information partielle obtenue d’un échantillon, on introduit une erreur plus ou moins grande appelée “erreur échantillonnale”
La grandeur de cette erreur dépend de la taille d’échantillon et aussi de la façon dont il est tiré
L’échantillon devrait être représentatif– Plusieurs façons de s’assurer de la représentativité
Erreur d’échantillonnageErreur d’échantillonnage
La différence absolue entre un estimateur ponctuel non-biaisé et le paramètre de la population correspondant est appelée erreur d’échantillonnage
C’est le résultat de l’utilisation d’un sous-ensemble de la population (échantillon) au lieu de toute la population pour obtenir des estimations des valeurs de paramètres
Les erreurs d’échantillonnage sont:pour la moyenne échantillonnale
|s - pour l’écart type échantillonnal
pour la proportion échantillonnale
|| x || x
|| pp || pp
Méthodes d’échantillonnageMéthodes d’échantillonnage
Échantillonnage aléatoire simple Échantillonnage systématique Échantillonnage aléatoire stratifié Échantilonnage par grappes
Échantillon aléatoire simpleÉchantillon aléatoire simple
Population finie
– Un échantillon aléatoire simple d’une population finie de taille N est un échantillon sélectionné tel que chaque échantillon possible de taille n a une probabilité égale d’être sélectionné
– Si on replace chaque élément de l’échantillon afin de sélectionner les éléments subséquents, on parle d’échantillonnage avec remise
– L’échantillonnage sans remise est la procédure la plus couramment utilisée
– Dans les projets d’échantillonnage, on utilise des nombre aléatoires générés par ordinateur afin de guider le processus de sélection
Population infinie– Un échantillon aléatoire simple d’une population infinie est un
échantillon choisi tel que:
• Chaque élément sélectionné provient de la même population
• Chaque élément est sélectionné de manière indépendante
– Une population est considérée infinie si elle concerne un processus continu où il est impossible d’énumérer tous les éléments e.g. clients arrivant à un restaurant
– La procédure de sélection par nombre aléatoire ne peut pas être utilisée pour les populations infinies
• Il faut alors concevoir des procédures d’échantillonnage
Échantillon aléatoire simpleÉchantillon aléatoire simple
Échantillon systématiqueÉchantillon systématique
Méthode utilisée seulement si les unités de la population sont déjà classées dans un certain ordre.
Si coûteux de sélectionner un échantillon aléatoire On choisit les unités dans la population à des
intervalles fixes selon le temps, l’espace ou l’ordre d’occurrence.
On sélectionne par exemple au hasard le 1er, et ensuite d’une façon systématique le 101e, 201e, 301e etc.
La méthode consiste à subdiviser la population en sous-groupes relativement homogènes appelés «strates» . Par la suite, on tire de chaque strate un échantillon aléatoire simple; le regroupement de tous ces échantillons partiels constitue l’échantillon de taille n désiré. Approprié lorsque les éléments d’une strate sont semblables, e.g. un âge, un lieu, etc.
Échantillon stratifiéÉchantillon stratifié
Il faut d’abord subdiviser la population en sous-groupes appelés «grappes», chacune représentative de la population;
On tire ensuite un échantillon aléatoire de grappes et on observe tous les individus faisant partie des grappes sélectionnées.
Une grappe fournit une représentation à petite échelle de la population Les éléments d’une grappe sont ne sont pas semblables, e.g. quartier
d’une ville Taille d’échantillon plus grande
Grappe 4
Grappe 1
Grappe 3
Grappe 2
Échantillon par grappesÉchantillon par grappes
Autres méthodes d’échantillonnageAutres méthodes d’échantillonnage
Échantillonnage non-aléatoire : l'analyse utilise son expérience et ses connaissances pour choisir des éléments de la population
– L’échantillonnage de commodité• Étudiants volontaires
– L’échantillonnage subjectif• Personne choisit selon son jugement• Un journaliste choisit 3 ou 4 députés à interviewer
ExempleExemple
Soit X la variable représentant le montant hebdomadaire pour l’épicerie dans une famille de 4 personnes.
X N( 280, 2)
n = 16 familles
s2 = 225
P( 285 $) = 0,1xx
Exemple Exemple On a obtenu d'un échantillon aléatoire de 35 familles de 4 personnes,
l'information suivante concernant les dépenses hebdomadaires en alimentation (que l'on suppose normalement distribuées) :
– Quelle est approximativement la probabilité que la moyenne de l'échantillon de 35 observations soit comprise dans l'intervalle (248,75 , 256,00 ) si l'on suppose que la dépense hebdomadaire moyenne (dans la population) est = 250 $ ? Rép. 0,7622
– Quelle est approximativement la probabilité que la proportion échantillonnale d'un échantillon aléatoire de 50 familles de 4 personnes consacrant au moins 250 $ par semaine pour l'alimentation soit comprise entre 0,4 et 0,65, sachant que les trois quartiles de la distribution des dépenses hebdomadaires pour l'ensemble des familles de 4 personnes sont de 200 $, 250 $ et 300 $ respectivement ? Avant de répondre à cette question, donnez d’abord la distribution d’échantillonnage de cette statistique, ainsi que ses paramètres.
– Rép. 0,90 où
(x i x )2 3500 et x 240 $
1 1 suit 2 200p N ,