applications des statistiques tests, résultats d'expérience, sondages pharmacologie,...
TRANSCRIPT
Applications des statistiques
• Tests, résultats d'expérience, sondages• pharmacologie,
• médecine,• agronomie,
• gestion de production,• sociologie,• économie,• politique,
• Banque :• gestion de portefeuille,
• scoring de clientèle
• Marketing
• Informatique• (reconnaissance de forme,
• de codes barres,• reconnaissance d'image,
• reconnaissance de la parole,• imagerie médicale)
• Assurances (actuariat)
• Télécommunications,• codage et filtrage d'erreur
• ………
Numéros de production d'avions de combat adverses
tirés au hasarddans {1,2, …,n}
Estimer n à l’aide de l’échantillon suivant
1403 339 565 597 2404 2132
Moyenne: 1240
Médiane: 1000
Minimum: 339
Maximum: 2404
La loi forte des grands nombres
• X1, X2, …, Xn, …• Une suite de variables aléatoires indépendantes et de même loi,
• de moyenne (espérance): E(Xi)=• Alors pour (presque) toute expérience (réalisation)
limn→ ∞
X1 +X2 +L +Xn
n=μ
chaque expérience, poussée suffisamment longtemps, permet de s'approcher de la vraie moyenne, ou de la vraie fréquence (c'est la justification des sondages, estimations de moyennes, et tracés d'histogrammes, entre autres).
Bernoulli (loi faible des grands nombres, 1630)Kolmogorov (loi forte des grands nombres, 1930)
À quelle vitesse ?
Théorème central-limiteX1, X2, …, Xn, …
une suite de variables aléatoires indépendantes et de même loi,
de moyenne (espérance): E(Xi)=et de variance Var(Xi)=
X1 +X2 +L +Xn
n= μ + σ
Zn
n
avec, pour tout a et b
limn→ ∞
Pr a≤Zn ≤b( ) = 12π
e−x2
2 dxa
b
∫
De Moivre (1660, cas binomial)Laplace (1780, cas général)
Gauss (1805, application aux statistiques)
Intervalle de confiance (sondage)
Le nombre de réponses “oui” suit la loi binomiale de parametre n et p :
proportion de réponses "oui" =
X1 +X2 +L +Xn
n
Pr X1 +X2 +L +Xn =k( ) =Cnkpk 1−p( )
n−k
Xk =1 si la kème réponse est "oui"
0 si la kème réponse est "non"
⎧ ⎨ ⎪
⎩ ⎪
Pr Xk =1( ) = p
μ =E Xk[ ]=p
σ 2 =Var Xk( ) =p1−p( )
Zn =X1 +X2 +L +Xn −nμ
σ n
=X1 +X2 +L +Xn −np
np1−p( )
= X −p( ) n
p(1−p)
12π
e−x2
2dx−A
A
∫ ≈ Pr −A≤Zn ≤A( )
=Pr −A p(1−p)n ≤X −p≤A p(1−p)
n( )
=Pr p∈ X −A p(1−p)n ;X +A p(1−p)
n[ ]( )
12π e
−x2
2dx−A
A
∫ =0,95 si A=1,96...
p(1−p) ≤0,25donc
1,96 p(1−p)n ≤
1n
donc
Pr p∈ X − 1n ;X + 1
n[ ]( )≥ 0,95
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 100 200 300 400 500 600 700 800 900
Intervalles de confiance à 95% et 99% pour p=0,5
Résultats de 756 sondageschacun sur des échantillons de 400 personnes
pris au hasard dans une populationoù la proportion de « oui » est 42%
04
9
16
46
71
99
107
114 112
90
43
33
14
50
20
40
60
80
100
120
0,34 0,35 0,36 0,37 0,38 0,39 0,4 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48
résultat du sondage
Intervalle de confiance (moyenne)
12π e
−x2
2dx−A
A
∫ =0,95 si A=1,96...
Xk =1 si la kème réponse est "oui"
0 si la kème réponse est "non"
⎧ ⎨ ⎪
⎩ ⎪
0,95=Pr p∈ X −A p(1−p)n ;X +A p(1−p)
n[ ]⎛ ⎝ ⎜ ⎞
⎠ ⎟
≈Pr p∈ X −A X (1−X )n ;X +A X (1−X )
n⎡ ⎣ ⎢
⎤ ⎦ ⎥
⎛ ⎝ ⎜
⎞ ⎠ ⎟
Cas particulier du sondage
Zn =X1 +X2 +L +Xn −nμ
σ n
≈X1 +X2 +L +Xn −nμ
nSX2
Cas général
SX2 =
1n
Xi2
i=1
n
∑ − X 2 LFGN ⏐ → ⏐ ⏐ σ 2
0,95≈Pr −A ≤ X −μ( )nSX
2 ≤A⎛
⎝ ⎜ ⎜
⎞
⎠ ⎟ ⎟
=Pr μ∈ X −ASX
2
n;X +A
SX2
n
⎡
⎣ ⎢ ⎢
⎤
⎦ ⎥ ⎥
⎛
⎝ ⎜ ⎜
⎞
⎠ ⎟ ⎟
Pr Xk ≥x( )=e−λx et E Xk[ ] =1λ
Var Xk( ) =1λ2
Durée de vie exponentielle
Xk durée de vie du kème composant
Intervalle de confiance (durée de vie 1/= 1000)
600,0
700,0
800,0
900,0
1000,0
1100,0
1200,0
1300,0
1400,0
1500,0
1600,0
0 100 200 300 400
Théorème central-limiteE(Xi)= et Var(Xi)=
X1 +X2 +L +Xn −nμσ n
= Zn
avec, pour n assez grand,
limn→ ∞
Pr a≤Zn ≤b( ) = 12π
e−x2
2 dxa
b
∫
Xk: résultat du kème lancer d’un dé
μ =3,5 et σ 2 =3512
Z12 =
X1 +X2 +L +X12 −4235
01
23
45
67
89
1011
1213
S1
S2
0
70
140
210
280
350
420
350
280
210
140
70
00
072
140
199
304334
423
338
303
219
147
410
0
0
50
100
150
200
250
300
350
400
450
Somme de 2 lancers:2520=70*36 expériences
Courbe de Gauss
f(x) = 12π
exp−x2
2( )
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
-4 -3 -2 -1 0 1 2 3
0
50
100
150
200
250
300
350
400
450
500
Somme de 12 lancers de dés,centrée et réduite
Histogramme basé sur 2500 expériences
Théorème central-limite
E(Xi)= et Var(Xi)=
X1 +X2 +L +Xn −nμσ n
= Zn
Xk: nombre uniforme entre 0 et 1
μ =0,5 et σ 2 =112
Z12 =X1 +X2 +L +X12 −6
Somme de 12 uniformes
1500
0
50
100
150
200
250
300
350
-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3
30
0
1
2
3
4
5
6
7
8
9
-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3
400
0
10
20
30
40
50
60
70
80
90
100
-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3
Courbe de Gauss
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
Test du chi(2) (2)
Y a-t-il bonne adéquation entre l ’histogramme etla loi de probabilité attendue ??
Petits calculs sur sondage 42%, 400 personnes
La proportion estimée est comprise entre
42%− 1,96×0,42×0,58
400
⎛
⎝ ⎜
⎞
⎠ ⎟ =37,16%
et
42%+ 1,96×0,42×0,58
400
⎛
⎝ ⎜
⎞
⎠ ⎟ =46,84%
avec une probabilité de
95%
Fréquence observée: