statistique descriptive - fsnv.univ-bba.dz

38
1 Statistique descriptive Introduction : La statistique est une méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles nombreux, puis à analyser, à commenter et à criti- quer ces données. Il ne faut pas confondre la statistique qui est la science qui vient d’être définie et une statistique qui est un ensemble de données chiffrées sur un sujet précis. Les premières statistiques correctement élaborées ont été celles des recensements démographiques. Ainsi le vocabulaire statistique est essen- tiellement celui de la démographie. Les ensembles étudiés sont appelés population. Les éléments de la population sont appelés individus ou unités statistiques. La population est étudiée selon un ou plusieurs caractères. Les statistiques descriptives peuvent se résumer par le schéma suivant : Echantillonnage statistique : Pour recueillir des informations sur une population statistique, l’on dispose de deux méthodes : La méthode exhaustive ou recensement où chaque individu de la population est étudié selon le ou les caractères étudiés. La méthode des sondages ou échantillonnage qui conduit à n’examiner qu’une fraction de la population, un échantillon. Définition :

Upload: others

Post on 26-Oct-2021

14 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Statistique descriptive - fsnv.univ-bba.dz

1

Statistique descriptive

Introduction

La statistique est une meacutethode scientifique qui consiste agrave reacuteunir des donneacutees

chiffreacutees sur des ensembles nombreux puis agrave analyser agrave commenter et agrave criti-

quer ces donneacutees Il ne faut pas confondre la statistique qui est la science qui

vient drsquoecirctre deacutefinie et une statistique qui est un ensemble de donneacutees chiffreacutees

sur un sujet preacutecis

Les premiegraveres statistiques correctement eacutelaboreacutees ont eacuteteacute celles

des recensements deacutemographiques Ainsi le vocabulaire statistique est essen-

tiellement celui de la deacutemographie

Les ensembles eacutetudieacutes sont appeleacutes population Les eacuteleacutements de la population

sont appeleacutes individus ou uniteacutes statistiques La population est eacutetudieacutee selon un

ou plusieurs caractegraveres

Les statistiques descriptives peuvent se reacutesumer par le scheacutema suivant

Echantillonnage statistique

Pour recueillir des informations sur une population statistique lrsquoon dispose de

deux meacutethodes

La meacutethode exhaustive ou recensement ougrave chaque individu de la population

est eacutetudieacute selon le ou les caractegraveres eacutetudieacutes

La meacutethode des sondages ou eacutechantillonnage qui conduit agrave nrsquoexaminer

qursquoune fraction de la population un eacutechantillon

Deacutefinition

2

Lrsquoeacutechantillonnage repreacutesente lrsquoensemble des opeacuterations qui ont pour objet de

preacutelever un certain nombre drsquoindividus dans une population donneacutee

Pour que les reacutesultats observeacutes lors drsquoune eacutetude soient geacuteneacuteralisables agrave la popu-

lation statistique lrsquoeacutechantillon doit ecirctre repreacutesentatif de cette derniegravere crsquoest agrave

dire qursquoil doit refleacuteter fidegravelement sa composition et sa complexiteacute Seul

lrsquoeacutechantillonnage aleacuteatoire assure la repreacutesentativiteacute de lrsquoeacutechantillon

Un eacutechantillon est qualifieacute drsquoaleacuteatoire lorsque chaque individu de la population a

une probabiliteacute connue et non nulle drsquoappartenir agrave lrsquoeacutechantillon

Le cas particulier le plus connu est celui qui affecte agrave chaque individu la mecircme

probabiliteacute drsquoappartenir agrave lrsquoeacutechantillon

Echantillonnage aleacuteatoire simple

Lrsquoeacutechantillonnage aleacuteatoire simple est une meacutethode qui consiste agrave preacutelever au

hasard et de faccedilon indeacutependante n individus ou uniteacutes drsquoeacutechantillonnage drsquoune

population agrave N individus

Chaque individu possegravede ainsi la mecircme probabiliteacute de faire partie drsquoun eacutechantil-

lon de n individus et chacun des eacutechantillons possibles de taille n possegravede la

mecircme probabiliteacute drsquoecirctre constitueacute

Lrsquoeacutechantillonnage aleacuteatoire simple assure lrsquoindeacutependance des erreurs crsquoest-agrave-

dire lrsquoabsence drsquoautocorreacutelations parmi les donneacutees relatives agrave un mecircme carac-

tegravere Cette indeacutependance est indispensable agrave la validiteacute de plusieurs tests sta-

tistiques

Exemple

Les donneacutees meacuteteacuteorologiques ne sont pas indeacutependantes puisque les informa-

tions recueillies sont drsquoautant plus identiques qursquoelles sont rapprocheacutees dans le

temps et dans lrsquoespace

Il existe drsquoautres techniques drsquoeacutechantillonnage que nous ne deacutevelopperons pas

dans un premier temps dans ce cours comme lrsquoeacutechantillonnage systeacutema-

3

tique ou lrsquoeacutechantillonnage stratifieacute qui reacutepondent agrave des probleacutematiques biolo-

giques speacutecifiques

Les caractegraveres statistiques

Deacutefinition

On appelle caractegravere statistique simple toute application 119935 119927 ⟶ ℝ avec P un

ensemble fini appeleacute population tout eacuteleacutement 120654 de P srsquoappelle un individu

Deacutefinition

On appelle modaliteacute (نمط) toute valeur 119909119894 isin 119883(119875) telle que 119935(119927) =

119961120783 119961120784 119961120785 hellip 119961119946 hellip 119961119948 avec 119896 nombre de modaliteacutes diffeacuterentes de X

Remarque seuls les caractegraveres quantitatifs ont valeurs dans ℝ les caractegraveres

qualitatifs sy ramenant par un codage

Exemple

Lors des recensements les caractegraveres eacutetudieacutes sont lrsquoacircge le sexe la qualifica-

tion professionnelle etc Le caractegravere laquo sexe raquo preacutesente deux modaliteacutes alors

que pour la qualification professionnelle le nombre de modaliteacutes va deacutependre de

la preacutecision rechercheacutee

On peut scheacutematiser les caractegraveres par

Stade dune maladie (grave tregraves grave)

Intensiteacute dune douleur (faible moyen forte)

Qualita-

tif(s

Quantitatifs

Ordinales

Nominales

Discregravetes

Continue

Caractegraveres

Groupe sanguin (O A B AB)

Nombre de petits par porteacutee

Nombre de cellules dans une culture

Le poids la taille le taux de glyceacutemiehellip

4

bull Qualitatif cest-agrave-dire non numeacuterique

bull Quantitatif discret (nombre fini de valeurs)

continu (infiniteacute de valeurs)

Liens avec les concepts probabilistes

Les concepts qui viennent decirctre preacutesenteacutes sont les homologues de concepts du

calcul des probabiliteacutes et il est possible de disposer en regard les concepts ho-

mologues (voir table ci-dessous)

probabiliteacutes statistique

Espace fondamental (univers) Population

Eacutepreuve Tirage (dun individu) expeacuteri-

mentation

Eacutevegravenement eacuteleacutementaire Individu observation

Variable aleacuteatoire Caractegravere (variable statis-

tique)

Eacutepreuves reacutepeacuteteacutees Eacutechantillonnage

Nombre de reacutepeacutetition dune

eacutepreuve

Taille de leacutechantillon effec-

tif total

probabiliteacute Freacutequence observeacute

Loi de probabiliteacute Distribution observeacutee ou loi

empirique

Espeacuterance matheacutematique Moyenne observeacutee

Variance Variance observeacutee

Repreacutesentation des donneacutees

Il existe plusieurs niveaux de description statistique la repreacutesentation brute

des donneacutees des preacutesentations par tableaux numeacuteriques des repreacutesentations

graphiques et des reacutesumeacutes numeacuteriques fournis par un petit nombre de para-

megravetres caracteacuteristiques

Seacuteries statistiques

5

Une seacuterie statistique correspond aux diffeacuterentes modaliteacutes dun caractegravere sur

un eacutechantillon dindividus appartenant agrave une population donneacutee Le nombre

dindividus qui constituent leacutechantillon eacutetudieacute sappelle la taille de leacutechantil-

lon

Exemple

Afin drsquoeacutetudier la structure de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) abattues par les chasseurs canadiens une eacutetude du di-

morphisme sexuel

( ن الذكر والأنث من نفس النوع الفروق بي ) de cette espegravece a eacuteteacute entreprise Parmi les ca-

ractegraveres mesureacutes figure la longueur de la rectrice centrale (plume de la

queue) Les reacutesultats observeacutes exprimeacutes en millimegravetres sur un eacutechantillon de 50

macircles juveacuteniles (الذكور الأحداث) sont noteacutes dans la seacuterie ci-dessus

Tableaux statistiques

Le tableau de distribution de freacutequences est un mode syntheacutetique (طريقة مزج )

de preacutesentation des donneacutees Sa constitution est immeacutediate dans le cas drsquoun ca-

ractegravere discret mais neacutecessite en revanche une transformation des donneacutees

dans le cas drsquoun caractegravere continu

6

Freacutequences absolues relatives et cumuleacutees

A chaque modaliteacute xi du caractegravere X peut correspondre un ou plusieurs indivi-

dus dans leacutechantillon de taille n

On appelle effectif (freacutequence absolue) de la modaliteacute xi le

nombre ni ougrave ni est le nombre drsquoindividu 120596tel que 119935(120654) = 119961119946

On appelle freacutequence (freacutequence relative) de la modaliteacute xi le nombre fi tel

que 119943119946 =119951119946

119951

Le pourcentage est une freacutequence exprimeacutee en pour cent Il est eacutegal agrave

100 fi

On appelle effectif cumuleacute croissante de la modaliteacute xi la somme des effec-

tifs partiels des valeur

1199091 1199092 hellip 119909119894 119899119894 = 1198991 + 1198992 + ⋯ + 119899119894 = sum 119899119896

119894

119896=1

On appelle effectif cumuleacute deacutecroissante de la modaliteacute xi le nombre

119899119894 = 119899 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = sum 119899119901

119901=119894minus1

119901=1

119899119894 = 1198991 + 1198992 + ⋯ 119899119894minus1 + 119899119894 + ⋯ + 119899119896 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = 119899119894 + ⋯ + 119899119896

On appelle freacutequences cumuleacutees ou freacutequences relatives cumuleacutees en xi le

nombre fi cum tel que

119891119894119888119906119898 = sum 119891119901

119901=119894

119901=1

Remarque

Caractegraveres quantitatifs discrets

Dans le cas drsquoun caractegravere quantitatif discret lrsquoeacutetablissement de la distribu-

tion des donneacutees observeacutees associeacutees avec leurs freacutequences est immeacutediate

sum 119899119894 = 119899 sum 119891119894 = 1

119896

119894=1

119894=119896

119894=1

7

Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de

cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-

vante

Caractegravere

X

xi nombre

de galles

par feuille

0 1 2 3 4 5 6 7 8 9 10 sum

ni nombre

de feuille

portant xi

galles

182 98 46 28 12 5 2 1 0 1 0 375

fi freacute-

quence

relative

0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1

fi cum

freacutequence

relative

cumuleacutee

0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1

Caractegraveres quantitatifs continus

Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de

freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des

8

donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc

lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe

En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-

bution en freacutequence est un sens il faut que chaque classe comprenne un nombre

suffisant de valeurs (ni)

Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour

un eacutechantillon de taille n

La regravegle de STURGE Nombre de classes = 1+ 33 log n

La regravegle de YULE Nombre de classes = 120784 120787radic119951120786

= 120784 120787radicradic119951

Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante

Intervalle de classe = (X max - X min) Nombre de classes

Avec X max et X min respectivement la plus grande et la plus petite valeur

de X dans la seacuterie statistique

A partir de X min on obtient les limites de classes ou bornes de classes par addi-

tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire

coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-

tier ou ayant peu de deacutecimales

Exemple

Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-

vent ecirctre reacuteparties de la faccedilon suivante

Deacutefinition du nombre de classes

Regravegle de Sturge 1 + 33 log 50 = 660

Regravegle de Yule 25radic504

= 664 les deux valeurs sont tregraves peu diffeacuterentes

Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782

66= 515 119898119898 que lon

arrondit agrave 5 mm par commoditeacute (faciliteacute)

Tableau de distribution des freacutequences

Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[

9

de la rectrice

xi bornes des classes

ci Valeurs meacutedianes des

classes (centres des

classes)

1425 1475 1525 1575 1625 1675 1725

ni nombre drsquoindividu par

classe

1 1 9 17 16 3 3

Ni effectif cumuleacutee 1 2 11 28 44 47 50

relative freacutequence if 002 002 018 034 032 006 006

fi cum freacutequence rela-

tive cumuleacutee 002 004 022 056 088 094 1

Repreacutesentations graphiques

Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur

lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees

recueillies

Caractegraveres quantitatifs discrets

Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est

le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave

lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi

Exemple

Caractegraveres quantitatifs continus

Pour les caractegraveres quantitatifs continus la repreacutesentation graphique

est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni

0

20

40

60

80

100

120

140

160

180

200

0 1 2 3 4 5 6 7 8 9 10

distribution du nombre de galles parhellip

10

Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-

prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche

lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour

conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter

lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi

la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque

classe

Exemple

Indicateurs numeacuteriques

Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-

tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-

ristiques

Indicateurs de position

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser lrsquoordre de grandeur des observations

La moyenne arithmeacutetique

Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere

quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-

tique des n valeurs

0

2

4

6

8

10

12

14

16

18

1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[

=1

119899sum 119909119894

119899

119894=1

11

Remarque

Si les donneacutees observeacutees xi sont regroupeacutees en k classes

drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut

les pondeacuterer par les effectifs correspondants

Exemple

Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur

moyenne de la rectrice principale du macircle juveacutenile est

Dans le cas des donneacutees non groupeacutees

Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent

aux valeurs meacutedianes des classes

La meacutediane

La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-

leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-

tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs

observeacutees sont supeacuterieures et 50 sont infeacuterieures

Cas discret

bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1

bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1

2

Cas continue

Avec

sum(119909119894 minus )

119899

119894=1

= 0

=1

119899sum 119899119894119909119894 119886119907119890119888

119899

119894=1

119899 = sum 119899119894

119896

119894=1

=153 + 165 + 1609 hellip + 158

50= 1589 119898119898

sum 119899119894119909119894 = 7960 119889prime119900119906

119899

119894=1

=7960

50

= 1592119898119898

119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [

1198992

minus 119873119894

119899119894]

12

xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe

meacutediane)

xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu

(classe meacutediane)

ni effectif de la classe meacutediane

Ni effectif cumuleacute infeacuterieur agrave xm

n taille de lrsquoeacutechantillon

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de

la geacutelinotte huppeacutee la valeur de la meacutediane est

bull Cas des donneacutees non groupeacutees

119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926

2=

158 + 159

2= 1585 119898119898

bull Cas des donneacutees groupeacutees 119899

2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +

5

17(

50

2minus 11) = 15911 119898119898

Remarque

Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est

proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp

Le mode

Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente

ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence

maximale dans la distribution des freacutequences

On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence

maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit

119872119900 = 119909119898 +119894∆119894

∆119904 + ∆119894

avec

119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)

119946 Intervalle de classe (xm+1 ndash xm)

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 2: Statistique descriptive - fsnv.univ-bba.dz

2

Lrsquoeacutechantillonnage repreacutesente lrsquoensemble des opeacuterations qui ont pour objet de

preacutelever un certain nombre drsquoindividus dans une population donneacutee

Pour que les reacutesultats observeacutes lors drsquoune eacutetude soient geacuteneacuteralisables agrave la popu-

lation statistique lrsquoeacutechantillon doit ecirctre repreacutesentatif de cette derniegravere crsquoest agrave

dire qursquoil doit refleacuteter fidegravelement sa composition et sa complexiteacute Seul

lrsquoeacutechantillonnage aleacuteatoire assure la repreacutesentativiteacute de lrsquoeacutechantillon

Un eacutechantillon est qualifieacute drsquoaleacuteatoire lorsque chaque individu de la population a

une probabiliteacute connue et non nulle drsquoappartenir agrave lrsquoeacutechantillon

Le cas particulier le plus connu est celui qui affecte agrave chaque individu la mecircme

probabiliteacute drsquoappartenir agrave lrsquoeacutechantillon

Echantillonnage aleacuteatoire simple

Lrsquoeacutechantillonnage aleacuteatoire simple est une meacutethode qui consiste agrave preacutelever au

hasard et de faccedilon indeacutependante n individus ou uniteacutes drsquoeacutechantillonnage drsquoune

population agrave N individus

Chaque individu possegravede ainsi la mecircme probabiliteacute de faire partie drsquoun eacutechantil-

lon de n individus et chacun des eacutechantillons possibles de taille n possegravede la

mecircme probabiliteacute drsquoecirctre constitueacute

Lrsquoeacutechantillonnage aleacuteatoire simple assure lrsquoindeacutependance des erreurs crsquoest-agrave-

dire lrsquoabsence drsquoautocorreacutelations parmi les donneacutees relatives agrave un mecircme carac-

tegravere Cette indeacutependance est indispensable agrave la validiteacute de plusieurs tests sta-

tistiques

Exemple

Les donneacutees meacuteteacuteorologiques ne sont pas indeacutependantes puisque les informa-

tions recueillies sont drsquoautant plus identiques qursquoelles sont rapprocheacutees dans le

temps et dans lrsquoespace

Il existe drsquoautres techniques drsquoeacutechantillonnage que nous ne deacutevelopperons pas

dans un premier temps dans ce cours comme lrsquoeacutechantillonnage systeacutema-

3

tique ou lrsquoeacutechantillonnage stratifieacute qui reacutepondent agrave des probleacutematiques biolo-

giques speacutecifiques

Les caractegraveres statistiques

Deacutefinition

On appelle caractegravere statistique simple toute application 119935 119927 ⟶ ℝ avec P un

ensemble fini appeleacute population tout eacuteleacutement 120654 de P srsquoappelle un individu

Deacutefinition

On appelle modaliteacute (نمط) toute valeur 119909119894 isin 119883(119875) telle que 119935(119927) =

119961120783 119961120784 119961120785 hellip 119961119946 hellip 119961119948 avec 119896 nombre de modaliteacutes diffeacuterentes de X

Remarque seuls les caractegraveres quantitatifs ont valeurs dans ℝ les caractegraveres

qualitatifs sy ramenant par un codage

Exemple

Lors des recensements les caractegraveres eacutetudieacutes sont lrsquoacircge le sexe la qualifica-

tion professionnelle etc Le caractegravere laquo sexe raquo preacutesente deux modaliteacutes alors

que pour la qualification professionnelle le nombre de modaliteacutes va deacutependre de

la preacutecision rechercheacutee

On peut scheacutematiser les caractegraveres par

Stade dune maladie (grave tregraves grave)

Intensiteacute dune douleur (faible moyen forte)

Qualita-

tif(s

Quantitatifs

Ordinales

Nominales

Discregravetes

Continue

Caractegraveres

Groupe sanguin (O A B AB)

Nombre de petits par porteacutee

Nombre de cellules dans une culture

Le poids la taille le taux de glyceacutemiehellip

4

bull Qualitatif cest-agrave-dire non numeacuterique

bull Quantitatif discret (nombre fini de valeurs)

continu (infiniteacute de valeurs)

Liens avec les concepts probabilistes

Les concepts qui viennent decirctre preacutesenteacutes sont les homologues de concepts du

calcul des probabiliteacutes et il est possible de disposer en regard les concepts ho-

mologues (voir table ci-dessous)

probabiliteacutes statistique

Espace fondamental (univers) Population

Eacutepreuve Tirage (dun individu) expeacuteri-

mentation

Eacutevegravenement eacuteleacutementaire Individu observation

Variable aleacuteatoire Caractegravere (variable statis-

tique)

Eacutepreuves reacutepeacuteteacutees Eacutechantillonnage

Nombre de reacutepeacutetition dune

eacutepreuve

Taille de leacutechantillon effec-

tif total

probabiliteacute Freacutequence observeacute

Loi de probabiliteacute Distribution observeacutee ou loi

empirique

Espeacuterance matheacutematique Moyenne observeacutee

Variance Variance observeacutee

Repreacutesentation des donneacutees

Il existe plusieurs niveaux de description statistique la repreacutesentation brute

des donneacutees des preacutesentations par tableaux numeacuteriques des repreacutesentations

graphiques et des reacutesumeacutes numeacuteriques fournis par un petit nombre de para-

megravetres caracteacuteristiques

Seacuteries statistiques

5

Une seacuterie statistique correspond aux diffeacuterentes modaliteacutes dun caractegravere sur

un eacutechantillon dindividus appartenant agrave une population donneacutee Le nombre

dindividus qui constituent leacutechantillon eacutetudieacute sappelle la taille de leacutechantil-

lon

Exemple

Afin drsquoeacutetudier la structure de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) abattues par les chasseurs canadiens une eacutetude du di-

morphisme sexuel

( ن الذكر والأنث من نفس النوع الفروق بي ) de cette espegravece a eacuteteacute entreprise Parmi les ca-

ractegraveres mesureacutes figure la longueur de la rectrice centrale (plume de la

queue) Les reacutesultats observeacutes exprimeacutes en millimegravetres sur un eacutechantillon de 50

macircles juveacuteniles (الذكور الأحداث) sont noteacutes dans la seacuterie ci-dessus

Tableaux statistiques

Le tableau de distribution de freacutequences est un mode syntheacutetique (طريقة مزج )

de preacutesentation des donneacutees Sa constitution est immeacutediate dans le cas drsquoun ca-

ractegravere discret mais neacutecessite en revanche une transformation des donneacutees

dans le cas drsquoun caractegravere continu

6

Freacutequences absolues relatives et cumuleacutees

A chaque modaliteacute xi du caractegravere X peut correspondre un ou plusieurs indivi-

dus dans leacutechantillon de taille n

On appelle effectif (freacutequence absolue) de la modaliteacute xi le

nombre ni ougrave ni est le nombre drsquoindividu 120596tel que 119935(120654) = 119961119946

On appelle freacutequence (freacutequence relative) de la modaliteacute xi le nombre fi tel

que 119943119946 =119951119946

119951

Le pourcentage est une freacutequence exprimeacutee en pour cent Il est eacutegal agrave

100 fi

On appelle effectif cumuleacute croissante de la modaliteacute xi la somme des effec-

tifs partiels des valeur

1199091 1199092 hellip 119909119894 119899119894 = 1198991 + 1198992 + ⋯ + 119899119894 = sum 119899119896

119894

119896=1

On appelle effectif cumuleacute deacutecroissante de la modaliteacute xi le nombre

119899119894 = 119899 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = sum 119899119901

119901=119894minus1

119901=1

119899119894 = 1198991 + 1198992 + ⋯ 119899119894minus1 + 119899119894 + ⋯ + 119899119896 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = 119899119894 + ⋯ + 119899119896

On appelle freacutequences cumuleacutees ou freacutequences relatives cumuleacutees en xi le

nombre fi cum tel que

119891119894119888119906119898 = sum 119891119901

119901=119894

119901=1

Remarque

Caractegraveres quantitatifs discrets

Dans le cas drsquoun caractegravere quantitatif discret lrsquoeacutetablissement de la distribu-

tion des donneacutees observeacutees associeacutees avec leurs freacutequences est immeacutediate

sum 119899119894 = 119899 sum 119891119894 = 1

119896

119894=1

119894=119896

119894=1

7

Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de

cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-

vante

Caractegravere

X

xi nombre

de galles

par feuille

0 1 2 3 4 5 6 7 8 9 10 sum

ni nombre

de feuille

portant xi

galles

182 98 46 28 12 5 2 1 0 1 0 375

fi freacute-

quence

relative

0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1

fi cum

freacutequence

relative

cumuleacutee

0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1

Caractegraveres quantitatifs continus

Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de

freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des

8

donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc

lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe

En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-

bution en freacutequence est un sens il faut que chaque classe comprenne un nombre

suffisant de valeurs (ni)

Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour

un eacutechantillon de taille n

La regravegle de STURGE Nombre de classes = 1+ 33 log n

La regravegle de YULE Nombre de classes = 120784 120787radic119951120786

= 120784 120787radicradic119951

Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante

Intervalle de classe = (X max - X min) Nombre de classes

Avec X max et X min respectivement la plus grande et la plus petite valeur

de X dans la seacuterie statistique

A partir de X min on obtient les limites de classes ou bornes de classes par addi-

tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire

coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-

tier ou ayant peu de deacutecimales

Exemple

Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-

vent ecirctre reacuteparties de la faccedilon suivante

Deacutefinition du nombre de classes

Regravegle de Sturge 1 + 33 log 50 = 660

Regravegle de Yule 25radic504

= 664 les deux valeurs sont tregraves peu diffeacuterentes

Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782

66= 515 119898119898 que lon

arrondit agrave 5 mm par commoditeacute (faciliteacute)

Tableau de distribution des freacutequences

Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[

9

de la rectrice

xi bornes des classes

ci Valeurs meacutedianes des

classes (centres des

classes)

1425 1475 1525 1575 1625 1675 1725

ni nombre drsquoindividu par

classe

1 1 9 17 16 3 3

Ni effectif cumuleacutee 1 2 11 28 44 47 50

relative freacutequence if 002 002 018 034 032 006 006

fi cum freacutequence rela-

tive cumuleacutee 002 004 022 056 088 094 1

Repreacutesentations graphiques

Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur

lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees

recueillies

Caractegraveres quantitatifs discrets

Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est

le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave

lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi

Exemple

Caractegraveres quantitatifs continus

Pour les caractegraveres quantitatifs continus la repreacutesentation graphique

est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni

0

20

40

60

80

100

120

140

160

180

200

0 1 2 3 4 5 6 7 8 9 10

distribution du nombre de galles parhellip

10

Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-

prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche

lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour

conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter

lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi

la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque

classe

Exemple

Indicateurs numeacuteriques

Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-

tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-

ristiques

Indicateurs de position

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser lrsquoordre de grandeur des observations

La moyenne arithmeacutetique

Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere

quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-

tique des n valeurs

0

2

4

6

8

10

12

14

16

18

1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[

=1

119899sum 119909119894

119899

119894=1

11

Remarque

Si les donneacutees observeacutees xi sont regroupeacutees en k classes

drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut

les pondeacuterer par les effectifs correspondants

Exemple

Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur

moyenne de la rectrice principale du macircle juveacutenile est

Dans le cas des donneacutees non groupeacutees

Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent

aux valeurs meacutedianes des classes

La meacutediane

La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-

leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-

tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs

observeacutees sont supeacuterieures et 50 sont infeacuterieures

Cas discret

bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1

bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1

2

Cas continue

Avec

sum(119909119894 minus )

119899

119894=1

= 0

=1

119899sum 119899119894119909119894 119886119907119890119888

119899

119894=1

119899 = sum 119899119894

119896

119894=1

=153 + 165 + 1609 hellip + 158

50= 1589 119898119898

sum 119899119894119909119894 = 7960 119889prime119900119906

119899

119894=1

=7960

50

= 1592119898119898

119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [

1198992

minus 119873119894

119899119894]

12

xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe

meacutediane)

xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu

(classe meacutediane)

ni effectif de la classe meacutediane

Ni effectif cumuleacute infeacuterieur agrave xm

n taille de lrsquoeacutechantillon

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de

la geacutelinotte huppeacutee la valeur de la meacutediane est

bull Cas des donneacutees non groupeacutees

119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926

2=

158 + 159

2= 1585 119898119898

bull Cas des donneacutees groupeacutees 119899

2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +

5

17(

50

2minus 11) = 15911 119898119898

Remarque

Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est

proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp

Le mode

Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente

ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence

maximale dans la distribution des freacutequences

On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence

maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit

119872119900 = 119909119898 +119894∆119894

∆119904 + ∆119894

avec

119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)

119946 Intervalle de classe (xm+1 ndash xm)

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 3: Statistique descriptive - fsnv.univ-bba.dz

3

tique ou lrsquoeacutechantillonnage stratifieacute qui reacutepondent agrave des probleacutematiques biolo-

giques speacutecifiques

Les caractegraveres statistiques

Deacutefinition

On appelle caractegravere statistique simple toute application 119935 119927 ⟶ ℝ avec P un

ensemble fini appeleacute population tout eacuteleacutement 120654 de P srsquoappelle un individu

Deacutefinition

On appelle modaliteacute (نمط) toute valeur 119909119894 isin 119883(119875) telle que 119935(119927) =

119961120783 119961120784 119961120785 hellip 119961119946 hellip 119961119948 avec 119896 nombre de modaliteacutes diffeacuterentes de X

Remarque seuls les caractegraveres quantitatifs ont valeurs dans ℝ les caractegraveres

qualitatifs sy ramenant par un codage

Exemple

Lors des recensements les caractegraveres eacutetudieacutes sont lrsquoacircge le sexe la qualifica-

tion professionnelle etc Le caractegravere laquo sexe raquo preacutesente deux modaliteacutes alors

que pour la qualification professionnelle le nombre de modaliteacutes va deacutependre de

la preacutecision rechercheacutee

On peut scheacutematiser les caractegraveres par

Stade dune maladie (grave tregraves grave)

Intensiteacute dune douleur (faible moyen forte)

Qualita-

tif(s

Quantitatifs

Ordinales

Nominales

Discregravetes

Continue

Caractegraveres

Groupe sanguin (O A B AB)

Nombre de petits par porteacutee

Nombre de cellules dans une culture

Le poids la taille le taux de glyceacutemiehellip

4

bull Qualitatif cest-agrave-dire non numeacuterique

bull Quantitatif discret (nombre fini de valeurs)

continu (infiniteacute de valeurs)

Liens avec les concepts probabilistes

Les concepts qui viennent decirctre preacutesenteacutes sont les homologues de concepts du

calcul des probabiliteacutes et il est possible de disposer en regard les concepts ho-

mologues (voir table ci-dessous)

probabiliteacutes statistique

Espace fondamental (univers) Population

Eacutepreuve Tirage (dun individu) expeacuteri-

mentation

Eacutevegravenement eacuteleacutementaire Individu observation

Variable aleacuteatoire Caractegravere (variable statis-

tique)

Eacutepreuves reacutepeacuteteacutees Eacutechantillonnage

Nombre de reacutepeacutetition dune

eacutepreuve

Taille de leacutechantillon effec-

tif total

probabiliteacute Freacutequence observeacute

Loi de probabiliteacute Distribution observeacutee ou loi

empirique

Espeacuterance matheacutematique Moyenne observeacutee

Variance Variance observeacutee

Repreacutesentation des donneacutees

Il existe plusieurs niveaux de description statistique la repreacutesentation brute

des donneacutees des preacutesentations par tableaux numeacuteriques des repreacutesentations

graphiques et des reacutesumeacutes numeacuteriques fournis par un petit nombre de para-

megravetres caracteacuteristiques

Seacuteries statistiques

5

Une seacuterie statistique correspond aux diffeacuterentes modaliteacutes dun caractegravere sur

un eacutechantillon dindividus appartenant agrave une population donneacutee Le nombre

dindividus qui constituent leacutechantillon eacutetudieacute sappelle la taille de leacutechantil-

lon

Exemple

Afin drsquoeacutetudier la structure de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) abattues par les chasseurs canadiens une eacutetude du di-

morphisme sexuel

( ن الذكر والأنث من نفس النوع الفروق بي ) de cette espegravece a eacuteteacute entreprise Parmi les ca-

ractegraveres mesureacutes figure la longueur de la rectrice centrale (plume de la

queue) Les reacutesultats observeacutes exprimeacutes en millimegravetres sur un eacutechantillon de 50

macircles juveacuteniles (الذكور الأحداث) sont noteacutes dans la seacuterie ci-dessus

Tableaux statistiques

Le tableau de distribution de freacutequences est un mode syntheacutetique (طريقة مزج )

de preacutesentation des donneacutees Sa constitution est immeacutediate dans le cas drsquoun ca-

ractegravere discret mais neacutecessite en revanche une transformation des donneacutees

dans le cas drsquoun caractegravere continu

6

Freacutequences absolues relatives et cumuleacutees

A chaque modaliteacute xi du caractegravere X peut correspondre un ou plusieurs indivi-

dus dans leacutechantillon de taille n

On appelle effectif (freacutequence absolue) de la modaliteacute xi le

nombre ni ougrave ni est le nombre drsquoindividu 120596tel que 119935(120654) = 119961119946

On appelle freacutequence (freacutequence relative) de la modaliteacute xi le nombre fi tel

que 119943119946 =119951119946

119951

Le pourcentage est une freacutequence exprimeacutee en pour cent Il est eacutegal agrave

100 fi

On appelle effectif cumuleacute croissante de la modaliteacute xi la somme des effec-

tifs partiels des valeur

1199091 1199092 hellip 119909119894 119899119894 = 1198991 + 1198992 + ⋯ + 119899119894 = sum 119899119896

119894

119896=1

On appelle effectif cumuleacute deacutecroissante de la modaliteacute xi le nombre

119899119894 = 119899 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = sum 119899119901

119901=119894minus1

119901=1

119899119894 = 1198991 + 1198992 + ⋯ 119899119894minus1 + 119899119894 + ⋯ + 119899119896 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = 119899119894 + ⋯ + 119899119896

On appelle freacutequences cumuleacutees ou freacutequences relatives cumuleacutees en xi le

nombre fi cum tel que

119891119894119888119906119898 = sum 119891119901

119901=119894

119901=1

Remarque

Caractegraveres quantitatifs discrets

Dans le cas drsquoun caractegravere quantitatif discret lrsquoeacutetablissement de la distribu-

tion des donneacutees observeacutees associeacutees avec leurs freacutequences est immeacutediate

sum 119899119894 = 119899 sum 119891119894 = 1

119896

119894=1

119894=119896

119894=1

7

Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de

cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-

vante

Caractegravere

X

xi nombre

de galles

par feuille

0 1 2 3 4 5 6 7 8 9 10 sum

ni nombre

de feuille

portant xi

galles

182 98 46 28 12 5 2 1 0 1 0 375

fi freacute-

quence

relative

0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1

fi cum

freacutequence

relative

cumuleacutee

0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1

Caractegraveres quantitatifs continus

Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de

freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des

8

donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc

lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe

En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-

bution en freacutequence est un sens il faut que chaque classe comprenne un nombre

suffisant de valeurs (ni)

Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour

un eacutechantillon de taille n

La regravegle de STURGE Nombre de classes = 1+ 33 log n

La regravegle de YULE Nombre de classes = 120784 120787radic119951120786

= 120784 120787radicradic119951

Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante

Intervalle de classe = (X max - X min) Nombre de classes

Avec X max et X min respectivement la plus grande et la plus petite valeur

de X dans la seacuterie statistique

A partir de X min on obtient les limites de classes ou bornes de classes par addi-

tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire

coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-

tier ou ayant peu de deacutecimales

Exemple

Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-

vent ecirctre reacuteparties de la faccedilon suivante

Deacutefinition du nombre de classes

Regravegle de Sturge 1 + 33 log 50 = 660

Regravegle de Yule 25radic504

= 664 les deux valeurs sont tregraves peu diffeacuterentes

Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782

66= 515 119898119898 que lon

arrondit agrave 5 mm par commoditeacute (faciliteacute)

Tableau de distribution des freacutequences

Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[

9

de la rectrice

xi bornes des classes

ci Valeurs meacutedianes des

classes (centres des

classes)

1425 1475 1525 1575 1625 1675 1725

ni nombre drsquoindividu par

classe

1 1 9 17 16 3 3

Ni effectif cumuleacutee 1 2 11 28 44 47 50

relative freacutequence if 002 002 018 034 032 006 006

fi cum freacutequence rela-

tive cumuleacutee 002 004 022 056 088 094 1

Repreacutesentations graphiques

Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur

lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees

recueillies

Caractegraveres quantitatifs discrets

Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est

le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave

lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi

Exemple

Caractegraveres quantitatifs continus

Pour les caractegraveres quantitatifs continus la repreacutesentation graphique

est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni

0

20

40

60

80

100

120

140

160

180

200

0 1 2 3 4 5 6 7 8 9 10

distribution du nombre de galles parhellip

10

Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-

prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche

lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour

conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter

lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi

la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque

classe

Exemple

Indicateurs numeacuteriques

Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-

tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-

ristiques

Indicateurs de position

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser lrsquoordre de grandeur des observations

La moyenne arithmeacutetique

Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere

quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-

tique des n valeurs

0

2

4

6

8

10

12

14

16

18

1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[

=1

119899sum 119909119894

119899

119894=1

11

Remarque

Si les donneacutees observeacutees xi sont regroupeacutees en k classes

drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut

les pondeacuterer par les effectifs correspondants

Exemple

Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur

moyenne de la rectrice principale du macircle juveacutenile est

Dans le cas des donneacutees non groupeacutees

Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent

aux valeurs meacutedianes des classes

La meacutediane

La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-

leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-

tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs

observeacutees sont supeacuterieures et 50 sont infeacuterieures

Cas discret

bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1

bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1

2

Cas continue

Avec

sum(119909119894 minus )

119899

119894=1

= 0

=1

119899sum 119899119894119909119894 119886119907119890119888

119899

119894=1

119899 = sum 119899119894

119896

119894=1

=153 + 165 + 1609 hellip + 158

50= 1589 119898119898

sum 119899119894119909119894 = 7960 119889prime119900119906

119899

119894=1

=7960

50

= 1592119898119898

119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [

1198992

minus 119873119894

119899119894]

12

xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe

meacutediane)

xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu

(classe meacutediane)

ni effectif de la classe meacutediane

Ni effectif cumuleacute infeacuterieur agrave xm

n taille de lrsquoeacutechantillon

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de

la geacutelinotte huppeacutee la valeur de la meacutediane est

bull Cas des donneacutees non groupeacutees

119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926

2=

158 + 159

2= 1585 119898119898

bull Cas des donneacutees groupeacutees 119899

2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +

5

17(

50

2minus 11) = 15911 119898119898

Remarque

Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est

proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp

Le mode

Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente

ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence

maximale dans la distribution des freacutequences

On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence

maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit

119872119900 = 119909119898 +119894∆119894

∆119904 + ∆119894

avec

119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)

119946 Intervalle de classe (xm+1 ndash xm)

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 4: Statistique descriptive - fsnv.univ-bba.dz

4

bull Qualitatif cest-agrave-dire non numeacuterique

bull Quantitatif discret (nombre fini de valeurs)

continu (infiniteacute de valeurs)

Liens avec les concepts probabilistes

Les concepts qui viennent decirctre preacutesenteacutes sont les homologues de concepts du

calcul des probabiliteacutes et il est possible de disposer en regard les concepts ho-

mologues (voir table ci-dessous)

probabiliteacutes statistique

Espace fondamental (univers) Population

Eacutepreuve Tirage (dun individu) expeacuteri-

mentation

Eacutevegravenement eacuteleacutementaire Individu observation

Variable aleacuteatoire Caractegravere (variable statis-

tique)

Eacutepreuves reacutepeacuteteacutees Eacutechantillonnage

Nombre de reacutepeacutetition dune

eacutepreuve

Taille de leacutechantillon effec-

tif total

probabiliteacute Freacutequence observeacute

Loi de probabiliteacute Distribution observeacutee ou loi

empirique

Espeacuterance matheacutematique Moyenne observeacutee

Variance Variance observeacutee

Repreacutesentation des donneacutees

Il existe plusieurs niveaux de description statistique la repreacutesentation brute

des donneacutees des preacutesentations par tableaux numeacuteriques des repreacutesentations

graphiques et des reacutesumeacutes numeacuteriques fournis par un petit nombre de para-

megravetres caracteacuteristiques

Seacuteries statistiques

5

Une seacuterie statistique correspond aux diffeacuterentes modaliteacutes dun caractegravere sur

un eacutechantillon dindividus appartenant agrave une population donneacutee Le nombre

dindividus qui constituent leacutechantillon eacutetudieacute sappelle la taille de leacutechantil-

lon

Exemple

Afin drsquoeacutetudier la structure de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) abattues par les chasseurs canadiens une eacutetude du di-

morphisme sexuel

( ن الذكر والأنث من نفس النوع الفروق بي ) de cette espegravece a eacuteteacute entreprise Parmi les ca-

ractegraveres mesureacutes figure la longueur de la rectrice centrale (plume de la

queue) Les reacutesultats observeacutes exprimeacutes en millimegravetres sur un eacutechantillon de 50

macircles juveacuteniles (الذكور الأحداث) sont noteacutes dans la seacuterie ci-dessus

Tableaux statistiques

Le tableau de distribution de freacutequences est un mode syntheacutetique (طريقة مزج )

de preacutesentation des donneacutees Sa constitution est immeacutediate dans le cas drsquoun ca-

ractegravere discret mais neacutecessite en revanche une transformation des donneacutees

dans le cas drsquoun caractegravere continu

6

Freacutequences absolues relatives et cumuleacutees

A chaque modaliteacute xi du caractegravere X peut correspondre un ou plusieurs indivi-

dus dans leacutechantillon de taille n

On appelle effectif (freacutequence absolue) de la modaliteacute xi le

nombre ni ougrave ni est le nombre drsquoindividu 120596tel que 119935(120654) = 119961119946

On appelle freacutequence (freacutequence relative) de la modaliteacute xi le nombre fi tel

que 119943119946 =119951119946

119951

Le pourcentage est une freacutequence exprimeacutee en pour cent Il est eacutegal agrave

100 fi

On appelle effectif cumuleacute croissante de la modaliteacute xi la somme des effec-

tifs partiels des valeur

1199091 1199092 hellip 119909119894 119899119894 = 1198991 + 1198992 + ⋯ + 119899119894 = sum 119899119896

119894

119896=1

On appelle effectif cumuleacute deacutecroissante de la modaliteacute xi le nombre

119899119894 = 119899 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = sum 119899119901

119901=119894minus1

119901=1

119899119894 = 1198991 + 1198992 + ⋯ 119899119894minus1 + 119899119894 + ⋯ + 119899119896 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = 119899119894 + ⋯ + 119899119896

On appelle freacutequences cumuleacutees ou freacutequences relatives cumuleacutees en xi le

nombre fi cum tel que

119891119894119888119906119898 = sum 119891119901

119901=119894

119901=1

Remarque

Caractegraveres quantitatifs discrets

Dans le cas drsquoun caractegravere quantitatif discret lrsquoeacutetablissement de la distribu-

tion des donneacutees observeacutees associeacutees avec leurs freacutequences est immeacutediate

sum 119899119894 = 119899 sum 119891119894 = 1

119896

119894=1

119894=119896

119894=1

7

Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de

cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-

vante

Caractegravere

X

xi nombre

de galles

par feuille

0 1 2 3 4 5 6 7 8 9 10 sum

ni nombre

de feuille

portant xi

galles

182 98 46 28 12 5 2 1 0 1 0 375

fi freacute-

quence

relative

0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1

fi cum

freacutequence

relative

cumuleacutee

0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1

Caractegraveres quantitatifs continus

Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de

freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des

8

donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc

lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe

En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-

bution en freacutequence est un sens il faut que chaque classe comprenne un nombre

suffisant de valeurs (ni)

Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour

un eacutechantillon de taille n

La regravegle de STURGE Nombre de classes = 1+ 33 log n

La regravegle de YULE Nombre de classes = 120784 120787radic119951120786

= 120784 120787radicradic119951

Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante

Intervalle de classe = (X max - X min) Nombre de classes

Avec X max et X min respectivement la plus grande et la plus petite valeur

de X dans la seacuterie statistique

A partir de X min on obtient les limites de classes ou bornes de classes par addi-

tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire

coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-

tier ou ayant peu de deacutecimales

Exemple

Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-

vent ecirctre reacuteparties de la faccedilon suivante

Deacutefinition du nombre de classes

Regravegle de Sturge 1 + 33 log 50 = 660

Regravegle de Yule 25radic504

= 664 les deux valeurs sont tregraves peu diffeacuterentes

Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782

66= 515 119898119898 que lon

arrondit agrave 5 mm par commoditeacute (faciliteacute)

Tableau de distribution des freacutequences

Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[

9

de la rectrice

xi bornes des classes

ci Valeurs meacutedianes des

classes (centres des

classes)

1425 1475 1525 1575 1625 1675 1725

ni nombre drsquoindividu par

classe

1 1 9 17 16 3 3

Ni effectif cumuleacutee 1 2 11 28 44 47 50

relative freacutequence if 002 002 018 034 032 006 006

fi cum freacutequence rela-

tive cumuleacutee 002 004 022 056 088 094 1

Repreacutesentations graphiques

Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur

lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees

recueillies

Caractegraveres quantitatifs discrets

Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est

le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave

lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi

Exemple

Caractegraveres quantitatifs continus

Pour les caractegraveres quantitatifs continus la repreacutesentation graphique

est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni

0

20

40

60

80

100

120

140

160

180

200

0 1 2 3 4 5 6 7 8 9 10

distribution du nombre de galles parhellip

10

Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-

prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche

lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour

conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter

lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi

la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque

classe

Exemple

Indicateurs numeacuteriques

Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-

tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-

ristiques

Indicateurs de position

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser lrsquoordre de grandeur des observations

La moyenne arithmeacutetique

Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere

quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-

tique des n valeurs

0

2

4

6

8

10

12

14

16

18

1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[

=1

119899sum 119909119894

119899

119894=1

11

Remarque

Si les donneacutees observeacutees xi sont regroupeacutees en k classes

drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut

les pondeacuterer par les effectifs correspondants

Exemple

Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur

moyenne de la rectrice principale du macircle juveacutenile est

Dans le cas des donneacutees non groupeacutees

Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent

aux valeurs meacutedianes des classes

La meacutediane

La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-

leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-

tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs

observeacutees sont supeacuterieures et 50 sont infeacuterieures

Cas discret

bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1

bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1

2

Cas continue

Avec

sum(119909119894 minus )

119899

119894=1

= 0

=1

119899sum 119899119894119909119894 119886119907119890119888

119899

119894=1

119899 = sum 119899119894

119896

119894=1

=153 + 165 + 1609 hellip + 158

50= 1589 119898119898

sum 119899119894119909119894 = 7960 119889prime119900119906

119899

119894=1

=7960

50

= 1592119898119898

119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [

1198992

minus 119873119894

119899119894]

12

xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe

meacutediane)

xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu

(classe meacutediane)

ni effectif de la classe meacutediane

Ni effectif cumuleacute infeacuterieur agrave xm

n taille de lrsquoeacutechantillon

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de

la geacutelinotte huppeacutee la valeur de la meacutediane est

bull Cas des donneacutees non groupeacutees

119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926

2=

158 + 159

2= 1585 119898119898

bull Cas des donneacutees groupeacutees 119899

2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +

5

17(

50

2minus 11) = 15911 119898119898

Remarque

Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est

proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp

Le mode

Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente

ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence

maximale dans la distribution des freacutequences

On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence

maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit

119872119900 = 119909119898 +119894∆119894

∆119904 + ∆119894

avec

119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)

119946 Intervalle de classe (xm+1 ndash xm)

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 5: Statistique descriptive - fsnv.univ-bba.dz

5

Une seacuterie statistique correspond aux diffeacuterentes modaliteacutes dun caractegravere sur

un eacutechantillon dindividus appartenant agrave une population donneacutee Le nombre

dindividus qui constituent leacutechantillon eacutetudieacute sappelle la taille de leacutechantil-

lon

Exemple

Afin drsquoeacutetudier la structure de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) abattues par les chasseurs canadiens une eacutetude du di-

morphisme sexuel

( ن الذكر والأنث من نفس النوع الفروق بي ) de cette espegravece a eacuteteacute entreprise Parmi les ca-

ractegraveres mesureacutes figure la longueur de la rectrice centrale (plume de la

queue) Les reacutesultats observeacutes exprimeacutes en millimegravetres sur un eacutechantillon de 50

macircles juveacuteniles (الذكور الأحداث) sont noteacutes dans la seacuterie ci-dessus

Tableaux statistiques

Le tableau de distribution de freacutequences est un mode syntheacutetique (طريقة مزج )

de preacutesentation des donneacutees Sa constitution est immeacutediate dans le cas drsquoun ca-

ractegravere discret mais neacutecessite en revanche une transformation des donneacutees

dans le cas drsquoun caractegravere continu

6

Freacutequences absolues relatives et cumuleacutees

A chaque modaliteacute xi du caractegravere X peut correspondre un ou plusieurs indivi-

dus dans leacutechantillon de taille n

On appelle effectif (freacutequence absolue) de la modaliteacute xi le

nombre ni ougrave ni est le nombre drsquoindividu 120596tel que 119935(120654) = 119961119946

On appelle freacutequence (freacutequence relative) de la modaliteacute xi le nombre fi tel

que 119943119946 =119951119946

119951

Le pourcentage est une freacutequence exprimeacutee en pour cent Il est eacutegal agrave

100 fi

On appelle effectif cumuleacute croissante de la modaliteacute xi la somme des effec-

tifs partiels des valeur

1199091 1199092 hellip 119909119894 119899119894 = 1198991 + 1198992 + ⋯ + 119899119894 = sum 119899119896

119894

119896=1

On appelle effectif cumuleacute deacutecroissante de la modaliteacute xi le nombre

119899119894 = 119899 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = sum 119899119901

119901=119894minus1

119901=1

119899119894 = 1198991 + 1198992 + ⋯ 119899119894minus1 + 119899119894 + ⋯ + 119899119896 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = 119899119894 + ⋯ + 119899119896

On appelle freacutequences cumuleacutees ou freacutequences relatives cumuleacutees en xi le

nombre fi cum tel que

119891119894119888119906119898 = sum 119891119901

119901=119894

119901=1

Remarque

Caractegraveres quantitatifs discrets

Dans le cas drsquoun caractegravere quantitatif discret lrsquoeacutetablissement de la distribu-

tion des donneacutees observeacutees associeacutees avec leurs freacutequences est immeacutediate

sum 119899119894 = 119899 sum 119891119894 = 1

119896

119894=1

119894=119896

119894=1

7

Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de

cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-

vante

Caractegravere

X

xi nombre

de galles

par feuille

0 1 2 3 4 5 6 7 8 9 10 sum

ni nombre

de feuille

portant xi

galles

182 98 46 28 12 5 2 1 0 1 0 375

fi freacute-

quence

relative

0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1

fi cum

freacutequence

relative

cumuleacutee

0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1

Caractegraveres quantitatifs continus

Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de

freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des

8

donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc

lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe

En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-

bution en freacutequence est un sens il faut que chaque classe comprenne un nombre

suffisant de valeurs (ni)

Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour

un eacutechantillon de taille n

La regravegle de STURGE Nombre de classes = 1+ 33 log n

La regravegle de YULE Nombre de classes = 120784 120787radic119951120786

= 120784 120787radicradic119951

Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante

Intervalle de classe = (X max - X min) Nombre de classes

Avec X max et X min respectivement la plus grande et la plus petite valeur

de X dans la seacuterie statistique

A partir de X min on obtient les limites de classes ou bornes de classes par addi-

tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire

coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-

tier ou ayant peu de deacutecimales

Exemple

Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-

vent ecirctre reacuteparties de la faccedilon suivante

Deacutefinition du nombre de classes

Regravegle de Sturge 1 + 33 log 50 = 660

Regravegle de Yule 25radic504

= 664 les deux valeurs sont tregraves peu diffeacuterentes

Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782

66= 515 119898119898 que lon

arrondit agrave 5 mm par commoditeacute (faciliteacute)

Tableau de distribution des freacutequences

Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[

9

de la rectrice

xi bornes des classes

ci Valeurs meacutedianes des

classes (centres des

classes)

1425 1475 1525 1575 1625 1675 1725

ni nombre drsquoindividu par

classe

1 1 9 17 16 3 3

Ni effectif cumuleacutee 1 2 11 28 44 47 50

relative freacutequence if 002 002 018 034 032 006 006

fi cum freacutequence rela-

tive cumuleacutee 002 004 022 056 088 094 1

Repreacutesentations graphiques

Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur

lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees

recueillies

Caractegraveres quantitatifs discrets

Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est

le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave

lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi

Exemple

Caractegraveres quantitatifs continus

Pour les caractegraveres quantitatifs continus la repreacutesentation graphique

est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni

0

20

40

60

80

100

120

140

160

180

200

0 1 2 3 4 5 6 7 8 9 10

distribution du nombre de galles parhellip

10

Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-

prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche

lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour

conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter

lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi

la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque

classe

Exemple

Indicateurs numeacuteriques

Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-

tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-

ristiques

Indicateurs de position

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser lrsquoordre de grandeur des observations

La moyenne arithmeacutetique

Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere

quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-

tique des n valeurs

0

2

4

6

8

10

12

14

16

18

1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[

=1

119899sum 119909119894

119899

119894=1

11

Remarque

Si les donneacutees observeacutees xi sont regroupeacutees en k classes

drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut

les pondeacuterer par les effectifs correspondants

Exemple

Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur

moyenne de la rectrice principale du macircle juveacutenile est

Dans le cas des donneacutees non groupeacutees

Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent

aux valeurs meacutedianes des classes

La meacutediane

La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-

leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-

tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs

observeacutees sont supeacuterieures et 50 sont infeacuterieures

Cas discret

bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1

bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1

2

Cas continue

Avec

sum(119909119894 minus )

119899

119894=1

= 0

=1

119899sum 119899119894119909119894 119886119907119890119888

119899

119894=1

119899 = sum 119899119894

119896

119894=1

=153 + 165 + 1609 hellip + 158

50= 1589 119898119898

sum 119899119894119909119894 = 7960 119889prime119900119906

119899

119894=1

=7960

50

= 1592119898119898

119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [

1198992

minus 119873119894

119899119894]

12

xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe

meacutediane)

xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu

(classe meacutediane)

ni effectif de la classe meacutediane

Ni effectif cumuleacute infeacuterieur agrave xm

n taille de lrsquoeacutechantillon

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de

la geacutelinotte huppeacutee la valeur de la meacutediane est

bull Cas des donneacutees non groupeacutees

119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926

2=

158 + 159

2= 1585 119898119898

bull Cas des donneacutees groupeacutees 119899

2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +

5

17(

50

2minus 11) = 15911 119898119898

Remarque

Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est

proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp

Le mode

Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente

ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence

maximale dans la distribution des freacutequences

On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence

maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit

119872119900 = 119909119898 +119894∆119894

∆119904 + ∆119894

avec

119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)

119946 Intervalle de classe (xm+1 ndash xm)

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 6: Statistique descriptive - fsnv.univ-bba.dz

6

Freacutequences absolues relatives et cumuleacutees

A chaque modaliteacute xi du caractegravere X peut correspondre un ou plusieurs indivi-

dus dans leacutechantillon de taille n

On appelle effectif (freacutequence absolue) de la modaliteacute xi le

nombre ni ougrave ni est le nombre drsquoindividu 120596tel que 119935(120654) = 119961119946

On appelle freacutequence (freacutequence relative) de la modaliteacute xi le nombre fi tel

que 119943119946 =119951119946

119951

Le pourcentage est une freacutequence exprimeacutee en pour cent Il est eacutegal agrave

100 fi

On appelle effectif cumuleacute croissante de la modaliteacute xi la somme des effec-

tifs partiels des valeur

1199091 1199092 hellip 119909119894 119899119894 = 1198991 + 1198992 + ⋯ + 119899119894 = sum 119899119896

119894

119896=1

On appelle effectif cumuleacute deacutecroissante de la modaliteacute xi le nombre

119899119894 = 119899 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = sum 119899119901

119901=119894minus1

119901=1

119899119894 = 1198991 + 1198992 + ⋯ 119899119894minus1 + 119899119894 + ⋯ + 119899119896 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = 119899119894 + ⋯ + 119899119896

On appelle freacutequences cumuleacutees ou freacutequences relatives cumuleacutees en xi le

nombre fi cum tel que

119891119894119888119906119898 = sum 119891119901

119901=119894

119901=1

Remarque

Caractegraveres quantitatifs discrets

Dans le cas drsquoun caractegravere quantitatif discret lrsquoeacutetablissement de la distribu-

tion des donneacutees observeacutees associeacutees avec leurs freacutequences est immeacutediate

sum 119899119894 = 119899 sum 119891119894 = 1

119896

119894=1

119894=119896

119894=1

7

Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de

cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-

vante

Caractegravere

X

xi nombre

de galles

par feuille

0 1 2 3 4 5 6 7 8 9 10 sum

ni nombre

de feuille

portant xi

galles

182 98 46 28 12 5 2 1 0 1 0 375

fi freacute-

quence

relative

0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1

fi cum

freacutequence

relative

cumuleacutee

0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1

Caractegraveres quantitatifs continus

Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de

freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des

8

donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc

lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe

En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-

bution en freacutequence est un sens il faut que chaque classe comprenne un nombre

suffisant de valeurs (ni)

Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour

un eacutechantillon de taille n

La regravegle de STURGE Nombre de classes = 1+ 33 log n

La regravegle de YULE Nombre de classes = 120784 120787radic119951120786

= 120784 120787radicradic119951

Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante

Intervalle de classe = (X max - X min) Nombre de classes

Avec X max et X min respectivement la plus grande et la plus petite valeur

de X dans la seacuterie statistique

A partir de X min on obtient les limites de classes ou bornes de classes par addi-

tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire

coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-

tier ou ayant peu de deacutecimales

Exemple

Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-

vent ecirctre reacuteparties de la faccedilon suivante

Deacutefinition du nombre de classes

Regravegle de Sturge 1 + 33 log 50 = 660

Regravegle de Yule 25radic504

= 664 les deux valeurs sont tregraves peu diffeacuterentes

Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782

66= 515 119898119898 que lon

arrondit agrave 5 mm par commoditeacute (faciliteacute)

Tableau de distribution des freacutequences

Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[

9

de la rectrice

xi bornes des classes

ci Valeurs meacutedianes des

classes (centres des

classes)

1425 1475 1525 1575 1625 1675 1725

ni nombre drsquoindividu par

classe

1 1 9 17 16 3 3

Ni effectif cumuleacutee 1 2 11 28 44 47 50

relative freacutequence if 002 002 018 034 032 006 006

fi cum freacutequence rela-

tive cumuleacutee 002 004 022 056 088 094 1

Repreacutesentations graphiques

Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur

lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees

recueillies

Caractegraveres quantitatifs discrets

Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est

le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave

lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi

Exemple

Caractegraveres quantitatifs continus

Pour les caractegraveres quantitatifs continus la repreacutesentation graphique

est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni

0

20

40

60

80

100

120

140

160

180

200

0 1 2 3 4 5 6 7 8 9 10

distribution du nombre de galles parhellip

10

Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-

prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche

lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour

conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter

lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi

la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque

classe

Exemple

Indicateurs numeacuteriques

Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-

tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-

ristiques

Indicateurs de position

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser lrsquoordre de grandeur des observations

La moyenne arithmeacutetique

Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere

quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-

tique des n valeurs

0

2

4

6

8

10

12

14

16

18

1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[

=1

119899sum 119909119894

119899

119894=1

11

Remarque

Si les donneacutees observeacutees xi sont regroupeacutees en k classes

drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut

les pondeacuterer par les effectifs correspondants

Exemple

Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur

moyenne de la rectrice principale du macircle juveacutenile est

Dans le cas des donneacutees non groupeacutees

Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent

aux valeurs meacutedianes des classes

La meacutediane

La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-

leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-

tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs

observeacutees sont supeacuterieures et 50 sont infeacuterieures

Cas discret

bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1

bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1

2

Cas continue

Avec

sum(119909119894 minus )

119899

119894=1

= 0

=1

119899sum 119899119894119909119894 119886119907119890119888

119899

119894=1

119899 = sum 119899119894

119896

119894=1

=153 + 165 + 1609 hellip + 158

50= 1589 119898119898

sum 119899119894119909119894 = 7960 119889prime119900119906

119899

119894=1

=7960

50

= 1592119898119898

119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [

1198992

minus 119873119894

119899119894]

12

xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe

meacutediane)

xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu

(classe meacutediane)

ni effectif de la classe meacutediane

Ni effectif cumuleacute infeacuterieur agrave xm

n taille de lrsquoeacutechantillon

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de

la geacutelinotte huppeacutee la valeur de la meacutediane est

bull Cas des donneacutees non groupeacutees

119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926

2=

158 + 159

2= 1585 119898119898

bull Cas des donneacutees groupeacutees 119899

2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +

5

17(

50

2minus 11) = 15911 119898119898

Remarque

Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est

proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp

Le mode

Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente

ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence

maximale dans la distribution des freacutequences

On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence

maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit

119872119900 = 119909119898 +119894∆119894

∆119904 + ∆119894

avec

119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)

119946 Intervalle de classe (xm+1 ndash xm)

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 7: Statistique descriptive - fsnv.univ-bba.dz

7

Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de

cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-

vante

Caractegravere

X

xi nombre

de galles

par feuille

0 1 2 3 4 5 6 7 8 9 10 sum

ni nombre

de feuille

portant xi

galles

182 98 46 28 12 5 2 1 0 1 0 375

fi freacute-

quence

relative

0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1

fi cum

freacutequence

relative

cumuleacutee

0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1

Caractegraveres quantitatifs continus

Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de

freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des

8

donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc

lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe

En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-

bution en freacutequence est un sens il faut que chaque classe comprenne un nombre

suffisant de valeurs (ni)

Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour

un eacutechantillon de taille n

La regravegle de STURGE Nombre de classes = 1+ 33 log n

La regravegle de YULE Nombre de classes = 120784 120787radic119951120786

= 120784 120787radicradic119951

Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante

Intervalle de classe = (X max - X min) Nombre de classes

Avec X max et X min respectivement la plus grande et la plus petite valeur

de X dans la seacuterie statistique

A partir de X min on obtient les limites de classes ou bornes de classes par addi-

tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire

coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-

tier ou ayant peu de deacutecimales

Exemple

Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-

vent ecirctre reacuteparties de la faccedilon suivante

Deacutefinition du nombre de classes

Regravegle de Sturge 1 + 33 log 50 = 660

Regravegle de Yule 25radic504

= 664 les deux valeurs sont tregraves peu diffeacuterentes

Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782

66= 515 119898119898 que lon

arrondit agrave 5 mm par commoditeacute (faciliteacute)

Tableau de distribution des freacutequences

Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[

9

de la rectrice

xi bornes des classes

ci Valeurs meacutedianes des

classes (centres des

classes)

1425 1475 1525 1575 1625 1675 1725

ni nombre drsquoindividu par

classe

1 1 9 17 16 3 3

Ni effectif cumuleacutee 1 2 11 28 44 47 50

relative freacutequence if 002 002 018 034 032 006 006

fi cum freacutequence rela-

tive cumuleacutee 002 004 022 056 088 094 1

Repreacutesentations graphiques

Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur

lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees

recueillies

Caractegraveres quantitatifs discrets

Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est

le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave

lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi

Exemple

Caractegraveres quantitatifs continus

Pour les caractegraveres quantitatifs continus la repreacutesentation graphique

est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni

0

20

40

60

80

100

120

140

160

180

200

0 1 2 3 4 5 6 7 8 9 10

distribution du nombre de galles parhellip

10

Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-

prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche

lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour

conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter

lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi

la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque

classe

Exemple

Indicateurs numeacuteriques

Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-

tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-

ristiques

Indicateurs de position

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser lrsquoordre de grandeur des observations

La moyenne arithmeacutetique

Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere

quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-

tique des n valeurs

0

2

4

6

8

10

12

14

16

18

1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[

=1

119899sum 119909119894

119899

119894=1

11

Remarque

Si les donneacutees observeacutees xi sont regroupeacutees en k classes

drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut

les pondeacuterer par les effectifs correspondants

Exemple

Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur

moyenne de la rectrice principale du macircle juveacutenile est

Dans le cas des donneacutees non groupeacutees

Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent

aux valeurs meacutedianes des classes

La meacutediane

La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-

leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-

tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs

observeacutees sont supeacuterieures et 50 sont infeacuterieures

Cas discret

bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1

bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1

2

Cas continue

Avec

sum(119909119894 minus )

119899

119894=1

= 0

=1

119899sum 119899119894119909119894 119886119907119890119888

119899

119894=1

119899 = sum 119899119894

119896

119894=1

=153 + 165 + 1609 hellip + 158

50= 1589 119898119898

sum 119899119894119909119894 = 7960 119889prime119900119906

119899

119894=1

=7960

50

= 1592119898119898

119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [

1198992

minus 119873119894

119899119894]

12

xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe

meacutediane)

xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu

(classe meacutediane)

ni effectif de la classe meacutediane

Ni effectif cumuleacute infeacuterieur agrave xm

n taille de lrsquoeacutechantillon

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de

la geacutelinotte huppeacutee la valeur de la meacutediane est

bull Cas des donneacutees non groupeacutees

119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926

2=

158 + 159

2= 1585 119898119898

bull Cas des donneacutees groupeacutees 119899

2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +

5

17(

50

2minus 11) = 15911 119898119898

Remarque

Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est

proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp

Le mode

Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente

ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence

maximale dans la distribution des freacutequences

On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence

maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit

119872119900 = 119909119898 +119894∆119894

∆119904 + ∆119894

avec

119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)

119946 Intervalle de classe (xm+1 ndash xm)

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 8: Statistique descriptive - fsnv.univ-bba.dz

8

donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc

lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe

En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-

bution en freacutequence est un sens il faut que chaque classe comprenne un nombre

suffisant de valeurs (ni)

Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour

un eacutechantillon de taille n

La regravegle de STURGE Nombre de classes = 1+ 33 log n

La regravegle de YULE Nombre de classes = 120784 120787radic119951120786

= 120784 120787radicradic119951

Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante

Intervalle de classe = (X max - X min) Nombre de classes

Avec X max et X min respectivement la plus grande et la plus petite valeur

de X dans la seacuterie statistique

A partir de X min on obtient les limites de classes ou bornes de classes par addi-

tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire

coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-

tier ou ayant peu de deacutecimales

Exemple

Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-

peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-

vent ecirctre reacuteparties de la faccedilon suivante

Deacutefinition du nombre de classes

Regravegle de Sturge 1 + 33 log 50 = 660

Regravegle de Yule 25radic504

= 664 les deux valeurs sont tregraves peu diffeacuterentes

Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782

66= 515 119898119898 que lon

arrondit agrave 5 mm par commoditeacute (faciliteacute)

Tableau de distribution des freacutequences

Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[

9

de la rectrice

xi bornes des classes

ci Valeurs meacutedianes des

classes (centres des

classes)

1425 1475 1525 1575 1625 1675 1725

ni nombre drsquoindividu par

classe

1 1 9 17 16 3 3

Ni effectif cumuleacutee 1 2 11 28 44 47 50

relative freacutequence if 002 002 018 034 032 006 006

fi cum freacutequence rela-

tive cumuleacutee 002 004 022 056 088 094 1

Repreacutesentations graphiques

Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur

lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees

recueillies

Caractegraveres quantitatifs discrets

Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est

le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave

lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi

Exemple

Caractegraveres quantitatifs continus

Pour les caractegraveres quantitatifs continus la repreacutesentation graphique

est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni

0

20

40

60

80

100

120

140

160

180

200

0 1 2 3 4 5 6 7 8 9 10

distribution du nombre de galles parhellip

10

Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-

prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche

lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour

conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter

lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi

la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque

classe

Exemple

Indicateurs numeacuteriques

Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-

tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-

ristiques

Indicateurs de position

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser lrsquoordre de grandeur des observations

La moyenne arithmeacutetique

Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere

quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-

tique des n valeurs

0

2

4

6

8

10

12

14

16

18

1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[

=1

119899sum 119909119894

119899

119894=1

11

Remarque

Si les donneacutees observeacutees xi sont regroupeacutees en k classes

drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut

les pondeacuterer par les effectifs correspondants

Exemple

Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur

moyenne de la rectrice principale du macircle juveacutenile est

Dans le cas des donneacutees non groupeacutees

Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent

aux valeurs meacutedianes des classes

La meacutediane

La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-

leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-

tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs

observeacutees sont supeacuterieures et 50 sont infeacuterieures

Cas discret

bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1

bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1

2

Cas continue

Avec

sum(119909119894 minus )

119899

119894=1

= 0

=1

119899sum 119899119894119909119894 119886119907119890119888

119899

119894=1

119899 = sum 119899119894

119896

119894=1

=153 + 165 + 1609 hellip + 158

50= 1589 119898119898

sum 119899119894119909119894 = 7960 119889prime119900119906

119899

119894=1

=7960

50

= 1592119898119898

119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [

1198992

minus 119873119894

119899119894]

12

xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe

meacutediane)

xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu

(classe meacutediane)

ni effectif de la classe meacutediane

Ni effectif cumuleacute infeacuterieur agrave xm

n taille de lrsquoeacutechantillon

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de

la geacutelinotte huppeacutee la valeur de la meacutediane est

bull Cas des donneacutees non groupeacutees

119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926

2=

158 + 159

2= 1585 119898119898

bull Cas des donneacutees groupeacutees 119899

2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +

5

17(

50

2minus 11) = 15911 119898119898

Remarque

Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est

proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp

Le mode

Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente

ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence

maximale dans la distribution des freacutequences

On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence

maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit

119872119900 = 119909119898 +119894∆119894

∆119904 + ∆119894

avec

119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)

119946 Intervalle de classe (xm+1 ndash xm)

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 9: Statistique descriptive - fsnv.univ-bba.dz

9

de la rectrice

xi bornes des classes

ci Valeurs meacutedianes des

classes (centres des

classes)

1425 1475 1525 1575 1625 1675 1725

ni nombre drsquoindividu par

classe

1 1 9 17 16 3 3

Ni effectif cumuleacutee 1 2 11 28 44 47 50

relative freacutequence if 002 002 018 034 032 006 006

fi cum freacutequence rela-

tive cumuleacutee 002 004 022 056 088 094 1

Repreacutesentations graphiques

Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur

lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees

recueillies

Caractegraveres quantitatifs discrets

Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est

le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave

lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi

Exemple

Caractegraveres quantitatifs continus

Pour les caractegraveres quantitatifs continus la repreacutesentation graphique

est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni

0

20

40

60

80

100

120

140

160

180

200

0 1 2 3 4 5 6 7 8 9 10

distribution du nombre de galles parhellip

10

Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-

prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche

lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour

conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter

lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi

la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque

classe

Exemple

Indicateurs numeacuteriques

Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-

tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-

ristiques

Indicateurs de position

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser lrsquoordre de grandeur des observations

La moyenne arithmeacutetique

Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere

quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-

tique des n valeurs

0

2

4

6

8

10

12

14

16

18

1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[

=1

119899sum 119909119894

119899

119894=1

11

Remarque

Si les donneacutees observeacutees xi sont regroupeacutees en k classes

drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut

les pondeacuterer par les effectifs correspondants

Exemple

Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur

moyenne de la rectrice principale du macircle juveacutenile est

Dans le cas des donneacutees non groupeacutees

Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent

aux valeurs meacutedianes des classes

La meacutediane

La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-

leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-

tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs

observeacutees sont supeacuterieures et 50 sont infeacuterieures

Cas discret

bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1

bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1

2

Cas continue

Avec

sum(119909119894 minus )

119899

119894=1

= 0

=1

119899sum 119899119894119909119894 119886119907119890119888

119899

119894=1

119899 = sum 119899119894

119896

119894=1

=153 + 165 + 1609 hellip + 158

50= 1589 119898119898

sum 119899119894119909119894 = 7960 119889prime119900119906

119899

119894=1

=7960

50

= 1592119898119898

119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [

1198992

minus 119873119894

119899119894]

12

xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe

meacutediane)

xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu

(classe meacutediane)

ni effectif de la classe meacutediane

Ni effectif cumuleacute infeacuterieur agrave xm

n taille de lrsquoeacutechantillon

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de

la geacutelinotte huppeacutee la valeur de la meacutediane est

bull Cas des donneacutees non groupeacutees

119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926

2=

158 + 159

2= 1585 119898119898

bull Cas des donneacutees groupeacutees 119899

2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +

5

17(

50

2minus 11) = 15911 119898119898

Remarque

Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est

proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp

Le mode

Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente

ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence

maximale dans la distribution des freacutequences

On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence

maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit

119872119900 = 119909119898 +119894∆119894

∆119904 + ∆119894

avec

119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)

119946 Intervalle de classe (xm+1 ndash xm)

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 10: Statistique descriptive - fsnv.univ-bba.dz

10

Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-

prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche

lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour

conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter

lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi

la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque

classe

Exemple

Indicateurs numeacuteriques

Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-

tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-

ristiques

Indicateurs de position

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser lrsquoordre de grandeur des observations

La moyenne arithmeacutetique

Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere

quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-

tique des n valeurs

0

2

4

6

8

10

12

14

16

18

1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[

=1

119899sum 119909119894

119899

119894=1

11

Remarque

Si les donneacutees observeacutees xi sont regroupeacutees en k classes

drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut

les pondeacuterer par les effectifs correspondants

Exemple

Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur

moyenne de la rectrice principale du macircle juveacutenile est

Dans le cas des donneacutees non groupeacutees

Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent

aux valeurs meacutedianes des classes

La meacutediane

La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-

leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-

tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs

observeacutees sont supeacuterieures et 50 sont infeacuterieures

Cas discret

bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1

bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1

2

Cas continue

Avec

sum(119909119894 minus )

119899

119894=1

= 0

=1

119899sum 119899119894119909119894 119886119907119890119888

119899

119894=1

119899 = sum 119899119894

119896

119894=1

=153 + 165 + 1609 hellip + 158

50= 1589 119898119898

sum 119899119894119909119894 = 7960 119889prime119900119906

119899

119894=1

=7960

50

= 1592119898119898

119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [

1198992

minus 119873119894

119899119894]

12

xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe

meacutediane)

xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu

(classe meacutediane)

ni effectif de la classe meacutediane

Ni effectif cumuleacute infeacuterieur agrave xm

n taille de lrsquoeacutechantillon

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de

la geacutelinotte huppeacutee la valeur de la meacutediane est

bull Cas des donneacutees non groupeacutees

119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926

2=

158 + 159

2= 1585 119898119898

bull Cas des donneacutees groupeacutees 119899

2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +

5

17(

50

2minus 11) = 15911 119898119898

Remarque

Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est

proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp

Le mode

Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente

ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence

maximale dans la distribution des freacutequences

On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence

maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit

119872119900 = 119909119898 +119894∆119894

∆119904 + ∆119894

avec

119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)

119946 Intervalle de classe (xm+1 ndash xm)

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 11: Statistique descriptive - fsnv.univ-bba.dz

11

Remarque

Si les donneacutees observeacutees xi sont regroupeacutees en k classes

drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut

les pondeacuterer par les effectifs correspondants

Exemple

Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur

moyenne de la rectrice principale du macircle juveacutenile est

Dans le cas des donneacutees non groupeacutees

Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent

aux valeurs meacutedianes des classes

La meacutediane

La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-

leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-

tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs

observeacutees sont supeacuterieures et 50 sont infeacuterieures

Cas discret

bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1

bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1

2

Cas continue

Avec

sum(119909119894 minus )

119899

119894=1

= 0

=1

119899sum 119899119894119909119894 119886119907119890119888

119899

119894=1

119899 = sum 119899119894

119896

119894=1

=153 + 165 + 1609 hellip + 158

50= 1589 119898119898

sum 119899119894119909119894 = 7960 119889prime119900119906

119899

119894=1

=7960

50

= 1592119898119898

119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [

1198992

minus 119873119894

119899119894]

12

xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe

meacutediane)

xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu

(classe meacutediane)

ni effectif de la classe meacutediane

Ni effectif cumuleacute infeacuterieur agrave xm

n taille de lrsquoeacutechantillon

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de

la geacutelinotte huppeacutee la valeur de la meacutediane est

bull Cas des donneacutees non groupeacutees

119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926

2=

158 + 159

2= 1585 119898119898

bull Cas des donneacutees groupeacutees 119899

2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +

5

17(

50

2minus 11) = 15911 119898119898

Remarque

Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est

proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp

Le mode

Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente

ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence

maximale dans la distribution des freacutequences

On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence

maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit

119872119900 = 119909119898 +119894∆119894

∆119904 + ∆119894

avec

119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)

119946 Intervalle de classe (xm+1 ndash xm)

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 12: Statistique descriptive - fsnv.univ-bba.dz

12

xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe

meacutediane)

xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu

(classe meacutediane)

ni effectif de la classe meacutediane

Ni effectif cumuleacute infeacuterieur agrave xm

n taille de lrsquoeacutechantillon

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de

la geacutelinotte huppeacutee la valeur de la meacutediane est

bull Cas des donneacutees non groupeacutees

119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926

2=

158 + 159

2= 1585 119898119898

bull Cas des donneacutees groupeacutees 119899

2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +

5

17(

50

2minus 11) = 15911 119898119898

Remarque

Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est

proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp

Le mode

Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente

ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence

maximale dans la distribution des freacutequences

On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence

maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit

119872119900 = 119909119898 +119894∆119894

∆119904 + ∆119894

avec

119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)

119946 Intervalle de classe (xm+1 ndash xm)

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 13: Statistique descriptive - fsnv.univ-bba.dz

13

120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche

120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche

Exemple

Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-

notte huppeacutee la valeur du mode est

bull Valeur approcheacutee La classe de freacutequence maximale est [155160[

avec ni = 17 drsquoougrave Mo = 1575 mm

bull Valeur exacte

119872119900 = 155 +5 times 8

(1 + 8)= 15944 119898119898

Avec

119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898

Remarque

Une distribution de freacutequences peut preacutesenter un seul mode (distribution

unimodale) ou plusieurs modes (distribution bi ou trimodale)

Si la distribution des valeurs est symeacutetrique la valeur du mode est proche

de la valeur de la moyenne arithmeacutetique 119924119952 =

Comparaison des indicateurs de position

Avantages Inconveacutenients

Moy

enn

e a

rith

-

meacuteti

que

Facile agrave calculer

Reacutepond au principe des

moindres carreacutes

Fortement influenceacutee par les valeurs ex-

trecircmes de la va

Repreacutesente mal une population heacuteteacutero-

gegravene (polymodale)

Meacutediane Pas influenceacutee par les valeurs

extrecircmes de la va

Peu sensible aux variations

drsquoamplitude des classes

Calculable sur des caractegraveres

Se precircte mal aux calculs statistiques

Suppose lrsquoeacutequi-reacutepartition des donneacutees

Ne repreacutesente que la valeur qui seacutepare

lrsquoeacutechantillon en 2 parties eacutegales

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 14: Statistique descriptive - fsnv.univ-bba.dz

14

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Mode Pas influenceacutee par les valeurs

extrecircmes de la va

Calculable sur des caractegraveres

cycliques (saison etc) ougrave la

moyenne a peu de significa-

tion

Bon indicateur de population

heacuteteacuterogegravene

Se precircte mal aux calculs statistiques

Tregraves sensible aux variations drsquoamplitude

des classes

Son calcul ne tient compte que des indi-

vidus dont les valeurs se rapprochent de

la classe modale

Indicateurs de dispersion

Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-

racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-

persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute

La variance observeacutee

Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere

quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee

noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne

1199042 =1

119899sum(119909119894 minus )2

119899

119894=1

Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-

montrons dans un cas particulier

Voici pourquoi

Soit

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 15: Statistique descriptive - fsnv.univ-bba.dz

15

119860 = sum(119909119894 minus )2

119899

119894=1

= sum(1199091198942 minus 2119909119894 + 2)

119899

119894=1

= sum 1199091198942

119899

119894=1

minus sum 2119909119894

119899

119894=1

+ sum 2 = sum 1199091198942

119899

119894=1

minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899

119899

119894=1

119899

119894=1

119899

119894=1

119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894

2 minus 1198992

119899

119894=1

119899

119894=1

La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc

1198782 =1

119899sum 119909119894

2 minus 2

119899

119894=1

Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-

nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la

suivante

1198782 =1

119899sum 119899119894(119909119894

2 minus 2)

119894=119896

119894=1

Pour des commoditeacutes de calcul on utilisera la formule

deacuteveloppeacutee suivante

1198782 =1

119899sum 119899119894119909119894

2 minus 2 119886119907119890119888 119899 = sum 119899119894

119894=119896

119894=1

119894=119896

119894=1

Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee

119878 = radic1198782

Exemple

(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-

riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 16: Statistique descriptive - fsnv.univ-bba.dz

16

cas des donneacutees non groupeacutees

sum 1199091198942 = 126347 et = 15886 mm 1198782 =

1

50(1263647) minus (15886)2

119894=119899

119894=1

= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm

cas des donneacutees groupeacutees

sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =

1

50(12690125) minus (15920)2

119894=119899

119894=1

= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm

Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de

galles par feuille pour la ceacutecidomyie du hecirctre

Remarque

De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-

sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-

riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-

gement drsquouniteacutes

Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui

srsquoexprime dans les mecircmes uniteacutes que la moyenne

Le coefficient de variation

La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-

lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de

grandeur des donneacutees

Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant

en compte ce biais et est eacutegal agrave

119862119881 =119878

100

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 17: Statistique descriptive - fsnv.univ-bba.dz

17

Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-

tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente

Exemple

Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes

huppeacutees macircles juveacuteniles est eacutegal agrave

119862119881 =609

15886100 = 383

Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-

domyie du hecirctre

Paramegravetres de forme

Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-

tative discregravete ou

continue agrave valeurs reacuteelles

Coefficient dasymeacutetrie

a) Deacutefinition

Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants

Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo

quand il existe il est deacutefinie par

Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il

est deacutefini par

Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est

deacutefini par

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 18: Statistique descriptive - fsnv.univ-bba.dz

18

Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave

droite on dit quil y a obliciteacute agrave gauche

Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave

gauche on dit quil y a obliciteacute agrave droite

On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments

centers

Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution

agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss

b) Exemples

1deg Consideacuterons la variable statistique X de distribution

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 19: Statistique descriptive - fsnv.univ-bba.dz

19

2deg Consideacuterons la variable statistique X de distribution

Coefficient daplatissement

Lagrave encore plusieurs deacutefinitions sont possible

Le coefficient daplatissement de Pearson est

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 20: Statistique descriptive - fsnv.univ-bba.dz

20

Le coefficient daplatissement de Yule est

On peut se demander pourquoi ndash 3

Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-

tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss

est eacutegal agrave 3

Il est alors naturel pour comparer lapplatissement dune distribution statis-

tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =

β 2 ndash 3

Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl

tissement quune courbe en cloche on dit que la variable est meacutesokurtique

Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati

quune courbe en cloche on dit que la variable est leptokurtique

Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune

courbe en cloche on dit que la variable est platykurtique

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 21: Statistique descriptive - fsnv.univ-bba.dz

21

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 22: Statistique descriptive - fsnv.univ-bba.dz

22

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 23: Statistique descriptive - fsnv.univ-bba.dz

1

Lois continues

I Loi uniforme

1) Deacutefinition

La variable X est de loi uniforme sur le segment [a b] si et seulement si

119883 120088[119886119887] hArr 119891(119909) = 1

119887 minus 119886 119904119894 119886 le 119909 le 119887

0 119904119894119899119900119899

2) Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=

0 119904119894 119909 lt 119886

int1

119887 minus 119886119889119905 =

119909

119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 lt 119887

int1

119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887

119887

119886

119865(119909) = 0 119904119894 119909 gt 119886

119909 minus 119886

119887 minus 119886 119904119894 119886 le 119909 le 119887

3) Espeacuterance et variance

119883 120088[119886119887] rArr 119864(119909) =

119886 + 119887

2

119881(119909) =(119887 minus 119886)2

12

119864(119909) = int119909119891(119909)119889119909 = int119909 times1

119887 minus 119886119889119909 =

1

119887 minus 119886[1199092

2]119886

119887

=119886 + 119887

2

119887

119886

119887

119886

119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1

119887 minus 119886119889119909

119887

119886

II Loi normale ou de Laplace-Gauss ou de Gauss

Loi normale geacuteneacuterale 120029(119950120648120784)

Deacutefinition

119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1

120590radic2120587119890minus121205902

(119909minus119898)2 forall119909 isin ℝ

Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)

Graphe de f

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 24: Statistique descriptive - fsnv.univ-bba.dz

2

Courbe en cloche

x = m axe de symeacutetrie

2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590

Fonction de reacutepartition

119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905

119909

minusinfin

=1

120590radic2120587119890minus121205902

(119909minus119898)2

Graphiquement

Proprieacuteteacutes regravegle des 3120590

119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68

119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95

119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997

Loi normale centreacute reacuteduite 120029(120782120783)

Deacutefinition

x=m2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

x

y

t=x2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

x

y

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 25: Statistique descriptive - fsnv.univ-bba.dz

3

119883 119977(01) 119904119904119894 119891(119909) =1

radic2120587119890minus121199112 forall119911 isin ℝ

Graphe

Fonction de reacutepartition

120651(119963) = 119927(119937 le 119963) = int120783

radic120784120645119942minus120783120784119957120784119941119957

119963

minusinfin

Graphiquement

Analytiquement

Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table

statistique

Proprieacuteteacutes de 120651(119963)

i 120593(0) = 119875(119885 le 0) =1

2= 119875(119885 ge 0)

ii 120593(minus119911) = 1 minus 120593(119911)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

0 1

004

z

f(z)

t=z

P(Zltz)

2 3 4 5 6-1-2-3-4-5-6

008

012

016

02

-004

0 1

004

t

f(t)

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 26: Statistique descriptive - fsnv.univ-bba.dz

4

120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)

iii 119878119894 119911 gt 0 rArr 120593(119911) gt1

2

119878119894 119911 lt 0 rArr 120593(119911) lt1

2

Lecture de la table

Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)

bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890

bull 119904119894 119911 ge 4 rarr 120593(119911) = 4

bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)

Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911

120593(119911) gt 120572 gt1

2rarr 119897119894119903119890 119911

Exemple

120593(119911) = 120572 = 06700 rarr 119911 = 044

120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890

08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv

119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124

120593(119911) = 120572 lt1

2rarr 119911

Exemple 120593(119911) = 025 lt1

2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)

= 1 minus 025 = 075

07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)

120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067

Theacuteoregraveme

119904119900119894119905 119883 119977(119898 1205902)

119885 =119883 minus119898

120590

rArr 119885 119977(01)

119883 119977(119898 1205902) rarr 119875(119883 le 119909) =

(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898

120590le119909 minus119898

120590)

119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898

120590

119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)

Exemple

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 27: Statistique descriptive - fsnv.univ-bba.dz

5

119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr

119875(119883 le 5) =

1199090 = 119904119894 119875(119909 ge 1199090) = 005

119875(119883 le 5) = 119875 (119883 minus119898

120590le5 minus119898

120590) = 119875 (119885 le

5 minus 2

3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885

119977(01)

119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2

3) = 005 ⟺ 1 minus 119875 (119885 le

1199090 minus 2

3) = 005

⟺ 119875 (119885 le1199090 minus 2

3) = 095 ⟺

1199090 minus 2

3= 165 ⟺ 1199090 = 695

Espeacuterance et variance

119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0

119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898

119881(119883) = 1205902

Approximation de la loi binomiale par la loi normale

Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)

Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =

119899119901 119890119905 1205902 = 119899119901119902

Exercice

Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de

naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene

reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus

de tels parents

1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer

119875(119883 gt 1) 119875(119883 ge 1)

2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants

bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants

bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1

2

Solution

1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025

119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =

0757

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 28: Statistique descriptive - fsnv.univ-bba.dz

6

119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056

119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187

2 Y nombre de sourds-muets sur un eacutechantillon de 300

119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt

5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625

bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898

120590) = 119875 (119885 ge

60minus75

75) = 119875(119885 ge minus2) = 119875(119885 le 2) =

120593(2) = 09772

bull 119875(119884 gt 1199100) =1

2⟺ 119875(119885 gt

1199100minus75

75) =

1

2⟺ 1minus 119875 (119885 le

1199100minus75

75) =

1

2⟺ 119875(119885 le

1199100minus75

75) = 05 ⟺

1199100minus75

75= 0 ⟺ 1199100 = 75

Loi de la somme

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)

alors

119883 =sum119883119894 119977(sum119898119894 sum120590119894

2

119899

119894=1

119899

119894=1

)

119899

119894=1

119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)

Eacutechantillonnage

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)

alors

bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)

bull =1

119899sum 119883119894 119977(119898

1205902

119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899

119894=1

Deacutefinition

La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi

normale

Theacuteoregraveme central limite

Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que

119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894

119899

119894=1

119977(119899119898 1198991205902) 119890119905

=1

119899sum119883119894 119977(119898

1205902

119899)

119899

119894=1

Remarque

119861(119899 119901) asymp 119875(119899119901)

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 29: Statistique descriptive - fsnv.univ-bba.dz

7

119861(119899 119901) asymp 119977(119899119901 119899119901119902)

Lois relatives agrave la loi normale

Loi de Khi-deux 120652120784

La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre

de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une

distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont

les test du khi-deux

Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par

1205942 = 11988312 + 1198832

2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)

Graphe

Espeacuterance et variance

119864(119883) = 119899 119890119905 119881(119883) = 2119899

Lecture de la table

La loi du khi-deux nrsquoest pas symeacutetrique

Exemple 119883 120594102

119886 = 119875(119883 ge 119886) = 095

119887 = 119875(119883 le 119887) = 095

119875(119883 ge 119887) = 005

119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899

Theacuteoregraveme

119878119894

1198831 12059411989912

1198832 12059411989922

1198831119894119899119889eacute119901 1198832

rArr 1198831 + 1198832 1205941198991+11989922

Theacuteoregraveme

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 30: Statistique descriptive - fsnv.univ-bba.dz

8

119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412

Loi de Student

La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de

paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir

de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien

anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en

1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire

Deacutefinition

Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable

aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de

liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =

119883

radic119884

119899

suit une loi de

Student agrave n degreacutes de liberteacute

Graphe

Espeacuterance et variance

119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899

119899minus2 119904119894 119899 gt 2

Loi de Fisher-Snedecor

La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert

surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance

Deacutefinition

Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-

deux) respectivement agrave n et m degreacutes de liberteacute

On dit que 119865 =119883119899frasl

119884119898frasl

F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute

Graphe

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 31: Statistique descriptive - fsnv.univ-bba.dz

9

Espeacuterance et variance

119864(119865) =119898

119898 minus 2 119904119894 119898 gt 2 119881(119865) =

21198982(119899 +119898 minus 2)

119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4

Exercice

Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182

QCM

1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours

2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours

3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines

4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines

5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines

Reacutepence

1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6

2 119875(119883 gt 18) = 05 119891119886119906119909

119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898

119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904

119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890

119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898

Loi symeacutetrique Me= m=Mo

3 119875(119883 gt 119886) = 005

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 32: Statistique descriptive - fsnv.univ-bba.dz

10

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 33: Statistique descriptive - fsnv.univ-bba.dz

Seacuteries statistiques doubles (agrave deux variables)

Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme

population

A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere

X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique

double

Exemple

Le poids X et la taille Y drsquoune personne

Repreacutesentation graphique

La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan

constitueacute des points Mi (xi yi)

Exemple

X taille en cm 170 150 165 169 180

Y poids en kg 65 45 60 62 70

Ajustement lineacuteaire (droite de reacutegression)

On cherche une droite y = ax + b qui rapproche le mieux les points du nuage

Droite de reacutegression de y en x Dy(x)

0

10

20

30

40

50

60

70

80

145 150 155 160 165 170 175 180 185

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 34: Statistique descriptive - fsnv.univ-bba.dz

Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes

La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =

119909 + avec

=sum (119909119894 minus )(119910119894 minus )119894

sum (119909119894 minus )2119894

= minus =sum 119909119894

119899 =

sum 119910119894

119899

Droite de reacutegression de x en y Dx(y

Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport

agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec

119886prime =sum (119909119894 minus )(119910119894 minus )119894

sum (119910119894 minus )2119894

119887prime = minus

y=ax+b

x=ay+b

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 35: Statistique descriptive - fsnv.univ-bba.dz

Covariance

Deacutefinition

On appelle covariance de (XY) le nombre noteacute cov(XY) tel que

119888119900119907(119909 119910) =1

119899sum(119909119894 minus )(119910119894 minus )

119894

=1

119899sum 119909119894119910119894 minus

119894

Remarque

1) En posant X = Y on retrouve lrsquoexpression de la variance

2) =119888119900119907(119883119884)

1205901198832

119886prime =119888119900119907(119883119884)

1205901199102

Le coefficient de correacutelation

Il Est calculeacute agrave partir de lrsquoexpression

119903119883119884 =119888119900119907(119883 119884)

120590119883120590119884

Proposition

1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant

2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)

3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)

Remarque

bull 119886prime = 1199031198831198842

bull Si |119903119883119884| cong 1 rArr

la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)

On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081

bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)

bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un

point 119866( ) appeleacute centre de graviteacute en formant un angle 120579

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 36: Statistique descriptive - fsnv.univ-bba.dz

Exemple

Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de

recherche X et les profits Y suivants (en milliers de dollars)

X Y

40 50

40 60

30 40

50 50

Trouvez la droite de reacutegression et le coefficient de correacutelation

Calculons tout dabord X et Y

119909 =1

119899sum 119909119894 =

1

4(40 + 40 + 30 + 50) =

160

4= 40

119910 =1

119899sum 119910119894 =

1

4(50 + 60 + 40 + 50) =

200

4= 50

Compleacutetons le tableau suivant

119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)

40 50 0 0 0 0 0

40 60 0 +10 0 +100 0

30 40 minus10 minus10 +100 +100 +100

50 50 +10 0 +100 0 0

sum 200 200 100

On a donc

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 37: Statistique descriptive - fsnv.univ-bba.dz

sum(119909119894 minus 119909)2 = 200

sum(119910119894 minus 119910)2 = 200

sum(119909119894 minus 119909) (119910119894 minus 119910) = 100

Les coefficients de la droite de reacutegression sont

=sum(119909119894 minus 119909) (119910119894 minus 119910)

sum(119909119894 minus 119909)2=

100

200= 05

= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30

Et le coefficient de correacutelation

119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)

radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=

100

radic200 times radic200=

100

200= 05

La correacutelation est positive et de qualiteacute moyenne

Y

X 30 50

40

50

60

40 60

  • Statistique
  • Lois continues
  • Correacutelation et regreacutession
Page 38: Statistique descriptive - fsnv.univ-bba.dz
  • Statistique
  • Lois continues
  • Correacutelation et regreacutession