cours sta230

Upload: chamss-afifi

Post on 14-Oct-2015

17 views

Category:

Documents


0 download

TRANSCRIPT

  • Universit Joseph Fourier, Grenoble ILicence Sciences et Technologies 2e anneSTA230 : Mthodes Statistiques pour la Biologie

    Cours de Statistiquehttp ://ljk.imag.fr/membres/Bernard.Ycart/STA230/

    Table des matires1 Donnes et Modles 3

    1.1 Donnes unidimensionnelles . . . . . . . . . . . . . . . . . . . . . . . . 31.1.1 chantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.2 Moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . . . 61.1.3 Variance empirique . . . . . . . . . . . . . . . . . . . . . . . . . 7

    1.2 Expriences alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2.1 vnements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2.2 Axiomes des probabilits . . . . . . . . . . . . . . . . . . . . . . 101.2.3 Probabilits conditionnelles . . . . . . . . . . . . . . . . . . . . 13

    1.3 Variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.3.1 Loi dune variable alatoire . . . . . . . . . . . . . . . . . . . . 151.3.2 Variables alatoires discrtes . . . . . . . . . . . . . . . . . . . . 161.3.3 Variables alatoires continues . . . . . . . . . . . . . . . . . . . 191.3.4 Fonction de rpartition et fonction quantile . . . . . . . . . . . . 201.3.5 Esprance et variance . . . . . . . . . . . . . . . . . . . . . . . . 241.3.6 Thormes limites . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    1.4 Distribution empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . 281.4.1 Statistique et probabilits . . . . . . . . . . . . . . . . . . . . . 281.4.2 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.4.3 Modles probabilistes . . . . . . . . . . . . . . . . . . . . . . . . 32

    2 Estimation paramtrique 362.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    2.1.1 Modles paramtrs . . . . . . . . . . . . . . . . . . . . . . . . . 362.1.2 Estimateurs et estimations . . . . . . . . . . . . . . . . . . . . . 382.1.3 Qualits dun estimateur . . . . . . . . . . . . . . . . . . . . . . 392.1.4 Exemples destimateurs . . . . . . . . . . . . . . . . . . . . . . . 42

    2.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . 452.2.1 Intervalles de dispersion . . . . . . . . . . . . . . . . . . . . . . 45

  • STA230 Cours de Statistique UJF Grenoble

    2.2.2 Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482.2.3 Echantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . 512.2.4 Normalit asymptotique . . . . . . . . . . . . . . . . . . . . . . 53

    3 Tests statistiques 563.1 Statistiques de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    3.1.1 Modles probabilistes rfutables . . . . . . . . . . . . . . . . . . 563.1.2 Rgles de dcision . . . . . . . . . . . . . . . . . . . . . . . . . . 583.1.3 Seuil et p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . 613.1.4 Risques et puissance . . . . . . . . . . . . . . . . . . . . . . . . 63

    3.2 Tests paramtriques classiques . . . . . . . . . . . . . . . . . . . . . . . 643.2.1 chantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . 643.2.2 Test sur la moyenne dun grand chantillon . . . . . . . . . . . . 653.2.3 Test sur la valeur dun quantile . . . . . . . . . . . . . . . . . . 663.2.4 chantillons apparis . . . . . . . . . . . . . . . . . . . . . . . . 67

    3.3 Comparaison dchantillons indpendants . . . . . . . . . . . . . . . . . 683.3.1 Test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.3.2 Test de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.3.3 Normalit asymptotique . . . . . . . . . . . . . . . . . . . . . . 70

    3.4 Test dajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 703.4.1 Distance du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . 703.4.2 Pratique du test . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    3.5 Test dindpendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743.5.1 Tableau de contingence . . . . . . . . . . . . . . . . . . . . . . . 743.5.2 Khi-deux de contingence . . . . . . . . . . . . . . . . . . . . . . 75

    4 Rgression linaire 784.1 Rgression linaire simple . . . . . . . . . . . . . . . . . . . . . . . . . 78

    4.1.1 Reprsentations graphiques . . . . . . . . . . . . . . . . . . . . 784.1.2 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794.1.3 Droite de rgression linaire . . . . . . . . . . . . . . . . . . . . 81

    4.2 Modle linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 854.2.1 Intervalles de confiance et de prdiction . . . . . . . . . . . . . . 854.2.2 Test de pertinence de la rgression . . . . . . . . . . . . . . . . 884.2.3 tude des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . 89

    2

  • STA230 Cours de Statistique UJF Grenoble

    1 Donnes et ModlesCe chapitre prsente le vocabulaire de la statistique descriptive sur les donnes uni-

    dimensionelles. La notion de modle que lon peut ajuster un caractre statistique estassez subtile, et de multiples exemples seront fournis pour aider sa comprhension.Elle est pourtant essentielle, mme si nous ne mettrons laccent que sur quelques mo-dles de base. Les deux plus importants sont le modle binomial et le modle gaussien,qui devront absolument tre compris.

    1.1 Donnes unidimensionnelles1.1.1 chantillons

    la base de toute tude statistique, il y a une population, forme dindividus surlesquels on observe des caractres. Pour fixer les ides, il est plus facile de penser entermes de population humaine. Les individus sont des personnes, et les caractres ob-servs peuvent tre morphologiques (taille, poids, couleur des yeux), physiologiques(groupe sanguin, numration globulaire, taux de cholestrol) ou psychologiques (r-actions des tests ou rponses une enqute dopinion). Mme si nous choisironsprioritairement nos exemples dans les caractres humains, il faut garder lesprit desnotions de population et de caractre plus gnrales. Voici quelques exemples.

    Population CaractreElments chimiques Nombre disotopesGalaxies Nombre dtoilesEtoiles MagnitudeChromosomes Nombre de gnesGnes Nombre de bases protiquesVilles Taux dimpositionPays Produit intrieur brutFilms RecettesMois de lanne Montant des exportations

    Un caractre est dit : qualitatif, si les valeurs ne peuvent pas tre ordonnes (groupe sanguin, couleurdes yeux, vote pour un candidat).

    ordinal, si les valeurs peuvent seulement tre ordonnes : leurs diffrences ne sontpas interprtables (opinions exprimes sur une chelle de valeurs)

    quantitatif, quand les valeurs sont numriques (mesures physiques, physiologiques,conomiques).

    Les valeurs que peut prendre un caractre sappellent les modalits.Pour des raisons de facilit de traitement informatique ou mathmatique, on cherche

    se ramener des caractres quantitatifs par un codage. Si le caractre initial est quali-tatif, le codage sera souvent binaire. Le cas le plus simple est celui dun rfrendum, o

    3

  • STA230 Cours de Statistique UJF Grenoble

    il ny a que deux modalits codes 0 et 1. Pour un nombre quelconque m de modalits,on pourra les coder par un vecteur de m boolens : si la valeur observe sur un individuest l, le vecteur associ cet individu a toutes ses coordonnes nulles sauf la l-imequi vaut 1. Dans le cas des caractres ordinaux, on effectue souvent le codage sur lespremiers entiers. Il faut se souvenir que le codage est arbitraire et que les rsultatsnumriques que lon obtient aprs codage peuvent dpendre de celui-ci. Des techniquesspcifiques permettent de traiter plus particulirement les caractres qualitatifs et or-dinaux. Nous nous limiterons ici pour lessentiel aux caractres quantitatifs.

    La statistique intervient quand il est impossible ou inutile dobserver un caractresur lensemble de la population. On lobserve alors sur une sous-population de taillerduite, en esprant tirer de lobservation des conclusions gnralisables toute la po-pulation. Si les donnes dun caractre quantitatif sont recueillies sur n individus, lersultat est un n-uplet de nombres, entiers ou dcimaux, (x1, . . . , xn), que lon appellechantillon ou srie statistique, de taille n. On rserve plutt le terme dchantillonau rsultat de n expriences menes indpendamment les unes des autres, et dans desconditions identiques (lancers de ds, mesure du poids de n nouveaux-ns,. . . ). Onappellera plutt srie statistique le rsultat de n expriences qui ne sont pas inter-changeables. Le cas le plus frquent est celui o la population est constitue dinstantssuccessifs (relevs quotidiens de tempratures, chiffres mensuels du chmage,. . . ). Onparle alors de srie chronologique (figure 1).

    0 52 104 156 208 2600

    100

    200

    300

    400

    500

    600

    700

    800

    900

    .

    Milliers de cas

    Semaines

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    ++

    +

    +++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +++

    +

    +

    +

    +++

    ++

    +

    +++

    ++

    +

    +

    ++++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++++

    +

    +

    ++

    +

    +

    +

    +

    +

    ++++

    +

    ++

    +++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    ++

    +

    ++

    ++

    +

    +++

    +

    +

    +

    +

    +++

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    Fig. 1 Srie chronologique : cas de grippe en France par semaine sur 5 ans.

    On distingue souvent les caractres discrets (ceux qui ne prennent que peu de moda-lits distinctes) des caractres continus (pour lesquels toutes les valeurs observes sonta priori diffrentes). La frontire entre continu et discret est beaucoup moins claire enpratique quen thorie. Tout recueil de donnes se fait avec une certaine prcision, etdans une certaine unit. Si une taille est mesure avec une prcision de lordre du cen-

    4

  • STA230 Cours de Statistique UJF Grenoble

    timtre, tout chiffre correspondant une quantit infrieure au centimtre ne contientaucune information et doit tre limin. Cela signifie que la taille en centimtres est unevaleur entire, donc un caractre discret, mme si on le modlise par une loi normale quiest une loi continue. Dautre part, diffrentes techniques statistiques (histogrammes,distance du chi-deux) imposent de regrouper les donnes en classes, ce qui revient lesrendre discrtes, les nouvelles modalits tant les diffrentes classes.

    0 10 20 30 40 50 60 70 80 90 100100102104106108110112114116118120122124126128130

    Tailles

    Individus

    +

    +

    +

    ++

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    Fig. 2 Echantillon de 100 tailles denfants de 6 ans, en centimtres.

    Une fois recueilli, lchantillon (x1, . . . , xn) se prsente comme une liste de nombrespeu lisible, dont la principale caractristique est une plus ou moins grande variabilit. Letraitement statistique consiste tudier cette variabilit, pour en extraire linformationquelle contient, savoir ce qui est gnralisable lensemble de la population. Lestechniques de statistique descriptive auront pour but de compresser lchantillon, de lersumer par des quantits calcules et des reprsentations graphiques, afin dextrairelinformation.

    On ne traite pas un chantillon sans avoir une question prcise lui poser. tantdonn un chantillon de tailles de filles de 18 ans, le traitement ne sera pas le mme selonque lon sera un nutritionniste qui cherche tudier linfluence du rgime alimentairesur la croissance, ou un fabriquant de vtements qui fait une tude de march.

    Ne confondez pas : les statistiques comme ensemble de donnes chiffres sur un phnomne variable(les statistiques du commerce extrieur, du chmage). la statistique en tant que discipline scientifique dont le but est dextraire delinformation dun chantillon en vue dune prdiction ou dune dcision. une statistique calcule partir dun chantillon comme rsum de ses proprits(moyenne, variance. . . ).

    5

  • STA230 Cours de Statistique UJF Grenoble

    1.1.2 Moyenne empirique

    La statistique la plus vidente calculer sur un chantillon numrique, celle dontlinterprtation est la plus intuitive, est la moyenne empirique.

    Dfinition 1. La moyenne empirique dun chantillon est la somme de ses lmentsdivise par leur nombre. Si lchantillon est not (x1, . . . , xn), sa moyenne empiriqueest :

    x = 1n

    (x1 + + xn) .

    La moyenne est donc le centre de gravit des donnes, affectes de coefficients gauxpour chaque individu. Elle peut tre considre comme une valeur centrale, mme sielle nest pas gale une des modalits.

    0 10 20 30 40 50 60 70 80 90 100100102104106108110112114116118120122124126128130

    Tailles

    Individus

    +

    +

    +

    ++

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    Fig. 3 Moyenne dun chantillon de 100 tailles denfants de 6 ans

    La moyenne est associative. Si on runit deux chantillons, de tailles respectivesnx et ny, de moyennes respectives x et y, alors la moyenne du nouvel chantillon sera(nxx+ nyy)/(nx + ny).

    Si (x1, . . . , xn) est un chantillon et si on pose pour tout i = 1, . . . , n, yi = axi + b,o a et b sont deux constantes, alors la moyenne empirique de lchantillon (y1, . . . , yn)est y = ax+ b. En particulier, si a = 1 et b = x, le nouvel chantillon a une moyennenulle. Centrer les donnes cest leur retrancher la moyenne empirique de manire laramener 0.

    Un cas particulier important est celui des donnes binaires. On est souvent amen construire un chantillon binaire partir dun chantillon numrique, ne serait-ce quepour le regroupement en classes. Soit A un sous ensemble de R (un intervalle dans lecas dune classe). Notons IA(x) sa fonction indicatrice qui vaut 1 si x A, 0 sinon.Si (x1, . . . , xn) est un chantillon valeurs relles, alors (IA(x1), . . . , IA(xn)) est un

    6

  • STA230 Cours de Statistique UJF Grenoble

    chantillon binaire, dont la moyenne empirique est appele la frquence empirique deA. Cest simplement la proportion des valeurs de (x1, . . . , xn) qui appartiennent A.

    Un des inconvnients de la moyenne empirique, vue comme valeur centrale dunchantillon, est dtre sensible aux valeurs extrmes. Une valeur manifestement trsdiffrente des autres est souvent qualifie de valeur aberrante. Quelle soit ou non lersultat dune erreur dans le recueil ou la transcription, on ne peut pas la considrercomme reprsentative. Supposons que sur un chantillon de 10 valeurs, toutes soientde lordre de 10, sauf une, qui est de lordre de 1000. La moyenne empirique sera delordre de 100, cest--dire trs loigne de la plupart des valeurs de lchantillon. Pourpalier cet inconvnient, on peut dcider de ne pas tenir compte des valeurs extrmesdans le calcul de la moyenne. On obtient alors une moyenne lague.

    1.1.3 Variance empirique

    Les notions de variance et dcart-type servent quantifier la variabilit dun chan-tillon en mesurant sa dispersion autour de la moyenne. La dfinition est la suivante :

    Dfinition 2. Soit (x1, . . . , xn) un chantillon et x sa moyenne empirique. On appellevariance de lchantillon la quantit, note s2, dfinie par :

    s2 = 1n

    ni=1

    (xi x)2 .

    On appelle cart-type de lchantillon la racine carre de la variance.

    En dautres termes, la variance est la moyenne des carrs de lchantillon centr.Lavantage de lcart-type sur la variance est quil sexprime, comme la moyenne, dansla mme unit que les donnes. On utilise parfois le coefficient de variation, qui est lerapport de lcart-type sur la moyenne.

    Pour calculer la variance dun chantillon, on dispose de deux formules qui donnentle mme rsultat.

    s2 = 1n

    ((x1 x)2 + + (xn x)2

    )= 1

    n

    ((x21 2x1x+ x2) + + (x21 2x1x+ x2)

    )= 1

    n(x21 + + x2n)

    2nx(x1 + + xn) + x2

    = 1n

    (x21 + + x2n) x2

    Vous pouvez donc retenir que :

    La variance est la moyenne des carrs moins le carr de la moyenne.

    7

  • STA230 Cours de Statistique UJF Grenoble

    0 10 20 30 40 50 60 70 80 90 100100102104106108110112114116118120122124126128130

    Tailles

    Individus

    +

    +

    +

    ++

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    Fig. 4 Tailles denfants de 6 ans. La zone grise correspond la moyenne, plus oumoins un cart-type.

    Dans le cas particulier des donnes binaires, codes sur 0 et 1, la moyenne est le nombrede 1 divis par le nombre total de donnes : cest la frquence empirique de 1. Lavariance napporte aucune information supplmentaire. En effet, si tous les xi valent 0ou 1, alors x2i = xi et donc :

    s2 = x x2 = x(1 x) .

    Une fois la moyenne calcule, nous avons vu quon pouvait centrer les donnes pourse ramener une moyenne nulle. La variance des donnes centres est la mme quecelle de lchantillon initial. Une fois cette variance calcule, on peut rduire les donnescentres en les divisant par lcart-type. On obtient ainsi un nouvel chantillon dont lamoyenne est nulle et la variance gale 1. On parle dchantillon rduit. Remarquonsque les donnes rduites sont des nombres sans unit. On peut donc comparer deuxchantillons rduits mme si les donnes initiales ntaient pas exprimes dans la mmeunit.

    Linconvnient de lcart-type tel quil a t dfini plus haut, est quil a tendance sous-estimer lgrement lcart des donnes par rapport leur moyenne. La raisonmathmatique de ce dfaut est lie la notion de biais dun estimateur. On peut ensaisir la raison intuitive sur un exemple simple.

    Supposons que lon joue trois fois un jeu dont lenjeu est 1 euro. Chaque rsultatvaut donc +1 (gain) ou 1 (perte). Si le jeu est quitable, on sattend ce que lamoyenne vaille 0 et lcart-type 1. Or sur trois parties, les rsultats possibles lordre

    8

  • STA230 Cours de Statistique UJF Grenoble

    prs sont les suivants.(x1, x2, x3) x s2

    (1,1,1) 1 0(1,1, 1) 13 89(1, 1, 1) 13 89(1, 1, 1) 1 0

    En aucun cas lcart-type empirique ne peut atteindre 1 ! Le moyen de corriger cettesous-estimation systmatique est de multiplier la variance par n/(n1), o n est la taillede lchantillon. On parle alors de variance non biaise. Cest la raison de la prsencesur certaines calculatrices de deux touches de calcul de lcart-type, une marque n(notre s), lautre n1 qui retourne s

    nn1 .

    1.2 Expriences alatoires1.2.1 vnements

    Convenons dappeler exprience alatoire une exprience dont on ne peut ou ne veutpas prvoir compltement le rsultat. Autrement dit une exprience qui pourra donnerdes rsultats diffrents si elle est rpte (apparemment dans les mmes conditions).Lensemble des rsultats possibles dune exprience alatoire est en gnral cod demanire nen retenir que certains aspects. Jouer pile ou face consiste lors du lancerdune pice ne sintresser qu la face sur laquelle elle tombe en oubliant le nombrede rotations en lair, le point de chute. . . On note lensemble de tous les valeurspossibles que peut prendre ce codage. Les lments de sont les ventualits. Voiciquelques exemples.

    Exprience Lancer dune pice {Pile, Face}Observer le spin dune particule {+1,1}Relever ltat dune case mmoire {0, 1}Interroger un lecteur avant un rfrendum {Oui, Non}Lancer un d {1, 2, . . . , 6}Jouer la roulette {0, 1, . . . , 36}Compter les clients dune file dattente NObserver une dure de fonctionnement R+

    Le codage en ventualits relve dun choix de modlisation qui comporte un certainarbitraire. Si on joue pair ou impair la roulette, = {0, Pair, Impair} convien-dra tout autant que = {0, 1, . . . , 36}. Le nombre de clients dans une file dattente un instant donn ne peut pas tre suprieur la population de la terre. Aucunedure de fonctionnement sans panne na jamais dpass quelques sicles. Plus gnra-lement, toute grandeur observe peut tre code par les valeurs dun ensemble fini (les

    9

  • STA230 Cours de Statistique UJF Grenoble

    nombres reprsentables en machine), compte tenu de sa prcision et de son tendue. Icicomme dans les autres domaines des mathmatiques appliques, linfini ou le continune sont que des approximations destines simplifier le traitement mathmatique. Desexpriences alatoires peuvent tre simules sur ordinateur, par lappel de fonctionsparticulires, dites gnrateurs pseudo-alatoire.

    Quil sagisse dun rsultat de simulation ou de toute autre exprience, parler dex-prience alatoire, cest choisir de ne sintresser quaux rsultats possibles, et oublieren fait les conditions de lexprience. Si on matrise parfaitement la vitesse initiale dela pice, la rsistance de lair et la hauteur par rapport au sol, alors le problme desavoir sur quelle face elle va tomber devient un problme de mcanique, que lon peutrsoudre au moins en thorie. Quil existe ou non des expriences dont le rsultat soitparfaitement imprvisible est un problme de physique quantique ou de philosophie(Dieu joue-t-il aux ds ?), mais pas de probabilits. Le hasard au sens du probabilistenest quun expdient, un choix de modlisation qui consiste recouvrir dun voilepudique la complexit des phnomnes que lon ne matrise pas, pour nen retenir quecertains aspects observables.

    Un vnement est un fait dpendant du rsultat dune exprience alatoire (ouplutt de son codage en ventualits) dont on pourra dire lissue de lexprience silest ralis ou non. On peut donc lassimiler lensemble dventualits pour lesquellesil est ralis, qui est un sous-ensemble de .

    Evnement A Le rsultat du d est pair {2, 4, 6}La dure est infrieure 100 heures [0, 100]

    Pour le codage {Pile,Face}, la pice tombe sur la tranche nest pas un vnement,pas plus que la personne interroge na pas compris la question pour un codage {Oui,Non} des rponses.

    Toutes les combinaisons logiques dvnements sont encore des vnements. Si Aest un vnement, son contraire not A en est un aussi. Si A et B sont des vnements,A et B, not A B, ainsi que A ou B, not A B, sont aussi des vnements.

    1.2.2 Axiomes des probabilits

    Une loi de probabilit, ou distribution de probabilit, est une fonction P qui unvnement A associe un nombre P[A], sa probabilit. Ce nombre traduit les chances quelvnement a de se produire. Le moyen le plus intuitif de dfinir une telle fonction estde rpter lexprience alatoire, et dassocier tout vnement sa frquence empirique.Si n est le nombre dexpriences, nA le nombre de fois o lvnement A sest produit,la frquence empirique de A est le rapport nA/n. Voici par exemple 20 rptitions duneexprience dont les ventualits sont 0, 1 et 2.

    0 , 1 , 1 , 1 , 0 , 0 , 1 , 2 , 1 , 2 , 0 , 1 , 1 , 2 , 2 , 0 , 0 , 0 , 0 , 2 .

    10

  • STA230 Cours de Statistique UJF Grenoble

    Dans cet exemple, la frquence empirique de {0} est 8/20, celle de {1, 2} est 12/20. Lin-convnient est que la frquence empirique changera si on renouvelle les n expriences.En dautres termes lensemble des n rptitions constitue une nouvelle exprience ala-toire. Cependant nous avons tous en tte une ide de la loi des grands nombres selonlaquelle les frquences empiriques sur un grand nombre de rptitions varient peu. Voiciquatre calculs successifs de la frquence empirique de {0}, sur 20 000 rptitions de lamme exprience que ci-dessus.

    0.3304 , 0.3273 , 0.3364 , 0.32415 .

    Les proprits que lon attend dune loi de probabilit sont celles des frquences expri-mentales. On les considre comme des axiomes de dfinition.

    A1 Pour tout vnement A, 0 6 P[A] 6 1.A2 La probabilit de lvnement certain est 1 : P[] = 1.A3 Si (Ai)iN est une suite dvnements disjoints deux deux (Ai et Aj ne peuventpas se produire en mme temps si i 6= j), alors :

    P[iN

    Ai] =iNP[Ai] .

    Une consquence immdiate des axiomes A2 et A3 est la relation entre les probabilitsdun vnement A et de son contraire, not A.

    P[A] = 1 P[A] .Une loi de probabilit est croissante par inclusion, daprs A1 et A3 : si A B, alorsP[A] 6 P[B].

    Les lois de probabilit que lon manipule en pratique sont de deux types particuliers,les lois discrtes et les lois continues.1. Lois discrtesLensemble des ventualits est fini ou dnombrable :

    = {i , i I N} .Toutes les parties de sont des vnements. Comme tout vnement est une runionfinie ou dnombrable de singletons, il suffit de dfinir la probabilit de chaque singleton :

    i , P[{i}] = pi .Pour tout A , la probabilit de A sera alors dtermine par A3 :

    P[A] =iA

    P[{i}] =iA

    pi .

    Exemple : Si lensemble des rsultats est fini = {1, . . . , n} et si aucune informa-tion ne permet de distinguer les rsultats, il est naturel dassocier chaque ventualit

    11

  • STA230 Cours de Statistique UJF Grenoble

    la probabilit 1/n. La probabilit de tout vnement A est alors Card(A)/n. Cette pro-babilit particulire sappelle lquiprobabilit. Tous les calculs dans ce cas se ramnent des dnombrements :

    probabilit = nombre de cas favorablesnombre de cas possibles .

    2. Lois continuesLensemble des ventualits est R. Les vnements sont les intervalles, et tous lessous-ensembles de R que lon peut former en combinant des intervalles par intersectionset runions. En thorie de la mesure, on les appelle des borliens.

    Dfinition 3. On appelle densit de probabilit une fonction de R dans R+, continuepar morceaux et dintgrale 1.

    f(x) > 0 , x R etRf(x) dx = 1 .

    tant donne une densit de probabilit, on dfinit une loi de probabilit sur R enassociant tout vnement A lintgrale de la densit sur cet vnement :

    P[A] =Af(x) dx .

    Exemple : Pour lexprience alatoire consistant tirer au hasard un rel dans [0, 1](par simulation), on considrera sur R la loi de probabilit continue, de densit :

    f(x) ={

    1 si x [0, 1] ,0 sinon.

    Elle donne tout intervalle inclus dans [0, 1] une probabilit gale sa longueur.Comme dans lexemple ci-dessus, il est frquent quune densit soit strictement

    positive sur un intervalle (ventuellement non born) de R, et nulle ailleurs. Lintervallesur lequel f est strictement positive sappelle le support de la loi.

    On peut voir une probabilit comme une rpartition de masse sur lensemble desventualits. La masse totale vaut 1. Dans le cas discret, elle est rpartie sur chacunedes ventualits en grains de plomb distincts. Dans le cas continu, elle est rpartiesur tout un intervalle de R, qui devient comme un fil de masse 1 dont la densit demasse serait variable. Calculer la probabilit dun vnement, cest calculer sa masse. part cette analogie, quel sens pratique a la notion de probabilit ? Peut-on mesurerphysiquement des probabilits ? Le seul sens concret que lon puisse leur donner estcelui, intuitif, de la loi des grands nombres. Pile a une chance sur deux de se produiresignifie pour nous si je lance la pice un grand nombre de fois, Pile sortira environune fois sur deux.

    12

  • STA230 Cours de Statistique UJF Grenoble

    Intuition : La probabilit dun vnement est la limite de ses frquences empiriquessur un grand nombre dexpriences indpendantes.Cette intuition comporte plusieurs coins dombres. Que les frquences empiriques con-vergent sous certaines hypothses est un thorme (cest ce thorme qui porte le nomde loi des grands nombres). Pourquoi rajouter ladjectif indpendantes ?

    Imaginez une machine de prcision lancer les pices : un bras articul muni dunplateau, reli un ressort rglable une valeur fixe une fois pour toutes. Mettons leressort sous tension, posons la pice sur le plateau, ct pile, et lchons le ressort. Aupremier essai on ne pourra pas prvoir si la pice tombera sur pile ou face. Mais linfor-mation apporte par le rsultat du premier essai permettra de prvoir les suivants : lesexpriences ne seront pas indpendantes. Les frquences empiriques vaudront 1 ou 0mais ne fourniront aucun renseignement sur le fait que la pice soit quilibre ou non.

    Lobjectif principal du paragraphe suivant est de prciser les notions de dpendanceet dindpendance dvnements et dexpriences alatoires.

    1.2.3 Probabilits conditionnelles

    La connaissance dune information sur une exprience peut modifier lide quon sefait de la probabilit dun vnement. La probabilit dattendre plus dune heure auguichet est suprieure sil y a beaucoup de monde devant vous.Dfinition 4. Soient A et B deux vnements tels que P[B] 6= 0. La probabilit condi-tionnelle de A sachant B est :

    P[A |B] = P[A B]P[B] .

    Interptation : Le fait de savoir que B est ralis rduit lensemble des rsultatspossibles de B. partir de l, seules les ventualits de AB ont une importance.La probabilit de A sachant B doit donc tre proportionnelle P[AB]. Le coefficientde proportionnalit 1/P[B] assure que lapplication qui A associe P[A|B] est bien uneprobabilit, pour laquelle B est lvnement certain.Point de vue frquentiste : Si on admet la loi des grands nombres, la probabilit doittre vue comme une limite de frquences empiriques. Avec les notations du paragrapheprcdent, nAB/n (resp. nB/n) est la frquence empirique de A B (resp. B), et ona :

    P[A |B] = P[A B]P[B]

    nAB/nnB/n

    = nABnB

    .

    Il faut donc voir la probabilit conditionnelle P[A |B] comme la limite quand le nombredexpriences tend vers linfini de la proportion de fois o A est ralis parmi lesexpriences o B lest aussi.

    Une loi de probabilit conditionnelle est une loi de probabilit. En particulier, si A1et A2 sont disjoints (incompatibles) alors :

    P[A1 A2 | B] = P[A1 |B] + P[A2 |B] .

    13

  • STA230 Cours de Statistique UJF Grenoble

    aussi :P[A |B] = 1 P[A |B] .

    La dfinition des probabilits conditionnelles sutilise souvent sous la forme :

    P[A B] = P[A |B] P[B]= P[B |A] P[A] .

    Si (Bi)iI est une famille dnombrable dvnements disjoints deux deux, dont larunion est lvnement certain (partition de ), alors :

    P[A] =iIP[A Bi] =

    iIP[A |Bi] P[Bi] .

    Cest la formule des probabilits totales. Mais aussi, pour tout j I :

    P[Bj |A] = P[Bj A]P[A] =P[A |Bj] P[Bj]

    iIP[A |Bi] P[Bi] .

    Cest la formule de Bayes.Lide intuitive dindpendance de deux vnements est la suivante : A et B sont

    indpendants si le fait de savoir que B se produit ou non ne modifie pas les chancesde A. Ou encore : sur un grand nombre dexpriences, la proportion des fois o A sestproduit quand B tait ralis est approximativement la mme que quand il ne ltaitpas.Exemple :A : La bourse de New-York est en hausse.B : Il pleut Paris.

    Dire que A et B sont indpendants, cest dire que la bourse de New-York est enhausse aussi souvent quand il pleut Paris que quand il ne pleut pas.En terme de frquences, on crira :

    nABnB

    nABnB

    nAn.

    Soit pour les probabilits :

    P[A|B] = P[A |B] = P[A] ,

    ou encore,P[A B]P[B] = P[A] .

    14

  • STA230 Cours de Statistique UJF Grenoble

    Dfinition 5. Deux vnements A et B sont indpendants si :

    P[A B] = P[A] P[B] .

    Deux expriences alatoires sont indpendantes si tout vnement observable lissuede lune est indpendant de tout vnement observable lissue de lautre.

    Attention : Il ne faut pas confondre indpendants et incompatibles. Pour deuxvnements incompatibles on a P[AB] = P[A]+P[B]. Deux vnements incompatiblesde probabilits non nulles ne sont jamais indpendants. Si lun des deux se produit,lautre ne peut pas se produire.La dfinition dindpendance se gnralise de la faon suivante.

    Dfinition 6. Les vnements A1, . . . , An sont indpendants si pour tout sous-ensem-ble dindices {i1, . . . , ik} {1, . . . , n}, la probabilit de lintersection est le produit desprobabilits :

    P[kj=1

    Aij ] =kj=1

    P[Aij ] .

    Des expriences alatoires E1, . . . , En sont indpendantes si pour tout n-uplet dvne-ments A1, . . . , An, o Ai est observable lissue de Ei, les n vnements A1, . . . , Ansont indpendants.Une suite (En)nN est une suite dexpriences indpendantes si pour tout n les exprien-ces E1, . . . , En sont indpendantes.

    Dans les dfinitions que nous avons donnes jusquici se trouve un cercle vicieux :Une probabilit est une limite de frquences sur des expriences indpendantes. Deuxvnements sont indpendants si la probabilit de leur intersection est le produit desprobabilits.

    Les deux notions de probabilit et dindpendance sont donc indissociables, et enun sens impossibles dfinir en pratique. Tout ce que lon peut faire, cest montrerla cohrence de leurs dfinitions. Une probabilit tant donne pour les vnementsobservables lissue dune exprience alatoire, cette probabilit est bien limite defrquences empiriques quand la mme exprience est rpte indpendamment. Cestla loi des grands nombres.

    1.3 Variables alatoires1.3.1 Loi dune variable alatoire

    Une variable alatoire est un nombre dpendant du rsultat dune exprience ala-toire. Lenjeu est la localisation de ce nombre : dterminer quelles sont ses chancesde tomber sur telle ou telle partie de R. Cette localisation conduit associer toutevariable alatoire une loi de probabilit sur R.

    15

  • STA230 Cours de Statistique UJF Grenoble

    Dfinition 7. On appelle loi de la variable alatoire X la loi de probabilit PX sur R,dfinie pour tout borlien A de R par :

    PX [A] = P[X A] .

    En pratique, on oublie le codage initial en ventualits et la loi P sur , pourne retenir que la loi PX sur R. Si on nobserve quune seule variable alatoire X, onpourra dailleurs considrer que les ventualits sont les valeurs relles quelle peutprendre, et munir cet ensemble de la loi de X. Pour des raisons de modlisation autantque de commodit mathmatique, on distingue deux types de variables alatoires. Lesvariables alatoires discrtes ne prennent quun nombre fini ou dnombrable de valeurs(en gnral entires). Les variables alatoires continues peuvent a priori prendre toutesles valeurs dans un intervalle de rels. Cette distinction correspond bien sr celle djintroduite pour les lois de probabilit.

    En gnral, on sera amen rpter une mme exprience pour en faire une nouvelleexprience globale, et donc observer plusieurs variables alatoires lissue duneexprience. La notion dindpendance entre variables alatoires joue un rle importantdans ce qui suit.

    Dfinition 8. Les variables alatoires X1, . . . , Xn sont dites indpendantes si pour toutn-uplet (A1, . . . , An) de borliens de R, les vnements X1 A1, . . . ,Xn An sontindpendants. Une suite (Xn) de variables alatoires indpendantes est telle que pourtout n les variables alatoires (X1, . . . , Xn) sont indpendantes.

    Lindpendance est donc une proprit des vnements Xi Ai. On en dduitque si X et Y sont indpendantes, alors toute fonction de X est indpendante de toutefonction de Y .

    1.3.2 Variables alatoires discrtes

    Dfinition 9. On dit quune variable alatoire est discrte si elle ne prend quunnombre fini ou dnombrable de valeurs :

    X {xk , k K N} .

    Dans ce cas, la loi de la variable alatoire X est la loi de probabilit sur lensemble desvaleurs possibles de X qui affecte la probabilit P[X = xk] au singleton {xk}.

    En pratique, lensemble des valeurs que peut prendre X est N ou une partie de N.Dterminer la loi dune variable alatoire discrte cest :

    1. Dterminer lensemble des valeurs que peut prendre X.2. Calculer P[X = xk] pour chacune de ces valeurs xk.

    16

  • STA230 Cours de Statistique UJF Grenoble

    Point de vue frquentiste. Rappelons que le seul sens pratique que lon puissedonner la notion de probabilit est celui dune limite de frquences empiriques. Cestaussi le sens quil faut donner la notion de loi discrte.

    Rptons n fois indpendamment lexprience alatoire lissue de laquelle X estmesure. On obtient ainsi un n-uplet (X1, . . . , Xn) de variables alatoires indpendan-tes de mme loi que X (cela sappelle un chantillon). On peut sur ce n-uplet calculerles frquences empiriques des vnements X = xk :

    fn({xk}) = 1n

    (I{xk}(X1) + + I{xk}(Xn)

    ).

    Daprs la loi des grands nombres cette frquence doit converger vers P[X = xk].Pour tout n les frquences empiriques {fn({xk}) , k K} dfinissent une loi de proba-bilit discrte sur lensemble des xk.

    On reprsente souvent graphiquement les lois discrtes par des diagrammes en b-tons : il sagit de tracer au dessus de labscisse xk un segment vertical de longueur gale P[X = xk].Les lois discrtes les plus courantes sont les suivantes. La loi binomiale est la plusimportante.Loi uniforme. La loi uniforme sur un ensemble fini est la loi des tirages au hasarddans cet ensemble, ou quiprobabilit. Elle donne la mme probabilit 1/n tous leslments de lensemble, sil est de cardinal n.Loi de Bernoulli. Les plus simples des variables alatoires discrtes sont les indica-trices dvnements. Si A est un vnement de probabilit p, la variable alatoire IAprend la valeur 1 si A est ralis, et 0 sinon. Sa loi est la loi de Bernoulli de paramtrep.

    P[IA = 0] = 1 p , P[IA = 1] = p .

    Les deux autres exemples de base sont la loi binomiale et la loi hypergomtrique.Loi binomiale. On rpte la mme exprience n fois indpendamment et on comptele nombre de fois o lvnement A se produit. On considrera la rptition des nexpriences comme une nouvelle exprience globale. Comme seul lvnement A nousimporte, on pourra ne retenir de lexprience globale quun n-uplet de boolens dutype :

    (A, A, A, A, A, . . . , A, A),quil sera plus simple de transformer en un n-uplet de 0 et de 1. Notons :

    Xi ={

    1 si A est vrai lissue de la i-me exprience,0 si A est faux lissue de la i-me exprience.

    Sn =ni=1

    Xi le nombre de fois o A est ralis au cours des n expriences.

    17

  • STA230 Cours de Statistique UJF Grenoble

    Si p dsigne la probabilit de lvnement A, la variable alatoire Xi suit la loi deBernoulli de paramtre p. La variable alatoire Sn prend ses valeurs dans lensemble{0, . . . , n}. Pour dterminer sa loi, ce sont les vnements du type Sn = k qui nousintressent. Du fait de lhypothse dindpendance des expriences, la probabilit dunrsultat quelconque de lexprience globale est un produit de probabilits. Par exemple :

    P[(A,A,A,A,A, . . . , A,A)] = p (1p) p p (1p) . . . (1p) p .Tout n-uplet particulier contenant k 1 et n k 0 a pour probabilit pk(1p)nk.Il y en a : (

    n

    k

    )= n!k! (nk)! ;

    cest le nombre de manires de choisir k indices parmi n. Do :

    P[Sn = k] =(n

    k

    )pk(1 p)nk , k = 0, . . . , n .

    Dfinition 10. On dit quune variable alatoire X suit la loi binomiale de paramtresn et p (note B(n, p)) si :

    1. X prend ses valeurs dans lensemble {0, 1, . . . , n}2. P[X = k] =

    (nk

    )pk(1 p)nk , k = 0, . . . , n .

    retenir : Le nombre doccurrences dun mme vnement de probabilit p, au coursde n expriences indpendantes suit la loi binomiale B(n, p).Remarque : Cest une bonne habitude prendre que de vrifier que la somme desprobabilits calcules vaut 1. Ici :

    nk=0

    (n

    k

    )pk(1p)nk = (p + (1p))n = 1, par la

    formule du binme de Newton (do le nom de loi binomiale).Loi hypergomtrique. La loi hypergomtrique est la loi des tirages sans remise.Dune population de taille N , on extrait au hasard un chantillon (sous-ensemble) detaille n. Parmi les N individus, m sont marqus. Le nombre X dindividus marqussur les n individus choisis, suit la loi hypergomtrique de paramtres N , m et n,La variable alatoire X prend ses valeurs dans lensemble {0, . . . , n}, et pour toutk {0, . . . , n} :

    P[X = k] =

    (mk

    ) (Nmnk

    )(Nn

    ) ,o par convention

    (ij

    )= 0, si j 6 {0, . . . , i}.

    On rencontre frquemment cette loi dans les jeux de hasard.Variable alatoire N m nNombre das dans une main au poker 32 4 5Nombre das dans une main au bridge 52 4 6Nombre de bons numros sur une grille au loto 49 6 6Nombre de bons numros sur une grille au Kno 70 20 4, 5, . . . , 10

    18

  • STA230 Cours de Statistique UJF Grenoble

    1.3.3 Variables alatoires continues

    Dfinition 11. Soit X une variable alatoire valeurs dans R et fX une densit deprobabilit sur R. On dit que X est une variable alatoire continue de densit fX sipour tout intervalle A de R on a :

    P[X A] =AfX(x) dx .

    La loi de la variable alatoire X est la loi continue sur R, de densit fX .

    Pour dterminer la loi dune variable alatoire continue, il faut donc calculer sadensit. De manire quivalente, on dtermine la loi dune variable continue en donnantla probabilit quelle appartienne un intervalle I quelconque.Une variable alatoire continueX, de densit fX , tombe entre a et b avec une probabilitgale :

    P[a < X < b] = bafX(x) dx .

    Plus la densit fX est leve au-dessus dun segment, plus les chances que X a dat-teindre ce segment sont leves, ce qui justifie le terme densit.

    La probabilit pour une variable alatoire continue de tomber sur un point quel-conque est nulle.

    P[X = a] ={a}

    fX(x) dx = 0 .

    Par consquent :

    P[X [a, b] ] = P[X [a, b[ ] = P[X ]a, b] ] = P[X ]a, b[ ] .

    Notons aussi que modifier une densit en un nombre fini ou dnombrable de pointsne change pas la valeur des intgrales sur des segments, ni par consquent la loi deprobabilit correspondante. La valeur de la densit en un point particulier importepeu.Comme dans le cas discret nous donnons quelques exemples de base. Les densits sontdonnes en un point x quelconque de R.Loi uniforme. La loi uniforme sur un intervalle est la loi des tirages au hasard danscet intervalle. Si a < b sont deux rels, la loi uniforme sur lintervalle [a, b] est noteU(a, b). Elle a pour densit :

    1b aI[a,b](x) .

    Attention ne pas confondre Nombre au hasard et variable alatoire. Le sensintuitif de au hasard est uniformment rparti : un nombre au hasard entre 0 et 1est en fait une variable alatoire de loi U(0, 1). Il existe bien dautres lois de probabilitcontinues, non uniformes.

    19

  • STA230 Cours de Statistique UJF Grenoble

    Loi normale. La loi normale, loi de Gauss, ou de Laplace-Gauss, est la plus clbre deslois de probabilit. Son succs, et son omniprsence dans les sciences de la vie, viennentdu thorme central limite que nous verrons plus loin. La loi normale de paramtres R et 2 R+ est note N (m,2). Elle a pour densit :

    1

    2pie

    (xm)222 .

    Loi gamma. La loi gamma de paramtres a > 0 et > 0, note G(a, ) a pour densit :a

    (a)xa1ex IR+(x) ,

    o est la fonction gamma, dfinie par : (a) =+0 exxa1 dx.

    Pour n entier, a = n/2 et = 1/2, la loi G(n/2, 1/2) est appele loi du khi-deux n degrs de libert, et note X 2(n). Cest la loi de la somme des carrs de nvariables alatoires indpendantes de loi N (0, 1). On lutilise pour les variances empi-riques dchantillons gaussiens.Loi de Student. La loi de Student n degrs de libert, T (n) est la loi du rapportX/Y/n, o les variables alatoires X et Y sont indpendantes, X de loi N (0, 1), Y

    de loi X 2(n). Elle a pour densit :

    (n+12

    )npi

    (n2

    )(1 + x2n

    )n+12.

    On lutilise pour tudier la moyenne empirique dun chantillon gaussien.Loi de Fisher. La loi de Fisher de paramtres m et n (entiers positifs), est la loi durapport (X/n)/(Y/m), o X et Y sont deux variables alatoires indpendantes, de loisrespectives X 2(n) et X 2(m). Elle a pour densit :

    nn2m

    m2

    (n+m2

    )(n2

    )(m2

    ) x1+n2 (m+ nx)n+m2 IR+(x) .On lutilise pour comparer des variances dchantillons gaussiens.

    1.3.4 Fonction de rpartition et fonction quantile

    La fonction de rpartition dune variable alatoire X valeurs dans R (ou plusexactement de sa loi) est la fonction FX , de R dans [0, 1], qui x R associe :

    FX(x) = P[X 6 x] .

    Les proprits principales sont les suivantes.

    20

  • STA230 Cours de Statistique UJF Grenoble

    Proposition 1. La fonction de rpartition caractrise la loi. En particulier,

    a < b R , P[X ]a, b] ] = FX(b) FX(a) .

    FX est une fonction croissante, continue droite avec une limite gauche entout point. lim

    xFX(x) = 0 et limx+FX(x) = 1 .

    Lois discrtes. La fonction de rpartition dune variable alatoire discrte est unefonction en escalier. Si la variable alatoire prend les valeurs xk , k = 1, 2, . . ., supposesranges par ordre croissant, alors la fonction de rpartition FX prend les valeurs :

    FX(x) =

    0 pour x < x1P[X = x1] pour x [x1, x2[...P[X = x1] + + P[X = xk] pour x [xk, xk+1[...

    -1 0 1 2 3 4 50.0

    0.1

    0.2

    0.3

    0.4

    0.5

    .

    Probabilites

    -1 0 1 2 3 4 50.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1.0

    .

    Repartition

    Fig. 5 Diagramme en btons et fonction de rpartition de la loi du nombre de bonsnumros pour 4 numros cochs au Kno.

    Voici par exemple la loi et les valeurs diffrentes de la fonction de rpartition pourle nombre de bons numros pour 4 numros cochs sur une grille de Kno (figure 5).

    k 0 1 2 3 4P[X = k] 0.2512 0.4275 0.2538 0.0622 0.0053P[X 6 k] 0.2512 0.6787 0.9325 0.9947 1

    Lois continues. La fonction de rpartition dune variable alatoire continue est laprimitive de la densit qui sannule en :

    FX(x) = P[X 6 x] = x

    fX(t) dt .

    21

  • STA230 Cours de Statistique UJF Grenoble

    Cest une fonction continue sur R. En tout point x o fX est continue, FX est drivableet :

    F X(x) = fX(x) .

    Loi U(a, b)

    FX(x) = x

    1b aI[a,b](t)dt =

    0 si x 6 a

    x ab a si x [a, b]

    1 si x > b .

    Loi N (, 2)FX(x) =

    x

    1

    2pie

    (t)222 dt .

    Il nexiste pas dexpression analytique pour la fonction de rpartition des lois normales.Pour en calculer des valeurs approches, vous utiliserez des tables numriques, en vousramenant la fonction de rpartition de la loi N (0, 1), que nous noterons F .

    F (x) = FN (0,1)(x) = x

    12pi

    e t22 dt .

    Tous les langages spcialiss ont un code dintgration numrique qui calcule la fonctionde rpartition de toutes les lois usuelles.

    -3 -2 -1 0 1 2 30.0

    0.1

    0.2

    0.3

    0.4

    0.5

    .

    f(x)

    x

    Densite

    -3 -2 -1 0 1 2 30.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1.0

    .

    F(x)

    x

    Repartition

    Fig. 6 Densit et fonction de rpartition de la loi normale N (0, 1).

    La fonction de rpartition est loutil privilgi des calculs de lois. Un cas frquent dansles applications est celui o on connat la loi de X et on veut dterminer la loi dunefonction. Comme exemple dapplication, nous allons dmontrer le rsultat qui permetde ramener une loi normale quelconque la loi N (0, 1).Thorme 1. Soit X une variable alatoire de loi N (0, 1) et Y = X+, avec R, R+, alors Y suit la loi N (, 2). Rciproquement, si Y suit la loi N (, 2), alorsX = Y

    suit la loi N (0, 1).

    22

  • STA230 Cours de Statistique UJF Grenoble

    Dmonstration :

    FY (y) = P[X + 6 y] = P[X 6 y

    ]= FX

    (y

    ).

    La densit correspondante est :

    fY (y) =1fX

    (y

    )= 1

    2pie

    (y)222 ,

    et donc Y suit la loi N (, 2).La deuxime affirmation nest quune autre manire dexprimer la premire. La deuxime affimation est la plus utilise. Elle permet de ramener les calculs de

    probabilit sur une loi normale quelconque aux calculs sur la loi N (0, 1). Si Y suit laloi normale desprance et de variance 2, alors X = (Y )/ suit la loi N (1, 0).On calcule alors la probabilit pour Y dappartenir un intervalle quelconque, en seramenant la fonction de rpartition de la loi N (0, 1), note F , dont les valeurs selisent dans les tables.

    P[a 6 Y < b] = P[a 6 Y

    u} .

    Par convention, on peut dcider que QX(0) est la plus petite des valeurs possiblespour X et QX(1) est la plus grande ; elles sont ventuellement infinies.Lois discrtes. La fonction quantile dune variable alatoire discrte est une fonctionen escalier, comme la fonction de rpartition. Si X prend les valeurs xk , k = 1, 2 . . .,ranges par ordre croissant, la fonction de rpartition est gale :

    Fk = P[X = x1] + + P[X = xk] ,

    23

  • STA230 Cours de Statistique UJF Grenoble

    sur lintervalle [xk, xk+1[. La fonction quantile vaut :

    QX(u) =

    x1 pour u [0, F1]...xk pour u [Fk, Fk+1[...

    Par exemple, pour la loi gomtrique G(p), la fonction quantile est la fonction qui, pourtout k = 1, 2, . . ., vaut k sur lintervalle [1 (1p)k, 1 (1p)k+1[.Lois continues. Plaons-nous dans le cas le plus frquent, o la densit fX est stric-tement positive sur un intervalle de R (son support) et nulle ailleurs. Si cet intervalleest [a, b], la fonction de rpartition est nulle avant a si a est fini, elle est strictementcroissante de 0 1 entre a et b, elle vaut 1 aprs b si b est fini. Toute valeur u strictementcomprise entre 0 et 1 est prise une fois et une seule par FX . La valeur de QX(u) est lepoint x unique, compris entre a et b, tel que FX(x) = u.La fonction quantile est un moyen de dcrire la dispersion dune loi. Si on ralise ungrand nombre de tirages indpendants de la mme loi (un chantillon), on doit sat-tendre ce quune proportion u des valeurs soient infrieures QX(u). Une valeurimportante est la mdiane, QX(0.5). Les valeurs de la fonction quantile sont plus sou-vent utilises en statistique que les valeurs de la fonction de rpartition. On utilise enparticulier frquemment les intervalles de dispersion, compris comme devant contenirune forte proportion des donnes.

    1.3.5 Esprance et variance

    Rappelons linterprtation dune loi de probabilit comme une rpartition de masse.Lesprance dune loi de probabilit est le barycentre de cette rpartition de masse.Lois discrtes. Considrons une variable alatoire discrte X, prenant ses valeursdans {xk , k K N}. Si la srie

    kK|xk|P[X = xk] converge alors lesprance E[X]

    est :E[X] =

    kK

    xk P[X = xk] .

    Cest bien le barycentre des points dabscisse xk, affects des poids P[X = xk].Lois continues. Soit X une variable alatoire continue, de densit fX sur R. Unedensit sinterprte comme une distribution de masse continue sur R. Cest encoreson barycentre que lon calcule. Si lintgrale

    R|x|fX(x) dx converge, alors lesprance

    E[X] est :E[X] =

    Rx fX(x) dx .

    Les proprits principales de lesprance sont les suivantes.

    24

  • STA230 Cours de Statistique UJF Grenoble

    Proposition 2. 1. Si X et Y admettent une esprance, alors :

    a, b R E[aX + bY ] = aE[X] + bE[Y ] .

    2. Si X et Y sont indpendantes et admettent une esprance alors :

    E[XY ] = E[X]E[Y ] .

    Le tableau 1 donne les esprances des lois usuelles, discrtes et continues.

    Loi Esprance

    Uniforme U({1, . . . , n}) n+12Bernoulli B(1, p) pBinomiale B(n, p) npHypergomtrique HG(N,m, n) nm

    N

    Uniforme U(a, b) a+b2Normale N (, 2) khi-deux X 2(n) nStudent T (n) 0 si n > 1Fisher F(n,m) m

    m2 si m > 2

    Tab. 1 Esprances des lois usuelles.

    La variance traduit la plus ou moins grande dispersion des valeurs prises autour delesprance.

    Dfinition 13. On appelle variance de X, et on note V ar[X], lesprance de la variablealatoire (X E[X])2, si elle existe.

    On dmontre que lexistence de la variance entrane celle de lesprance. Par contreune variable alatoire X peut trs bien avoir une esprance mais pas de variance. Cestle cas par exemple si X a pour densit :

    fX(x) =2x3I[1,+[(x) .

    Le calcul des variances est souvent simplifi par le rsultat suivant.

    25

  • STA230 Cours de Statistique UJF Grenoble

    Proposition 3. La variance de X existe si et seulement si E[X2] existe et on a :

    V ar[X] = E[X2] (E[X])2 .

    Dmonstration : Pour passer de la dfinition la formule ci-dessus, il suffit de dve-lopper le carr et dutiliser la linarit de lintgrale.

    V ar[X] = E[(X E[X])2]= E[X2 2XE[X] + (E[X])2]= E[X2] 2E[X]E[X] + (E[X])2= E[X2] (E[X])2 .

    La variance mesure de combien les valeurs prises par X scartent de la valeur

    moyenne E[X]. Elle nest pas homogne : si X est une longueur exprime en mtres,V ar[X] est en mtres-carrs. On corrige ceci en introduisant lcart-type qui est laracine carre de la variance. Les proprits principales de la variance sont les suivantes.

    Proposition 4. Pour tout a R : V ar[aX] = a2 V ar[X]. Pour tout b R : V ar[X + b] = V ar[X]. Si X et Y sont indpendantes, alors :

    V ar[X + Y ] = V ar[X] + V ar[Y ] .

    Le tableau 2 donne les variances des lois usuelles, discrtes et continues.

    1.3.6 Thormes limites

    Le premier rsultat est la traduction mathmatique de lide intuitive de loi desgrands nombres.

    Thorme 2. Soit X une variable alatoire admettant une variance. Soit (Xn)nN unesuite de variables alatoires indpendantes de mme loi que X. Alors pour tout > 0 :

    limnP

    [ X1 + +Xnn E[X] > ] = 0 .

    Lide intuitive est que si on mesure une mme quantit alatoire au cours dunesuite dexpriences indpendantes, alors la moyenne arithmtique des valeurs observesva se stabiliser sur lesprance. Comme cas particulier on retrouve la loi des grandsnombres pour la probabilit dun vnement. Pour une suite dexpriences indpen-dantes notons Xi lindicatrice de lvnement A la i-me exprience. Les Xi suiventla loi de Bernoulli de paramtre P[A] et (X1 + +Xn)/n est la frquence empiriquede A.

    26

  • STA230 Cours de Statistique UJF Grenoble

    Loi Variance

    Uniforme U({1, . . . , n}) n2112Bernoulli B(1, p) p(1 p)Binomiale B(n, p) np(1 p)Hypergomtrique HG(N,m, n) nm

    N

    (1 m

    N

    )NnN1

    Uniforme U(a, b) (ab)212Normale N (, 2) 2khi-deux X 2(n) 2nStudent T (n) n

    n2 si n > 2Fisher F(n,m) 2m2

    nn+m2

    (m2)2(m4) si m > 4

    Tab. 2 Variances des lois usuelles.

    Lordre de grandeur de lerreur commise en approchant E[X] par la moyenne (X1+ + Xn)/n est de lordre de 1/n. Cette estimation derreur sera prcise plus loinpar la notion dintervalle de confiance, grce au thorme central limite.

    Thorme 3. Soit (Xn), n N, une suite de variables alatoires indpendantes demme loi, desprance et de variance 2 finies. Posons :

    n N , Xn = X1 + +Xnn

    et Zn =nXn

    .

    La loi de Zn converge vers la loi normale N (0, 1), cest--dire que pour tout a < b :

    limn P[a < Zn < b] =

    ba

    12pi

    ex2/2 dx .

    Interprtation : Dans le thorme central limite, est la valeur estimer. Les n va-leurs X1, . . . , Xn constituent un chantillon de mesures alatoires indpendantes des-prance . La quantit (X1 + + Xn)/n est la moyenne empirique de lchantillon,qui daprs la loi des grands nombres doit converger vers lesprance . Le thormecentral limite donne la prcision de cette approximation. On peut le lire intuitivementcomme suit. Si n est assez grand alors Zn est trs probablement compris entre 3 et 3(la probabilit est 0.9973). Soit encore :

    X1 + +Xnn

    [ 3

    n; + 3

    n

    ],

    27

  • STA230 Cours de Statistique UJF Grenoble

    ou bien Xn (moyenne empirique) est gale 3/n prs. Nous formaliserons ceci

    plus loin par la notion dintervalle de confiance.Le thorme central limite est utilis pour des valeurs finies de n. Lide concrte

    est la suivante. Si n est assez grand, la variable centre rduite (esprance 0, variance1) Zn associe la somme de n variables indpendantes suit approximativement la loiN (0, 1). Si on ralise suffisamment de simulations de Zn et si on trace un histogrammedes valeurs obtenues, celui-ci ne sera pas trs loin de la courbe 12pie

    x2/2. Pas plus loinen tout cas que si on avait simul des variables alatoires de loi N (0, 1). Si Z suit laloi N (0, 1), alors Y = Z + suit la loi N (, 2). On peut aussi dire que pour n assezgrand une somme de n variables alatoires indpendantes suit approximativement uneloi normale, dont lesprance et la variance sont respectivement la somme des espranceset la somme des variances des variables que lon ajoute. Le problme est de savoir partir de quelle valeur n est assez grand, pour la prcision dsire. Cela dpendbeaucoup de la loi des Xn. Lapproximation est dautant meilleure que la loi des Xnest plus symtrique.

    Pour des lois plutt dissymtriques comme la loi exponentielle, lapproximationnormale nest pas valable pour des sommes de quelques dizaines de variables. On peutla considrer comme justifie partir de quelques centaines. En simulation, ce sont desmilliers, voire des millions de variables qui sont engendres, et lapproximation normaleest tout fait lgitime.

    1.4 Distribution empirique1.4.1 Statistique et probabilits

    Les traitements statistiques relvent dun aller-retour permanent entre les donnes,qui sont des collections de chiffres mesurs, et les modles probabilistes qui nont aucuneralit physique, mais fournissent des outils pour dcrire la variabilit de ces donnes.Dans cette dmarche, un premier pas consiste associer lchantillon une loi deprobabilit fictive. La distribution empirique associe un chantillon est la loi deprobabilit sur lensemble des modalits qui affecte chaque observation du poids 1/n.Lide est la suivante. Supposons que lon souhaite augmenter artificiellement le nombrede donnes. Le moyen le plus simple serait de tirer au hasard de nouvelles donnes parmiles valeurs observes, en respectant leurs frquences. En dautres termes, on simuleraitla distribution empirique.

    Dfinition 14. Soit (x1, . . . , xn) un chantillon, c1, . . . , ck les valeurs distinctes prisespar les xi et pour h = 1, . . . , k :

    nh =ni=1Ich(xi) ,

    leffectif de la valeur ch. La distribution empirique de lchantillon est la loi de proba-

    28

  • STA230 Cours de Statistique UJF Grenoble

    bilit P sur lensemble {c1, . . . , ck}, telle que :

    P (ch) =nhn.

    La moyenne, la variance et lcart-type peuvent tre vus comme des caractristiquesprobabilistes de la distribution empirique. La moyenne de lchantillon est lesprancede sa distribution empirique.

    Pour un caractre discret, le mode de la distribution empirique est la valeur qui ala frquence la plus leve. Pour un caractre continu regroup en classes damplitudesgales, on parle de classe modale. Une distribution empirique est dite unimodale sila frquence maximale est significativement plus grande que les autres. Elle peut trebimodale ou multimodale dans dautres cas.

    Pour tudier une distribution empirique, la premire tape consiste trier les don-nes par ordre croissant, savoir crire ses statistiques dordre.

    Dfinition 15. Soit (x1, . . . , xn) un chantillon numrique. On appelle statistiquesdordre de lchantillon, les valeurs x(1), . . . , x(n) gales aux xi ranges par ordre crois-sant :

    x(1) = mini=1,...,n

    {xi} 6 x(2) 6 6 x(n) = maxi=1,...,n

    {xi} .

    Voici par exemple un chantillon de taille 10 et ses 10 statistiques dordre.

    5.7 , 3.2 , 8.4 , 4.1 , 6.9 , 5.3 , 1.7 , 3.2 , 2.5 , 7.4 ;1.7 , 2.5 , 3.2 , 3.2 , 4.1 , 5.3 , 5.7 , 6.9 , 7.4 , 8.4 .

    La fonction de rpartition empirique est la fonction de rpartition de la distributionempirique.

    Dfinition 16. La fonction de rpartition empirique est la fonction qui un rel xassocie la proportion dlments de lchantillon qui sont infrieurs ou gaux x. Elleest note F . Dans le cas o tous les lments de lchantillon sont diffrents, elle vaut :

    F (x) =

    0 pour x < x(1)...

    in

    pour x(i) 6 x < x(i+1)...

    1 pour x > x(n) .

    Reprsenter graphiquement la fonction de rpartition empirique (en gnral on traceseulement les points de coordonnes (x(i), F (xi))), donne une premire ide de la dis-tribution empirique.

    Dans le cas o lchantillon est discret (le nombre de valeurs diffrentes k est faibledevant la taille de lchantillon n), on reprsentera la distribution empirique par un

    29

  • STA230 Cours de Statistique UJF Grenoble

    diagramme en btons. Il consiste reprsenter les valeurs diffrentes c1, . . . , ck en abs-cisse, avec au-dessus de chacune une barre verticale de hauteur gale sa frquenceempirique f(ch). Dans le cas o le nombre de valeurs diffrentes est trs faible (infrieur 10), et surtout pour des chantillons qualitatifs, on utilise aussi des reprsentations encamembert (pie-chart) ou en barres. Elles consistent diviser un disque ou un rectangleproportionnellement aux diffrentes frquences.

    La reprsentation correspondant au diagramme en btons pour un chantillon consi-dr comme continu (lorsque presque toutes les valeurs sont diffrentes), est lhisto-gramme. On choisit un nombre de classes k et un intervalle de reprsentation [a0, ak]que lon a dcoup en k intervalles [a0, a1], ]a1, a2], . . . , ]ak1, ak]. On remplace alors ladistribution empirique par une nouvelle loi de probabilit qui pour tout h = 1, . . . , k,charge lintervalle ]ah1, ah] avec sa frquence empirique P (]ah1, ah]) :

    P (]ah1, ah]) =1n

    ni=1I]ah1,ah](xi) .

    Tracer un histogramme consiste reprsenter les classes en abscisses, avec au dessusde la h-ime un rectangle de hauteur fh/(ah1 ah), donc de surface gale fh. Cettereprsentation est celle dune densit de probabilit, constante sur chacune des classes.Reprsenter un histogramme implique un certain a priori sur les donnes. On dcideen effet que la frquence de chacune des classes est bien sa frquence empirique danslchantillon, mais que la distribution des donnes lintrieur de chaque intervalle estalatoire, de loi uniforme sur cet intervalle.

    100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 1300.00

    0.01

    0.02

    0.03

    0.04

    0.05

    0.06

    0.07

    0.08

    0.09

    0.10Frequences

    Tailles

    100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 1300.00

    0.01

    0.02

    0.03

    0.04

    0.05

    0.06

    0.07

    0.08

    0.09

    0.10Frequences

    Tailles

    Fig. 7 Tailles denfants de 6 ans. Histogramme rgulier et non rgulier.

    1.4.2 Quantiles

    La fonction quantile dune loi de probabilit est linverse (gnralis) de sa fonctionde rpartition. Si F dsigne la fonction de rpartition, la fonction quantile Q est lafonction qui u ]0, 1[ associe :

    Q(u) = inf{x : F (x) > u} .

    30

  • STA230 Cours de Statistique UJF Grenoble

    La fonction quantile empirique dun chantillon est la fonction quantile de sa distribu-tion empirique.

    Dfinition 17. Soit x = (x1, . . . , xn) un chantillon et (x(1), . . . , x(n)) le vecteur de sesstatistiques dordre. La fonction quantile empirique de lchantillon est la fonction Qqui, pour tout i = 1, . . . , n, vaut x(i) sur lintervalle ] i1n ,

    in].

    u ]i 1n

    ,i

    n] , Q(u) = x(i) .

    Pour certaines valeurs de u, on donne un nom particulier aux quantiles Q(u).

    u Q(u)0.5 Mdiane

    0.25, 0.75 Quartiles0.1, . . . , 0.9 Dciles

    0.01, . . . , 0.99 Centiles

    La mdiane est une valeur centrale de lchantillon : il y a autant de valeurs quilui sont infrieures que suprieures. Si la distribution empirique de lchantillon estpeu dissymtrique, comme par exemple pour un chantillon simul partir dune loiuniforme ou normale, la moyenne et la mdiane sont proches. Si lchantillon est dis-symtrique, avec une distribution trs tale vers la droite, la mdiane pourra trenettement plus petite que la moyenne. Contrairement la moyenne, la mdiane estinsensible aux valeurs aberrantes.Il y a une part darbitraire dans la dfinition de la fonction quantile pour une distribu-tion empirique : pour tous les points de lintervalle [x(i), x(i+1)[ la fonction de rpartitionvaut i/n. Ce sont surtout des raisons thoriques qui nous ont fait choisir x(i) pluttquun autre point comme valeur de Q(i/n). Ce peut tre un assez mauvais choix enpratique. Considrons lchantillon suivant, de taille 6.

    1 , 2 , 3 , 7 , 8 , 9 .

    La mdiane telle que nous lavons dfinie vaut 3. Or comme valeur centrale, le milieude lintervalle [3, 7], savoir 5, simpose clairement. Dans le cas dchantillons de taillepaire, lintervalle [x(n2 ), x(n2+1)[ sappelle lintervalle mdian. La mdiane est parfoisdfinie comme le milieu de lintervalle mdian.

    Ce problme ne se pose que dans le cas de petits chantillons et pour les quan-tiles Q(u) pour lesquels u est de la forme i/n (le plus souvent la mdiane). Nous lengligerons dsormais et nous conserverons la dfinition 17.

    Mme sur de trs gros chantillons, les quantiles sont peu coteux calculer puisquilsuffit de trier lchantillon par ordre croissant pour calculer les statistiques dordre etdonc tous les quantiles simultanment. Ils fournissent une visualisation facile de ladistribution empirique. Nous avons vu que la mdiane est une valeur centrale. Pour

    31

  • STA230 Cours de Statistique UJF Grenoble

    mesurer la dispersion, on peut calculer ltendue, qui est la diffrence entre la pluspetite et la plus grande valeur. Mais cette tendue reflte plus les valeurs extrmes quela localisation de la majorit des donnes. On apprhende mieux la dispersion dunchantillon par les intervalles inter-quartiles et inter-dciles.

    Dfinition 18. On appelle intervalle inter-quartiles lintervalle [Q(0.25), Q(0.75)] quicontient la moiti centrale des valeurs de lchantillon. On appelle intervalle inter-dciles lintervalle [Q(0.1), Q(0.9)] qui contient 80% des valeurs centrales de lchantil-lon.

    Ces intervalles sont la base dune reprsentation trs compacte de la distributionempirique : le diagramme en bote (ou bote moustaches, box plot, box-and-whiskerplot). Il ny a pas de dfinition standardise de cette reprsentation. Elle consiste enune bote rectangulaire dont les deux extrmits sont les quartiles. Ces extrmits seprolongent par des traits termins par des segments orthogonaux (les moustaches).La longueur de ces segments varie selon les auteurs. Nous proposons de la fixer auxdciles extrmes. On reprsente aussi la mdiane par un trait dans la bote, et parfoisles valeurs extrmes par des points (voir figure 8).

    b

    b

    Q(0) min{xi}Q(0.1) dcile infrieur

    Q(0.25) quartile infrieur

    Q(0.5) mdianeQ(0.75) quartile suprieur

    Q(0.9) dcile suprieur

    Q(1) max{xi}

    Fig. 8 Diagramme en bote.

    1.4.3 Modles probabilistes

    Le postulat de modlisation sur lequel toute tude statistique est base est le sui-vant : Les donnes observes sont des ralisations de variables alatoires.

    32

  • STA230 Cours de Statistique UJF Grenoble

    0 10 20 30 40 50 60 70 80 90 100100102104106108110112114116118120122124126128130

    Tailles

    Individus

    +

    +

    +

    ++

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    +

    +

    +

    +

    +

    +

    Fig. 9 Tailles denfants de 6 ans. La zone grise correspond lintervalle inter-quartiles. La mdiane est en trait plein, les dciles Q(0.1) et Q(0.9) en pointills.

    Quand le rsultat dune exprience nest pas reproductible exactement, on supposequil est la ralisation dune variable alatoire. La thorie des probabilits fournit desoutils, comme la loi des grands nombres ou le thorme central limite, permettantdextraire des donnes ce qui est reproductible et qui peut donc fonder une prdictionou une dcision.

    Quand on traite des donnes, on sait bien que si un deuxime chantillon taitrecueilli dans les mmes conditions, celui-ci serait diffrent du premier. Mais on es-pre que le deuxime chantillon ressemblerait au premier au sens o sa moyenne, savariance, ses quantiles, seraient peu modifis. Lobservation dchantillons successifsproduits par un algorithme de simulation permet de se faire une bonne ide de cetteressemblance. Dans de nombreux cas, par exemple pour tout ce qui touche lhumain(mesures de tailles, dosages sanguins, etc. . . ), la ressemblance dchantillons distinctsest valide par une longue exprience. En mdecine, on sait bien quil ny a pas deuxindividus qui prsentent exactement les mmes ractions. Mais un comptage du nombremoyen de globules rouges par litre de sang, effectu sur quelques centaines dindividus,variera peu si on le renouvelle sur une autre population. Dans cette situation, commedans de nombreuses autres, les comptages effectus sur des individus diffrents serontconsidrs comme des tirages indpendants dune mme loi de probabilit. Cette loide probabilit dcrit la variabilit du phnomne. On considre en quelque sorte quelchantillon aurait pu tre produit en rptant des simulations indpendantes de la loi.

    Prenons lexemple des tailles des filles de 18 ans (mesures en centimtres ou bienen tailles vestimentaires). Parler de la taille des filles de 18 ans na de sens que dans uncontexte probabiliste : deux filles diffrentes nauront jamais exactement la mme taille.On effectue en fait deux hypothses de modlisation qui nont aucune base concrte :

    33

  • STA230 Cours de Statistique UJF Grenoble

    1. On peut associer toute fille de 18 ans une mesure prcise de sa taille.2. Les tailles des filles de 18 ans sont des ralisations de variables alatoires indpen-

    dantes et de mme loi.Bien que fondes sur des objets abstraits, les consquences mathmatiques que lonpeut tirer des hypothses de modlisation mnent des prdictions et des prises dedcisions conomiques ou politiques, qui sont tout fait concrtes et seront validespar confrontation avec la ralit. Par exemple la distribution des tailles des filles de18 ans a des consquences videntes sur lindustrie du prt--porter. Si un fabriquantde vtements cible sa production sur les adolescentes, il devra ajuster ses patrons la taille de ses acheteuses potentielles : la rpartition des vtements produits entre lestailles les plus courantes, du 36 au 40, ne seront pas gales. Le fabriquant produiraprobablement plus de robes en 36 quen 40. Cette rpartition ne serait pas la mmepour des modles destins des personnes ges.

    Quand considre-t-on quun chantillon peut tre modlis par une suite de va-riables indpendantes ? Pour lessentiel quand il est vident que lordre dans lequel onprend les individus na pas dimportance. Cest le cas pour toutes les mesures physiolo-giques sur une population humaine. Ce nest pas le cas pour une srie chronologique oles individus sont des instants successifs qui ne sont clairement pas interchangeables,et donc pas indpendants. Dailleurs il serait sans intrt de considrer par exempleles taux de chmage mensuels sur les trois dernires annes comme des ralisations de36 variables alatoires indpendantes, puisque le but de lobservation est prcismentde dtecter une tendance dans ces chiffres, cest--dire une dpendance permettant deprvoir partiellement les chiffres venir. Dans ce cas, lide de base de la modlisationconsistera dire quil existe une fonction dterministe cache qui permet de prvoiren partie le futur en fonction du pass. Les observations mensuelles sont vues commedes perturbations alatoires de cette fonction dterministe. Dans le modle intervien-dra alors la fonction dterministe cache et un certain n-uplet de variables alatoiresindpendantes et de mme loi, modlisant les perturbations alatoires.

    Une situation analogue est celle o un caractre autre que celui qui est mesur, aune influence sur la variable dintrt. Par exemple, si on souponne que le nombre decigarettes fumes par jour a une influence sur le taux de cholestrol, on considrera queles taux de cholestrol mesurs sont des ralisations dune variable alatoire dont la loidpend du nombre de cigarettes. On supposera quil existe une dpendance dterministecache deviner, et que lon observe sur chaque individu cette dpendance, perturbepar un facteur d au pur hasard. L encore, ce sont les perturbations alatoires quiseront modlises par un n-uplet de variables alatoires indpendantes et de mme loi.

    Dans toutes les situations o des rsultats exprimentaux ne peuvent pas tre consi-drs comme exactement reproductibles, on se ramne un modle contenant un n-uplet de variables alatoires indpendantes et de mme loi. Un choix important estle type de la loi, discret ou continu. Quand il sagit dobserver un caractre qualitatif,comme le groupe sanguin, ou ordinal, comme un classement dans un test psychologique,le choix dun modle discret est impos par la nature des donnes. Le choix entre mo-

    34

  • STA230 Cours de Statistique UJF Grenoble

    dle discret ou continu nest pas toujours aussi clair. Reprenons lexemple des taillesdes filles de 18 ans. On peut mesurer ces tailles au centimtre prs, en tant conscientde limprcision inhrente aux mesures. Si les rsultats observs sur un chantillon de1000 individus prennent suffisamment de valeurs diffrentes, on choisira une loi conti-nue (par exemple une loi normale). Diffrentes techniques statistiques pourront imposerpar la suite un regroupement en classes des donnes (tracs dhistogrammes, distancedu chi-deux,. . . ). Pour le fabriquant de vtements, les donnes brutes sont de peu din-trt. Il cherchera au contraire traduire les observations en tailles vestimentaires, cequi impose un autre type de regroupement en classes et un modle discret.

    35

  • STA230 Cours de Statistique UJF Grenoble

    2 Estimation paramtriqueComment connat-on la population du globe ? Comment dtermine-t-on dans quelles

    limites se situe le nombre de globules rouges par litre de sang chez un individu enbonne sant ? Comment sait-on combien dindividus sont connects internet ? Toutesces valuations sont dduites de modles probabilistes par les techniques statistiquesdestimation paramtrique. La notion importante est celle dintervalle de confiance, quipermet dvaluer la prcision dune estimation ponctuelle.

    2.1 Estimation ponctuelle2.1.1 Modles paramtrs

    Le postulat de modlisation sur lequel toute tude statistique est base est le suivant :Les donnes observes sont des ralisations de variables alatoires.

    Quand le rsultat dune exprience nest pas reproductible exactement, on suppose quilest la ralisation dune variable alatoire. La thorie des probabilits fournit des outils,comme la loi des grands nombres ou le thorme central limite, permettant dextrairedes donnes ce qui est reproductible et qui pourra donc fonder une prdiction ou unedcision.

    Quand on observe un caractre statistique sur une population, si lordre dans lequelon prend les individus na pas dimportance, on choisira de considrer que les donnessont des ralisations de variables alatoires indpendantes et de mme loi. Cette loi deprobabilit dcrit la variabilit du caractre. Mme dans le cas o les individus ne sontpas interchangeables, comme pour une srie chronologique, la modlisation consistera se ramener, en soustrayant au besoin une fonction dterministe, au cas dun chantillonde variables alatoires indpendantes.

    Dfinition 19. Soit P une loi de probabilit sur R. On appelle chantillon de la loi Pun n-uplet de variables alatoires indpendantes et de mme loi P.

    Le mot chantillon prend en statistique deux sens diffrents, selon que lon parledes donnes observes ou du modle probabiliste. Lhypothse de modlisation consiste voir lchantillon (observ) comme une ralisation dun chantillon (thorique) dunecertaine loi de probabilit P. En dautres termes, on considre que les donnes auraientpu tre produites en simulant de faon rpte la loi de probabilit P. Pour viterles confusions, nous dsignerons par donnes ou chantillon observ, la squence denombres recueillie (x1, . . . , xn). Les chantillons (thoriques) au sens de la dfinitionci-dessus seront dsigns par des majuscules : (X1, . . . , Xn).

    La loi de probabilit P modlisant la variabilit des donnes na aucune ralit phy-sique. Cependant elle est considre comme un objet cach. Tout se passe comme sion disposait dun algorithme de simulation de la loi P, sans connatre P elle-mme :Les donnes sont des appels indpendants de cet algorithme. Lobjet de lanalyse sta-tistique est den extraire toute information utile sur P. Si lhypothse de modlisation

    36

  • STA230 Cours de Statistique UJF Grenoble

    par la loi P est correcte (lalgorithme simule effectivement cette loi), la loi des grandsnombres permet daffirmer que la distribution empirique des donnes est proche de P,pour un grand chantillon. Mais deux chantillons observs, simuls selon la mme loi,ont rarement la mme distribution empirique. Afin dextraire des donnes des informa-tions reproductibles, on est amen rduire lensemble des lois possibles une familleparticulire de lois de probabilit.

    On appelle problme dajustement le problme consistant dterminer, dans une fa-mille de lois de probabilit donne, quelle est celle qui concide le mieux avec lchantil-lon observ. Dans la situation la plus courante, celle que nous considrons ici, la familledpend dun ou plusieurs paramtres rels inconnus. Le problme est donc de dter-miner quelle valeur du paramtre est la mieux adapte aux donnes, en un sens quenous prciserons plus loin. On parle alors destimation paramtrique. Nous donnonsci-dessous quelques exemples courants de situations statistiques, avec des familles delois communment choisies.Echantillons binairesTypiquement, la situation est celle o un mme vnement est observ ou non dansune suite dexpriences indpendantes. Si on code les observations par 1 et 0, la mod-lisation par une loi de Bernoulli simpose. Le paramtre inconnu est la probabilit delvnement. On lapproche bien videmment par sa frquence exprimentale.ComptagesUn chantillon issu de comptages prend des valeurs entires positives. Plusieurs famillesde lois classiques peuvent tre utilises comme modles. Si les objets compts sont rela-tivement frquents, dans une population de taille fixe et assez faible, les lois binomialesou hypergomtriques sont des modles naturels (nombre de filles dans les fratries de5 enfants par exemple). Si les objets compts possdent un caractre relativement raredans un grand ensemble (bactries, individus porteurs dun gne particulier,. . . ) onutilise souvent une loi de Poisson. Pour des dures mesures en temps discret (nombresde jours ou de semaines dincubation pour une maladie) on pourra utiliser une loigomtrique ou binomiale ngative. On se laisse souvent guider par la forme de ladistribution empirique pour le choix dun modle. Un diagramme en btons en grosunimodal pourra suggrer de modliser par une loi binomiale ngative, mme sil nya pas de raison profonde qui rende ce choix naturel.Variables normalesLes lois normales sont de trs loin les plus utilises parmi les modles probabilistes. Celatient deux causes. Lune est quelles permettent des calculs explicites faciles, quelleque soit la taille de lchantillon. En particulier il est frquent de choisir un modlenormal pour de petits chantillons, sans pouvoir toujours justifier ce choix. Lautreraison tient au thorme central limite : chaque fois quune quantit provient du cumuldun grand nombre de facteurs variables relativement indpendants entre eux, cettequantit pourra tre modlise par une loi normale. Cest le cas pour les erreurs de

    37

  • STA230 Cours de Statistique UJF Grenoble

    mesures qui ont t la motivation historique de la loi normale, mais aussi pour de trsnombreux paramtres physiologiques (tailles, poids, numrations sanguines, dosageshormonaux . . . ).DuresDes dures mesures en temps continu sont modlises par des lois de probabilitcontinues sur R+. En fiabilit, pour des dures de fonctionnement ou des dures derparation, les lois de Weibull sont souvent prfres. Les lois exponentielles en sontun cas particulier.Donnes unimodales asymtriquesComme pour les caractres discrets, le choix dun modle pour un caractre continuest souvent guid par la forme de la distribution empirique. Il arrive que lhistogrammedun caractre continu soit trop dissymtrique pour quon puisse utiliser la loi normale.Plusieurs familles de lois prsentent des dissymtries plus ou moins importantes. Cestle cas pour les lois de Weibull, dj voques, mais aussi pour les lois gamma. Quandles ordres de grandeur des donnes sont trs diffrents, on peut les remplacer par leurslogarithmes. Si le nouvel histogramme concide apparemment avec une loi normale, onutilisera une loi log-normale comme modle pour les donnes initiales.Dans tout ce qui suit, nous dsignerons par P une loi de probabilit dpendant duparamtre inconnu . Dans la plupart des exemples, le paramtre sera un nombrerel, mais il peut aussi tre un entier, ou un couple de rels.

    2.1.2 Estimateurs et estimations

    Quand une famille de lois dpendant du paramtre inconnu a t choisie, cest delchantillon et de lui seul que lon peut tirer les informations. On appelle estimateurdu paramtre , toute fonction de lchantillon, prenant ses valeurs dans lensemble desvaleurs possibles pour . Evidemment, cette dfinition un peu vague cache lespoir queles valeurs prises par lestimateur soient proches de la valeur cible , qui est et resterainconnue.

    Il importe de bien distinguer les variables alatoires, lies la modlisation, deleurs ralisations, identifies aux donnes. Un chantillon (thorique) est un n-uplet devariables alatoires indpendantes et de mme loi P. Pour estimer , on propose unestimateur, fonction de lchantillon :

    T = (X1, . . . , Xn) .

    Cest aussi une variable alatoire. Le choix du modle et de lestimateur T est dconnec-t du recueil des donnes. Cest en quelque sorte une planification que lon effectueavant toute observation, et qui pourra servir plusieurs chantillons observs du mmephnomne.

    Une fois un modle choisi, on considrera un n-uplet de donnes (x1, . . . , xn) comme

    38

  • STA230 Cours de Statistique UJF Grenoble

    une ralisation des variables alatoires (X1, . . . , Xn). La valeur (relle) prise par T :

    = (x1, . . . , xn) ,

    est lestimation (du paramtre au vu de lchantillon observ).Prenons lexemple simple dune pice dont on ignore si elle est ou non truque. La

    probabilit de tomber sur pile est le paramtre inconnu = p. On se propose de raliser10 lancers de la pice, que lon modlisera par un chantillon de taille 10 de la loi deBernoulli de paramtre p. Le nombre de pile obtenu sur les 10 lancers est une variablealatoire qui suit la loi binomiale B(10, p). Le quotient de cette variable alatoire par 10(la frquence) est un estimateur de p. Effectuons maintenant les 10 lancers en notantchaque fois 1 si pile sort, et 0 si cest face. Une ralisation de lchantillon est parexemple :

    0 , 1 , 1 , 0 , 1 , 1 , 1 , 0 , 0 , 1 .Pour cette ralisation, la frquence empirique prend la valeur 0.6, que lon proposeracomme estimation de p. Bien videmment, 10 nouveaux lancers de la mme picepourront conduire une ralisation diffrente de lchantillon, et une estimationdiffrente de p.

    2.1.3 Qualits dun estimateur

    Pour un chantillon de taille n de la loi de Bernoulli de paramtre inconnu p, lafrquence empirique est un estimateur de p. Cest une variable alatoire qui prend sesvaleurs dans [0, 1]. Si n est grand, elle prend avec une forte probabilit des valeursproches de p, daprs la loi des grands nombres. Quel que soit le modle et le para-mtre estimer, prendre des valeurs proches de ce paramtre au moins pour de grandschantillons, est la qualit principale que lon attend dun estimateur. En toute rigueur,on doit considrer une suite destimateurs (Tn), o pour tout n, Tn est une variablealatoire fonction de lchantillon (X1, . . . , Xn). Par abus de langage, on appelle encoreestimateur cette suite.

    Dfinition 20. On dit que lestimateur (Tn) est convergent si pour tout > 0 :

    limnP[|Tn | > ] = 0 .

    Un estimateur convergent scarte donc du paramtre avec une faible probabilit,si la taille de lchantillon est assez grande.

    Lexemple de base destimateur convergent est la moyenne empirique. Nous noteronsXn la moyenne empirique de lchantillon (X1, . . . , Xn) :

    Xn =X1 + +Xn

    n.

    La loi des grands nombres affirme que Xn est un estimateur convergent de lesprancede X.

    39

  • STA230 Cours de Statistique UJF Grenoble

    Si le paramtre sexprime comme une fonction continue de E[X], alors limage deXn par cette fonction est un estimateur convergent de , par la proposition suivante.

    Proposition 5. Soit (Tn) un estimateur convergent du paramtre , et une fonctionde R dans R, continue au point . Alors ((Tn)) est un estimateur convergent de ().

    Considrons par exemple comme modle la loi uniforme sur [0, ], o le paramtre est inconnu. La moyenne empirique Xn est un estimateur convergent de lesprancede la loi, qui vaut /2. Donc Tn = 2Xn est un estimateur convergent de .

    Mais dautres esprances sont calculables. Par exemple, si X suit la loi uniformesur [0, ], alors E[log(X)] vaut log() 1. Toujours daprs la loi des grands nombres,(log(X1)+ +log(Xn))/n est un estimateur convergent de log()1. Donc lestimateurT n suivant est encore un estimateur convergent de :

    T n = exp( log(X1) + + log(Xn)

    n+ 1

    ).

    La notion de convergence ne donne aucune assurance pratique que les valeurs prisespar un estimateur seront effectivement dans un rayon fix autour de la vraie valeur duparamtre, pour une taille dchantillon donne. On quantifie la qualit des estimateurspar la notion derreur quadratique.

    Dfinition 21. On appelle erreur quadratique de Tn par rapport la quantit :

    EQ(Tn, ) = E[(Tn )2] .

    Lerreur quadratique est lie la convergence par la proposition suivante.

    Proposition 6. Si lerreur quadratique de Tn par rapport tend vers 0 quand n tendvers linfini, alors (Tn) est un estimateur convergent de .

    Dmonstration : Si |Tn | > , alors (Tn )2 > 2. Donc :

    E[(Tn )2] > 2P[|Tn | > ] .

    Si E[(Tn )2