analysed on nees

105
Aix Marseille Universit´ e L3 MASS Cours d’Analyse des donn´ ees. F. Castell.

Upload: hamza-saffaj

Post on 19-Oct-2015

38 views

Category:

Documents


0 download

TRANSCRIPT

  • Aix Marseille Universite

    L3 MASS

    Cours dAnalyse des donnees.

    F. Castell.

  • 2

  • Table des matie`res

    1 Introduction. 5

    2 Statistique descriptive unidimensionnelle. 72.1 Une seule variable quantitative discre`te. . . . . . . . . . . . . . . . . . . . . . . 7

    2.1.1 Differentes representations. . . . . . . . . . . . . . . . . . . . . . . . . . . 82.1.2 Caracteristiques numeriques . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.2 Une seule variable quantitative continue. . . . . . . . . . . . . . . . . . . . . . . 112.2.1 Representations graphiques. . . . . . . . . . . . . . . . . . . . . . . . . . 112.2.2 Caracteristiques numeriques. . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.3 Une seule variable qualitative. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.4 Vers la statistique inferentielle. Normalisation de donnees quantitatives. . . . . . 14

    2.4.1 Comment tester la normalite ? . . . . . . . . . . . . . . . . . . . . . . . . 152.4.2 Que faire si lhypothe`se de normalite nest pas satisfaite ? . . . . . . . . . 16

    2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.5.1 Une seule variable quantitative discre`te. . . . . . . . . . . . . . . . . . . 202.5.2 Une seule variable quantitative continue. . . . . . . . . . . . . . . . . . . 202.5.4 Normalisation de donnees quantitatives . . . . . . . . . . . . . . . . . . . 21

    2.6 Pour aller plus loin : fonctions de repartition, simulation. . . . . . . . . . . . . . 222.6.1 Fonction de repartition. . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.6.2 Fonction de repartition empirique. . . . . . . . . . . . . . . . . . . . . . . 25

    3 Statistique descriptive bidimensionnelle. 273.1 Deux variables quantitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    3.1.1 Representation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . 273.1.2 Coefficient de correlation lineaire empirique. . . . . . . . . . . . . . . . . 273.1.3 Coefficient de correlation des rangs de Spearman. . . . . . . . . . . . . . 31

    3.2 Une variable quantitative et une variable qualitative. . . . . . . . . . . . . . . . 343.2.1 Distribution theorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2.2 Quantites empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2.3 Comment juger de la liaison entre X et Y ? . . . . . . . . . . . . . . . . 363.2.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.2.5 Que faire lorsque lhypothe`se de normalite nest pas satisfaite ? . . . . . . 42

    3.3 Deux variables qualitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.3.1 Distribution theorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    3

  • 4 TABLE DES MATIE`RES

    3.3.2 Quantites empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.3.3 Comment juger de la liaison entre X et Y ? . . . . . . . . . . . . . . . . 493.3.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.4.1 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . 513.4.2 Une variable qualitative et une variable quantitative . . . . . . . . . . . . 533.4.3 Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . 53

    4 Analyse en Composantes Principales. 554.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    4.1.1 Espace des individus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.1.2 Inertie dun nuage de points. . . . . . . . . . . . . . . . . . . . . . . . . . 604.1.3 Espace metrique des variables. . . . . . . . . . . . . . . . . . . . . . . . . 63

    4.2 Principes de lACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.2.1 Le proble`me. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.2.2 Espaces et axes principaux. . . . . . . . . . . . . . . . . . . . . . . . . . 644.2.3 Composantes Principales (CP) . . . . . . . . . . . . . . . . . . . . . . . . 664.2.4 Resume dune analyse en composantes principales. . . . . . . . . . . . . . 68

    4.3 ACP dans lespace des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.4 Les representations graphiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    4.4.1 Representation des individus. . . . . . . . . . . . . . . . . . . . . . . . . 704.4.2 Representation des variables. . . . . . . . . . . . . . . . . . . . . . . . . . 72

    4.5 Reconstitution des donnees de depart. . . . . . . . . . . . . . . . . . . . . . . . . 744.6 Pratique de lACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    4.6.1 Nombre daxes a` retenir. . . . . . . . . . . . . . . . . . . . . . . . . . . . 744.6.2 Interpretation de lACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    4.7 Tableau recapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764.8 Exemple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    4.8.1 Description du jeu de donnees. . . . . . . . . . . . . . . . . . . . . . . . . 764.8.2 Objectif. Choix des variables et des individus actifs. . . . . . . . . . . . . 764.8.3 Choix du nombre daxes a` retenir. . . . . . . . . . . . . . . . . . . . . . . 774.8.4 Carte des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 774.8.5 Carte des individus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

    4.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

    5 Analyse Factorielle des Correspondances (AFC). 855.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

    5.1.1 Table de contingence et profils. . . . . . . . . . . . . . . . . . . . . . . . 855.1.2 Ecart a` lindependance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

    5.2 Principes de lAFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 875.2.1 Nuage des profils-lignes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 875.2.2 Nuage des profils-colonnes . . . . . . . . . . . . . . . . . . . . . . . . . . 885.2.3 Metrique du khi2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 895.2.4 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

  • TABLE DES MATIE`RES 5

    5.3 ACP des deux nuages profils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 915.3.1 ACP des profils-lignes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 915.3.2 ACP des profils-colonnes. . . . . . . . . . . . . . . . . . . . . . . . . . . 935.3.3 Relations de transition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

    5.4 Formules de reconstitution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 955.5 Tableau recapitulatif : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965.6 Aides a` linterpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965.7 Exemple traite sous R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

    5.7.1 Description des donnees. . . . . . . . . . . . . . . . . . . . . . . . . . . . 975.7.2 Objectifs. Choix des modalites actives. . . . . . . . . . . . . . . . . . . . 985.7.3 Choix du nombre daxes a` retenir. . . . . . . . . . . . . . . . . . . . . . . 985.7.4 Analyse des resultats. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    5.8 Exercice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

    6 References. 103

  • 6 TABLE DES MATIE`RES

  • Chapitre 1

    Introduction.

    Lobjet de ce cours est de donner quelques outils couramment employes en statistique pourtraiter des donnees multidimensionnelles. Ces donnees correspondent souvent a` lobservation denombreuses variables aleatoires sur plusieurs individus, le mot individu etant a` prendre en unsens tre`s large. Ces donnees sont representees sous forme dun tableau ou` chaque ligne representeles variables mesurees sur un individu. Le but est dextraire le maximum dinformations de cetableau de donnees. Suivant la nature de la question posee, et suivant la nature des donnees,plusieurs methodes sont possibles. Voici quelques exemples de questions que nous chercheronsa` aborder dans ce cours.

    1. Analyse des relations entre plusieurs variables.On a releve aupre`s dun echantillon de personnes des descripteurs dutilisation de differentsmedia, des temps dactivites quotidiennes et dautres caracteristiques telles que lage, lesexe, le niveau deducation, le lieu de residence.... etc.

    On souhaite savoir quelles sont les variables liees entre elles sans quaucune des variablesne soit vraiment privilegiee.

    Si les variables auxquelles on sinteresse sont toutes des variables quantitatives, il sagitdun proble`me danalyse en composante principale (ACP). Sil sagit de deux va-riables qualitatives, on parle danalyse factorielle des correspondances (AFC). Silsagit de p 3 variables qualitatives, on parle danalyse des correspondances mul-tiples (ACM).

    En plus de decrire les liens entre variables, ces methodes permettent :

    deliminer des variables peu pertinentes, car linformation quelles apportent est deja`contenue dans les autres variables ;

    de donner des representations graphiques les plus fide`les possible, de lensemble desdonnees sur un graphe plan (ou de dimension 3).

    Elles sont souvent une premie`re etape, dite exploratoire ou descriptive, avant demettre en oeuvre dautres methodes, qui necessitent des hypothe`ses sur les donnees.

    2. Etude de linfluence des variables sur une variable particulie`re.On peut sinteresser au type de media choisi en fonction du sexe, de lage, du sportpratique, etc... Ici, on met en exergue une des variables, dite variable a` expliquer, (ouvariable dinteret, variable reponse). On veut analyser linfluence des autres variables

    7

  • 8 Analyse des Donnees. Fabienne CASTELL

    (dites variables explicatives, ou variables regresseurs) sur la variable dinteret. La ta-bleau suivant donne la terminologie des methodes utilisees suivant la nature des donnees :

    Variable a` expliquer Variable a` expliquerquantitative qualitative

    Var explicatives Regression logistique ,quantitatives Regression Analyse discriminante,Var explicativesqualitatives analyse de variance Regression logistique,

    Analyse discriminante,

  • Chapitre 2

    Statistique descriptiveunidimensionnelle.

    Avant de rentrer dans lanalyse de donnees multidimensionnelles, nous allons commencerpar rappeler quelques concepts de base permettant de decrire une serie de donnees.

    Nous considerons ici que nous avons mesure une variable sur n individus dans la population.On obtient donc une serie dobservations notees (x1, , xn). On peut aussi associer a` lindi-vidu i, un poids wi (w pour weight) representant son importance dans la population. Parexemple, si les individus representent des regions, on peut vouloir associer a` chaque region unpoids proportionnel au nombre dhabitants de la region. La serie des poids w = (w1, , wn)verifie :

    i {1, , n} , wi 0 ;ni=1

    wi = 1. (2.1)

    Si tous les individus ont meme poids, alors wi =1n.

    2.1 Une seule variable quantitative discre`te.

    Une variable quantitative discre`te est une variable prenant des valeurs discre`tes (entie`resou decimales). Theoriquement le nombre de valeurs possibles est au plus denombrable ; enpratique il est souvent assez faible. On peut penser par exemple au nombre de deplacementsjournaliers dune personne, au nombre denfants par famille, au nombre de mois separant la findes etudes et le premier emploi en CDI, .... etc.

    Exemple 2.1: On a note le nombre de mois separant la fin des etudes et le premier emploien CDI de 25 etudiants issu dun master MASS. Les resultats sont les suivants et sont desdonnees fictives : 9 5 5 6 5 10 7 5 8 8 8 4 7 8 4 3 4 5 7 7 6 3 2 6 9 .

    On notera (x1, , xn) la serie de donnees, et (y1, , yr) les valeurs possibles pour cesdonnees, ordonnees par ordre croissant (y1 < < yr).

    9

  • 10 ANALYSE DES DONNEES. FABIENNE CASTELL.

    yj nj Nj fj Fj2 1 1 1/25 1/253 2 3 2/25 3/254 3 6 3/25 6/255 5 11 5/25 11/256 3 14 3/25 14/257 4 18 4/25 18/258 4 22 4/25 22/259 2 24 2/25 24/2510 1 25 1/25 1

    Table 2.1 Tableau representant les donnees de lexemple 2.1.

    2.1.1 Differentes representations.

    Lorsque tous les individus ont meme poids (wi = 1/n pour tout i), ces donnees sont souventrepresentees sous forme dun tableau donnant pour chaque valeur possible yj (1 j r) :

    leffectif nj qui lui est associe,

    nj = nombre dindividus pour lesquels la variable mesuree vaut yj

    = card {i n;xi = yj} ;On a evidemment

    rj=1 nj = n.

    leffectif cumule Nj ,

    Nj =

    ji=1

    ni ;

    la frequence fj = nj/n ; la frequence cumulee Fj =

    ji=1 fj = Nj/n.

    Question : Comment adapter ces definitions au cas ou` lindividu i est affecte dun poidswi ?

    Ce tableau peut-etre represente sous forme de diagrammes.Diagramme en batons : Cest le graphe de yj 7 fj (ou de yj 7 nj).Diagramme cumulatif : Cest le graphe de yj 7 Fj (ou de yj 7 Nj). Plus precisement,

    il sagit du graphe de la fonction de repartition empirique Fn definie par :

    Fn(x) =

    0 si x < y1Fj si yj x < yj+1, pour 1 j r 11 si x yr

    On a

    Fn(x) =1

    n

    ni=1

    1Ixix (2.2)

    La figure 2.1 donne ces deux graphes sur les donnees de lexemple 2.1.

  • CHAPITRE 2. Statistique descriptive unidimensionnelle. 11

    2 3 4 5 6 7 8 9 100

    0.05

    0.1

    0.15

    0.2

    Nombre de mois entre fin des etudes et premier CDI

    frequ

    ence

    0 2 4 6 8 10 120

    0.2

    0.4

    0.6

    0.8

    1

    Nombre de mois entre fin des etudes et premier CDI

    frequ

    ence

    cum

    ulee

    Figure 2.1 Diagramme batons et diagramme cumulatif des donnees de lexemple 2.1.

    2.1.2 Caracteristiques numeriques

    Caracteristiques de position : elles donnent un ordre de grandeur de la serie.

    Moyenne empirique : xn =1n

    ni=1 xi =

    rj=1 fjyj ;

    Quantiles empiriques : La fonction quantile empirique est la fonction inverse dela fonction de repartition empirique. Pour [0.1], le quantile empirique dordre est une valeur de q telle que Fn(q) et Fn(q) . Notez quune telle valeurnest pas necessairement unique (cf diagramme 2.2). Une mediane empirique estun quantile empirique dordre = 1/2, i.e. cest une valeur de la variable observee endessous de laquelle et au dessus de laquelle les effectifs sont egaux ; le premier quartileet le troisie`me quartile correspondent respectivement a` = 1/4 et = 3/4.

    Caracteristiques de dispersion : elles donnent une idee de la variabilite de la serie, i.e. une ideede la facon dont la serie varie autour de sa tendance centrale.

    Variance empirique : 2n(x) =1n

    ni=1(xi xn)2 =

    rj=1 fj(yj xn)2 ;

    Ecart interquartile : q3/4 q1/4.

    Une representation synthetique de ces caracteristiques est donnee par le diagramme-bote(boxplot en anglais), qui donne les quartiles, la mediane, et les valeurs extremes de la serie.Sa representation est donnee dans la figure 2.3.

  • 12 ANALYSE DES DONNEES. FABIENNE CASTELL.

    0 2 4 6 8 10 120

    0.2

    0.4

    0.6

    0.8

    1

    Nombre de mois entre fin des etudes et premier CDIfre

    quen

    ce cu

    mule

    e

    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

    2

    4

    6

    8

    10

    !

    Quan

    tile d

    ordr

    e !

    0.72

    0.72

    !

    Tout lintervalle est quantile dordre 0.72

    mdiane

    Tout lintervalle est quantile dordre 0.72

    Quantile dordre !

    Figure 2.2 Quantiles empiriques sur les donnees de lexemple 2.1.

    24

    68

    10

    Figure 2.3 Diagramme-bote sur les donnees de lexemple 2.1.

  • CHAPITRE 2. Statistique descriptive unidimensionnelle. 13

    2.2 Une seule variable quantitative continue.

    Une variable quantitative est dite continue lorsquelle peut prendre a` priori un continuumde valeurs possibles, comme par exemple la temperature. Dans ce cadre, on se retrouve avecune serie de donnees (x1, , xn) ou` la plupart des xi sont distincts, le cas de xi egaux resultantessentiellement de la troncature des donnees (ecriture a` la deuxie`me decimale par exemple).La` encore, chacun des individus peut etre affecte dun poids, la serie des poids etant notee(w1, , wn). Ici, on supposera que tous les individus ont meme poids.

    2.2.1 Representations graphiques.

    Courbe cumulative ou Fonction de repartition empirique : elle est definie de la meme facon quedans le cas discret. Cest le graphe de la fonction de repartition empirique definie par (2.2).Si on note (x(1), , x(n)) la suite des (x1, , xn) ordonnee par ordre croissant, et si onpose x(0) = , x(n+1) = +, on a par definition de Fn(x),

    Fn(x) =i

    n, x [x(i);x(i+1)[ (i = 0, . . . , n) .

    Fn est donc une fonction en escalier, dont les marches sont de hauteur 1/n et dont lessauts sont situes sur les points de lechantillon de donnees (cf figure 2.4). On peut aussila representer comme une fonction lineaire par morceaux (cf figure 2.4).

    Quand on suppose que les donnees (x1, , xn) sont une realisation de n variables aleatoiresi.i.d. (X1, , Xn) (ce quon notera (x1, , xn) = (X1(), , Xn()) ou` designelechantillon particulier quon est en train de regarder), et que les Xi sont de memefonction de repartition F , la fonction de repartition empirique permet de se faire une ideede F . La loi des grands nombres dit en effet que pout tout x R,

    limn+

    Fn(x) = limn+

    1

    n

    ni=1

    1IXi()x = P(X1 x) = F (x) ,

    et on peut montrer que la convergence est uniforme (theore`me de Glivenko-Cantelli).

    Histogramme et histogramme normalise : Le diagramme en batons est remplace par la notiondhistogramme. On partitionne lensemble (disons R) dans lequel vivent les variablesxi :

    R = ri=1Ii ; Ii Ij = si i 6= j .A chacun des ensembles Ij, on associe son effectif

    nj = card {xi tel que xi Ij} =ni=1

    1IIj(xi) .

    Lhistogramme associe a` ce decoupage est la courbe x Ij 7 Hn(x) = nj.Notez que lhistogramme depend fortement du choix de la partition.

    Notez aussi queHn(x) dx =

    rj=1 nj |Ij| 6= 1 en general. Si on veut normaliser de facon

    a` ce que lhistogramme soit une densite de probabilite, differentes possibilites soffrent

  • 14 ANALYSE DES DONNEES. FABIENNE CASTELL.

    a` vous. Une facon automatique de proceder (adoptee par defaut par les logiciels) est dediviser lintervalle [xmin;xmax] (ou` xmin = min(xi) et xmax = max(xi)) en k intervallesde meme longueur h = (xmax xmin)/k. Dans ce cas,

    rj=1 nj |Ij| = h

    rj=1 nj = hn =

    n(xmax xmin)/k. Lhistogramme normalise est alors la courbe

    x Ij 7 hn(x) = kxmax xmin

    njn.

    Quand les intervalles Ij ne sont pas de meme longueur, on peut normaliser lhistogrammede facon a` sassurer que lhistogramme normalise soit une approximation de la densite.Cest ce qui explique dans les lignes qui suivent.

    Histogramme et estimation de densite : Quand on suppose que les donnees (x1, , xn) sontune realisation de n variables aleatoires i.i.d. (X1, , Xn), et si on suppose que les Xisont de densite commune fX , alors pour tout x Ij,

    1

    nHn(x) =

    1

    n

    ni=1

    1IIj(Xi()) .

    Par la loi des grands nombres, on a alors pour (presque) tout ,

    limn+

    1

    n

    ni=1

    1IIj(Xi()) = P [X1 Ij] =Ij

    fX(y) dy fX(x) |Ij| ,

    ou` la dernie`re approximation suppose que lintervalle Ij soit de petite longueur, et que ladensite fX soit regulie`re. Ainsi pour une partition assez fine, la fonction hn : x Ij 71nHn(x)/ |Ij| = njn|Ij | est une bonne approximation de fX .

    Estimation de densite. Lhistogramme normalise presente precedemment a le defaut de dependredu choix de la partition, et ce choix affecte beaucoup la qualite de lestimation de la den-site. Aussi, dautres methodes destimation de la densite ont ete developpees. Une methodecourante est la methode du noyau qui propose destimer fX par

    hn,(x) =1

    n

    ni=1

    K

    (x xi

    ),

    ou` la fonction K (le noyau) est une fonction positive, paire, dintegrale 1 (par exemple la

    densite de la loi N(0, 1) : K(x) = 12pi

    exp(x2

    2

    )) ;

    le parame`tre dit de lissage est a` choisir (strictement positif..).En effet, la loi des grands nombres dit a` nouveau que

    limn

    1

    n

    ni=1

    K

    (xXi

    )=

    1

    E[K

    (xX1

    )]=

    1

    K

    (x y

    )fX(y) dy

    =

    K(z)fX(x z) dz

  • CHAPITRE 2. Statistique descriptive unidimensionnelle. 15

    ou` la dernie`re egalite vient du changement de variable z = (x y)/. Si fX est regulie`re,on voit que lim0

    K(z)fX(x z) dz = fX(x)

    K(z) dz = fX(x). Ainsi,

    lim0

    limn

    hn,(x) = fX(x) .

    Des resultats plus sophistiques (et qui nous depassent ici) etudient les meilleures faconsde choisir en fonction de n et des donnees ( = n(x1, , xn)) de telle sorte quelimn n = 0 et que limn hn,n(x) = fX(x) le plus vite possible.

    La figure 2.4 donne les differentes representations graphiques. Les caracteristiques numeriquessont :

    Moyenne empirique : xn = 1.67207 ; Mediane empirique : mn = 1.259778 ; Variance empirique : 2n(x) = 5.97284 ; Ecart inter-quartile empirique : dn = 3.304417.

    2.2.2 Caracteristiques numeriques.

    Ce sont les memes que dans le cas discret :

    Caracteristiques de position : Moyenne empirique : xn =

    1n

    ni=1 xi ;

    Quantiles empiriques : La fonction quantile empirique est la fonction inverse dela fonction de repartition empirique. Selon que la fonction de repartition empiriqueest vue comme une fonction en escalier ou comme une fonction lineaire par morceaux,on aboutit a` deux notions lege`rement differentes pour les quantiles. Lavantage de larepresentation lineaire par morceau pour la fonction de repartition empirique, est delever les ambiguites dues aux marches de lescalier. Cest cette solution qui est engeneral adoptee par les logiciels.

    Caracteristiques de dispersion : Variance empirique : 2n(x) =

    1n

    ni=1(xi xn)2 ;

    Ecart interquartile : q3/4 q1/4.Diagramme-bote : representation synthetique des caracteristiques de position et de dispersion.

    Exemple 2.2: Voici sur le jeu de donnees suivant une illustration des differentes notionsintroduites precedemment.

    0.5799 3.4561 0.4609 3.908 4.3653 -0.6389 0.9086 4.8374 1.6108 -2.7677

    2.3 Une seule variable qualitative.

    Comme leur nom lindique, les variables qualitatives decrivent une qualite de lindividu(sexe, profession, marque dun produit, ....etc). Si les qualites regardees sont ordonnees (men-tion a` un concours par exemple), on parle de variables ordinales. Sinon, on parle de variablesnominales. Pour les variables qualitatives, les caracteristiques numeriques nont aucun sens.

  • 16 ANALYSE DES DONNEES. FABIENNE CASTELL.

    Histogramme normalis

    x

    h n(x)

    4 2 0 2 4 6

    0.00

    0.05

    0.10

    0.15

    0.20

    5 0 5

    0.00

    0.04

    0.08

    0.12

    Estimateur noyau

    N = 10 Bandwidth = 1.388

    h^ n(x)

    2 0 2 4

    0.2

    0.4

    0.6

    0.8

    1.0

    Courbes cumulatives

    x

    F n(x)

    2

    02

    4

    Diagramme bote

    Figure 2.4 Les differentes representations graphiques sur les donnees de lexemple 2.2.2.

    On se contente donc des representations graphiques (diagramme en colonnes, diagrammeen barre ou camembert) , qui donnent pour chaque modalite yj de la variable qualitativeregardee, son effectif nj, ou sa frequence fj =

    njn

    . Ces differentes representations sont donneesdans la figure 2.5 pour les donnees de lexemple 2.3 du a` Fisher sur un echantillon de n = 3883ecossais.Exemple 2.3:

    Blond Roux Chatain Brun Noir de jaisnj 1136 216 1526 955 50

    2.4 Vers la statistique inferentielle. Normalisation de don-

    nees quantitatives.

    Lorsque lon veut aller plus loin quune simple description des donnees, i.e. lorsqu on veutfaire de la prediction ou des tests, le statisticien est amene a` faire des hypothe`ses sur son jeude donnees, qui definissent un mode`le statistique. En particulier, beaucoup de methodes sta-tistiques (dites parametriques) suppose que les donnees (x1, , xn) sont une realisation parti-culie`re de n variables (X1, , Xn) independantes (independance des individus dans lechantillon),de meme loi (les individus proviennent dune population homoge`ne). Pour des donnees quanti-tatives, cette loi est souvent supposee etre une loi normale N(, 2) (on dit alors que (x1, , xn)est une realisation dun n-echantillon de la loi N(, 2)). Cette hypothe`se de normalite peutse justifier par le theore`me de la limite centrale lorsque la taille de lechantillon est grand.

  • CHAPITRE 2. Statistique descriptive unidimensionnelle. 17

    Blond Roux Cht Brun Noir

    Diagramme en colonnes

    0.0

    0.1

    0.2

    0.3

    Diagramme baton

    BlondRouxCht

    BrunNoir BlondRoux

    Cht

    Brun

    Noir

    Camembert

    Figure 2.5 Les differentes representations graphiques sur les donnees de lexemple 2.3.

    Mais, dans la plupart des cas, elle nest pas forcement justifiee. Cela pose evidemment proble`mepuisque toute lanalyse statistique qui suit, depend fortement de la validite du mode`le suppose.Quand on veut utiliser ces methodes, on doit donc faire face aux deux proble`mes suivants :

    1. Peut-on raisonnablement supposer que (x1, , xn) est la realisation dun n-echantillonde la loi N(, 2) ?

    2. Si ce nest pas le cas, que faire ?

    2.4.1 Comment tester la normalite ?

    Pour tester la normalite, on peut utiliser un des tests dajustement vus dans le cours deStatistique 2 (test dajustement du 2, de Kolmogorov, de Shapiro....). Pour avoir une ideeplus visuelle de lecart a` la normalite, on peut aussi tracer sur un meme graphe la fonctionde repartition empirique des donnees prealablement centrees et reduites, et la fonction derepartition de la N(0, 1). Bien plus visuel est le diagramme de type Q-Q-plot (litteralementgraphe Quantile-Quantile) qui trace les quantiles empiriques en fonction des quantiles de la loia` laquelle on fait lajustement. Sil sagit de la loi normale, ce graphe est donc le graphe de{(1(), Qn()), [0; 1]}, ou` Qn est la fonction quantile empirique, i.e. linverse de la fonc-tion de repartition empirique Fn.

    Si les donnees sont la realisation dun n-echantillon de N(0, 1), alors Fn F = , et doncQn 1. Le Q-Q-plot est donc proche de la droite y = x.

    Si les donnees sont issus dun n-echantillon de N(, 2), alors Fn(x) ' F (x) = P(X1 x) =P(X1

    x

    ) =

    (x

    ), et on a donc en inversant cette relation Qn() ' + 1(). Le

  • 18 ANALYSE DES DONNEES. FABIENNE CASTELL.

    Q-Q-plot est donc proche de la droite y = +x ; lordonnee a` lorigine donne le parame`trede position , et la pente donne le parame`tre de dispersion .

    2.4.2 Que faire si lhypothe`se de normalite nest pas satisfaite ?

    On a dans ce cas essentiellement deux options : soit on saffranchit de lhypothe`se de norma-lite en utilisant une autre methode statistique qui nen a pas besoin (souvent une methode ditenon parametrique qui ne fait pas dhypothe`se forte sur la loi dont sont issues les donnees),soit on essaie de transformer les donnees par une fonction G de telle sorte que les donneestransformees (y1, , yn) = (G(x1), , G(xn)) puissent etre considerees comme une realisationdun n-echantillon de N(, 2). Le proble`me est alors de trouver une telle transformation G quelon choisira de preference croissante pour conserver lordre des donnees.

    Reponse theorique.

    Si on suppose que (x1, , xn) est une realisation dun n-echantillon de la loi de fonction derepartition F connue, alors G = 1 F . On a en effet la proposition :Proposition 2.4.1 : Si X est une variable de fonction de repartition F continue, Y = 1 F (X) est une variable de loi N(0, 1).

    Preuve : On fait la preuve dans le cas ou` F est continue et strictement croissante. Dans cecas, F est une bijection de R dans ]0, 1[. Notons F1 sa fonction inverse. Calculons la fonctionde repartition de Y .

    P(Y x) = P(1(F (X)) x) = P(F (X) (x)) = P(X F1((x))) = F (F1((x))= (x) .

    La fonction de repartition de Y etant la fonction de repartition de N(0, 1), Y N(0, 1).Cette demonstration se generalise au cas general ou` F nest pas supposee strictement crois-

    sante. La seule difficulte est de donner un sens a` la fonction F1. On introduit alors la notiondinverse generalisee (cf section 2.6). .

    Cette proposition nest pas tre`s utile en pratique, puisquon ne connat pas F en general,un des buts de letude statistique etant justement davoir des informations sur F .

    En pratique.

    On peut essayer de deviner une fonction G. A ce titre, le Q-Q-plot peut saverer utile. Eneffet, si on reconnat visuellement une forme pour le Q-Q-plot du type y = H(x) pour unefonction H, alors on peut prendre G = H1. En effet,

    ]0, 1[ , F1() = H(1()) ]0, 1[ , 1() = H1(F1()) x R , (x) = F (H(x)) = P(X H(x)) = P(H1(X) x)

  • CHAPITRE 2. Statistique descriptive unidimensionnelle. 19

    2 0 2 4 6 8 10

    4

    3

    2

    1

    01

    2

    x

    h , 0(x

    )

    = 0 = 0.2 = 0.5 = 1 = 2 = 10

    Figure 2.6 Les transformations de Bickel & Doksum

    Les transformations de Box-Cox.

    Lorsquon na pas didee a priori de la fonction G, Box et Cox ont propose de la chercherdans la famille de transformations dependant de deux parame`tres > 0 et R :

    g,(x) =

    {log(x+ ) si = 0(x+)1

    si > 0

    , x > .

    Pour > 0, la fonction g, est strictement croissante de ] ,+[ sur ] 1 ,+[. Lesdonnees transformees sont donc toujours strictement superieures a` 1

    , et ne peuvent donc pas

    a` proprement parler etre issues dune loi normale (dont le support est R). Il ne peut donc sagirque de sapprocher de la normalite. Pour pallier a` ce defaut, Bickel & Doksum on propose demodifier les transformations precedentes, en les etendant sur R :

    h,(x) =

    {log(x+ ) si = 0, x > sgn(x+)|x+|1

    si > 0

    , . (2.3)

    Les graphes des fonctions h,(x) pour = 0 et differentes valeurs de sont donnes dans lafigure 2.6. Des procedures automatiques pour choisir les parame`tres et ont fait lobjet dediverses etudes. Elles sont implementees sous R (fonction boxcox du package MASS pour lesfonctions de Box & Cox). Elles sont basees sur des estimations par maximum de vraisemblance.On suppose quil existe des parame`tres (, ) tels que les donnees transformees (y1, , yn) =(h,(x1), h,(xn)) sont une realisation dun n-echantillon de N(, 2) . Cette hypothe`sepermet didentifier la loi de la variable X en fonction des quatre parame`tres (, , , 2). En

  • 20 ANALYSE DES DONNEES. FABIENNE CASTELL.

    effet pour tout x R, en utilisant la croissance de h,,

    P [X x] = P [h,(X) h,(x)] = h,(x)

    f,2(y) dy ,

    ou` f,2 designe la densite de la loi N(, 2). En derivant par rapport a` x, on en deduit que

    la densite de la variable X est f,2(h,(x))h,(x). Par consequent, la log vraisemblance du

    mode`le est

    Ln(, , , 2) =

    ni=1

    log(f,2(h,(xi))) +ni=1

    log(h,(xi))

    = n2

    log(2pi) n2

    log(2) +1

    22

    ni=1

    (h,(xi) )2 +ni=1

    log(h,(xi))

    Les parame`tres (, , , 2) sont alors identifies par maximum de vraisemblance. Lorsque (, )est fixe, la maximisation en (, 2) donne, comme dans le cas des echantillons gaussiens :

    (, ) =1

    n

    ni=1

    h,(xi) ;

    2(, ) =1

    n

    ni=1

    (h,(xi) (, ))2 .

    On a alors a` maximiser en (, ) la fonction

    Ln(, , (, ), 2(, )) = n

    2log(2pi) n

    2log(2(, )) +

    n

    2+

    ni=1

    log(h,(xi))

    En reprenant lexpression de h,(x), on peut voir que h,(x) = |x+ |1. On a donc a`

    maximiser en (, ) la fonction

    n2

    log(2(, )) + ( 1)ni=1

    |xi + | .

    Exemple 2.4: On fait une normalisation des donnees qui se trouvent dans le fichierChap1BoxCox.csv. La figure 2.7 donne differentes representations des donnees brutes. Il ap-parat clairement sur ces diagrammes que la distribution des donnees est assez eloignee dunenormale. Ceci est confirme par un test de normalite (ici, le test de Kolmogorov) qui donneune Pvaleur egale a` 5 1049. Apre`s mise en oeuvre de la fonction boxcox, les diagrammescorrespondant aux donnees transformees sont donnes dans la figure 2.8. Les choses se sontameliorees. Mais il reste tout de meme des ecarts a` la loi normale, en particulier dans les pe-tites valeurs. La Pvaleur du test de normalite est maintenant de 6%, ce qui est nettement mieuxque precedemment, mais qui reste cependant suffisamment faible pour quon puisse rejeter lanormalite des donnees transformees. Pour les donnees de cet exemple, les transformations deBox-Cox ne permettent pas de normaliser les donnees.

  • CHAPITRE 2. Statistique descriptive unidimensionnelle. 21

    2 1 0 1 2 3

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    1.2

    1.4

    Densits

    N = 1000 Bandwidth = 0.06752

    Den

    sity

    Estimateur noyauN(^, ^)

    2 1 0 1 2 3

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Fonctions de rpartition

    EmpiriqueN(^, ^) l

    l

    llll

    l

    llll

    ll

    lll

    l

    ll

    lllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    lllllllllllllllllllllllllllllllllllllllllllllll

    lllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    lllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    lllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    lllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    llllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    llllllllllllllllllllllllllllllllll

    lllllllllll

    llllllll

    ll

    0.5 0.0 0.5 1.0 1.5 2.0

    2

    1

    01

    Graphe QuantileQuantile

    Quantile de N(^, ^)

    Quan

    tile E

    mpir

    ique

    Figure 2.7 Ecart a` la normalite des donnees brutes

    0 20 40 60 80

    0.00

    0.01

    0.02

    0.03

    Densits

    N = 1000 Bandwidth = 2.492

    Den

    sity

    Estimateur noyauN(^, ^)

    0 20 40 60 80

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Fonctions de rpartition

    EmpiriqueN(^, ^) l l lllll

    llllllllll

    ll

    llllll

    lllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll

    lllllllllllllllllllllllllllllll

    llllllllllllllllllllllllllll

    lllllllllllllllllllllllllllllll

    lllllllllllllllll

    lllllllll

    lllll

    lllll

    l

    l

    0 20 40 60

    010

    2030

    4050

    6070

    Graphe QuantileQuantile

    Quantile de N(^, ^)

    Quan

    tile E

    mpir

    ique

    Figure 2.8 Ecart a` la normalite des donnees transformees

  • 22 ANALYSE DES DONNEES. FABIENNE CASTELL.

    2.5 Exercices

    2.5.1 Une seule variable quantitative discre`te.

    Exercice 1: : Adapter les definitions deffectifs, effectifs cumules, frequences, frequences cu-mulees, moyenne... etc, au cas ou` les individus sont affectes des poids (wi). Reprendre lesdonnees de lexemple 2.1 en supposant que les individus ne sont plus des etudiants, mais despromotions entie`res (le chiffre du nombre de mois separant la fin des etudes et le premier CDIetant alors une moyenne sur la promotion). Les effectifs des differentes promotions regardeesetaient : 5 6 6 8 10 7 6 11 9 9 7 6 5 8 8 12 9 10 10 12 11 10 10 9 8. Affecter les poids quilconvient a` chaque promotion. Dessiner alors la fonction de repartition empirique, la fonctionquantile empirique, et calculer moyenne empirique et mediane empirique.

    Exercice 2: : Reproduire le diagramme de la figure 2.3 en utilisant R. Ecrire un programme Rprenant en entree une serie de donnees quantitatives discre`tes (x1, , xn), une serie de poids(w1, , wn) et rendant le diagramme-bote correspondant. Le faire tourner sur les donnees delexercice precedent.

    2.5.2 Une seule variable quantitative continue.

    Exercice 3: On a observe les 10 donnees suivantes :

    0.8140209 -0.3069065 -0.1498516 0.4691868 -1.3875180 0.1511367 0.7778028 1.2516469-1.4545156 0.1996476

    1. Tracer lhistogramme correspondant au decoupage

    R =],3]] 3,2]] 2,1]] 1, 0]]0, 1]]1, 2]]2, 3]]3,+[ .

    2. Tracer la fonction de repartition empirique ;

    3. Calculer moyenne, mediane, ecart inter-quartile.

    4. Memes questions lorsque les deux premiers individus ont un poids deux fois plus importantque les autres.

    Exercice 4: Approximation de la densite par un histogramme.Pour differentes valeurs de n,

    1. generer un echantillon (x1, , xn) dune variable N(0, 1) ;2. tracer lhistogramme normalise hn correspondant a` un decoupage de [-4,4] en 100 parties

    de meme longueur ;

    3. en voyant hn comme une fonction continue a` droite, calculer les quantites

    dn = supx|hn(x) (x)| ,

    ou` (x) designe la densite de la loi N(0, 1)

  • CHAPITRE 2. Statistique descriptive unidimensionnelle. 23

    4. Tracer le graphe n dn. Commenter.Exercice 5: Approximation de la fonction de repartition par la fonction de repartition empi-rique.Pour differentes valeurs de n,

    1. generer un echantillon (x1, , xn) dune variable N(0, 1) ;2. tracer la courbe cumulative Fn ;

    3. en voyant Fn comme une fonction continue a` droite, calculer les quantites

    dn = supx|Fn(x) (x)| ,

    ou` (x) designe la fonction de repartition de la loi N(0, 1) ;

    4. tracer le graphe n dn. Commenter.Exercice 6: Sensibilite dun histogramme au choix du decoupage.Generer un echantillon (x1, , xn) de taille n = 10000 dune variable N(0, 1). Pour differentschoix dune partition P de R en 30 intervalles disjoints,

    1. calculer lhistogramme HP de (x1, , xn) correspondant a` la partition P ;2. en voyant HP comme une fonction continue a` droite, calculer les quantites

    dP = supx|HP(x) (x)| ,

    ou` (x) designe la densite de la loi N(0, 1).

    3. Tracer le nuage de points (P, dP). Commenter.

    Exercice 7: Estimation de la densite par une methode a` noyau.Pour differentes valeurs de n,

    1. generer un echantillon (x1, , xn) dune variable N(0, 1) ;2. tracer lestimateur a` noyau n donne par la fonction density de R ;

    3. calculer les quantites

    dn = supx

    n(x) (x) ,ou` (x) designe la densite de la loi N(0, 1)

    4. Tracer le graphe n dn. Commenter.

    2.5.4 Normalisation de donnees quantitatives

    Exercice 8:

    1. Recuperer le jeu de donnees Chap1BoxCox.csv.

    2. Quel test de normalite pouvez vous mettre en oeuvre sur ce jeu de donnees ? Rappelerle principe de ce test (hypothe`ses, statistique utilisee et loi de cette statistique souslhypothe`se nulle), avant de le mettre en oeuvre avec R.

  • 24 ANALYSE DES DONNEES. FABIENNE CASTELL.

    0 2 4 6 8

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    x

    F(x)

    l

    l

    l

    Figure 2.9 Un exemple de fonction de repartition non continue.

    3. Tracer le graphe quantile-quantile adapte (fonctions qqplot, qqnorm). Commenter.

    4. Au vu de ce graphe, proposer eventuellement une transformation des donnees permettantde les normaliser.

    5. Mettre en oeuvre avec R la normalisation de Box-Cox (fonction boxcox du package MASS).

    2.6 Pour aller plus loin : fonctions de repartition, simu-

    lation.

    2.6.1 Fonction de repartition.

    Soit X une variable aleatoire. On rappelle que sa fonction de repartition est la fonctionF : t R 7 P(X t) [0, 1]. Une fonction de repartition est croissante et verifie

    limt

    F (t) = 0 , limt+

    F (t) = + .

    Une fonction de repartition nest pas forcement continue. Par exemple, la fonction de repartitiondune variable X qui prend trois valeurs 0, 2, 7, avec les probabilites

    P(X = 0) = 1/4 , P(X = 2) = 1/4 , P(X = 7) = 1/2 .

    est une fonction en escalier representee dans la figure 2.9. En revanche, une fonction de repartitionest toujours continue a` droite (ce qui signifie que pour tout t0 R, limtt0 F (t) = F (t0)) etadmet des limites a` gauche (ce qui signifie que pour tout t0 R, limtt0 F (t) existe sans etre

  • CHAPITRE 2. Statistique descriptive unidimensionnelle. 25

    l

    x

    F(x)1

    u1

    F1(u1)

    u2

    F1(u2)

    u3

    F1(u3)

    Figure 2.10 Representation de F1(u)

    necessairement egale a` F (t0). On note cette limite F (t0)). Dans lexemple de la figure 2.9, ona F (2) = 1/4 et F (2) = 1/2. Il est alors facile de voir que pour tout t0 R, on a

    P(X = t0) = F (t0) F (t0) .

    Ainsi, si la fonction de repartition F est continue en t0, alors P(X = t0) = 0 et F (t0) = P(X u2.Preuve :

    1. Comme F1(u) = inf {x, F (x) u}, on peut trouver une suite de points xn verifantF (xn) u, et decroissant vers F1(u). Comme F est continue a` droite, on a alors u limn F (xn) = F (F1(u)).

    2. Comme F1(u) = inf {x, F (x) u}, si F (x) u on a necessairement F1(u) x.Reciproquement, supposons que F1(u) x. Comme F est croissante, on a F (F1(u)) F (x). On deduit alors de 1. que F (x) u.

    3. On sait deja` que F (F1(u)) u. Montrons que F (F1(u)) u. Pour cela on conside`reune suite xn telle xn crot vers F

    1(u), et telle que pour tout n xn < F1(u). Par 2., ona F (xn) < u. Comme F est continue, on a alors F (F

    1(u)) = limn+ F (xn) u.

    Un resultat fondamental pour les tests de comparaison dechantillons, mais aussi pour lasimulation numeriques de variables aleatoires est le resultat suivant, qui dit quon peut trans-former une variable aleatoire uniforme sur [0; 1] en une variable de loi fixee.

    Proposition 2.6.2 Soit F la fonction de repartition dune probabilite. Soit F1 linversegeneralisee de F definie par (2.4).

    1. Soit U une variable aleatoire de loi uniforme sur [0; 1]. Alors la variable aleatoire F1(U)a pour fonction de repartition F .

    2. Reciproquement, si X est une variable aleatoire de fonction de repartition F , et si F estcontinue, alors la variable F (X) est de loi uniforme sur [0; 1].

    Preuve :

    1. On utilise le point 2. de la proposition 2.6.1. Pour tout t R,

    P[F1(U) t] = P [U F (t)] = F (t)

    1I[0;1](x) dx =

    F (t)0

    dx ;

    car F (t) [0; 1]. Donc P [F1(U) t] = F (t). La fonction de repartition de F1(U) estdonc F .

    2. Pour tout t R,

    P [F (X) < t] =

    {0 si t 0 ;1 si t > 1 ,

    car F prend ses valeurs dans [0; 1] .

    Soit donc t ]0; 1].

    P [F (X) < t] = P [X < F1(t)] par 2. de la proposition (2.6.1) ;= P [X F1(t)] car F est continue et P [X = F1(t)] = 0;= F (F1(t))= t en utilisant 3. de la proposiion (2.6.1).

  • CHAPITRE 2. Statistique descriptive unidimensionnelle. 27

    l

    l

    l

    l

    x

    Fn(x)1

    1n

    X(1) X(2) X(n1) X(n)

    Figure 2.11 Representation de Fn(t). X(1), , X(n) est le rearrangement par ordre croissantde X1, , Xn

    2.6.2 Fonction de repartition empirique.

    Supposons que lobservation soit constituee dun n-echantillon (X1, , Xn) de loi de fonc-tion de repartition F inconnue. On peut estimer F par la fonction de repartition empiriquede lechantillon

    Fn(t) =1

    n

    ni=1

    1IXit .

    La loi des grands nombres dit en effet que pout tout t R, limn+ Fn(t) = P(X1 t) = F (t),et on peut montrer que la convergence est uniforme (theore`me de Glivenko-Cantelli). La fonctionde repartition empirique permet donc davoir une idee de la distribution dont sont issues lesdonnees.

    Si on note X(1), , X(n) la suite des X1, , Xn ordonnee par ordre croissant, et si on posantX(0) = , X(n+1) = +, on a par definition de Fn(t),

    Fn(t) =i

    n, t [X(i);X(i+1)[ (i = 0, . . . , n) .

    Fn est donc une fonction en escalier, dont les marches sont de hauteur 1/n et dont les sautssont situes sur les points de lechantillon de donnees (cf figure 2.11).

  • 28 ANALYSE DES DONNEES. FABIENNE CASTELL.

  • Chapitre 3

    Statistique descriptivebidimensionnelle.

    Dans tout ce chapitre, on suppose quon a mesure deux variables X et Y sur un echantillonde n individus. La donnee de depart est donc un n-echantillon ((x1, y1), , (xn, yn)) du couplede variables (X, Y ). On cherche ici a` savoir sil existe une relation entre ces deux variables,autrement dit si connatre la valeur de X nous donne des informations sur la valeur de Y .

    3.1 Deux variables quantitatives.

    On suppose ici que les deux variables X et Y sont des variables quantitatives. Cette partiedonne quelques outils pour juger de la liaison entre ces deux variables.

    3.1.1 Representation graphique

    Une premie`re etape pour juger de la liaison entre deux variables est de representer le nuagede points : lindividu i est represente dans un repe`re orthonorme par le point (xi, yi). La figure3.1 donne le nuage de points des donnees du fichier ozone.txt correspondant aux variablesx :maximum journalier de la concentration en ozone dans lair (max03) et y :temperature(T12). Le centre de gravite de ce nuage est (xn, yn) (note avec le symbole sur le graphe.)

    Vu que les variables X et Y sont en general exprimees dans des unites qui nont rien a`voir entre elles (par exemple, poids et taille), il est parfois preferable de centrer et reduire cesvariables, i.e. de tracer le nuage des points (xi, yi) ou` xi =

    xixnn(x)

    (et de meme pour yi). Le

    centre de gravite de ce nuage est (0, 0) et les donnees sont des nombres sans dimension.

    3.1.2 Coefficient de correlation lineaire empirique.

    Definition et proprietes.

    Le coefficient de correlation lineaire empirique est la quantite

    r =1n

    ni=1(xi xn)(yi yn)n(x)n(y)

    . (3.1)

    29

  • 30 ANALYSE DES DONNEES. FABIENNE CASTELL.

    l

    l

    l

    l

    l

    ll l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    ll

    l

    l

    ll

    ll

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    ll

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    ll

    lll

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    15 20 25 30

    4060

    8010

    012

    014

    016

    0

    Donnes brutes

    Temprature

    Max

    imum

    de

    la c

    once

    ntra

    tion

    en o

    zon

    e

    l

    l

    l

    l

    l

    ll l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    ll

    l

    l

    ll

    ll

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    ll

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    ll

    lll

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    2 1 0 1 2 3

    1

    01

    2

    Donnes centres et rduites

    TempratureM

    axim

    um

    de

    la c

    once

    ntra

    tion

    en o

    zon

    e

    Figure 3.1 Representation du nuage de points.

    Il verifie les proprietes suivantes :

    Proposition 3.1.1 :

    1. r [1; +1].2. r = 1 (resp. 1) si et seulement si il existe un reel a > 0 (resp < 0), un reel b tel que

    yi = axi + b pour tout i {1, , n}.3. r est une estimation consistante de = cor(X, Y ) = cov(X,Y )

    var(X)var(Y );

    Preuve :Notons ~X et ~Y les vecteurs de Rn definis par :

    ~X =

    x1 xn...xn xn

    , ~Y = y1 yn...

    yn yn

    .On a alors r =

    ~X;~Y ~X~Y . Autrement dit, r nest autre que le cosinus de langle forme par les

    deux vecteurs ~X et ~Y .

    1. Linegalite de Cauchy-Schwartz ~X; ~Y ~X~Y montre que r [1, 1].

    2. Si r {1; +1}, il y a egalite dans linegalite de Cauchy-Schwartz. Langle forme par ~Xet ~Y vaut 0 ou pi. Autrement dit, ~X et ~Y sont deux vecteurs colineaires de meme sens si

  • CHAPITRE 3. Statistique descriptive bidimensionnelle. 31

    r = 1 et de sens oppose si r = 1 : il existe un reel a (> 0 si r = 1 ; < 0 si r = 1) telque

    ~Y = a ~X i {1, , n} , yi yn = a(xi xn) i {1, , n} , yi = axi + (yn axn) .

    3. Notons R la variable aleatoire dont r est une realisation :

    R =1n

    ni=1(Xi Xn)(Yi Yn)n(X)n(Y )

    , (3.2)

    ou` Xn =1n

    ni=1Xi , et

    2n(X) =

    1n

    ni=1(Xi Xn)2. Par la loi des grands nombres,

    limn Xn = E(X). Un calcul simple montre que

    2n(X) =1

    n

    ni=1

    X2i X2n ,1

    n

    ni=1

    (Xi Xn)(Yi Yn) = 1n

    ni=1

    XiYi XnYn .

    La loi des grands nombres montre alors que limn 2n(X) = E(X2) E(X)2 = var(X),limn 2n(Y ) = var(Y ) et limn

    1n

    ni=1(Xi Xn)(Yi Yn) = E(XY ) E(X)E(Y ) =

    cov(X, Y ). On en deduit que limnR = cor(X, Y ).

    Comme le dit la proposition ci-dessus, le coefficient de correlation lineaire ne permet dedetecter quune dependance lineaire entre les donnees. Il est possible que deux variables ayantdes dependances non lineaires entre elles, aient un coefficient de correlation lineaire faible. Nousreproduisons dans la figure 3.2 des graphes tires du Saporta (page 133). Il sagit dillustrer lesdifferents defauts du coefficient de correlation lineaire. En particulier, le dernier graphe donnequatre nuages de points tre`s differents, ayant memes moyennes empiriques, memes variancesempiriques et meme coefficient de correlation empirique. On nutilisera donc le coefficientde correlation lineaire qua` bon escient, i.e. quand le trace du nuage de points laissesupposer une dependance lineaire.

    Test de correlation lineaire.

    Supposons que lon soit dans une situation ou` lemploi du coefficient de correlation lineaireest justifie, et que lon observe une valeur elevee de |r|. Quand peut-on dire que cette valeurest signification non-nulle ? La proposition suivante permet de repondre a` cette question dansle cas ou` le couple (X, Y ) est un couple gaussien. Notez que sous cette hypothe`se, tester lanon-correlation revient a` tester lindependance.

    Proposition 3.1.2 Soit (X, Y ) un couple gaussien de moyenne

    (XY

    )et de matrice de

    covariance

    (2X XY

    XY 2Y

    ). Soit (X1, Y1), (Xn, Yn) des couples independants de meme

    loi que (X, Y ) et notons R la variable correlation empirique definie par (3.2).Si = 0, la variable T = R

    1R2n 2 est une variable de Student a` n2 degres de liberte.

  • 32 ANALYSE DES DONNEES. FABIENNE CASTELL.

    Figure 3.2 Les dangers du coefficient de correlation lineaire, dapre`s Saporta.

  • CHAPITRE 3. Statistique descriptive bidimensionnelle. 33

    Preuve : elle fait lobjet de lexercice 3 (section 3.4.1).

    Sous les hypothe`ses faites de normalite, cette proposition permet de tester (H0) : = 0contre (H1) : 6= 0. Notez en effet que la fonction r ] 1,+1[7 r1r2 R est unefonction impaire et croissante. Dire que |R| t (t > 0) revient donc a` dire que |T | u (ou`u = t

    1t2n 2). On choisit donc une re`gle de decision du type :

    Si |T | > u, on decide de rejeter (H0) ; Si |T | u, on decide de ne pas rejeter (H0) ;

    Le seuil critique u est a` choisir en fonction du niveau de test quon sest fixe. Par definition

    = P(H0) [ rejeter (H0)] = P=0 [|T | > u] = P [|Stn2| > u] .

    u est donc le quantile dordre 1 2

    de la loi de Student a` n 2 degres de liberte. Dans R, letest de correlation lineaire peut etre fait grace a` la fonction cor.test.

    3.1.3 Coefficient de correlation des rangs de Spearman.

    Un autre coefficient pour juger de la liaison entre deux variables quantitatives est le coef-ficient de correlation des rangs introduit par Spearman. Pour le definir, on associe a` chaqueindividu i de lechantillon son rang suivant chacune des variables. Notons ri le rang de lindividui suivant la variable x et si son rang suivant la variable y. Ainsi ri = k {1, , n} signifie quex(k) = xi ou` x(1) < x(2) < < x(n) est le rearrangement par ordre croissant de x1, , xn (cfexemple). Notez que si on suppose que (x1, , xn) est une realisation dun n-echantillon dunevariable X de densite fX , alors

    P(X1 = X2) =

    x1=x2

    fX(x1)fX(x2) dx1 dx2 = 0 .

    Ainsi, il ne peut pas en theorie se poser de proble`mes dex-aequo. Sous cette hypothe`se, sideux valeurs xi sont egales, cela est du a` une troncature lors de la transcription des donnees.Dans ce cadre, r = (r1, , rn) et s = (s1, , sn) sont bien definis, et sont des permutationsde {1, , n}. Spearman a propose de mesurer la correlation entre les deux variables par lecoefficient de correlation lineaire entre r et s :

    rS =cov(r, s)

    var(r) var(s).

    Notez que puisque r est une permutation, r = 1n

    ni=1 ri =

    1n

    nj=1 j =

    n+12

    , et que var(r) =1n

    ni=1 r

    2i r2 = 1n

    nj=1 j

    2 (n+1)24

    = n(n+1)(2n+1)6n

    (n+1)24

    = n2112

    . Il en est de meme pour s.Ainsi,

    rS =1n

    ni=1 risi (n+1)

    2

    4n21

    12

    =12

    n(n2 1)ni=1

    risi 3n+ 1n 1 .

    Par ailleurs, en utilisant lidentite 2xy = x2 + y2 (x y)2, on a 2ni=1 risi = ni=1 r2i +ni=1 s

    2i

    ni=1(ri si)2 = 2

    nj=1 j

    2 ni=1(ri si)2 = 13n(n + 1)(2n + 1) ni=1(ri si)2.

  • 34 ANALYSE DES DONNEES. FABIENNE CASTELL.

    On obtient finalement :

    rS = 1 6n(n2 1)

    ni=1

    (ri si)2 . (3.3)

    Le coefficient de correlation de Spearman verifie les proprietes suivantes :

    Proposition 3.1.3 1. rs [1; +1] ;2. rS = +1 si et seulement si les deux classements sont identiques (x et y varient dans le

    meme sens) ;

    3. rS = 1 si et seulement si ri = n+1si pour tout i {1, , n}. Autrement dit, rS = 1ssi les deux classements sont inverses (x et y varient dans des sens opposes).

    4. Supposons que ((x1, y1), , (xn, yn)) est une realisation de ((X1, Y1), , (Xn, Yn)), n-echantillon dun couple de variables (X, Y ) a` densite. Supposons de plus que les variablesX et Y sont independantes. Alors, la loi de la variable aleatoire RS (definie a` partirdes (Xi, Yi) de la meme facon que rS est definie a` partir des (xi, yi)), ne depend que den, est independante de la loi de (X, Y ), et est symetrique.

    La loi de la variable RS est tabulee. Cette proposition permet de tester (H0) : X et Y sontindependantes contre (H1) : X et Y sont liees. La region de rejet du test est du type :

    1. Si |RS| > t, on rejette (H0) : X et Y sont liees ;2. Si |RS| t, on ne rejette pas (H0) : rien de significatif ne permet daffirmer que X et Y

    sont liees ;

    Le seuil critique t est a` choisir en fonction du niveau de test quon sest fixe :

    = P(H0) [ rejeter (H0)] = PXY [|RS| > t] ,et t est le quantile dordre 1

    2de la loi de Spearman correspondant a` n.

    Par rapport au test de correlation lineaire, lavantage du test de Spearman est de ne faireaucune hypothe`se sur la loi du couple (X, Y ) (pas dhypothe`se de normalite).

    Dans R, le coefficient de correlation de Spearman est obtenu par loption method="spearman"de la fonction cor. Le test correspondant sobtient a` partir de la fonction cor.test en utilisantla meme option.

    Exemple 3.1: On a releve sur 5 individus deux variables (x, y). La tableau ci-dessousdonne pour chaque individu i les valeurs (xi, ri, yi, si) :

    xi 0.59 0.11 0.08 0.3 0.4ri 5 2 1 3 4yi 0.71 0.43 0.47 0.57 0.61si 5 1 2 3 4

    |ri si| 0 1 1 0 0On obtient rS = 9/10. La Pvaleur du test de correlation est P [|RS| > 0.9] = 0.0833. On peutdonc conclure que les deux variables sont liees (avec 8,33 % de chances davoir tort).

    Preuve de la proposition 3.1.3 :

  • CHAPITRE 3. Statistique descriptive bidimensionnelle. 35

    1. rS [1; +1] car rs est un coefficient de correlation lineaire.2. En utilisant la formule (3.3), rS = +1 equivaut a`

    ni=1(ri si)2 = 0, i.e. pour tout

    i {1, , n}, ri = si.3. rS etant un coefficient de correlation lineaire, rS = 1 signifie quil existe une relation

    lineaire entre ri et si. Il existe a < 0 et b tels que pour tout i {1, , n}, ri = asi + b.On en deduit que r = as + b. Comme r = s = (n + 1)/2, on a donc b = (1 a)r, etri r = a(si s) pour tout i {1, , n}. En multipliant cette egalite par si s, et ensommant de i = 1 a` n, on obtient la valeur de a = cov(r, s)/var(s) = rS

    var(r)var(s) . Comme

    var(r) = var(s), a = 1, et donc b = 2r = n + 1. Par consequent, ri = n + 1 si pourtout i {1, , n}.

    4. Soit Ri le rang de Xi dans le rearrangement par ordre croissant de X1, , Xn :

    Ri = k X(k) = Xi .

    Comme les variables X1, , Xn sont independantes et a` densite, la probabilite que deuxde ces variables soient egales est nulle, et il ny a pas dambiguite dans la definitionde R = (R1, , Rn). R est une variable aleatoire dont les valeurs possibles sont lespermutations dordre n. Notons n le groupe des permutations dordre n et un elementde n. Dire que X(1) < < X(n), est equivalent a` R = 1. Ainsi, pour tout n,

    P [R = ] = P[X1(1) < < X1(n)

    ]=

    y1(1)

  • 36 ANALYSE DES DONNEES. FABIENNE CASTELL.

    Ainsi RS a meme loi que 1 6n(n21)n

    j=1(Uj j)2 ou` U est une variable uniforme sur n.Cela prouve que la loi de RS ne depend pas de la loi du couple (X, Y ) dans lhypothe`seou` X et Y sont independantes.

    Concernant la symetrie de la loi de RS, il sagit de voir que RS et RS ont meme loisous lhypothe`se dindependance de X et Y . On vient de voir que sous cette hypothe`se,la loi de RS est la meme que celle de la variable 1 6n(n21)

    nj=1(Uj j)2. Notons U la

    permutation definie par Uj = n + 1 Uj. Si U est uniforme sur n, il en est de memepour U . Par consequent, RS a meme loi que la variable

    1 6n(n2 1)

    nj=1

    (Uj j)2

    = 1 6n(n2 1)

    nj=1

    (n+ 1 Uj j)2

    = 1 6n(n2 1)

    [nj=1

    (n+ 1 j)2 +nj=1

    U2j 2nj=1

    Uj(n+ 1 j)]

    = 1 6n(n2 1)

    [2

    nj=1

    j2 2(n+ 1)nj=1

    j + 2nj=1

    Ujj

    ]

    = 1 6n(n2 1)

    [2

    nj=1

    j2 2(n+ 1)nj=1

    j

    ]+

    6

    n(n2 1)nj=1

    (2Ujj)

    = 1 6n(n2 1)

    [2

    nj=1

    j2 2(n+ 1)nj=1

    j

    ]+

    6

    n(n2 1)nj=1

    (Uj j)2 j2 U2j

    =6

    n(n2 1)nj=1

    (Uj j)2 + 1 24n(n2 1)

    nj=1

    j2 +12(n+ 1)

    n(n2 1)nj=1

    j

    =6

    n(n2 1)nj=1

    (Uj j)2 1

    en utilisant les identitesn

    j=1 j = n(n + 1)/2 etn

    j=1 j2 = n(n + 1)(2n + 1)/12. Par

    consequent RS a meme loi que RS sous lhypothe`se dindependance de X et Y .

    3.2 Une variable quantitative et une variable qualitative.

    On suppose ici que le couple (X, Y ) est constitue de la variable qualitative X, et de lavariable quantitative Y . Cette partie donne quelques outils pour juger de la liaison entre cesdeux variables. On notera C = {c1, cr} les issues possibles pour la variable X.

    3.2.1 Distribution theorique

    Dans ce cadre, plusieurs quantites caracterisent la loi du couple (X, Y ) :

  • CHAPITRE 3. Statistique descriptive bidimensionnelle. 37

    1. - la fonction (t, c) R C 7 P(Y t;X = c) ;2. - les fonctions c C 7 P(X = c) et t R 7 P(Y t|X = c) (fonction de repartition

    conditionnelle) ;

    3. - les fonctions c C 7 P(X = c) et t R 7 fc(t) = ddtP(Y t|X = c) (densiteconditionnelle) quand cette derivee existe ;

    4. ...

    Chacune de ces possibilites de description de la loi du couple se deduit des autres. Par exemple,si lon connat la fonction P(Y t;X = c), on obtient P(X = c) = limt+ P(Y t;X = c),et P(Y t|X = c) = P(Yt;X=c)P(X=c) .

    Dans le cas ou` X et Y sont independantes, P(Y t;X = c) = P(Y t)P(X = c), et lesfonctions t R 7 P(Y t|X = c) et fc(t) sont independantes de la valeur de c.

    3.2.2 Quantites empiriques.

    Chaque modalite de la variable X definit un sous echantillon de lechantillon initial. Onnote

    1. n1, , nr les effectifs de chaque sous-echantillon : nj =n

    i=1 1Icj(xi) ;

    2. 1, ,r les sous-echantillons : j = {i {1, , n} tel que xi = cj} ;3. y1, , yr les moyennes empiriques de la variable Y sur chaque sous-echantillon : yj =

    1nj

    ij yi ;

    4. 21(y), , 2r(y) les variances empiriques de la variable Y sur chaque sous-echantillon :2j (y) =

    1nj

    ij(yi yj)2.

    Les liens entre les quantites empiriques sur les sous-echantillons et sur lechantillon initialsont donnes par les relations :

    Proposition 3.2.1 Decomposition.

    1. y = 1n

    rj=1 nj yj ;

    2. 2(y) = 1n

    rj=1 nj(yj y)2 + 1n

    rj=1 nj

    2j (y).

    La deuxie`me identite est une decomposition de la variance en deux termes. Le premier1n

    rj=1 nj(yj y)2 est appele variance intercategories : il sagit de mesurer la variabilite

    entre sous population. Chacune des sous-populations est identifiee a` la moyenne sur la sous-population, et affectee dun poids proportionnel a` son effectif. Le deuxie`me terme 1

    n

    rj=1 nj

    2j (y)

    est appele variance intracategories. Il sagit dune moyenne de la variabilite de la variableY a` linterieur de chacune des sous-populations.

    Preuve de la proposition 3.2.1 :

    1. y = 1n

    ni=1 yi =

    1n

    rj=1

    ij yi =

    1n

    rj=1 nj yj.

  • 38 ANALYSE DES DONNEES. FABIENNE CASTELL.

    2. 2(y) = 1n

    ni=1(yi y)2 = 1n

    rj=1

    ij(yi yj + yj y)2

    = 1n

    rj=1

    ij(yi yj)2 + 1n

    rj=1

    ij(yj y)2 + 2n

    rj=1

    ij(yi yj)(yj y)

    = 1n

    rj=1 nj

    2j (y) +

    1n

    rj=1(yj y)2(

    ij 1) +

    2n

    rj=1(yj y)

    ij(yi yj)

    = 1n

    rj=1 nj

    2j (y) +

    1n

    rj=1 nj(yj y)2 + 2n

    rj=1(yj y)(nj yj nj yj)

    = 1n

    rj=1 nj

    2j (y) +

    1n

    rj=1 nj(yj y)2 .

    Les liens entre les quantites empiriques et la distribution theorique sont donnes par laproposition suivante :

    Proposition 3.2.2 Supposons que ((x1, y1) (xn, yn)) est une realisation dun n-echantillon((X1, Y1) (Xn, Yn)) du couple de variables (X, Y ). Notons Nj, Yj et 2j (Y ) les variablesaleatoires correspondantes a` nj, yj, et

    2j (y). On a pour tout j {1, , r},

    1. limnNjn

    = P [X = cj] ;2. limn Yj = E [Y |X = cj] ;3. limn 2j (Y ) = var [Y |X = cj].

    Preuve de la proposition 3.2.2 :

    1.Njn

    = 1n

    ni=1 1Icj(Xi). Par la loi des grands nombres, on a limn

    Njn

    = P [X = cj].2. Yj =

    1Nj

    ni=1 1Icj(Xi)Yi =

    nNj

    1n

    ni=1 1Icj(Xi)Yi. Par la loi des grands nombres, on a

    limnNjn

    = P [X = cj] et limn 1nn

    i=1 1Icj(Xi)Yi = E[

    1Icj(X)Y]. Par consequent,

    limn Yj =E[ 1Icj (X)Y ]P[X=cj ] = E [Y |X = cj].

    3. Commencons par recrire la variable 2j (Y ) en developpant le carre.

    2j (Y ) =1

    Nj

    ni=1

    1Icj(Xi)(YiYj)2 =1

    Nj

    ni=1

    1Icj(Xi)Y2i Y 2j =

    n

    Nj

    1

    n

    ni=1

    1Icj(Xi)Y2i Y 2j .

    Par la loi des grands nombres, limnNjn

    = P [X = cj], limnn

    i=1 1Icj(Xi)Y2i =

    E[

    1Icj(X)Y2]

    et limn Yj = E [Y |X = cj]. Par consequent,

    limn

    2j (Y ) =E[

    1Icj(X)Y2]

    P [X = cj] E [Y |X = cj]2 = E

    [Y 2|X = cj

    ] E [Y |X = cj]2= var(Y |X = cj) .

    3.2.3 Comment juger de la liaison entre X et Y ?

    Notez que dans le cas ou` les variables X et Y sont independantes, les quantites P(Y t|X = c), d

    dtP(Y t|X = c), E(Y |X = c), var(Y |X = c) sont independantes de c et valent res-

    pectivement P(Y t), ddtP(Y t), E(Y ), var(Y ). Ainsi les fonctions de repartition empiriques

    de y sur chaque sous-echantillon se ressemblent et sont proches de la fonction de repartitionempirique de y sur lechantillon global. De meme, toutes les moyennes empiriques yj (respective-ment les variances empiriques 2j (y)) se ressemblent et sont proches de la moyenne empiriquey (respectivement la variance empirique 2(y)).

  • CHAPITRE 3. Statistique descriptive bidimensionnelle. 39

    Representation graphique.

    Pour avoir une idee des distributions conditionnelles, on peut faire le graphe des botes a`moustaches de la variable y sur chaque sous-population. On peut alors dessiner sur un memegraphe (i.e. en utilisant les memes echelles), les r botes a` moustaches de la variable y pourchaque modalite de la variables x. Dans lhypothe`se ou` X et Y sont independantes, toutes cesbotes a` moustaches se ressemblent. Les differences visibles entre ces botes permettent de sefaire une idee de linfluence de la variable X sur la variable Y .

    Rapport de correlation.

    Une autre quantite qui permet de juger de la liaison entre X et Y est le rapport dit decorrelation empirique entre la variance intercategories et la variance empirique totale :

    e2 =1n

    rj=1 nj(yj y)22n(y)

    .

    Si les variables X et Y sont independantes, pour tout j {1, , r}, yj ' y, et e2 ' 0. Enutilisant la decomposition de la variance de la proposition 3.2.1, on voit aussi que e2 [0, 1],et que e2 = 1 signifie que la variance intracategorie est nulle. Dans ce cas, dans chacun dessous-echantillons, la variable y est constante ; la valeur de la variable X fixe donc la valeur deY .

    Pour savoir si e2 est significativement non nul, on peut utiliser la proposition suivante, quisuppose que les lois conditionnelles de Y pour chaque modalite de X sont des loisgaussiennes de meme variance. Plus precisement, on suppose que

    (ANOVA) ((x1, y1), , (xn, yn)) est une realisation dun n-echantillon (X1, Y1), , (Xn, Yn)dun couple de variables (X, Y ) tel que Y =

    rj=1 j 1IX=cj + ou` N(0, 2) est

    independante de X.

    Proposition 3.2.3 1. Sous lhypothe`se (ANOVA), la loi de Y sachant que X = cj est laloi N(j,

    2). En consequence, Y et X sont independantes ssi 1 = = r.2. Notons E2 la variable aleatoire correspondant au rapport de correlation empirique. Sous

    lhypothe`se (ANOVA), et si on suppose de plus que 1 = = r, alorsE2

    r11E2nr

    F(r 1, n r) .

    Notez que sous lhypothe`se (ANOVA), on est dans un mode`le danalyse de variance a` unfacteur (cf cours de Stats 2). En reordonnant lechantillon en fonction des modalites de lavariable x, on a le mode`le

    Yij = i + ij , i {1, , r} , j {1, , ni}

  • 40 ANALYSE DES DONNEES. FABIENNE CASTELL.

    ou` les ij sont i.i.d N(0, 2). Ce mode`le se recrit sous la forme matricielle

    ~Y =

    Y11...

    Y1n1...Yr1...

    Yrnr

    =

    1 0 0...

    ......

    ...1 0 00 1 0...

    ......

    ...0 1 0...

    ......

    ...0 0 1...

    ......

    ...0 0 1

    1...r

    + = X~+ , Nn(0, 2Id) . (3.4)

    Sous lhypothe`se (ANOVA), la proposition 3.2.3 permet de tester lindependance entre X etY . Plus precisement, on teste (H0) : 1 = = r (X et Y sont independantes) contre(H1) : i 6= j tels que i 6= j (X et Y sont liees). La region de rejet est du type :

    SiE2

    r11E2nr

    > t, on rejette (H0) et on decide que X et Y sont liees.

    SiE2

    r11E2nr t, on ne rejette pas (H0). Rien de significatif ne permet dassurer que X et Y

    sont liees.La valeur critique t est fixee en fonction du niveau de test quon sest fixe :

    = P(H0) [ Rejeter (H0)] = P1==r

    [E2

    r11E2nr

    > t

    ]= P [F(r 1, n r) > t] ;

    t est donc le quantile dordre 1 de la loi de Fisher a` r 1 et n r degres de liberte.Ce test na de sens que sous lhypothe`se (ANOV A) de normalite des lois conditionnelles, et

    degalite des variances. Avant de le mettre en oeuvre, il faudra donc tester la normalite de chacundes sous-echantillons. Dans lhypothe`se ou` cette normalite nest pas rejetee, il faudra ensuitetester legalite des variances de chaque sous-echantillon (test de Fisher degalite des variances).Si la normalite des sous echantillons est rejetee, on peut essayer dappliquer une transformationde Box-Cox a` la variable y. La fonction boxcox de R permet de trouver la meilleure fonctionh, telle que les donnees transformees yi = h,(yi) puissent etre considerees comme issues dumode`le X~+ .

    Preuve de la proposition 3.2.3

    1. On calcule la fonction de repartition de Y conditionnelle a` X = cj.

    P [Y t|X = cj] = P [Y t;X = cj]P [X = cj] .

    Comme Y =r

    k=1 k 1Ick(X) + , on a Y = j + sur lensemble {X = cj}. Dou`,

    P [Y t|X = cj] = P [j + t;X = cj]P [X = cj] =P [j + t]P [X = cj]

    P [X = cj],

  • CHAPITRE 3. Statistique descriptive bidimensionnelle. 41

    puisque et X sont independantes. Donc P [Y t|X = cj] = P [j + t] est la fonctionde repartition de j + N(j, 2).

    2. Pour i {1, , r}, notons 1Ii le vecteur de Rn correspondant a` la i-e`me colonne de lamatrice X dans lequation (3.4). Sous lhypothe`se (ANOVA), le vecteur aleatoire ~Y estun vecteur de Rn gaussien de vecteur moyenne ~m = X~ =

    rj=1 j 1Ij, et de matrice de

    covariance 2Id. Notons V le s.e.v de Rn engendre par les vecteurs ( 1Ij, j {1, , r}).Sous lhypothe`se (ANOVA), tester legalite des i revient a` se demander si le vecteur ~mappartient au s.e.v. W de V ou` W est la droite engendree par

    rj=1 1Ij = 1I (vecteur

    dont toutes les coordonnees sont egales a` 1).

    Notons piV et piW les projecteurs orthogonaux de Rn sur V et W . Comme les vecteurs 1Ijsont orthogonaux dans Rn, on a

    piV (~Y ) =rj=1

    ~Y ;

    1Ij 1Ij

    1Ij 1Ij =

    rj=1

    Yj 1Ij .

    De la meme facon, piW (~Y ) =

    ~Y ; 1I 1I

    1I 1I = Y 1I. Par consequent,

    piV (~Y ) piW (~Y ) =rj=1

    (Yj Y ) 1Ij , etpiV (~Y ) piW (~Y )2 = r

    j=1

    nj(Yj Y )2

    est la variable aleatoire correspondant a` la variance empirique intercategories.

    On a aussi 2n(~Y ) =1n

    ~Y piW (Y )2. On en deduit que1E2 = 1

    piV (~Y ) piW (~Y )2~Y piW (~Y )2 =~Y piW (~Y )2 piV (~Y ) piW (~Y )2~Y piW (~Y )2 =

    ~Y piV (~Y )2~Y piW (~Y )2 .Finalement,

    E2

    r 11 E2n r

    =

    piV (~Y ) piW (~Y )2~Y piW (~Y )21

    dim(V ) dim(W )~Y piV (~Y )2~Y piW (~Y )21

    n dim(V )

    =

    piV (~Y ) piW (~Y )2dim(V ) dim(W )~Y piV (~Y )2

    n dim(V )

    .

    Le theore`me de Cochran (cf cours de Stats 2), assure que sous lhypothe`se (ANOVA) et

    sous lhypothe`se degalite des moyennes,piV (~Y )piW (~Y )2

    2est une variable du 2dim(V )dim(W )

    independante de la variable~YpiV (~Y )2

    2qui suit une loi du 2ndim(V ). On en deduit que

    E2

    r11E2nr

    suit sous une loi de Fisher F(r 1, n r).

  • 42 ANALYSE DES DONNEES. FABIENNE CASTELL.

    l

    l

    l

    lll

    l

    l

    l

    Est Nord Ouest Sud

    4060

    8010

    012

    014

    016

    0

    vent

    Conc

    entra

    tion

    en o

    zone

    Figure 3.3 Boites a` moutaches de la concentration en ozone en fonction de la direction duvent.

    3.2.4 Exemple

    On conside`re les donnees du fichier ozone.txt dont on a extrait la variable y : max03(concentration en ozone maximale pendant la journee), et la variable x : Vent (Direction duvent, prenant 4 modalites, E,O,N,S). La figure 3.3 donne les quatre botes a` moustaches dessous-echantillons correspondant aux quatre modalites.

    Au vu de ce graphe, il semble bien quil y ait une liaison entre la concentration en ozone etla direction du vent.

    Pour tester cette liaison, nous souhaitons calculer le rapport de correlation empirique etutiliser le test de la proposition 3.2.3. Pour cela, nous commencons par verifier que faire lhy-pothe`se (ANOVA) sur nos donnees nest pas aberrant. La figure 3.4 donne les graphes quantilesempiriques-quantiles de la normale pour les quatre sous-echantillons. Les P-valeurs dun testde Kolmogorov dajustement a` la loi normale pour les quatre sous-echantillons sont

    Direction du vent Est Nord Ouest SudP-valeur 0.27 0.012 0.00000077 0.52

    Le graphe QQplot correspondant a` la modalite Ouest ressemble assez peu a` une droite,ce qui est confirme par la tre`s faible valeur de la Pvaleur, qui nous ame`ne a` rejeter lhypothe`se denormalite au moins pour ce sous-echantillon. On essaie donc de transformer les donnees par laprocedure de Box et Cox. La figure 3.5 donne les graphes quantiles empiriques-quantiles de lanormale pour les quatre sous-echantillons apre`s transformation des donnees. Les P-valeurs dutest de Kolmogorov dajustement a` la loi normale pour les quatre sous-echantillons sont mainte-

  • CHAPITRE 3. Statistique descriptive bidimensionnelle. 43

    l

    ll l

    ll l

    ll

    l

    80 100 120 140

    6080

    100

    120

    140

    Est

    Quantile de N(^, ^)

    Quan

    tile E

    mpir

    ique

    l

    l ll l

    l l l l llll

    lllllll

    ll l

    ll l l

    ll

    ll

    40 60 80 100 120 140

    4060

    8010

    014

    0

    Nord

    Quantile de N(^, ^)

    Quan

    tile E

    mpir

    ique

    l l ll l

    llllllllllll

    lllllllllllllll

    llllll

    lll

    lll

    l

    ll l

    l

    l

    20 40 60 80 100 120 140

    6080

    100

    140

    Ouest

    Quantile de N(^, ^)

    Quan

    tile E

    mpir

    ique

    l

    ll l

    ll l l

    l ll

    l ll l l

    l

    ll

    l l

    40 60 80 100 120 140 16060

    8010

    014

    0

    Sud

    Quantile de N(^, ^)

    Quan

    tile E

    mpir

    ique

    Figure 3.4 Graphes Quantiles Empiriques-Quantiles de la loi Normale pour la concentra-tion en ozone en fonction de la direction du vent.

    l

    l ll

    ll l

    l l

    l

    1.84 1.86 1.88 1.90 1.92 1.94 1.96

    1.80

    1.85

    1.90

    Est

    Quantile de N(^, ^)

    Quan

    tile E

    mpir

    ique

    l

    l ll

    l l l l l llll

    lllllll

    ll l

    l l l ll

    l

    l l

    1.80 1.85 1.90 1.95

    1.80

    1.85

    1.90

    1.95

    Nord

    Quantile de N(^, ^)

    Quan

    tile E

    mpir

    ique

    l ll

    l llllll

    llllllllllll

    llllllllll

    lll

    llll

    lll

    ll

    ll l l

    ll

    1.80 1.85 1.90 1.95

    1.82

    1.86

    1.90

    1.94

    Ouest

    Quantile de N(^, ^)

    Quan

    tile E

    mpir

    ique

    l

    ll l

    ll

    l ll l

    ll l

    l l l l

    ll

    l l

    1.82 1.84 1.86 1.88 1.90 1.92 1.94 1.96

    1.82

    1.86

    1.90

    1.94

    Sud

    Quantile de N(^, ^)

    Quan

    tile E

    mpir

    ique

    Figure 3.5 Graphes Quantiles Empiriques-Quantiles de la loi Normale pour la concentra-tion en ozone en fonction de la direction du vent, apre`s transformation des donnees.

  • 44 ANALYSE DES DONNEES. FABIENNE CASTELL.

    nant :Direction du vent Est Nord Ouest Sud

    P-valeur 0.005 0.29 0.004 0.59Meme apre`s transformation, lhypothe`se de normalite est rejetee pour les modalites Ouest etEst.

    3.2.5 Que faire lorsque lhypothe`se de normalite nest pas satisfaite ?

    Lorsque lhypothe`se (ANOVA) nest pas verifiee , on ne peut pas utiliser le rapport decorrelation empirique pour juger de la liaison entre X et Y . Dans ce cas, on utilise des testsnon parametriques de comparaison dechantillons independants. Si la variable X a deux mo-dalites, chacun des sous-echantillons correspondant a` une modalite est independant de lautre,et on veut savoir si ces deux sous-echantillons sont de meme loi. On peut alors utiliser un testde comparaison de Kolmogorov-Smirnov, ou un test de la somme des rangs (Mann-Whitney-Wilcoxon). Lorsque X a r modalites, on est en presence de r sous-echantillons dont on veutsavoir sils ont meme loi ou pas. On peut dans ce cas utiliser le test de Kruskal-Wallis, qui estune generalisation du test de la somme des rangs. Nous rappelons les principes de ces differentstests dans ce qui suit.

    Test de Kolmogorov-Smirnov :

    Il est utilise lorsque on a observe (x1, , xn) et (y1, , ym) realisations de deux echantillons(X1, , Xn) et (Y1, , Ym) independants. On suppose que les fonctions de repartitionde X et Y (notees F et G) sont continues. On veut tester (H0) : F = G contre(H1) : F 6= G.

    Le test de Kolmogorov-Smirnov consiste a` estimer F et G par les fonctions de repartitionempiriques

    Fn(x) =1

    n

    ni=1

    1IXix ,

    Gm(x) =1

    m

    mj=1

    1IYjx ,

    et a` mesurer lecart entre F et G au moyen de la statistique

    Dn,m = supx

    (Fn(x) Gm(x)) .Proposition 3.2.4 Si on suppose que F et G sont continues, la loi de Dn,m sous (H0) nedepend que de n et m, i.e. ne depend pas de F (= G).

    Cette loi est tabulee pour de petites valeurs de n et m. Pour de plus grandes valeurs de n etm, on a le resultat asymptotique :

    P [Dn,m t] P [D t] = 2k=1

    (1)k+1 exp(2k2t2) .

    Pour tester (H0) : F = G contre (H1) : F 6= G, on prend alors la re`gle de decision suivante :

  • CHAPITRE 3. Statistique descriptive bidimensionnelle. 45

    Si Dn,m > t, on rejette (H0) : F = G et on decide que les deux echantillons ne sont pasde meme loi.

    Si Dn,m t, on ne rejette pas (H0) : rien de significatif ne permet de dire que les deuxechantillons ne sont pas de meme loi.

    t est choisi en fonction du niveau desire.

    Preuve de la proposition 3.2.4 : On fait la demonstration dans le cas ou` F est continue etstrictement croissante. Dans ce cas, F est une bijection de R dans ]0; 1[ et son inverse F1 estune bijection de ]0; 1[ dans R. On a donc

    supxR

    (Fn(x) Gm(x)) = supu]0;1[

    (Fn(F1(u)) Gm(F1(u))) ,Pour tout u ]0; 1[, Fn(F1(u)) = 1n

    ni=1 1IF (Xi)u et Gm(F

    1(u)) = 1m

    mj=1 1IF (Yj)u. Po-

    sons Ui = F (Xi) et Vj = F (Yj). Sous lhypothe`se (H0), (X1, , Xn, Y1, , Ym) est un(n + m)-echantillon de loi de fonction de repartition F continue. (U1, , Un, V1, , Vm) estpar la proposition 2.6.2, un (n + m)-echantillon de loi uniforme sur [0; 1]. Ainsi, sous (H0),

    supxR

    (Fn(x) Gm(x)) a meme loi que supu[0,1]

    (Un(u) Vm(u)), ou` Un(x) et Vm(x) sont lesfonctions de repartition empiriques de deux echantillons independants de loi uniforme sur [0; 1].La loi de Dn,m ne depend donc pas de F .

    Dans le cas ou` F est continue et croissante, la demonstration precedente sadapte en prenantpour F1 linverse generalisee de F (cf expression (2.4), chapitre 2).

    Test de la somme des rangs, ou de Mann-Whitney-Wilcoxon.

    Ce test sutilise dans le meme cadre que le test de Kolmogorov-Smirnov. Il se construit de lafacon suivante. Posons (Z1, , Zn+m) = (X1, , Xn, Y1, , Ym). Sous (H0), (Z1, , Zn+m)est un (n+m)-echantillon de loi de fonction de repartition F .

    Definition 3.2.5 La statistique de rang de (Z1, , Zn+m) est la permutation aleatoire R : n+m definie par i {1, , n+m},

    R(i) =n+mj=1

    1IZj

  • 46 ANALYSE DES DONNEES. FABIENNE CASTELL.

    Le test de la somme des rangs est basee sur la statistique

    W =ni=1

    R(i)

    = somme des rangs des Xi dans le rearrangementpar ordre croissant de X1, , Xn, Y1, , Ym .

    Dans lexemple precedent, si on suppose que n = 2, et m = 3, on obtient W () = 5.Supposons en effet que lon veuille tester (H0) : F = G contre (H1) : F > G. Sous

    (H1), X a tendance a` etre plus petite que Y (par exemple, si X Y , on a pour tout t,G(t) = P (Y t) P (X t) = F (t)). Par consequent, W devrait etre faible. On prendradonc une region de rejet du type R = {W t}. Pour determiner t, on a besoin de connatre laloi de W sous (H0). Le test de la somme des rangs sappuie alors sur le resultat suivant, deja`utilise dans la demonstration de la proposition 3.1.3 :

    Proposition 3.2.6 Soit Z1, , Zn un n-echantillon de loi de fonction de repartition F conti-nue. La loi de sa statistique de rang R est la loi uniforme sur lensemble des permutationsn.

    Preuve : Soit n.

    P (R = ) = P (Z1(1) < < Z1(n))=z(1)

  • CHAPITRE 3. Statistique descriptive bidimensionnelle. 47

    R(i) =Nj=1

    1IZj

  • 48 ANALYSE DES DONNEES. FABIENNE CASTELL.

    la moyenne des rangs associee a` chaque echantillon : Ri = 1nini

    j=1Rij ; lecart entre la moyenne des rangs de chaque echantillon et la moyenne de tous les rangs

    (= 1n

    i,j Rij =

    1n

    nk=1 k =

    n+12

    ) :

    KWn =12

    n(n+ 1)

    ri=1

    ni

    (Ri n+ 1

    2

    )2.

    Proposition 3.2.8 Sous (H0), la loi de KWn ne depend que de (n1, , nr) (i.e. ne dependpas de F = F1 = = Fr)

    Preuve : Sous (H0), (Y11, , Y1n1 , , Yr1, , Yrnr) est un n-echantillon de la loi de fonctionde repartition F continue. Par consequent, sa statistique de rang (R11, , R1n1 , , Rr1, , Rrnr)est une variable de loi uniforme sur les permutations de n elements (proposition 3.2.6).

    La statistique KWn permet de tester (H0) : F1 = = Fr contre (H1) : i, j tels queFi 6= Fj. Sous (H0), les moyennes des rangs Ri devraient etre proches (et donc proches dela moyenne des rangs sur lechantillon total =(n + 1)/2). KWn devrait donc etre petit sous(H0). La re`gle de decision est alors la suivante :

    Si KWn > t, on rejette (H0), et on conclut que les differents echantillons nont pas lameme loi ;

    Si KWn t, on ne rejette pas (H0). Rien de significatif ne permet de dire que lesechantillons ont des lois differentes.

    La valeur critique t est fixe en fonction du niveau de test : = P(H0) [KWn > t], et t est lequantile dordre 1 de la loi de la statistique de Kruskal-Wallis de parame`tres (n1, , nr)

    En developpant le carre dans lexpression de KWn, on obtient

    KWn =12

    n(n+ 1)

    ri=1

    niR2i 3(n+ 1) .

    On peut aussi remarquer que Wi = niRi est la somme des rangs du i-e`me echantillon dans lerearrangement de lensemble des echantillons. Cest donc la statistique du test de Wilcoxon decomparaison du ie`me echantillon a` lensemble des r1 autres echantillons. En particulier, sous(H0), on a

    E(Wi) =ni(n+ 1)

    2, et var(Wi) =

    ni(n ni)(n+ 1)12

    On a donc sous (H0)

    KWn =12

    n(n+ 1)

    ri=1

    ni

    (Wini n+ 1

    2

    )2=

    12

    n(n+ 1)

    ri=1

    1

    ni(Wi E(Wi))2

    =1

    n

    ri=1

    (n ni)(Wi E(Wi))2

    var(Wi)

  • CHAPITRE 3. Statistique descriptive bidimensionnelle. 49

    On deduit immediatement de cette expression que sous (H0)

    E(KWn) = r 1 .

    Cette expression sugge`re aussi que lorsque les ni sont grands, KWn tend sous (H0) vers unevariable du 2 a` r 1 degres de liberte (cf lexpression de la moyenne). Le nombre de degresde liberte vient de la liaison entre les variables Wi :

    ri=1 Wi = n(n+ 1)/2.

    Lorsque r = 2, n1 + n2 = n et W1 + W2 = n(n + 1)/2. Donc var(W1) = var(W2) et

    W1E(W1) = (W2E(W2)). On a donc KWn = (W1E(W1))2var(W1) et le test de Kruskal-Wallis estle meme que le test de Wilcoxon.

    Exemple 3.2: On reprend les donnees du fichier ozone.txt dont on a extrait la variable y :max03 (concentration en ozone maximale pendant la journee), et la variable x : Vent (Directiondu vent, prenant 4 modalites, E,O,N,S). Pour savoir sil y a un lien entre la direction du ventet la concentration en ozone, on effectue un test de Kruskal-Wallis de comparaison des 4 sous-echantillons correspondant aux quatre directions de vent. La fonction R permettant de fairece test est la fonction kruskal.test. La Pvaleur du test est 0.003431. On peut donc conclure(avec 0.34 % de chances davoir tort) quil y a une liaison entre la direction du vent et laconcentration en ozone.

    3.3 Deux variables qualitatives.

    On suppose ici que le couple (X, Y ) est constitue de deux variables qualitatives X et Y . Onnotera C = {c1, cr} les modalites de la variable X, et D = {d1, dl} les modalites de lavariable Y .

    3.3.1 Distribution theorique

    Dans ce cadre, on peut caracteriser la loi du couple (X, Y ) par :

    1. - la fonction (c, d) CD 7 P(X = c;Y = d) ;2. - les fonctions c C 7 P(X = c) (loi marginale en X), et d D 7 P(Y = d|X = c)

    (loi conditionnelle) ;

    3. ...

    On a

    P(X = c) =dD

    P(X = c;Y = d) et P(Y = d|X = c) = P(X = c;Y = d)P(X = c)

    .

    Dans le cas ou` X et Y sont independantes, P(X = c;Y = d) = P(X = c)P(Y = d), et la loiconditionnelle d D 7 P(Y = d|X = c) est independante de la valeur de c.

  • 50 ANALYSE DES DONNEES. FABIENNE CASTELL.

    3.3.2 Quantites empiriques.

    Les donnees sont presentees dans une table de contingence qui donne les effectifsconjoints de chaque couple de modalites : pour tout (i, j) {1, , r} {1, , l},

    nij =nk=1

    1I(ci,dj)(xk, yk) .

    On note

    ni =l

    j=1

    nij =nk=1

    1Ici(xk) ;

    nj =ri=1

    nij =nk=1

    1Idj(yk) .

    Ces quantites sont appeles effectifs marginaux.

    Les liens entre les quantites empiriques et la distribution theorique sont donnes par laproposition suivante :

    Proposition 3.3.1 Supposons que ((x1, y1) (xn, yn)) est une realisation dun n-echantillon((X1, Y1) (Xn, Yn)) du couple de variables (X, Y ). Notons Nij, Ni et Nj les variables aleatoirescorrespondantes a` nij, ni, et nj. On a pour tout i {1, , r}, et tout j {1, , l},

    1. limnNijn

    = P [X = ci;Y = dj] ;

    2. limn Nin = P [X = ci] ;

    3. limnNjn

    = P [Y = dj] ;

    4. limnNijNi

    = P [Y = dj|X = ci] ;5. limn

    NijNj

    = P [X = ci|Y = dj] ;

    Preuve de la proposition 3.3.1 :

    1.Nijn

    = 1n

    nk=1 1I(ci,dj)(Xk, Yk). Par la loi des grands nombres, on a limn

    Nijn

    = P [X = ci;Y = dj].

    2. Nin

    = 1n

    nk=1 1Ici(Xk). Par la loi des grands nombres, on a limn