139822508 modelisation cours pdf

Upload: tetq-fsjes

Post on 18-Oct-2015

95 views

Category:

Documents


1 download

DESCRIPTION

m

TRANSCRIPT

  • POLYTECHLILLEDPARTEMENT G.I.S.

    Modlisation StatistiqueJulien JACQUES

    http ://labomath.univ-lille1.fr/jacques/

  • 2

  • Table des matires

    1 Rgression linaire simple 91.1 Le modle thorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2 Le modle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.4 Tests sur le modle de rgression linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    1.4.1 Vrification des hypothses du modle linaire . . . . . . . . . . . . . . . . . . . . . . . . 111.4.1.1 Normalit et homoscdasticit des rsidus . . . . . . . . . . . . . . . . . . . . . 111.4.1.2 Test de non corrlation des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . 11

    1.4.2 Tests de la nullit des paramtres du modle . . . . . . . . . . . . . . . . . . . . . . . . . . 111.4.3 Analyse de variance de la rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    1.5 Prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.6 Dtection dobservations atypiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    1.6.1 Effet levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.6.2 Etude des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.6.3 Distance de Cook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    1.7 TP 1 : Rgression linaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.7.1 Revenus immobiliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    Analyse prliminaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14Premire modlisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14Seconde modlisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2 Rgression linaire multiple 172.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 Estimation des paramtres du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.2.1 Estimation par moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2.2 Estimation par maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2.3 Tests sur le modle linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.3.1 Tests sur les paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.3.2 Analyse de variance de la rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    2.4 Prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.5 Slection de variables et choix de modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    2.5.1 Critres de comparaison de modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.5.1.1 Limitation du coefficient de dtermination R2 . . . . . . . . . . . . . . . . . . . 202.5.1.2 Coefficient de dtermination ajust R2 . . . . . . . . . . . . . . . . . . . . . . . 202.5.1.3 Critre de validation croise : PRESS (ou CVSS) . . . . . . . . . . . . . . . . . 212.5.1.4 Cp de Mallows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5.1.5 Critre AIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5.1.6 Critre baysien BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.5.2 Algorithme de slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5.2.1 Recherche exhaustive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5.2.2 Recherche descendante pas pas . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5.2.3 Recherche ascendante pas pas . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.5.2.4 Recherche stepwise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.5.2.5 Algorithme de Furnival et Wilson . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3

  • 4 TABLE DES MATIRES

    2.6 Multicolinarit des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22Matrice de corrlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22Facteur dinflation de la variance VIF . . . . . . . . . . . . . . . . . . . . . . . . . 22Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    2.7 TP 2 : Rgression linaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.7.1 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.7.2 Donnes relles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    Modle complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24Recherche dun modle parcimonieux . . . . . . . . . . . . . . . . . . . . . . . . . 24Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3 Analyse de variance et de covariance 253.1 Analyse de variance un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2 Graphiques prliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    3.2.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.2 Estimation des effets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2.3 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    Comparaison des moyennes deux deux . . . . . . . . . . . . . . . . . . . . . . . 283.2.4 Contrle des hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3.3 Analyse de variance deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    Effet dinteraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3.2 Estimation des effets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3.3 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    3.4 Problmes spcifiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.4.1 ANOVA pour mesures rptes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.4.2 Plan sans rptition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.4.3 Plans dsquilibrs ou incomplets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    3.5 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.5.1 Graphiques prliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.5.2 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.5.3 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    3.6 TP 3 : Analyse de variance et de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.6.1 Analyse de variance deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.6.2 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.6.3 Analyse de variance mesures rptes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    3.7 Un exemple dapplication de lANOVA et lANCOVA . . . . . . . . . . . . . . . . . . . . . . . . 34

    4 Rgression logistique 374.1 Le modle logistique dichotomique (K=2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    4.1.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.1.2 Odds et odds-ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.2 Estimation des paramtres et prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    4.2.1 Estimation des j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.2.2 Estimation des odds-ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.2.3 Redressement dans le cas dune modalit rare . . . . . . . . . . . . . . . . . . . . . . . . . 404.2.4 Prvisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    4.2.4.1 Classement dune nouvelle observation . . . . . . . . . . . . . . . . . . . . . . . 404.2.4.2 Notions de score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.2.4.3 Tableau de classement ou matrice de confusion . . . . . . . . . . . . . . . . . . . 40

    Sensibilit et spcificit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3 Tests, intervalles de confiance et choix de modle . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    4.3.1 Tests sur j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.3 Choix de modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

  • 4.3.3.1 Algorithme de slection de variables . . . . . . . . . . . . . . . . . . . . . . . . 424.3.3.2 Critres de choix de modles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    4.4 Un outil dinterprtation : la courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.5 Le modle logistique polytomique (K>2) et ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . 434.6 TP 4 : Rgression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    4.6.1 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.6.2 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.6.3 Cancer de la prostate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    5 Analyse discriminante probabiliste 475.1 Formalisme de la discrimination probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    5.1.1 Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Proportion dune classe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Densit conditionnelle une classe . . . . . . . . . . . . . . . . . . . . . . . . . . 47Densit marginale de X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Probabilit conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    5.1.2 Rgle daffectation et probabilit derreur . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.1.3 Rgle de classement optimale de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    Cas de lgalit des cots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49Cas de deux classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    5.2 Discrimination paramtrique gaussienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.2.1 Rgle de classement thorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.2.2 Taux derreur thorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.2.3 Estimation de la rgle de classement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.2.4 Estimation du taux derreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    Taux derreur apparent ea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51Mthode de la partition ep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52Mthode de la validation croise ecv . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    5.2.5 Slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.2.6 Choix de modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    5.3 Analyse discriminante pour variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.4 Mise en oeuvre informatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

    5.4.1 SAS : PROC DISCRIM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.4.2 R : fonctions lda et qda du package MASS . . . . . . . . . . . . . . . . . . . . . . . . . 53

    5.5 TP 5 : Analyse discriminante probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.5.1 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.5.2 Iris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    6 Annexes 556.1 Drives de matrice et de vecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.2 Lois de probabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    6.2.1 Loi multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.2.2 Loi gaussienne multivarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

  • 6 TABLE DES MATIRES

  • Introduction

    Pr-requis : la matrise des cours de Probabilits et de Statistique Infrentielle (disponible en ligne sur mon site)de troisime anne GIS est indispensable la bonne comprhension de ce cours.

    Les modlesDans ce cours nous chercherons modliser une variable Y (variable expliquer, rponse) en fonction dune ou

    plusieurs variables explicativesX1, . . . , Xp (covariables). Lorsque Y sera quantitative (montant dpargne investit,dure de rmission dune maladie...), nous parlerons de rgression ou encore danalyse de variance (ou covariance)selon la nature des variables explicatives, qui peuvent tre rassembles sous lappellation modle linaire.Lorsque Y est une variable alatoire qualitative (dfaut de remboursement, achat dun produit...), nous parleronsgnralement de classification, supervise lorsque lon dispose dobservation de Y , et non supervise dans le cascontraire. Nous verrons dans ce cours deux mthodes de classification supervise : la rgression logistique, qui estune extension du modle linaire la famille des modles linaires gnraliss, ainsi que lanalyse discriminanteprobabiliste. Ces notions sont reprises dans la Table 1.

    Variable expliquer Variables explicatives Nom de lanalyse1 quantitative 1 quantitative rgression simple (Section 1)1 quantitative plusieurs quantitatives rgression multiple (Section 2)1 quantitative plusieurs qualitatives analyse de variance (Section 3)1 quantitative plusieurs qualitatives et quantitatives analyse de covariance (Section 3.5)1 qualitative plusieurs quantitatives et qualitatives rgression logistique (Section 4)1 qualitative plusieurs quantitatives (voir quali.) analyse discriminante probabiliste (Section 5)

    TAB. 1 Les diffrentes techniques de modlisation tudies dans ce cours

    Remarque. Concernant la classification supervise, il existe bien dautres mthodes que les deux mthodes abor-des dans ce cours :

    lanalyse factorielle discriminante qui est une mthode gomtrique cherchant construire de nouvelle va-riables discriminant au mieux les classes (cours Statistique Exploratoire GIS4)

    la mthode des k plus proches voisins, les arbres de dcisions (cours Modlisation Avance GIS4), ou encore des mthodes qui estiment directement la frontire de classification (SVM, rseaux de neurones).

    ObjectifsLes objectifs dune modlisation statistique peuvent tre de diffrentes natures, que lon peut tenter de rpartir

    en deux classes, les objectifs prdictifs et les objectifs explicatifs : prdictifs : prvoir partir des renseignements dont on dispose sur un client (ge, catgorie CSP, salaire,

    situation familiale, statut dans son habitation actuelle...) sil va ou non souscrire un crdit la consommationqui lui est propos. Ces prvisions peuvent galement permettre de cibler les bons clients qui proposer cecrdit.

    descriptifs slection des variables pertinentes : parmi lge dun patient, son poids, son taux de cholestrol, le nombre

    de cigarettes fumes par jour (...), quelles sont les variables qui influent significativement sur la survenuedun cancer des poumons ?

    7

  • 8 TABLE DES MATIRES

    forme du modle : comment le montant de lpargne dun client volue-t-il en fonction de son salaire ?

    Les tapesLes diffrentes tapes dune modlisation statistique sont les suivantes

    (i) identifier le problme pour choisir le modle statistique utiliser (en fonction de la nature de Y , de X , desrsultats attendus...),

    (ii) choisir les variables pertinentes (par des tudes pralables de corrlation par exemple, mais pas seulement),(iii) estimer les paramtres du modle (gnralement par maximum de vraisemblance),(iv) valuer la qualit de la modlisation obtenue (tests statistiques), lapport des diffrentes variables, et ven-

    tuellement revenir au point (ii) pour remettre en cause le choix des variables, voir en (i) si cest le modle quidoit tre remis en cause,

    (v) utiliser enfin le modle pour rpondre aux objectifs voulus.

  • Chapitre 1

    Rgression linaire simple

    Logiciel R : fonction lm.Logiciel SAS : proc reg.

    1.1 Le modle thoriqueSoit Y etX deux variables alatoires gaussiennes. Lobjectif de la rgression linaire est de modliser la variable

    alatoire Y par une certaine fonction de X , f(X), qui soit la meilleure possible au sens de lerreur quadratiquemoyenne E[(Y f(X))2]. Nous avons vu en cours de probabilit que la fonction minimisant cette erreur ntaitrien dautre que lesprance de Y conditionnellement X : E[Y |X ].Dans le cas de variables gaussiennes, le calcul de lesprance conditionnelle donne le rsultat suivant :

    E[Y |X = x] = 0 + 1x

    o

    0 = E[Y ] 1E[X ] et 1 = Cov(X,Y )V (X)

    La meilleure fonction de X permettant de modliser Y est alors une fonction affine ou linaire de X , do le nomde rgression linaire.Ceci constitue le postulat de base de la rgression linaire. Nous chercherons dans ce chapitre modliser Y parune fonction linaire de X , qui est la meilleure modlisation possible lorsque les variables sont gaussiennes.Il conviendra donc en pratique de sassurer de la normalit des variables (avec un test de Shapiro-Wilk) avantdeffectuer une rgression linaire. Si une variable nest pas gaussienne, nous chercherons la transformer de sortequelle soit la plus gaussienne possible.

    Remarque 1.1.1. Si X et Y sont indpendantes, leur covariance est nulle et donc 1 galement. La meilleuremodlisation de Y que lon peut avoir en fonction de X nest alors que E[Y ].

    1.2 Le modle statistiqueSoit un chantillon (Xi, Yi)i=1,n dobservations indpendantes et identiquement distribues.

    On suppose dans ce cours que les Xi sont dterministes, fixs par lexprimentation, mais cela ne change rien aumodle et aux estimations si les Xi sont alatoires.Le modle de la rgression linaire suppose :

    Yi = 0 + 1Xi + i (1.1)

    o 0 (appel intercept) et 1 sont des paramtres fixs du modle (0, 1 R), que nous chercherons estimerpar la suite, et o les rsidus i vrifient :

    E[i] = 0,

    9

  • 10 CHAPITRE 1. RGRESSION LINAIRE SIMPLE

    V (i) = 2 (2 tant galement un paramtre du modle). On dit dans ce cas que les rsidus sont homosc-

    dastiques (i.e. variance constante), Cov(i, j) = 0 si i 6= j (ce qui implique la non corrlation des rsidus).

    Ces hypothses sont gnralement appeles hypothses faibles. Les hypothses fortes supposent en plus la nor-malit des rsidus (ce qui implique donc leur indpendance puisquils sont non corrls), qui nous permettra par lasuite deffectuer des tests sur le modle de rgression linaire.Dun point de vue matriciel, le modle de rgression linaire scrit :

    Y1...

    Yn

    =

    1 X1..

    .

    .

    .

    .

    1 Xn

    [ 01

    ]+

    1..

    .

    n

    (1.2)

    Y = X + (1.3)

    1.3 Estimation des paramtresComme nous le verrons dans le cas de la rgression multiple, lestimation par maximum de vraisemblance

    sous les hypothses fortes est quivalente lestimation par moindres carrs (hypothses faibles). Dans le cadre delestimation par moindres carrs, nous cherchons minimiser les carts entre les valeurs prdites

    Y = X (1.4)et les valeurs observes Y. Nous choisissons traditionnellement le carr de la norme euclidienne comme mesure delcart :

    D() = ||Y Y||22 =ni=1

    (Yi 0 Xi1)2 =ni=1

    2i . (1.5)

    La minimisation de D() suivant 0 et 1 conduit aux estimateurs suivant :

    0 = Y 1X, 1 = SXYS2X

    .

    o classiquement X = 1nn

    i=1Xi, Y =1n

    ni=1 Yi, S

    2X =

    1n1

    ni=1(Xi X)2, S2Y = 1n1

    ni=1(Yi Y )2 et

    SXY =1

    n 1ni=1

    (Xi X)(Yi Y ).

    On montre que ces estimateurs de 0 et 1 sont des estimateurs sans biais, et de variance minimale parmi lesestimateurs fonctions linaires des Yi (resp. parmi tous les estimateurs dans le cas gaussien).

    A chaque valeur Xi de X correspond donc une valeur prdite Yi de Y :

    Yi = 1Xi + 0.

    Lcart entre cette prdiction Yi et Yi est appel rsidu : i = Yi Yi.La variance rsiduelle 2 est estime par :

    S2 =1

    n 2ni=1

    2i .

    Remarque. Lutilisation du modle linaire dpasse le cadre simple dune relation linaire entre X et Y . En effet,de nombreux modles non linaires se ramnent facilement au modle linaire par des transformations simples :

    le modle Y = X trs utilis en conomtrie (lasticit constante de Y par rapport X) devient unmodle linaire en tudiant le logarithme des variables

    le modle croissance exponentielle Y = eX devient un modle linaire en travaillant avec ln(Y ) ... et bien dautre.

    Un simple nuage de points (Xi, Yi) pourra aider identifier une relation non linaire.

  • 1.4. TESTS SUR LE MODLE DE RGRESSION LINAIRE 11

    1.4 Tests sur le modle de rgression linaireUne fois le modle de rgression linaire estim, il convient dans un premier temps de vrifier si les hypothses

    faites lors de lestimation par moindres carrs sont respectes (normalit des variables ou des rsidus, non corr-lation des rsidus, homoscdasticit des rsidus). Dans un second temps, nous testerons la validit du modle dergression et valuerons sa qualit.Nous nous plaons cette fois dans le cas des hypothses fortes.

    1.4.1 Vrification des hypothses du modle linaire1.4.1.1 Normalit et homoscdasticit des rsidus

    Lhypothse de normalit des rsidus peut tre teste par un test classique de normalit comme le test de Shapiro-Wilk.Lhomoscdasticit peut quant elle tre vrifie visuellement en reprsentant le nuage des rsidus (Xi, ti), o tisont une normalisation des rsidus (rsidus studentiss, dfinis au paragraphe 1.6.2). Ce nuage de point devrait serpartir uniformment de part et dautre de laxe des abscisses si les rsidus ont bien une variance constante.

    FIG. 1.1 Homoscdasticit des rsidus.

    1.4.1.2 Test de non corrlation des rsidus

    Les proprits de lestimation par moindres carrs reposent notamment sur lhypothse de non corrlation desrsidus. Le test de Durbin-Watson permet de vrifier que les i ne sont pas corrls. La statistique utilise est

    d =

    ni=2(i i1)2n

    i=1 2i

    qui doit tre proche de 2 si les rsidus sont non corrles. Cette statistique ne suit pas de loi particulire, mais sesvaleurs critiques ont t tabules.

    1.4.2 Tests de la nullit des paramtres du modleSous lhypothse de normalit des rsidus, les estimateurs 0 et 1 des paramtres 0 et 1 suivent des lois

    normales

    1 N(1,

    2

    (n 1)S2X

    ),

    0 N(0,

    2

    n+

    2X2

    (n 1)S2X

    ),

    dont on estime la variance en remplaant 2 par son estimation S2 .On peut montrer que

    n 22

    S2 2n2et que

    1 1S

    1(n1)S2

    X

    tn2 et 0 0S

    1n +

    X2

    (n1)S2X

    tn2.

  • 12 CHAPITRE 1. RGRESSION LINAIRE SIMPLE

    Ceci permet donc de construire des intervalles de confiance et de tester la nullit de chacun des deux paramtres. Anoter que le test portant sur 1 est quivalent au test sur le coefficient de corrlation linaire entre X et Y .

    1.4.3 Analyse de variance de la rgressionIl est dusage de dcomposer la variance totale en la variance explique par la rgression et la variance rsiduelle.

    La somme des carrs totale (SST) se dcompose en la somme des carrs expliqus par la rgression (SSReg) et lasomme des carrs rsiduelles (SSR) :

    (n 1)S2Y SST

    = (n 1)S2XY

    S2X SSReg

    +(n 2)S2 SSR

    SST SSReg SSRvariance variance variancetotale explique rsiduelle

    FIG. 1.2 Analyse de variance de la rgression.

    Le coefficient de dtermination R2 :

    R2 = 2XY =S2XYS2XS

    2Y

    =SSReg

    SST

    exprime le rapport entre la variance explique par le modle de rgression et la variance totale (XY tant lecoefficient de corrlation linaire entre X et Y ). Il est compris entre 0 et 1 et est un bon indicateur de la qualit dela rgression, quoi que trs subjectif.Sous lhypothseH0 de non rgression linaire (1 = 0), la statistique suivante

    F = (n 2) R2

    1R2 = (n 2)SSReg

    SSR

    suit une loi de Fisher F1,n2.

    1.5 PrdictionPour une valeur donne x de X , la prdiction de Y est

    y = 1x + 0.

    On peut dfinir deux intervalles de confiance de prdiction partir de cette valeur ponctuelle :

    IC1(E[Y |X = x]) =[y + tn2,2

    1

    n+

    (x X)2(n 1)S2X

    ; y tn2,2

    1

    n+

    (x X)2(n 1)S2X

    ]

    IC1(y) =

    [y + tn2,2

    1 +

    1

    n+

    (x X)2(n 1)S2X

    ; y tn2,2

    1 +

    1

    n+

    (x X)2(n 1)S2X

    ]

  • 1.6. DTECTION DOBSERVATIONS ATYPIQUES 13

    1.6 Dtection dobservations atypiquesLes mthodes destimation utilises sont trs sensibles aux observations atypiques (outliers). Nous proposons

    dans cette section quelques outils permettant de dtecter de telles observations.Une fois ces observations dtectes, il ny a pas de remde universel : supprimer une valeur aberrante, sonder si elleest due une erreur de mesure, ne rien faire... Tout dpend du contexte et doit tre ngoci avec le commanditairede ltude.

    1.6.1 Effet levierUne premire faon de dtecter un individu atypique est de mesurer limpact de lobservation Yi sur la dtermi-

    nation de Yi. Pour cela, on montre quil est possible dcrire

    Yi =

    nj=1

    hijYj o hij =1

    n+

    (Xi X)(Xj X)nj=1(Xj X)2

    .

    Les hij forment la matrice H appele hat matrix. Les termes diagonaux hii mesurent limpact de Yi dans les-timation Yi. Cet impact est directement li lloignement de lobservation Xi la moyenne des observationsX .

    1.6.2 Etude des rsidusDiffrents types de rsidus peuvent tre considrs. rsidus : i = Yi Yi rsidus standardiss (interne) : les rsidus bruts i nayant pas la mme variance, on calcule des versions

    standardises ri afin de les rendre comparables :

    ri =i

    S1 hii

    rsidus studentiss (externe) : une autre standardisation (externe) des rsidus permet dobtenir des rsidus tisuivant une loi de Student :

    ti =i

    S(i)1 hii

    o S(i) est une estimation de la variance rsiduelle ne prenant pas en compte la iime observation (contrai-rement S ci-dessus) :

    S(i) =n 2n 3S

    1

    n 32i

    1 hii .

    En pratique, une observation sera considre comme atypique (vis--vis de son loignement X) si sonrsidu Studendis dpasse les bornes2.

    1.6.3 Distance de CookLes deux indicateurs prcdents sintressent lloignement dune observation la moyenne et limportance

    des rsidus. La distance de Cook est un indicateur synthtisant ces deux informations, construit en comparant lesprdictions obtenues avec et sans la iime observation :

    Di =

    nj=1(Yj(i) Yj)2

    2S2=

    hii2(1 hii)r

    2i

    o Yj(i) est lestimation de Yj obtenue sans utiliser la iime observation (Xi, Yi).Une stratgie de dtection classique consiste dans un premier temps reprer les points atypiques en comparant lesdistances de Cook la valeur 1, puis expliquer cette influence en considrant, pour ces observations, leur rsiduainsi que leur effet levier.

  • 14 CHAPITRE 1. RGRESSION LINAIRE SIMPLE

    1.7 TP 1 : Rgression linaire simpleSimulationCet exercice est raliser sous R.On considre dans cet exercice le modle de rgression simple suivant

    yi = 0 + 1xi + i i = 1, . . . , n

    avec i N (0, 2). On choisit 0 = 3 et 1 = 2. Les xi sont supposs tre rpartis uniformment sur lintervalle[0, 1].

    (i) Simuler les couples (xi, yi)i=1,...,n pour une taille dchantillon n = 10 et une variance rsiduelle 2 = 1.Stocker vos rsultats dans deux vecteurs x et y.

    (ii) Dans lcriture matricielle du modle de rgression Y = X + avec = (0, 1), comment est dfinie lamatrice X ? Construisez-la partir de votre vecteur x.

    (iii) Nous avons vu en cours que le meilleur estimateur de tait = (XX)1XY. Calculer cet estimateur.Que pensez-vous de vos rsultats ? Recommencez la simulation et lestimation plusieurs fois.Indication : la fonction solve(A) sous R permet de calculer linverse de la matrice A.

    (iv) Reprsentez graphiquement le nuage de point (fonction plot) ainsi que la droite de rgression (avec lafonction lines puis avec la fonction abline).

    (v) Estimer la variance rsiduelle 2.(vi) Calculer un intervalle de confiance sur 0 et 1, de niveau 95%.

    (vii) Crer une fonction mylm(x,y,plot,alpha), qui pour un vecteur x et y effectue la rgression de y surx. La fonction devra retourner les estimations des coefficients 0 et 1, des intervalles de confiance sur cesderniers de niveau alpha, lestimation de la variance rsiduelle, ainsi quune reprsentation graphique dunuage de point et de la rgression lorsque loption plot est TRUE.

    (viii) Recommencer avec une taille dchantillon de 100, 1000.(ix) Retrouvez vos rsultats avec la fonction lm de R :

    res=lm(yx)summary(res)Explorer toutes les informations que contient le rsultat dune procdure lm laide de la fonction str :str(res)

    1.7.1 Revenus immobiliersCet exercice est raliser sous SAS.Le fichier immeublesUSA.dat contient pour 47 immeubles dappartements locatifs dune grande ville amri-caine, le revenu net en fonction du nombre dappartements (Jobson, 1991). Lobjectif est de modliser le revenu netdes immeubles (premire colonne) en fonction du nombre dappartements (seconde colonne), par une rgressionlinaire.

    Analyse prliminaire(i) Reprsenter graphiquement les variables (histogramme, boxplot), et donner une estimation de la densit par

    la mthode du noyau.(ii) Les variables vous semblent-elles gaussiennes ?

    (iii) Refaire la mme chose en transformant les variables (log et racine). Quelles variables choisir pour notrergression linaire ?

    Premire modlisation On considre le modle revenu = 0 + 1nb_appart.(i) Estimer les paramtres du modle.

    (ii) Reprsenter le nuage de points ainsi que la droite de rgression.(iii) Effectuer des tests de significativit des paramtres.(iv) Calculer les rsidus studentiss ainsi que la distance de Cook. Quel est votre diagnostic ?

  • 1.7. TP 1 : RGRESSION LINAIRE SIMPLE 15

    Seconde modlisation On considre le modle log(revenu) = 0 + 1log(nb_appart).(i) Estimer les paramtres du modle.

    (ii) Reprsenter le nuage de points ainsi que la droite de rgression.(iii) Effectuer des tests de significativit des paramtres.(iv) Calculer les rsidus studentiss ainsi que la distance de Cook. Quel est votre diagnostic ?(v) Comparer la qualit dajustement des deux modles, et conclure.

  • 16 CHAPITRE 1. RGRESSION LINAIRE SIMPLE

  • Chapitre 2

    Rgression linaire multiple

    Logiciel R : fonction lm.Logiciel SAS : proc reg.

    Nous cherchons dsormais expliquer une variable alatoire quantitative Y en fonction de p variables explica-tives X1, . . . , Xp, toutes quantitatives. Nous supposons toujours que les variables explicatives sont dterministes,mais encore une fois cela ne change rien au modles et aux estimations.

    2.1 Le modleSoit un chantillon (Xi1, . . . , Xip, Yi)i=1,n dobservations indpendantes et identiquement distribues.

    Le modle de la rgression linaire suppose :

    Yi = 0 +

    pj=1

    jXij + i (2.1)

    o = (0, 1, . . . , p) sont les paramtres rels du modle estimer, et o les rsidus i vrifient comme pour largression simple les hypothses faibles :

    E[i] = 0, V (i) =

    2,

    Cov(i, j) = 0 si i 6= j.Nous rappelons que les hypothses fortes supposent de plus la normalit des rsidus (ce qui implique donc leurindpendance puisquils sont non corrls).Lcriture matricielle du modle (2.1) est la suivante :

    Y1..

    .

    Yn

    =

    1 X11 . . . X1p..

    .

    .

    .

    .

    .

    .

    .

    1 Xn1 . . . Xnp

    01.

    .

    .

    p

    +

    1..

    .

    n

    (2.2)

    Y = X + (2.3)

    La matrice X, dterministe, est souvent appele matrice de design.

    2.2 Estimation des paramtres du modle2.2.1 Estimation par moindres carrs

    On se place sous les hypothses faibles. Nous cherchons minimiser les carts entre les valeurs prdites

    Y = X (2.4)

    17

  • 18 CHAPITRE 2. RGRESSION LINAIRE MULTIPLE

    et les valeurs observes Y. Nous choisissons traditionnellement le carr de la norme euclidienne comme mesure delcart :

    D() = ||Y Y||22 =ni=1

    2i . (2.5)

    Lestimateur par moindres carrs du paramtre est donc :

    = argmin

    D(). (2.6)

    En dveloppant D() et en prenant le gradient, on obtient

    = (XX)1XY. (2.7)Exercice. Faire la dmonstration de lquation (2.7). Montrer galement que lon a bien un minimum de D().Remarque 2.2.1. Notation : la hat matrix dfinie dans le chapitre prcdent comme la matrice H telle que Y =HY est donc H = X(XX)1X.

    Remarque 2.2.2. Nous avons suppos que XX tait inversible, ce qui est le cas ds que X est de rang p+ 1. Sereporter au paragraphe 2.6 pour le cas contraire.

    Proprit 2.2.1. est un estimateur sans biais de .

    Exercice. Faire la preuve.

    Proprit 2.2.2. est lestimateur de variance minimale parmi les estimateurs de sans biais et linaires en Y .Sa variance est V () = 2(XX)1

    Lestimateur non biais de 2 sera quant lui :

    2 =||Y Y||22n p 1 . (2.8)

    On notera quil est fonction de .

    2.2.2 Estimation par maximum de vraisemblanceOn se place sous les hypothses fortes, cest--dire que les erreurs i sont supposes gaussiennes. Nous avons

    donc

    Y N (X, 2In) (2.9)do la vraisemblance du modle de rgression linaire :

    L(, 2) =1

    (22)n

    exp{ 122

    ||Y X||22} (2.10)

    On montre facilement, aprs passage la log-vraisemblance, que la maximisation de (2.10) en fonction de conduit lestimateur (2.7). Quant 2, la maximisation conduit un estimateur biais auquel nous prfrerons sa versionnon biaise (2.8).Exercice. Faire la preuve.

    Proprit 2.2.3. Les estimateurs du maximum de vraisemblance de et 2 sont efficaces (de variance minimale).De plus, ils sont indpendants et leur lois sont :

    = (XX)1XY N (, 2(XX)1) (2.11)et

    (n p 1) 2

    2 2np1 (2.12)

  • 2.3. TESTS SUR LE MODLE LINAIRE 19

    2.3 Tests sur le modle linaireComme pour le modle linaire simple, les hypothses de rgression linaire doivent tre vrifies (normalit

    des variables ou des rsidus, non corrlation des rsidus, homoscdasticit des rsidus). La dmarche est identique celle de la rgression simple (paragraphe 1.4.1).Nous nous plaons dans le cadre des hypothses fortes.

    2.3.1 Tests sur les paramtresPour chaque paramtre j , on peut montrer que son estimateur suit une loi de Student :

    j jj

    tnp1 (2.13)

    o 2j

    est lestimation de la variance de lestimateur, gale au (j + 1)ime terme de la diagonale de la matrice2(XX)1. A partir de cette statistique, il est possible de tester un un la nullit des diffrents paramtres dumodle de rgression linaire multiple (penser matriser les risques encourus par une correction de Bonferroni parexemple), ou de construire des intervalles de confiance sur ces paramtres, trs utiles lors de la phase dinterprtationdu modle.

    Remarque. Les estimateurs des diffrents paramtres ntant pas indpendants, il est possible de tester la nullitde chaque paramtre sparment mais il ne faut rien en conclure conjointement.

    2.3.2 Analyse de variance de la rgressionComme dans le cas de la rgression simple (paragraphe 1.4.3), il est possible de tester globalement le modle

    (H0 : 1 = . . . = p = 0) par une analyse de variance du modle de rgression. Cela consiste dcomposer ladispersion totale (SST ) en une part de dispersion explique par le modle de rgression (SSReg) et une part dedispersion rsiduelle (SSR)

    ||Y Y||22 SST

    = ||Y Y||22 SSReg

    + ||Y Y||22 SSR

    . (2.14)

    Lanalyse de variance de la rgression est gnralement prsente dans un tableau danalyse de variance

    Source Somme degrs de carr Fdes carrs libert moyen

    Rgression SSReg p MSReg = SSReg/p F = MSRegMSRErreur SSR n p 1 MSR = SSR/(n p 1)Total SST n 1

    La statistique F = MSRegMSR , qui sous H0 suit une loi de Fisher p et np1 degrs de libert, permet de testercette hypothse.

    Remarque. La statistique F est lie au coefficient de dtermination par F = R21R2 np1p .

    2.4 PrdictionPour une valeur x = (1, x1, . . . , xp) de X , la prvision de Y sera donne par

    y = x. (2.15)

    Un intervalle de confiance de niveau 1 pour la valeur y sera construit partir de cette prvision ponctuelle :

    x tnp1,1/21 + x(XX)1x. (2.16)

  • 20 CHAPITRE 2. RGRESSION LINAIRE MULTIPLE

    2.5 Slection de variables et choix de modleParmi lensemble des p variables disponibles, toutes nont pas ncessairement un intrt dans la modlisation

    de Y , et il peut alors tre nfaste de les utiliser. De plus, il est possible dhsiter entre lutilisation dune variableXj ou une certaine transformation de cette variable (lnXj ,X2j ...). Nous sommes alors en prsence de diffrentsmodles possibles parmi lesquels il faut faire un choix.Intuitivement, le fait de ne pas utiliser assez de variables ou bien de trop en utiliser, conduit une mauvaise esti-mation de lesprance conditionnelle h(X) = E[Y |X ], note h(X). Il est possible de dfinir comme mesure de laqualit de lestimation h(X), la moyenne des erreurs quadratiques moyennes (MEQM ) :

    MEQM =1

    n

    ni=1

    E[(h(Xi) h(Xi))2] (2.17)

    =1

    n

    ni=1

    V (h(Xi))

    variance

    +(E[h(Xi)] h(Xi) biais

    )2

    (2.18)

    =1

    n

    ni=1

    V (h(Xi)) moyenne des variances

    +1

    n

    ni=1

    (E[h(Xi)] h(Xi))2 moyenne des biais

    (2.19)

    Un modle trop peu complexe (pas assez de variables) aura un biais fort (et une variance faible), trop complexe (trop de variables) aura une variance forte (et un biais faible),

    tout lintrt tant davoir un modle ayant un MEQM le plus faible possible, cest--dire ralisant le meilleurcompromis biais/variance possible.Malheureusement ce critre thorique nest pas calculable en pratique (h(X) inconnue) et des critres approximatifsdoivent tre utiliss.

    2.5.1 Critres de comparaison de modleRemarque. La slection de variables par tests dhypothses (paragraphe 2.3.1) nest pas pertinente pour deuxraisons : le grand nombre de tests effectuer rend peu puissante la stratgie globale, et cette stratgie nest appli-cable que pour comparer des modles emboits (lensemble des variables dun modle doit tre inclus dans celuide lautre).Remarque. Lorsque lchantillon dont on dispose est de trs grande taille, une faon simple dvaluer la qualitdun modle, et donc de choisir parmi plusieurs modles candidats, est de sparer lchantillon global en une partieapprentissage (2/3 de lchantillon global) et une partie test (le 1/3 restant) servant lvaluation (par calcul dela somme des carrs des erreurs par exemple). Malheureusement, les chantillons sont souvent de tailles rduites,et ce procd nest pas toujours applicable.

    Nous prsentons ci-aprs plusieurs critres valuant la qualit dun modle utilisant d variables parmi les pdisponibles (d p)

    2.5.1.1 Limitation du coefficient de dtermination R2

    Le coefficient de dtermination est une fonction croissante de la complexit du modle. Il conduira donc toujours choisir le modle qui pouse le mieux les donnes, autrement dit le modle le plus complexe. Son utilisation nestdonc pas recommande sauf dans le cas de modle nombres de variables identiques.

    2.5.1.2 Coefficient de dtermination ajust R2

    A partir du coefficient de dtermination R2 = 1 SSRSST on dfinit le coefficient de dtermination ajust :

    R2 =(n 1)R2 dn d 1 (2.20)

  • 2.5. SLECTION DE VARIABLES ET CHOIX DE MODLE 21

    qui consiste pnaliser R2 par laugmentation du nombre d de variables utilises.Attention : il peut prendre parfois des valeurs ngatives.

    2.5.1.3 Critre de validation croise : PRESS (ou CVSS)La somme des carrs rsiduelles

    ni=1

    2i souffre du mme problme que le coefficient de dtermination. En no-

    tant 2(i) le iime rsidu obtenu en estimant les paramtres du modle de rgression sans utiliser la iime observation,le critre PRESS :

    PRESS =ni=1

    2(i), (2.21)

    permet de slectionner les modles ayant un bon pouvoir prdictif (on veut le PRESS le plus petit).Bien qutant un des critres privilgier, ce critre peut parfois tre lourd calculer pour des modles complexes,et on lui prfrera souvent dans ce cas les critres ci-dessous dont le calcul est immdiat.

    2.5.1.4 Cp de Mallows

    Dans le cas dun modle d+ 1 variables (intercept 0 y compris), un estimateur de MEQM2 est donn par

    Cp =SSRd+1

    2c+ 2(d+ 1) n (2.22)

    o SSRd+1 est la somme des carrs rsiduelles pour le modle restreint d+ 1 prdicteurs, 2c est lestimateur de 2 obtenu par le modle le plus complexe.

    Selon ces critres, les sous-ensembles de d + 1 variables fournissant des Cp proches de d + 1 sont de bons sous-ensembles. Parmi ceux-ci, plus Cp est grand, moins bon est le sous-ensemble.

    2.5.1.5 Critre AIC

    Lutilisation de la vraisemblance souffre galement du mme problme que le coefficient de dtermination. Lecritre AIC pnalise la log-vraisemblance du modle par son nombre de variables :

    AIC = 2l+ 2(d+ 1) (2.23)o l est le maximum de la log-vraisemblance. Ce critre est proche du Cp de Mallows.On retient le modle ayant le plus petit AIC.

    2.5.1.6 Critre baysien BIC

    Dorigine thorique diffrente, le critre BIC pnalise de faon un peu plus forte la log-vraisemblance :

    BIC = 2l+ (d+ 1) ln(n). (2.24)On retient galement le modle ayant le plus petit BIC.

    2.5.2 Algorithme de slection de variablesOn recherche le meilleur sous-ensemble de variables au sens dun des critres prcedents.

    2.5.2.1 Recherche exhaustive

    La faon la plus simple de faire est de tester tous les sous-ensembles de variables possibles. Mais cela devientvite impossible lorsque p est grand.

    2.5.2.2 Recherche descendante pas pas

    On part de toutes les variables et on limine celle qui provoque la plus faible diminution du R2. On fait celajusqu liminer toutes les variables, et le nombre de variables est ensuite choisi par un des critres prcdents.

  • 22 CHAPITRE 2. RGRESSION LINAIRE MULTIPLE

    2.5.2.3 Recherche ascendante pas pas

    On procde de faon inverse : on part du meilleur modle une variable et on introduit ensuite les variables une une.

    2.5.2.4 Recherche stepwise

    Cest une recherche ascendante, qui de plus, effectue chaque pas un test de significativit de toutes les variablesutilises ltape courante pour ventuellement en liminer. Lalgorithme sarrte lorsquon ne peut plus ni ajouterni supprimer de variables.

    2.5.2.5 Algorithme de Furnival et Wilson

    Cet algorithme est peut tre le plus efficace pour slectionner le meilleur modle pour un nombre de variables dfix. Tout lintrt de cet algorithme est de rechercher le meilleur modle (selon les critres prcdents) sans avoir explorer tous les modles possibles. Il est limit p 15 sous SAS.

    2.6 Multicolinarit des variablesLestimation des paramtres ncessite linversion de la matrice XX. Lorsque des variables sont colinaires,

    cette matrice nest pas de rang plein et nest donc pas inversible. Ceci nest rarement le cas en pratique. Par contre,il arrive frquemment que des variables soit trs corrles et donc quasi colinaires, ce qui rend le dterminentde XX proche de 0 : on dit que le systme est mal conditionn. Linversion de la matrice conduit alors desestimations ayant une variance trs importante, voir mme parfois des problmes numriques. Il est donc importantde diagnostiquer de tels problmes.Nous nous contenterons ici de donner des outils de diagnostics. Les solutions (rgression ridge, rgression surcomposante principale, seront abordes dans le cours de Modlisation avances (GIS4)).

    Matrice de corrlation Lexamen de la matrice de corrlation R permet de dtecter des fortes corrlations entredeux variables :

    R =1

    n 1S1XXS1

    o X est la matrice X sans la premire colonne de 1 et laquelle on a retranch chaque ligne le vecteur moyenX , et S la matrice diagonale contenant les carts-types empiriques des variables Xj .

    Facteur dinflation de la variance VIF On dfinit le facteur dinflation de la variance (VIF) par

    Vj =1

    1R2jo R2j est le coefficient de dtermination de la rgression de la variable Xj sur les autres variables. Sa racine carrRj est le coefficient de corrlation multiple entre Xj et les autres variables. Plus Xj est linairement proche desautres variables, plus Rj est proche de 1 et le VIF grand, et donc plus la variance de lestimateur de j est leve.Lavantage du VIF par rapport la matrice de corrlation est quil prend en compte des corrlations multiples.

    Conditionnement Soit 1, . . . , p les valeurs propres de R, classes dans lordre dcroissant. Son dterminentest gal au produit des valeurs propres, et est donc proche de 0 lorsque certaines valeurs propres sont trs petites.On dfinit lindice de conditionnement comme le rapport :

    =1p

    .

    Lorsque < 100 il ny a pas de problme, par contre lorsque > 1000 les problmes de mauvais conditionnementsont importants.

    On regardera donc dans un premier temps lindice de conditionnement, puis on se penchera sur les forts VIF encas de problme pour dtecter la source de la colinarit.

  • 2.7. TP 2 : RGRESSION LINAIRE MULTIPLE 23

    2.7 TP 2 : Rgression linaire multiple2.7.1 SimulationCet exercice est raliser sous R.On considre dans cet exercice le modle de rgression suivant

    yi = 0 + 1xi1 + 2xi2 + 3xi3 + i i = 1, . . . , n

    avec i N (0, 2). On choisit 0 = 3, 1 = 2, 2 = 2 et 3 = 1. Les xij sont supposes tre rpartisuniformment sur lintervalle [0, 1] et indpendants entre eux.

    (i) Simuler les couples (xi, yi)i=1,...,n pour une taille dchantillon n = 1000 et une variance rsiduelle 2 = 1.Stocker vos rsultats dans une matrice n 3 x et un vecteur y.

    (ii) Estimer le paramtre = (0, 1, 2, 3) par = (XX)1XY. Donner un intervalle de confiance sur cesestimations.

    (iii) Nous allons maintenant introduire une corrlation entre les variables explicatives. Pour cela, nous allonscorrler la seconde variable la premire en remplaant les xi2 par xi2 = xi1 + ui o ui N (0, 2) est unbruit de variance . Pour plusieurs valeurs de (10,1,0.1,0.01 et 0) estimer les paramtres (0, 1, 2, 3) dumodle et calculer leur variance. Quen concluez-vous ?

    (iv) Pour chaque valeur de prcdente, calculer les facteurs dinflation de la variance (VIF). Interprter lesrsultats.

    2.7.2 Donnes rellesCet exercice est raliser sous SAS.Le fichier ukcomp1.dat (Jobson, 1991) contient les rsultats comptables de 40 entreprises du Royaume-Uni.Dans ce fichier, la premire colonne est la variable RETCAP (Return on capital employed), qui est la variable quenous chercherons prdire en fonction des 12 autres variables :

    WCFTDT : Ratio of working capital flow to total debt LOGSALE : Log to base 10 of total sales LOGASST : Log to base 10 of total assets CURRAT : Current ratio QUIKRAT : Quick ratio NFATAST : Ratio of net fixed assets to total assets FATTOT : Gross sixed assets to total assets PAYOUT : Payout ratio WCFTCL : Ratio of working capital flow to total current liabilities GEARRAT : Gearing ratio (debt-equity ratio) CAPINT : Capital intensity (ratio of total sales to total assets) INVTAST : Ratio of total inventories to total assets

    Lobjectif de ce TP sera de trouver le meilleur modle de rgression en effectuant une slection parmi les 12variables explicatives disponibles.

  • 24 CHAPITRE 2. RGRESSION LINAIRE MULTIPLE

    Modle complet(i) Vrifier graphiquement que les variables ont une distribution approximativement gaussienne. Si besoin, nh-

    sitez pas en transformer certaine.(ii) Estimer un modle de rgression complet utilisant toutes les variables. Semble-t-il y avoir des points atypiques

    (rsidus studentiss, distance de Cook) ? des problmes de colinarit entre variables (VIF) ?(iii) Calculer le R2 et sa version ajuste.

    Recherche dun modle parcimonieux On appelle parcimonieux un modle dont le nombre de paramtres (etdonc ici le nombre de variables explicatives utilises) est rduit, tout en ayant un bon pouvoir prdictif.Recherche backward :

    (i) Itrer la main le processus suivant : choisir la variable dont le test de Student (H0 : j = 0) est le moins significatif (p-value la plus grande), la supprimer et r-estimer le modle.Arrter la procdure lorsque tous les coefficients sont significatifs (seuil 5%). Attention, on gardera toujourslintercept (0), qui ne doit pas tre considr comme les autres variables.

    (ii) Comparer avec la procdure automatique de SAS utilisant loption backward.(iii) Calculer les critres de choix de modles (Cp, AIC et BIC, R2 et R2 ajust) pour le meilleur modle obtenu.

    Recherche forward :(i) Itrer la main le processus suivant : commencer par introduire dans le modle la variable la plus corrle

    avec RETCAP. estimer le modle, choisir la variable la plus corrle avec les rsidus du modle prcdent.Arrter la procdure lorsque la variable ajoute nest plus significative (seuil 5% voir un peu plus).

    (ii) Comparer avec la procdure automatique de SAS utilisant loption forward(iii) Calculer les critres de choix de modles (Cp, AIC et BIC, R2 et R2 ajust) pour le meilleur modle obtenu.

    Recherche automatique par Furnival et Wilson :(i) Estimer le meilleur modle laide de lalgorithme de Furnival et Wilson.

    (ii) Calculer les critres de choix de modles (Cp, AIC et BIC, R2 et R2 ajust) et comparer avec les modlesprcdents (complets et ceux obtenus par slection forward et backward).

    Prediction Rcuprer le fichier ukcomp2.dat.(i) Estimer la variable RETCAP sur ce fichier laide du modle complet, du modle maximisant le R2 ajust,

    celui maximisant le Cp et celui maximisant BIC.(ii) Pour chaque modle, calculer la somme des carrs des erreurs de prdiction. Comparer alors les modles.

    Pour ce faire, nous vous proposons lastuce suivante (si vous avez dautres ides nhsitez pas) : Concatner les deux fichiers ukcomp1.dat et ukcomp2.dat, en appelant diffremment la variable

    RETCAP dans ces deux fichiers (RETCAP1 et RETCAP2 par exemple). Le fichier concatn contriendraainsi 80 lignes, dont les 40 premires (correspondant ukcomp1.dat) auront la variable RETCAP1renseigne tandis que RETCAP2 ne le sera pas, et vice-versa pour les 40 suivantes.

    Estimer le modles de rgression de RETCAP1 en fonction des variables explicatives retenues, et demand SAS deffectuer des prdictions (option p indiquer la suite de la ligne model). Ainsi, seules les 40premires ligne auront servies estimer le modle, car seules celles-ci ont une valeur pour RETCAP1, maisles prdictions seront faites pour les 80 lignes (pour lesquelles les variables explicatives sont renseignes).

    Il suffit ensuite de crer une variable rsidus, comme la diffrence entre la prdiction obtenues et la variableRETCAP2. Seules les 40 dernires lignes auront un rsidus car seules ces lignes disposent de RETCAP2.

    Il suffit finalement de calculer la moyenne des carrs des rsidus ( laide dune PROC MEANS parexemple).

    Remarquons quil est possible de comparer les modles sur cet chantillon puisquil na pas servi estimer lemodle (on parle dchantillon test, alors que lchantillon ukcomp1.dat ayant servi lestimation est appelchantillon dapprentissage). Au contraire, valuer des modles sur lchantillon ayant servi estimer le modleconduirait choisir un modle trop complexe : on parle de sur-apprentissage.

  • Chapitre 3

    Analyse de variance et de covariance

    Pour lANOVA :Logiciel R : fonction aov.Logiciel SAS : proc anova dans le cas de plans quilibrs (dfinition ci-aprs) ou proc glm dans le cas gnral.

    Pour lANCOVA :Logiciel SAS : proc glm.

    Lanalyse de variance (ANOVA) a pour objectif dexpliquer une variable alatoire quantitative Y partir devariables explicatives qualitatives, appeles facteurs et notes dans ce chapitre A, B ... Lobjectif est alors de com-parer les moyennes empiriques de Y pour les diffrentes modalits (ou niveaux) prises par les facteurs.

    Lorsque nous ajoutons des variables explicatives quantitatives, lanalyse sappelle analyse de covariance (AN-COVA). Lide gnrale sera de comparer pour chaque croisement de niveaux des variables qualitatives, le modlede rgression de Y sur les variables quantitatives.

    3.1 Analyse de variance un facteur

    3.2 Graphiques prliminairesUne reprsentation graphique laide de bote moustaches (boxplot) des distributions de Y correspondant

    chaque niveau dun facteur permet bien souvent de donner un premier avis sur la situation.

    3.2.1 Le modleSoit Y une variable quantitative dont on observe les valeurs pour diffrents niveaux dun facteur qualitatif A.

    On suppose disposer de J chantillons indpendants de Y de tailles n1 nJ correspondant chacun des J niveauxdu facteur A :

    Y11, Y21, . . . , Yn11 correspondant au niveau A1 du facteur A, Y12, Y22, . . . , Yn22 correspondant au niveau A2 du facteur A, . . . Y1J , Y2J , . . . , YnJJ correspondant au niveau AJ du facteur A.

    On note n =J

    j=1 nj la taille dchantillon totale.On suppose que pour chaque niveau de A, les chantillons sont i.i.d. desprance j et de variance homogne2j =

    2. On suppose ainsi que le facteur A ninflue que sur lesprance des chantillons et non sur leur variance.

    Le modle peut alors scrire :

    Yij = j + ij (3.1)o les ij sont i.i.d., desprance nulle et de variance constante 2. On supposera de plus que les ij sont gaussienspour raliser des tests sur le modle danalyse de variance. Les paramtres du modle danalyse de variance sontdonc les esprances j ainsi que la variance 2.

    25

  • 26 CHAPITRE 3. ANALYSE DE VARIANCE ET DE COVARIANCE

    Hommes separes Femmes Hommes celib. Hommes maries

    2030

    4050

    6070

    FIG. 3.1 Bote moustaches illustrant la distribution des ges des clients dune banque allemande suivant lesdiffrents statuts maritaux.

    On note respectivement

    Y.j =1

    nj

    nji=1

    Yij et Y.. =1

    n

    Jj=1

    nji=1

    Yij ,

    la moyenne empirique de lchantillon correspondant au jime niveau du facteur A et la moyenne empirique glo-bale. De mme, on dfinit la variance empirique au sein du jime niveau de A par :

    S2j =1

    nj 1nji=1

    (Yij Y.j)2.

    3.2.2 Estimation des effetsIl est possible dcrire le modle danalyse de variance comme un cas particulier de la rgression multiple, en

    considrant une variable indicatrice pour chaque niveau du facteur. Le modle scrit alors :

    Y = 01 + 111 + . . .+ J1J +

    o Y = (Y11, . . . , Yn11, Y12, . . . , Yn21, . . . , Y1J , . . . , YnJJ ) est le vecteur colonne des observations, 1 est unecolonne de 1, 1j les variables indicatrices de niveau, et enfin le vecteur colonne des ij . Ce modle scrit encore

    Y = X +

    o X = (1,11, . . . ,1J) et = (0, 1, . . . , J). Or, la matrice X nest pas de plein rang (la premire colonne estgale la somme de toutes les autres). La matrice XX nest donc pas inversible et le modle admet une infinit desolution : on dit que les paramtres j ne sont donc pas identifiables.

  • 3.2. GRAPHIQUES PRLIMINAIRES 27

    Une solution est alors de considrer un sous-ensemble de variables indicatrices de sorte rendre XX inversible.La faon la plus simple de faire est de ne pas considrer de terme constant :

    Y = 111 + . . .+ J1J + .

    On a alors j = j (1 j J), et cest le modle considr en (3.1).Le paramtre j est estim sans biais par la moyenne empirique du jime niveau :

    j = Y.j ,

    tandis que 2 est estime sans biais (sous lhypothse dhomognit des variances) par une moyenne pondre desvariances empiriques de chaque niveau :

    2 = S2 =1

    n JJj=1

    (nj 1)S2j .

    Le problme de ce modle est que les tests dcoulant consisteront tudier la nullit des paramtres tandis que noussommes intresss par tester leur galit.

    Une autre solution (base cell model, adopte par SAS) et de considrer le modleY = J

    0

    1+ (1 J) 1

    11 + . . .+ (J1 J ) J1

    1J1 + .

    Ainsi, les paramtres j estims seront des diffrences desprance, en adquation avec ce que lon cherche testerpar la suite.

    3.2.3 TestsLe principal objectif de lanalyse de variance est de tester si le facteur A a une influence sur la variable Y . Sous

    les hypothses prcdentes, le problme revient donc tester

    H0 : 1 = . . . = J = contre H1 : 1 i, l J t.q. i 6= l.On montre facilement la formule danalyse de variance :

    Jj=1

    nji=1

    (Yij Y..)2

    SST

    =

    Jj=1

    nj(Y.j Y..)2

    SSA

    +

    Jj=1

    nji=1

    (Yij Y.j)2

    SSR

    qui reprsente la dcomposition de la dispersion totale SST en la dispersion SSA due au facteur A (dispersioninter-groupe) et la dispersion rsiduelle SSR (ou dispersion intra-groupe).Exercice. crire la preuve.

    En remarquant que V 2R = SSRn =1n

    Jj=1 njV

    2j o V 2j = 1nj

    nji=1(Yij Y.j)2, on montre que n2 V 2R =

    SSR2 =

    Jj=1

    njV2j

    2 suit une loi du 2 nJ degrs de libert, car chaque njV

    2j

    2 suit une loi du 2 nj 1 degrs

    de libert.De mme, sous H0 cette fois, SST2 suit une loi du

    2 n1 degrs de libert (car sousH0 SSTn est la variance dunn-chantillon de loi N (, 2)) et SSA2 suit une loi du 2 J 1 degrs de libert (car SSAn peut tre vue commela variance pondre du J-chantillon (X1, . . . , XJ)).Lquation de lanalyse de variance revient alors 2n1 = 2J1 + 2nJ , ce qui permet en outre de conclure viale thorme de Cochran (non abord dans ce cours) que SSA et SSR sont indpendantes.La statistique du test est donc

    F =SSAJ1SSRnJ

    qui suit sous H0 une loi de Fisher-SnedecorFJ1,nJ , et on rejette lhypothseH0 si la statistique F est suprieureau quantile de la loi FJ1,nJ dordre 1 .

    Les rsultats de lanalyse de variance sont gnralement donns dans un tableau analogue celui-ci :

  • 28 CHAPITRE 3. ANALYSE DE VARIANCE ET DE COVARIANCE

    Source Somme degrs de carr Fdes carrs libert moyen

    Modle (inter) SSA J 1 MSA = SSA/(J 1) F = MSAMSRErreur (intra) SSR n J MSR = SSR/(n J)

    Total SST n 1

    Comparaison des moyennes deux deuxRejeter H0 permet de dire que toutes les moyennes ne sont pas gales. Il peut cependant tre intressant de testerlgalit des moyennes deux deux.Pour cela, on effectue un test de comparaison multiple des moyennes (pour 1 j, j J) :

    H0 : j = j .

    tant donn le grand nombre de tests que lon va tre amen faire, la problmatique des tests multiples doit treprise en compte (cf. cours Statistique Infrentielle GIS3). Une solution simple peut tre dappliquer une correctionde Bonferroni en ralisant chaque test avec un risque de premire espce gal au risque de premire espce globaldivis par le nombre de tests effectus.Une mthode plus conservative due Scheff, utilise le fait que

    p

    (|Xj Xj (j j )| SR

    (J 1)fK1,nJ,1

    1

    nj+

    1

    nj

    )= 1

    o fJ1,nJ,1 est le quantile de la loi de Fisher de paramtres J 1 et n J dordre 1 .On rejette donc lhypothse dgalit des moyennes j et j si

    |Xj Xj | > SR(J 1)fJ1,nJ,1

    1

    nj+

    1

    nj.

    Remarque. Attention, lgalit des moyennes nest pas transitive.

    3.2.4 Contrle des hypothsesOutre la normalit (que lon peut vrifier classiquement), nous avons suppos lhomognit des variances,

    quil peut tre intressant de vrifier. Pour cela, sous lhypothse de normalit, Bartlett propose un test permettantde tester

    H0 : 21 = . . . =

    2J =

    2 contre H1 : 1 i, l J t.q. 2i 6= 2l .

    Posons

    M =

    Jj=1

    (nj 1) ln(S2/S2j ) et c =1

    3(J 1)

    (Jj=1

    1nj1

    1Jj=1 nj 1

    ).

    Sous H0, la statistique

    M

    c+ 1 2J1

    permet de raliser le test.Dans le cas o lhypothse de normalit est viole, une alternative propose par Levene ralise une analyse devariance sur les variables Zij = |Yij Y.j |, la statistique de Fisher dcoulant de lANOVA fournissant un bon testde lhomognit des variances.

  • 3.3. ANALYSE DE VARIANCE DEUX FACTEURS 29

    3.3 Analyse de variance deux facteursOn suppose dsormais que Y est observ en prsence de deux facteursA etB, respectivement J et K niveaux.

    En prsence de plus dun facteur, certains problmes nouveaux apparaissent, parmi lesquels linteraction entrefacteurs. Nous supposons dans cette partie plusieurs hypothses simplifiant les calculs :

    les niveaux dun facteur ne sont pas conditionns par lautre facteur, pour chaque combinaison de facteur, on observe un mme nombre (strictement suprieur 1) de rptitions

    (njk = c > 1).Les autres points seront abords dans la section 3.4.

    3.3.1 Le modleOn note : Yijk la i-me observation de Y pour les j-me et k-me valeurs respectives des facteurs A et B, njk = c le nombre dobservationsXijk , nj. =

    Kk=1 njk = Kc, n.k =

    Jj=1 njk = Jc et n =

    Jj=1

    Kk=1 njk = JKc.

    Le modle dANOVA scrit alors

    Yijk = .. + j + k + jk + ijk, (3.2)

    o ijk N (0, 2), .. est leffet gnral, j est leffet du niveau j du premier facteur, k celui du niveau k de B,et jk leffet de linteraction entre les niveaux j et k des deux facteurs.

    Effet dinteraction Leffet dinteraction existe lorsque le niveau dun facteur modifie linfluence de lautre facteursur Y . Considrons lexemple suivant : on relve dans diffrentes villes franaises le taux de fumeur (Y ) en fonctionde la classe dge (facteur A) et du sexe (facteur B). En labsence deffet dinteraction, leffet de la classe dgesur le taux de fumeurs serait identique pour les hommes et les femmes. Dans la ralit, il semble (cela reste prouver par une ANOVA !) que les femmes fument en proportion beaucoup plus un certain moment de leur vie(de ladolescence au dbut de lge adulte), tandis que la rpartition de fumeurs chez les hommes est plus constanteentre les diffrentes classes dge. Ceci semble mettre en vidence un effet dinteraction entre les facteurs ge etsexe : le fait dtre de tel ou tel sexe modifie limpact qu lge sur le taux de fumeurs.

    3.3.2 Estimation des effetsOn considre les moyennes empiriques suivantes :

    Y.jk =1

    c

    ci=1

    Yijk , Y..k =1

    J

    Jj=1

    Y.jk, Y.j. =1

    K

    Kk=1

    Y.jk et Y... =1

    n

    Jj=1

    Kk=1

    ci=1

    Yijk.

    Sous les hypothses de contraintes (assurant lunicit des solutions) k k = j j = k jk = j jk = 0,les paramtres .., j , k et jk de la dcomposition (3.2) peuvent tre estims par les relations suivantes :

    .. = Y..., j = Y.j. Y..., k = Y..k Y... et jk = Y.jk Y.j. Y..k + Y...

    3.3.3 TestsSoient les sommes des carrs suivantes :

    SST =

    Jj=1

    Kk=1

    ci=1

    (Yijk Y...)2, SSA = cKJj=1

    (Y.j. Y...)2, SSB = cJKk=1

    (Y..k Y...)2,

    SSAB = cJj=1

    Kk=1

    (Y.jk Y.j. Y..k + Y...)2, et SSR =Jj=1

    Kk=1

    ci=1

    (Yijk Y.jk)2,

  • 30 CHAPITRE 3. ANALYSE DE VARIANCE ET DE COVARIANCE

    o SST est la somme des carrs totale, SSA est la somme des carrs relatifs au facteur A, SSB est la somme descarrs relatifs au facteur B, SSAB est la somme des carrs relatifs linteraction entre les facteurs A et B et SSRest la somme des carrs rsiduels.

    En remarquant que que lon peut crire SST =Jj=1

    Kk=1

    ci=1

    Y 2ijk nY 2..., on obtient lquation danalyse de la

    variance deux facteurs :SST = SSA+ SSB + SSAB + SSR.

    Exercice. crire la preuve.Comme en analyse de variance un facteur, sous lhypothse H0 : j = 0, les quantits SSA et SSR suivent

    2 prs des lois du 2 indpendantes J 1 et n JK degrs de libert. La statistique suivante est donc de loide Fisher de paramtres J 1 et K 1 :

    FA =SSA/(J 1)SSR/(n JK) .

    De mme, sous les hypothses respectives H0 : k = 0 et H0 : jk = 0, les statistiques

    FB =SSB/(K 1)SSR/(n JK) et FAB =

    SSAB/(K 1)(J 1)SSR/(n JK)

    suivent des lois de Fisher de paramtres K 1 et n JK pour FB , (K 1)(J 1) et n JK pour FAB .Ainsi, on peut donc tester lexistence des effets principaux des deux facteurs et de leur interaction en comparant cesstatistiques aux quantiles de la loi de Fisher : si les valeurs observes de ces statistiques sont suprieures au quantilede la loi de Fisher dordre 1 on conclura un effet significatif.On prsente usuellement lanalyse de variance sous la forme du tableau suivant :

    Facteur Somme degrs de carr Fdes carrs libert moyen

    A SSA J 1 SSA/(J 1) FA = SSA/(J1)SSR/(nJK)B SSB K 1 SSB/(K 1) FB = SSB/(K1)SSR/(nJK)

    Interaction AB SSAB (J 1)(K 1) SSAB/(K 1)(J 1) FAB = SSAB/(K1)(J1)SSR/(nJK)Rsidu SSR n JK SSR/(n JK)Total SST n 1

    3.4 Problmes spcifiques3.4.1 ANOVA pour mesures rptes

    Dans de nombreuses applications mdicales, les mesures de Y sont ralises plusieurs fois sur un mme patient.Les rptitions ne sont plus indpendantes et la mthodologie classique nest plus valide. Lide consiste alors introduire un facteur supplmentaire : un facteur individu. Ainsi, cela permet, en incorporant un effet sujet alatoire,dincorporer la corrlation intra-unit et de mieux estimer la rsiduelle.

    3.4.2 Plan sans rptitionDans le cas o une seule observation est disponible pour chaque croisement de niveau, leffet dinteraction est

    alors confondu avec leffet rsiduel et ne peut donc pas tre valu.

    3.4.3 Plans dsquilibrs ou incompletsLe cas de plans dsquilibrs (njk non constant) ou incomplets (j, k : njk = 0) conduit des modles

    beaucoup plus compliqus, le cas njk = c simplifiant grandement les calculs lors des dcompositions des variances.

  • 3.5. ANALYSE DE COVARIANCE 31

    La solution consiste alors crire le modle dANOVA comme un modle de rgression, de faon similaire ce quia t fait dans le cas de lANOVA un facteur.Ceci ne sera pas abord dans ce cours, mais nous prcisons nanmoins que la procdure glm de SAS permet detraiter ce cas (se rfrer aux rsultats de type III).

    3.5 Analyse de covarianceNous cherchons expliquer une variable quantitative Y en fonction de plusieurs variables explicatives, certaines

    qualitatives et dautre quantitatives. Lide gnrale sera de comparer pour chaque croisement de niveaux des va-riables qualitatives, le modle de rgression de Y sur les variables quantitatives.

    Nous nous plaons dans le cas dun unique facteur qualitatif A, J niveaux, et dune unique variable quan-titative X . La procdure glm de SAS permet de considrer des situations beaucoup plus complexes.

    Pour chaque niveau j de A on observe les couples (Xij , Yij)1inj . Soit n =J

    j=1 nj le nombre total dob-servations.

    3.5.1 Graphiques prliminairesComme pour lANOVA, une reprsentation graphique du nuage de points (Xij , Yij)1inj ,1jnJ en diffren-

    ciant les couleurs pour chaque niveau du facteur permet de donner un premier avis permettant de guider lanalyse.

    3.5.2 Le modleOn considre un modle de rgression par niveau du facteur A :

    Yij = 0j + 1jXij + ij j = 1, . . . , J i = 1, . . . , nj (3.3)

    o ij sont i.i.d. centrs de variance 2 et supposs de loi normale pour raliser les tests.La rsolution simultane des J modles peut tre obtenue en crivant le systme de faon matricielle :

    Y = X + (3.4)

    avec les notations suivantes : Y et sont les vecteurs colonnes des Yij et ij , = (01, 11, . . . , 0J , 1J)

    ,

    X est la matrice n 2J constitue des J blocs [1j |X.1j ] o 1j est lindicatrice de niveau, X est le vecteurcolonnes des Xij , et X.1j correspond au produit terme terme des deux vecteurs.

    Afin dobtenir directement les bonnes hypothses pour les tests que nous chercherons effectuer, des logicielscomme SAS utilisent une reparamtrisation du modle (3.4) faisant intervenir des effets diffrentiels par rapport audernier niveau. Le modle considr scrit alors

    Y = 0J1+ 1JX effet de X

    +(01 0J )11 + . . .+ (0J1 0J)1J1 effet de A

    +(11 1J)X.11 + . . .+ (1J1 1J)X.1J1 effet dinteraction

    (3.5)

    Nous pourrons alors tester directement : leffet de X sur Y, lgalit des intercepts des J modles de rgression en testant leffet de A, lgalit des pentes des J modles de rgression en testant leffet de linteracton entre A et X.

    3.5.3 TestsDes tests de Fisher peuvent tre mis en place en comparant le modle complet (3.5) des modles rduits

    nintgrant que leffet de X , que leffet de A ou que leffet dinteraction. Ces tests permettent de tester les troishypothses suivantes :

  • 32 CHAPITRE 3. ANALYSE DE VARIANCE ET DE COVARIANCE

    H(1)0 : 11 = . . . = 1J : il ny a pas dinteraction, les pentes de la rgression de Y sur X sont toutes

    identiques celle 1J du dernier niveau du facteur A, H

    (2)0 : 1J = 0,

    H(3)0 : 01 = . . . = 0J : les ordonnes lorigine de la rgression de Y sur X sont toutes identiques celle

    0J du dernier niveau du facteur A.La dmarche danalyse de ces tests est la suivante :

    on commence par tester linteraction avec H(1)0 . si linteraction nest pas significative, on teste H(2)0 , qui, sil nest pas non plus significatif, conduit conclure

    labsence deffet de X , toujours si H(1)0 nest pas significative, on teste H(3)0 pour juger de leffet du facteur A.

  • 3.6. TP 3 : ANALYSE DE VARIANCE ET DE COVARIANCE 33

    3.6 TP 3 : Analyse de variance et de covariance3.6.1 Analyse de variance deux facteursA faire sous R.Le fichier milk.dat contient les rsultats dune tude visant valuer limpact sur la consommation de lait dequatre campagnes de publicit. Quatre villes, une par campagne, ont t choisies dans cinq rgions diffrentes. Lesdonnes mesurent les consommations de lait (en ) aprs deux mois de campagne.Le fichier comporte 6 colonnes (rgion, consommation pour la premire campagne publicitaire, la deuxime, latroisime, la quatrime et taille de la famille).Analyser cette tude en commenant par effectuer des reprsentations graphiques adquates, puis en ralisant uneANOVA afin dvaluer leffet des diffrents facteurs prsents dans cette tude.

    3.6.2 Analyse de covarianceA faire sous SAS laide de la proc GLM.Nous considrons le mme jeu de donnes que prcdemment, mais en prenant en compte dsormais la taille de lafamille. Lobjectif de ltude est alors de tester limpact des diffrentes campagnes publicitaires.

    (i) A partir du fichier de donnes, construire un fichier plat :data milk1; set milk;array c{4} consommation1-consommation4;do pub=1 to 4;consom=c{pub};output;end;drop consommation1-consommation4;run;

    (ii) Raliser une analyse de covariance tudiant limpact de la taille de la famille et de la campagne publicitairesur la consommation :proc glm data=milk1 plot;class pub;model consom=pub taille pub*taille/ solution;run;Interprter les diffrents effets.

    (iii) Nous avons vu dans lANOVA deux facteurs, que le facteur rgion avait un effet. Refaites lanalyse prc-dentes par rgion (on noublira pas de trier la table de donnes au pralable).

    3.6.3 Analyse de variance mesures rptesA faire sous SAS.Le fichier health.dat contient des donnes dune tude sur limpact du rgime alimentaire sur les capacitsphysiques. Pour cela, on a mesur le rythme cardiaque de 18 sportifs aprs des exercices dchauffement, aprs unjogging lger et aprs une course pied intense (respectivement PULSE1, PULSE2 et PULSE 3). Pour chaque per-sonne, on a not son rgime alimentaire (DIET : 1 pour carnivore et 2 pour vgtarien), ainsi que le type dexercicequelle pratique habituellement (EXERTYPE : 1 pour aerobic (step), 2 pour tennis ou squash et 3 pour fitness).

    (i) Crer un fichier plat, qui contiendra entre autre une variable ind identifiant de lindividu et une variabletime indiquant le numro de la mesure effectue (time=1,2 et 3 pour PULSE1, PULSE2 et PULSE 3).

    (ii) Donner des reprsentations graphiques signifiantes (boxplot). Certains facteurs vous semblent-ils influencerle rythme cardiaque ?

    (iii) Analyser limpact des diffrents facteurs intervenant dans ltude, laide dune proc mixed.proc mixed data=health_plat;class time EXERTYPE DIET ind;model PULSE=EXERTYPE DIET EXERTYPE*DIET;repeated time /subject=ind;run;Le modle est-il significatif ? Si oui, quels effets sont significatifs ?

  • 34 CHAPITRE 3. ANALYSE DE VARIANCE ET DE COVARIANCE

    3.7 Un exemple dapplication de lANOVA et lANCOVALe fichier milk.dat contient les rsultats dune tude visant valuer limpact sur la consommation de lait

    de quatre campagnes de publicit. Quatre villes, une par campagne, ont t choisies dans cinq rgions diffrentes.Les donnes mesurent les consommations de lait (en ) aprs deux mois de campagne au sein de plusieurs famillesde tailles diffrentes.

    Afin dorganiser le fichier sous une forme habituelle individus / variables, nous commenons pas crer un fichier plat :data milk1; set milk;array c{4} consommation1-consommation4;do pub=1 to 4;consom=c{pub};output;end;drop consommation1-consommation4;run;

    Nous ralisons ensuite une ANOVA deux facteurs, campagne publicitaire et rgion, laide de la commandesuivante :proc glm data=milk1 plot;class region pub;model consom=pub region pub*region;run;Les rsultats obtenus sont les suivants :

    Source DF Type III SS Mean Square F value Pr>Fpub 3 4585.680487 1528.560162 3.61 0.0160region 4 4867.511417 1216.877854 2.87 0.0268region*pub 12 8937.917430 744.826453 1.76 0.0658

    Ils indiquent un effet rgion et un effet campagne publicitaire (au risque 5%), alors que leffet dinteraction est pluscontrast.

    Intgrons dsormais la variable taille de la famille ltude, et concentrons nous sur leffet des campagnes pu-blicitaires. La taille de la famille tant une variable quantitative, nous ralisons une ANCOVA :proc glm data=milk1 plot;class region pub;model consom=pub taille pub*taille/ solution;run;Loption solution permet dafficher les coefficients des modles estims (cf ci-aprs). Les rsultats sont les sui-vants (on se rfre bien toujours aux rsultats de type III) :

    Source DF Type III SS Mean Square F value Pr>Fpub 3 227.18067 75.72689 0.57 0.6377taille 1 40926.01565 40926.01565 306.57

  • 3.7. UN EXEMPLE DAPPLICATION DE LANOVA ET LANCOVA 35

    Parameter Estimate Standard Error t Value Pr > |t|Intercept 8.27253333 4.81033834 1.72 0.0882pub 1 -6.65546667 6.80284572 -0.98 0.3300pub 2 -7.44426667 6.80284572 -1.09 0.2762pub 3 -7.51253333 6.80284572 -1.10 0.2718pub 4 0.00000000 . . .taille 12.21651429 1.23518086 9.89 F1 pub 3 72.029738 24.009913 4.62 0.0164

    taille 1 7178.321423 7178.321423 1380.25

  • 36 CHAPITRE 3. ANALYSE DE VARIANCE ET DE COVARIANCE

    sur le lien entre la consommation et la taille. La figure 3.3 illustre les diffrences entre les diffrentes droites dergression.

    FIG. 3.3 Rgression de la consommation en fonction de la taille pour les diffrentes campagnes publicitaires,rgion par rgion.

    Lanalyse globale faite prcdemment, prenant en compte toutes les rgions ensemble, avait eu pour effet de cacherles diffrences dinfluence des campagnes publicitaires, qui ne sont dcelables quen concentrant ltude rgion parrgion.

  • Chapitre 4

    Rgression logistique

    Logiciel SAS : proc logistic.Logiciel R : fonction glm.

    La fin de ce cours est dsormais consacr modliser une variable Y qualitative, K modalits, partir dep variables explicatives X = (X1, . . . , Xp) qualitatives ou quantitatives. On parle gnralement dans ce cadre declassification (chaque modalit de Y reprsentant une classe dindividus). Nous verrons deux mthodologies, largression logistique ainsi que lanalyse discriminante probabiliste (Chapitre 5).Comme dans le reste de ce chapitre, nous supposons disposer dun chantillon dobservations conjointes de Y et deX : on parle alors dapprentissage supervis, et plus particulirement ici de classification supervise.

    Nous supposons dans ce chapitre, pour simplicit de prsentation, que les variables explicatives sont quan-titatives. Dans le cas de variables qualitatives, il suffira de considrer les variables indicatrices correspondantes.Attention : par soucis didentifiabilit, nous ne considrerons que J 1 indicatrices pour une variable J modali-ts.

    4.1 Le modle logistique dichotomique (K=2)On se place dans le cas o Y prend deux modalits (0 ou 1, prsence ou absence dune maladie, panne ou non

    dun composant lectronique, bon ou mauvais client...). Nous reprsenterons ces deux modalits par 0 et 1 dansla suite. La modalit 1 est gnralement utilise pour le caractre que lon cherche tudier (achat dun produit,prsence dune maladie, panne...). Les modles de rgression vus prcdemment ne sappliquent plus puisque lergresseur linaire habituel X ne prend pas des valeurs simplement binaire.

    4.1.1 Le modleLide est alors de ne plus modliser Y , mais les probabilits davoir Y = 0 et Y = 1 conditionnellement la

    connaissance des variables explicatives X = x :

    (x) = P (Y = 1|X = x) et 1 (x) = P (Y = 0|X = x).Mme si nest plus binaire, elle est toujours borne dans lintervalle [0, 1], ce qui ne convient toujours pas unrgresseur linaire X qui prendra a priori des valeurs sur toutR. La rgression logistique consiste donc modliserune certaine transformation de , appele transformation logit, par une fonction linaire des variables explicatives :

    logit((x)) = ln(x)

    1 (x) = 0 +p

    j=1

    jxj .

    Ce modle scrit galement

    (x) =exp (0 +

    pj=1 jxj)

    1 + exp (0 +p

    j=1 jxj). (4.1)

    37

  • 38 CHAPITRE 4. RGRESSION LOGISTIQUE

    Dans la suite, nous noterons parfois (x;) pour signifier que la probabilit (x) est paramtre par , et demme P (Y = 1|X = x;).Remarque. Justification du modle : dans le cas dune unique variable explicative X , on modlise la probabilit(x) = P (Y = 1|X = x) par une fonction de la forme expx1+expx dont lallure correspond bien la reprsentationdu nuage de point (xi, yi) dans le cas dobservation yi binaire (cf Figure 4.1).

    FIG. 4.1 Modlisation de Y par une fonction de la forme expx1+expx (rouge) et par une fonction linaire de x(pointill vert).

    4.1.2 Odds et odds-ratioLe succs de la rgression logistique, trs utilise en entreprise (finance, assurance, mdecine, marketing...), est

    en partie d aux capacits dinterprtabilit du modle.On dfinit par odds le rapport

    odds(x) = (x)1 (x)

    qui reprsente combien de fois on a plus de chance davoir Y = 1 au lieu davoir Y = 0 lorsque X = x.On dfinit de mme les odds-ratio par le rapport

    odds-ratio(xi,xj) =odds(xi)odds(xj)

    qui reprsente combien de fois on a plus de chance davoir Y = 1 au lieu davoir Y = 0 lorsque X = xi au lieu deX = xj .

    Remarque. Bien que lon ait dfini les odds et odds-ratio pour une variable explicative X multidimensionnelle, onne fait gnralement varier quune seule dimension entre les deux valeurs xi et xj , et on dfinit donc autant doddset odds-ratio quil y a de dimensions.

    Exemple On considre comme variable prdire Y la prsence ou labsence dun cancer des poumons, et commevariable explicative (qualitative) le fait dtre fumeur ou non fumeur. Les donnes sont fictives bien que pas siloignes que cela de la ralit :

    La probabilit davoir un cancer du poumon chez un fumeur est P (Y = 1|X = fumeur) = 0.01, doP (Y = 0|X = fumeur) = 0.99. On a alors odds(X = fumeur) = 1/99. On dit que lon a une chance sur 99davoir un cancer des poumons lorsque lon est fumeur.

  • 4.2. ESTIMATION DES PARAMTRES ET PRDICTION 39

    Chez les non fumeurs, la prvalence du cancer du poumons nest que deP (Y = 1|X = non fumeur) = 104.On a donc odds-ratio(fumeur, non fumeur) = 1/991/9999 = 101, do 101 fois plus de chance davoir un cancerdes poumons pour un fumeur que pour un non fumeur.

    4.2 Estimation des paramtres et prdiction4.2.1 Estimation des j

    Les paramtres estimer sont = (0, 1, . . . , p). Si on dispose dun chantillon (yi,xi)i=1,n, o xi =(xi1, . . . , xip), telle que les yi soient indpendants conditionnellement aux xi, on peut estimer par maximumde vraisemblance. Les probabilits de Y tant exprimes conditionnellement aux variables explicatives X, nousmaximisons la vraisemblance conditionnelle :

    L() =

    ni=1

    P (Y = yi|X = xi).

    Or, en utilisant la notation habituelle xi = (1xi), on a :

    P (Y = yi|X = xi) ={

    exp xi1+exp xi

    si yi = 11 expxi1+expxi si yi = 0

    =

    (expxi

    1 + expxi

    )yi (1 exp

    xi

    1 + expxi

    )1yi

    do la log-vraisemblance

    l() =

    ni=1

    lnP (Y = yi|X = xi) =ni=1

    yixi ln(1 + expxi).

    Exercice. Refaire le calcul.

    La maximisation de cette vraisemblance se fait en drivant par rapport au vecteur . On obtient

    l()

    =

    ni=1

    yixi xi expxi

    1 + expxi=

    ni=1

    xi(yi (xi))

    qui nest pas une quation linaire en . Sa rsolution peut tre ralise numriquement par un algorithme de typeNewton-Raphson.Daprs les proprits du maximum de vraisemblance, la matrice de variance de lestimateur est donne parlinverse de la matrice dinformation de Fisher. Ainsi :

    V () =

    [2l()2

    ]1= (XV X)1 (4.2)

    o X est la matrice n (p + 1) dont les lignes sont composes des xi et V est la matrice diagonale n n des(xi)(1 (xi)).

    4.2.2 Estimation des odds-ratioDans le cas dune seule variable explicative X , on a

    ln odds-ratio(xi, xj) = lnodds(xi)odds(xj)

    = logit((xi)) logit((xj))= 0 + 1xi (0 + 1xj)= 1(xi xj),

    do odds-ratio(xi, xj) = exp(1(xi xj))

  • 40 CHAPITRE 4. RGRESSION LOGISTIQUE

    4.2.3 Redressement dans le cas dune modalit rareNous avons suppos que lchantillon utilis pour lestimation respectait les proportions relles des deux moda-

    lits (chantillonnage simple classique). Or il est trs frquent en pratique, lorsquune des deux modalits est rare(prsence dune maladie, client risque...), dutiliser un chantillonnage stratifi : on sur-reprsente artificiellementdans lchantillon la modalit rare.Cette modification du schma dchantillonnage na un impact que sur lestimation de 0, quil suffit alors de re-dresser en ajoutant le terme ln p0p1 o p0 et p1 sont les taux de sondage des modalits Y = 0 et Y = 1 (p0 est doncle rapport de la probabilit davoir Y = 0 aprs r-chantillonnage sur cette mme probabilit dans la populationinitiale).

    4.2.4 Prvisions4.2.4.1 Classement dune nouvelle observation

    Pour une nouvelle observation x, on cherche prdire y. Il existe plusieurs faons deffectuer la prdiction.La rgle du maximum a posteriori (MAP) consiste affecter lobservation la classe la plus probable : on prditdonc la valeur de y par la modalit k maximisant la probabilit P (Y = k|X = xi; ) :

    yMAP = argmaxk{0,1}

    P (Y = k|X = x; ).

    Puisquon est en prsence de deux classes, une observation sera classe dans la classe Y = 1 si sa probabilit dtredans cette classe est suprieur 1/2. Or, ce choix est totalement arbitraire et peut tre remis en cause, notammentlorsque les risques encourus en cas de mauvais classement ne sont pas symtriques (cote-t-il aussi cher daccepterun mauvais client que de ne pas en accepter un bon ?). On dfinira plus gnralement la prdiction, ou rgle declassement, au seuil s de la faon suivante :

    ys =

    {1 si P (Y = 1|X = x; ) s0 sinon

    4.2.4.2 Notions de score

    Dans de nombreux domaines, comme le credit-scoring ou la mdecine, ce nest pas tant la prdiction y quinous intresse que la probabilit (x) que Y prenne la modalit 1. Cette probabilit est appele score. Elle pourrareprsenter la probabilit quun client achte un produit, la probabilit pour un patient de contracter une maladie,etc.

    4.2.4.3 Tableau de classement ou matrice de confusion

    Le rsultat dun procd de classification est souvent reprsent sous la forme dun tableau de classement (oumatrice de confusion) obtenu en appliquant la mthode de classification sur des observations pour lesquelles lavariable Y (i.e. la classe dappartenance) est connue et en comparant aux classes prdites :

    prdit totalY = 0 Y = 1

    rel Y = 0 VN FP NY = 1 FN VP P

    total N P n

    TAB. 4.1 Matrice de confusion contenant les effectifs de vrais ngatifs (VN), vrais positifs (VP), faux ngatifs(FN) et faux positifs (FP)

    Dans ce tableau figurent les effectifs des observations en fonction de leur classe relle et de la prdiction decelle-ci. On parle parfois dobservations classes comme positives lorsquelles ont la modalit 1 de Y (car biensouvent on associe la modalit Y = 1 le caractre que lon cherche dtecter : maladie, achat...), et ngativesdans le cas contraire. Avec ces appellations, le contenu des cases du tableau peut tre dcrit de la faon suivante :

  • 4.3. TESTS, INTERVALLES DE CONFIANCE ET CHOIX DE MODLE 41

    vrai ngatif (VN) : nombre dobservations pour lesquelles la modalit 0 de Y a correctement t prdite, vrai positif (VP) : nombre dobservations pour lesquelles la modalit 1 de Y a correctement t prdite, faux ngatif (FN) : nombre dobservations dtectes tort comme ngatives, faux positifs (FP) : nombre dobservations dtectes tort comme positives, N,P,N et P respectivement les nombres de ngatif et positif rels et prdits.

    En gnral, les frquences sous forme de pourcentage figurent galement dans ce type de tableau.

    Sensibilit et spcificit On appelle sensibilit du modle le pourcentage de vrais positifs, et spcificit le pour-centage de vrais ngatifs.

    4.3 Tests, intervalles de confiance et choix de modleNous prsentons ici les tests permettant dvaluer lapport des diffrentes variables explicatives, ainsi que des

    intervalles de confiance, notamment sur les odds-ratio, utiliss dans linterprtation du modle logistique.

    4.3.1 Tests sur jOn cherche tester si une composante j du paramtre est nulle :

    H0 : j = 0 contre H1 : j 6= 0Plusieurs tests sont disponibles :

    le test du rapport des vraisemblances maximales : sous H0

    2 ln max LH0()max LH1()

    21

    o LH0 et LH1 sont respectivement les vraisemblances du modle sans et avec la variable Xj , le test de Wald : sous H0

    2j2j 21

    o 2j est la variance de lestimateur de j , donne par (4.2), et enfin le test du score,

    U(H0)V (H0)U(H0 ) 21

    o V (H0) est linverse de la matrice dinformation de Fisher, et U(H0) est le vecteur des drives partiellesde la log-vraisemblance estime sous H0.

    Pour tout ces tests, on rejettera lhypothse de nullit du coefficient j si la statistique du test est suprieure auquantile 21,1.

    Remarque. Si on conclut la nullit dun coefficient, tous les autres coefficients doivent tre r-estims. Bien souvent, le test du rapport des vraisemblances est le plus puissant, mais ncessite lestimation de sousH0, ce qui nest pas le cas pour le test de Wald.

    4.3.2 Intervalles de confianceSachant que j est asymptotiquement distribu suivant une loi normale, centre en j , et de variance donne

    par (4.2), il est facile den dduire des intervalles de confiance asymptotiques sur les j .En pratique, ces intervalles de confiance ne sont que peu souvent utiliss car les j ne sont que rarement interprts,au contraire des odds-ratio. Les intervalles de confiance sur les odds-ratio sont construits partir de rsultats sur lanormalit asymptotique du logarithme dun odds-ratio.Un intervalle de confiance sur un odds-ratio qui contient la valeur 1 ne permettra pas de conclure un effet que