introduction à la régression logistiquelepennec/enseignement/dssp_orange2/… · reg. logistique...

Post on 10-Sep-2018

223 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Reg. logistique

Introduction à la régression logistique

Introduction à la régression logistique

A. Fermin et E. Matzner-Løber

Reg. logistique

Introduction à la régression logistique

Rappels régression MC

Objectif

Modéliser la variable d’intérêt Y par une fonction des variables(potentiellement) explicatives X

I modéliser la concentration en ozone en fonction des variablesmétéorologiques

I modéliser la hauteur d’un arbre en fonction de son diamètreI ...

Reg. logistique

Introduction à la régression logistique

Rappels régression MC

Rappels de la démarche

1. Graphes2. Ecriture du modèle théorique3. Estimation des paramètres4. Analyse des résidus5. Choix de variables6. Modèle(s) final(aux)

Reg. logistique

Introduction à la régression logistique

Rappels régression MC

Modélisation

X = (X1, · · · ,Xp) p variables explicativesY variable quantitative à expliquerEcriture du modèles

Y = Xβ + ε

sous les hypothèsesI (H1) le rang de X vaut pI (H2) ε ∼ N (0, σ2I )

sous l’hypothèse de normalité des résidus, on a

Y ∼ N (Xβ, σ2I )

Nous prendrons les notations suivantes : point x , Ex(Y ) = x ′β.

Reg. logistique

Introduction à la régression logistique

Rappels régression MC

Estimations

Estimateur de MC, estimateur qui minimise

‖Y − Xβ‖2.

Estimateur du MV, estimateur qui maximise

logL(Y , β, σ2) = −n

2log σ2 − n

2log 2π − 1

2σ2 ‖Y − Xβ‖2.

Estimateur des MCO ou du MV identiques (sauf pour σ2)

Reg. logistique

Introduction à la régression logistique

Introduction et rappels

Nouveaux problèmes

I expliquer la présence/absence d’une maladie cardiovasculaire (notée aussi CHD), par l’âge X des patients

I prédire l’état d’une machine outil (fonctionnement/arrêt) enfonction de son ancienneté afin de faire de la maintenanceprédictive par exemple

Reg. logistique

Introduction à la régression logistique

Introduction et rappels

Nouveaux problèmes suite

I prédire l’état d’un porcelet (vivant/mort) en post-sevrage dansune station en fonction de la saison (4 modalités), de ladensité (nb d’animaux par case, 3 modalités), race, poidsd’entrée en post-sevrage, gain de poids moyen quotidien prispar l’animal, indice de consommation (quantité d’aliment enkg pour 1kg de croissance)

I analyser les espèce d’Iris : setosa, versicolor et virginica, enfonction de la longueur et largeur des pétales

Reg. logistique

Introduction à la régression logistique

Introduction et rappels

Nouveaux problèmes suite

Quelle est la différence entre ces problèmes et ceux que nous avonsdéjà résolus ?

La variable Y est qualitative

Reg. logistique

Introduction à la régression logistique

Introduction et rappels

Nouveaux problèmes suite

Quelle est la différence entre ces problèmes et ceux que nous avonsdéjà résolus ?

La variable Y est qualitative

Reg. logistique

Introduction à la régression logistique

Les données

Exemple : maladie cardio-vasculaire

Y sain / malade d’une maladie cardio-vasculaire, par l’âge X despatients. n = 100 observations

Id age chd1 20 sain2 23 sain3 24 sain4 25 malade...

...97 64 sain98 64 malade99 65 malade100 69 malade

Reg. logistique

Introduction à la régression logistique

Les données

Représentation graphique

● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ●●● ●●●● ●● ●● ● ● ●● ● ● ● ●

20 30 40 50 60 70

age

chd

sain

mal

ade

Reg. logistique

Introduction à la régression logistique

Les données

Première estimation, découpage en classes d’âge

Age n Absent Présent Proportion[19, 29[ 10 9 1 .10[29, 34[ 15 13 2 .13[34, 39[ 12 9 3 .25[39, 44[ 15 10 5 .33[44, 49[ 13 7 6 .46[49, 54[ 8 3 5 .625[54, 59[ 17 4 13 .76[59, 69[ 10 2 8 .8

Reg. logistique

Introduction à la régression logistique

Les données

Représentation graphique

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

Age

Chd

Reg. logistique

Introduction à la régression logistique

Les données

pour aller plus loin

On souhaiterait trouver une fonctionI un peu plus régulièreI qui utilise toutes les données (sinon faire des classes qui

varient avec x)pour obtenir par exemple

Reg. logistique

Introduction à la régression logistique

Les données

Fonction souhaitée

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

Age

Chd

Reg. logistique

Introduction à la régression logistique

Les données

Equation d’une courbe en SUne première façon d’obtenir une courbe en S est de considérer

x → exp(x ′β)

1 + exp(x ′β)

ββββ

====

1020.50

0.0

0.2

0.4

0.6

0.8

1.0

proba

x β

−10 5 0 105

Reg. logistique

Introduction à la régression logistique

Modélisation

Y variable binaire

Ici la variable Y prend 2 valeurs, modélisons

(Y |X = x) ∼ B(p(x))

P(Y = 1|X = x) = p(x) et P(Y = 0|X = x) = 1− p(x)

Nous avons donc

Ex(Y ) = p(x)

Varx(Y ) = p(x)(1− p(x)) hétéroscédasticité

Reg. logistique

Introduction à la régression logistique

Modélisation

Y variable binaire

Ici la variable Y prend 2 valeurs, modélisons

(Y |X = x) ∼ B(p(x))

P(Y = 1|X = x) = p(x) et P(Y = 0|X = x) = 1− p(x)

Nous avons donc

Ex(Y ) = p(x)

Varx(Y ) = p(x)(1− p(x)) hétéroscédasticité

Reg. logistique

Introduction à la régression logistique

Modélisation

Comparaison modèle linéaire

Dans le modèle linéaire

E(Y |x) = x ′β

Quand Y est binaire, on a

E(Y |x) = p(x) à valeurs dans [0, 1]

mais il existe des transformations g (appelées fonctions de lien) tq

g(p(x)) = x ′β

Reg. logistique

Introduction à la régression logistique

Modélisation

La fonction « logit »

E(Y |X = x) = p(x) =exp(x ′β)

1 + exp(x ′β)

La fonction « logit » :

p 7→ g(p) = log(p

1− p)

est bijective (dérivable) et nous avons

g(p(x)) = log(p(x)

1− p(x)) = x ′β

Reg. logistique

Introduction à la régression logistique

Régression logistique

Définition

1. « Choix » d’une loi pour (Y |X = x) : Bernoulli2. Choix d’une fonction g : fonction logit3. Modéliser E(Y |X = x) = P(Y = 1|X = x) grâce à

g {P(Y = 1|X = x)} = x ′β

Les paramètres β sont inconnus !

Reg. logistique

Introduction à la régression logistique

Régression logistique

Estimation de β par MV

DefinitionLa vraisemblance du modèle est définie par :

Ln(y1, . . . , yn, β) =n∏

i=1

P(Y = yi |X = xi )

que nous noterons simplement Ln(β).

Reg. logistique

Introduction à la régression logistique

Régression logistique

Ecriture de la vraisemblance

Exprimons la vraisemblance en fonction de β :

Ln(β) =n∏

i=1

P(Y = yi |X = xi ) =n∏

i=1

p(xi )yi (1− p(xi ))1−yi .

En passant au log, on obtient

Ln(β) =n∑

i=1

{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}

après quelques calculs à faire en exercice

=n∑

i=1

{yix ′iβ − log(1 + exp(x ′iβ))}

Reg. logistique

Introduction à la régression logistique

Régression logistique

On cherche le maximum

On calcule les dérivées partielles et on les annule pour obtenir leséquations normales :

n∑i=1

[xi (yi − p(xi )] = X ′(Y − Pβ) = 0

Rappels du modèle linéaire

X ′(Y − Xβ) = 0

Reg. logistique

Introduction à la régression logistique

Régression logistique

Maximisation de la vraisemblance

Malheureusement...Il n’existe pas de solutions explicites pour maximiser lavraisemblance (on n’aura donc pas d’écriture explicite pour β).

MaisLa vraisemblance possède (généralement) un unique maximum, et ilexiste des algorithmes numériques itératifs permettant d’obtenir cemaximum :

I algorithme de Newton ;I algorithme du score de Fisher.

Reg. logistique

Introduction à la régression logistique

Régression logistique

L’exemple du chd

Sur R le modèle logistique s’ajuste avec la fonction glm :

> model <- glm(chd ~ age,data=donnees,family=binomial)> summary(model)Coefficients:

Estimate Std. Error z value Pr(>|z|)(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***

age 0.11092 0.02406 4.610 4.02e-06 ***–-

Number of Fisher Scoring iterations: 4

I Il est possible de vérifier si l’algorithme itératif a bienconvergé :

> model$converged [1] TRUE

Reg. logistique

Introduction à la régression logistique

Régression logistique

Modèle ajusté

P(Y = 1|age) =exp(−5.30945 + 0.11092× age)

1 + exp(−5.30945 + 0.11092× age).

Reg. logistique

Introduction à la régression logistique

Régression logistique

Fonction estimée

20 30 40 50 60 70

0.0

0.2

0.4

0.6

0.8

1.0

age

chd

Reg. logistique

Introduction à la régression logistique

Régression logistique

Interprétation directe

Quand le coefficient βj associé à la variable Xj estI positif : Xj augmente → p augmenteI négatif : Xj augmente → p diminue

Ici, βage = 0.11, donc la probabilité augmente avec l’âge !

Reg. logistique

Introduction à la régression logistique

Régression logistique

Questions ?

I règle d’affectation ?I doit-on découper les variables quantitatives en classes ?I peut-on rajouter des transformations des variables initiales

dans le modèle ?I ....

Reg. logistique

Introduction à la régression logistique

Loi des estimateurs

Comportement asymptotique des estimateursI Contrairement au modèle linéaire, on ne connaît pas la loi des

estimateurs βj pour le modèle logistique.I Néanmoins, la théorie du maximum de vraisemblance nous

permet permet d’obtenir la loi limite du vecteur aléatoire β :√n(β − β)

L→ N (0, I(β)−1).

Remarques

I I(β), matrice d’information de Fisher du modèle au point β ;I Cette matrice est inconnue mais possibilité de "bien" l’estimer.I En pratique, on fait l’approximation

√n(β − β)

L≈ N (0, I(β)−1).

Reg. logistique

Introduction à la régression logistique

Loi des estimateurs

Comportement asymptotique des estimateursI Contrairement au modèle linéaire, on ne connaît pas la loi des

estimateurs βj pour le modèle logistique.I Néanmoins, la théorie du maximum de vraisemblance nous

permet permet d’obtenir la loi limite du vecteur aléatoire β :√n(β − β)

L→ N (0, I(β)−1).

Remarques

I I(β), matrice d’information de Fisher du modèle au point β ;I Cette matrice est inconnue mais possibilité de "bien" l’estimer.I En pratique, on fait l’approximation

√n(β − β)

L≈ N (0, I(β)−1).

Reg. logistique

Introduction à la régression logistique

Loi des estimateurs

Intervalles de confiance et testsLoi de βj

On déduit du théorème précédent

√nβj − βjσj

L≈ N (0, 1),

où σ2j désigne le je terme de la diagonale de I(β).

Applications :

I Intervalle de confiance de niveau 1− α pour βj :[βj − q1−α/2

σj√n

; βj + q1−α/2σj√n

].

I Tests : H0 : βj = 0 contre H1 : βj 6= 0.

Reg. logistique

Introduction à la régression logistique

Loi des estimateurs

L’exemple du chdI Le modèle :

logP(chd = 1|age)

1− P(chd = 1|age)= β0 + β1age.

I La sortie R :Estimate Std. Error z value Pr(>|z|)

(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***age 0.11092 0.02406 4.610 4.02e-06 ***

pc = 4.02e−06, au risque 5%, on rejette l’hypothèseβ1 = 0.

I Intervalle de confiance :> confint(model)

2.5 % 97.5 %(Intercept) -7.72587162 -3.2461547

age 0.06693158 0.1620067

Reg. logistique

Introduction à la régression logistique

Loi des estimateurs

L’exemple du chdI Le modèle :

logP(chd = 1|age)

1− P(chd = 1|age)= β0 + β1age.

I La sortie R :Estimate Std. Error z value Pr(>|z|)

(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***age 0.11092 0.02406 4.610 4.02e-06 ***

pc = 4.02e−06, au risque 5%, on rejette l’hypothèseβ1 = 0.

I Intervalle de confiance :> confint(model)

2.5 % 97.5 %(Intercept) -7.72587162 -3.2461547

age 0.06693158 0.1620067

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

Résidus

1. Résidus bruts, variances différentes

ε = yi − pi

2. Résidus de Pearson

εPi =yi − pi√pi (1− pi )

En général, on travaille avec les résidus de déviance

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

La déviance

1. Le meilleur modèle en terme d’ajustement est appelé modèlesaturé

2. Déviance

D = 2

[n∑

i=1

(Lsatur«e − L(β))

]≥ 0.

-

Ajustementparfait

0 Déviance

bon moyen mauvais Qualité d’ajustement

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

La vraisemblanceRappelons

Ln =∑n

i=1{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}

et donc calculée

Ln(p(xi )) =∑n

i=1{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}

A comparer avec le meilleur modèle possible

Definition (Modèle saturé, 1 observation à chaque Xi .)C’est le modèle qui a pour log-vraisemblance Lsatur«e définie par :

Lsatur«e =n∑

i=1

1{Yi=1} logYi + 1{Yi=0} log(1− Yi ).

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

Modèle saturé et régression logistique simpleExemple CHD si on ne garde qu’une observation par âge

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

Age

Chd

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

Modèle saturé et régression logistique simple : CHD

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

Age

Chd

Lsatur«e =n∑

i=1

1{Yi=1} log Yi + 1{Yi=0} log(1− Yi ).

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

Résidus

1. Résidus de Pearson

εPi =yi − pi√pi (1− pi )

2. Résidus de déviance

εi = signe(yi − pi )

√2(lsatur«e(yi )− l(yi , β))

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

Graphique en fonction de pSans répétitions, on observe souvent ce type de graphique :

0.2 0.4 0.6 0.8

−2

−1

01

2

prevision

resid

us

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

Index plot

0 20 40 60 80 100

−2

−1

01

2

prevision

resid

us

Reg. logistique

Introduction à la régression logistique

Analyse des erreurs

Les erreurs

PPPPPPPPPRéaliséPrévu

OUI NON

OUI TP FNNON FP TN

I Sensibilité TTP = TP/#OUI = TP/(TP + FN)

I Spécificité TTN = TN/#NON = TN/(FP + TN)

I Taux de faux positifs FPR = FP/#Oui = FP/(FP + TN)

I précision (accuracy)ACC = (TP + TN)/(TP + TN + FP + FN)

Courbe ROC : taux de vrais positifs en fonction du taux de fauxpositifs.

top related