Download - Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique


A. Fermin et E. Matzner-Løber

Reg. logistique


Rappels régression MC

Objectif

Modéliser la variable d’intérêt Y par une fonction des variables(potentiellement) explicatives X

I modéliser la concentration en ozone en fonction des variablesmétéorologiques

I modéliser la hauteur d’un arbre en fonction de son diamètreI ...

Reg. logistique



Rappels de la démarche

1. Graphes2. Ecriture du modèle théorique3. Estimation des paramètres4. Analyse des résidus5. Choix de variables6. Modèle(s) final(aux)

Reg. logistique



Modélisation

X = (X1, · · · ,Xp) p variables explicativesY variable quantitative à expliquerEcriture du modèles

Y = Xβ + ε

sous les hypothèsesI (H1) le rang de X vaut pI (H2) ε ∼ N (0, σ2I )

sous l’hypothèse de normalité des résidus, on a

Y ∼ N (Xβ, σ2I )

Nous prendrons les notations suivantes : point x , Ex(Y ) = x ′β.

Reg. logistique



Estimations

Estimateur de MC, estimateur qui minimise

‖Y − Xβ‖2.

Estimateur du MV, estimateur qui maximise

logL(Y , β, σ2) = −n

2log σ2 − n

2log 2π − 1

2σ2 ‖Y − Xβ‖2.

Estimateur des MCO ou du MV identiques (sauf pour σ2)

Reg. logistique


Introduction et rappels

Nouveaux problèmes

I expliquer la présence/absence d’une maladie cardiovasculaire (notée aussi CHD), par l’âge X des patients

I prédire l’état d’une machine outil (fonctionnement/arrêt) enfonction de son ancienneté afin de faire de la maintenanceprédictive par exemple

Reg. logistique



Nouveaux problèmes suite

I prédire l’état d’un porcelet (vivant/mort) en post-sevrage dansune station en fonction de la saison (4 modalités), de ladensité (nb d’animaux par case, 3 modalités), race, poidsd’entrée en post-sevrage, gain de poids moyen quotidien prispar l’animal, indice de consommation (quantité d’aliment enkg pour 1kg de croissance)

I analyser les espèce d’Iris : setosa, versicolor et virginica, enfonction de la longueur et largeur des pétales

Reg. logistique



Nouveaux problèmes suite

Quelle est la différence entre ces problèmes et ceux que nous avonsdéjà résolus ?

La variable Y est qualitative

Reg. logistique


Les données

Exemple : maladie cardio-vasculaire

Y sain / malade d’une maladie cardio-vasculaire, par l’âge X despatients. n = 100 observations

Id age chd1 20 sain2 23 sain3 24 sain4 25 malade...

...97 64 sain98 64 malade99 65 malade100 69 malade

Reg. logistique


Les données

Représentation graphique

● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ●●● ●●●● ●● ●● ● ● ●● ● ● ● ●

20 30 40 50 60 70

age

chd

sain

mal

ade

Reg. logistique


Les données

Première estimation, découpage en classes d’âge

Age n Absent Présent Proportion[19, 29[ 10 9 1 .10[29, 34[ 15 13 2 .13[34, 39[ 12 9 3 .25[39, 44[ 15 10 5 .33[44, 49[ 13 7 6 .46[49, 54[ 8 3 5 .625[54, 59[ 17 4 13 .76[59, 69[ 10 2 8 .8

Reg. logistique


Les données

Représentation graphique

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

Age

Chd

Reg. logistique


Les données

pour aller plus loin

On souhaiterait trouver une fonctionI un peu plus régulièreI qui utilise toutes les données (sinon faire des classes qui

varient avec x)pour obtenir par exemple

Reg. logistique


Les données

Fonction souhaitée

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

Age

Chd

Reg. logistique


Les données

Equation d’une courbe en SUne première façon d’obtenir une courbe en S est de considérer

x → exp(x ′β)

1 + exp(x ′β)

ββββ

====

1020.50

0.0

0.2

0.4

0.6

0.8

1.0

proba

x β

−10 5 0 105

Reg. logistique


Modélisation

Y variable binaire

Ici la variable Y prend 2 valeurs, modélisons

(Y |X = x) ∼ B(p(x))

P(Y = 1|X = x) = p(x) et P(Y = 0|X = x) = 1− p(x)

Nous avons donc

Ex(Y ) = p(x)

Varx(Y ) = p(x)(1− p(x)) hétéroscédasticité

Reg. logistique


Modélisation

Comparaison modèle linéaire

Dans le modèle linéaire

E(Y |x) = x ′β

Quand Y est binaire, on a

E(Y |x) = p(x) à valeurs dans [0, 1]

mais il existe des transformations g (appelées fonctions de lien) tq

g(p(x)) = x ′β

Reg. logistique


Modélisation

La fonction « logit »

E(Y |X = x) = p(x) =exp(x ′β)

1 + exp(x ′β)

La fonction « logit » :

p 7→ g(p) = log(p

1− p)

est bijective (dérivable) et nous avons

g(p(x)) = log(p(x)

1− p(x)) = x ′β

Reg. logistique


Régression logistique

Définition

1. « Choix » d’une loi pour (Y |X = x) : Bernoulli2. Choix d’une fonction g : fonction logit3. Modéliser E(Y |X = x) = P(Y = 1|X = x) grâce à

g {P(Y = 1|X = x)} = x ′β

Les paramètres β sont inconnus !

Reg. logistique



Estimation de β par MV

DefinitionLa vraisemblance du modèle est définie par :

Ln(y1, . . . , yn, β) =n∏

i=1

P(Y = yi |X = xi )

que nous noterons simplement Ln(β).

Reg. logistique



Ecriture de la vraisemblance

Exprimons la vraisemblance en fonction de β :

Ln(β) =n∏

i=1

P(Y = yi |X = xi ) =n∏

i=1

p(xi )yi (1− p(xi ))1−yi .

En passant au log, on obtient

Ln(β) =n∑

i=1

{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}

après quelques calculs à faire en exercice

=n∑

i=1

{yix ′iβ − log(1 + exp(x ′iβ))}

Reg. logistique



On cherche le maximum

On calcule les dérivées partielles et on les annule pour obtenir leséquations normales :

n∑i=1

[xi (yi − p(xi )] = X ′(Y − Pβ) = 0

Rappels du modèle linéaire

X ′(Y − Xβ) = 0

Reg. logistique



Maximisation de la vraisemblance

Malheureusement...Il n’existe pas de solutions explicites pour maximiser lavraisemblance (on n’aura donc pas d’écriture explicite pour β).

MaisLa vraisemblance possède (généralement) un unique maximum, et ilexiste des algorithmes numériques itératifs permettant d’obtenir cemaximum :

I algorithme de Newton ;I algorithme du score de Fisher.

Reg. logistique



L’exemple du chd

Sur R le modèle logistique s’ajuste avec la fonction glm :

> model <- glm(chd ~ age,data=donnees,family=binomial)> summary(model)Coefficients:

Estimate Std. Error z value Pr(>|z|)(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***

age 0.11092 0.02406 4.610 4.02e-06 ***–-

Number of Fisher Scoring iterations: 4

I Il est possible de vérifier si l’algorithme itératif a bienconvergé :

> model$converged [1] TRUE

Reg. logistique



Modèle ajusté

P(Y = 1|age) =exp(−5.30945 + 0.11092× age)

1 + exp(−5.30945 + 0.11092× age).

Reg. logistique



Fonction estimée

20 30 40 50 60 70

0.0

0.2

0.4

0.6

0.8

1.0

age

chd

Reg. logistique



Interprétation directe

Quand le coefficient βj associé à la variable Xj estI positif : Xj augmente → p augmenteI négatif : Xj augmente → p diminue

Ici, βage = 0.11, donc la probabilité augmente avec l’âge !

Reg. logistique



Questions ?

I règle d’affectation ?I doit-on découper les variables quantitatives en classes ?I peut-on rajouter des transformations des variables initiales

dans le modèle ?I ....

Reg. logistique


Loi des estimateurs

Comportement asymptotique des estimateursI Contrairement au modèle linéaire, on ne connaît pas la loi des

estimateurs βj pour le modèle logistique.I Néanmoins, la théorie du maximum de vraisemblance nous

permet permet d’obtenir la loi limite du vecteur aléatoire β :√n(β − β)

L→ N (0, I(β)−1).

Remarques

I I(β), matrice d’information de Fisher du modèle au point β ;I Cette matrice est inconnue mais possibilité de "bien" l’estimer.I En pratique, on fait l’approximation

√n(β − β)

L≈ N (0, I(β)−1).

Reg. logistique


Loi des estimateurs

Intervalles de confiance et testsLoi de βj

On déduit du théorème précédent

√nβj − βjσj

L≈ N (0, 1),

où σ2j désigne le je terme de la diagonale de I(β).

Applications :

I Intervalle de confiance de niveau 1− α pour βj :[βj − q1−α/2

σj√n

; βj + q1−α/2σj√n

].

I Tests : H0 : βj = 0 contre H1 : βj 6= 0.

Reg. logistique


Loi des estimateurs

L’exemple du chdI Le modèle :

logP(chd = 1|age)

1− P(chd = 1|age)= β0 + β1age.

I La sortie R :Estimate Std. Error z value Pr(>|z|)

(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***age 0.11092 0.02406 4.610 4.02e-06 ***

pc = 4.02e−06, au risque 5%, on rejette l’hypothèseβ1 = 0.

I Intervalle de confiance :> confint(model)

2.5 % 97.5 %(Intercept) -7.72587162 -3.2461547

age 0.06693158 0.1620067

Reg. logistique


Qualité de l’ajustement

Résidus

1. Résidus bruts, variances différentes

ε = yi − pi

2. Résidus de Pearson

εPi =yi − pi√pi (1− pi )

En général, on travaille avec les résidus de déviance

Reg. logistique



La déviance

1. Le meilleur modèle en terme d’ajustement est appelé modèlesaturé

2. Déviance

D = 2

[n∑

i=1

(Lsatur«e − L(β))

]≥ 0.

-

Ajustementparfait

0 Déviance

bon moyen mauvais Qualité d’ajustement

Reg. logistique



La vraisemblanceRappelons

Ln =∑n

i=1{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}

et donc calculée

Ln(p(xi )) =∑n

i=1{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}

A comparer avec le meilleur modèle possible

Definition (Modèle saturé, 1 observation à chaque Xi .)C’est le modèle qui a pour log-vraisemblance Lsatur«e définie par :

Lsatur«e =n∑

i=1

1{Yi=1} logYi + 1{Yi=0} log(1− Yi ).

Reg. logistique



Modèle saturé et régression logistique simpleExemple CHD si on ne garde qu’une observation par âge

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

Age

Chd

Reg. logistique



Modèle saturé et régression logistique simple : CHD

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

Age

Chd

Lsatur«e =n∑

i=1

1{Yi=1} log Yi + 1{Yi=0} log(1− Yi ).

Reg. logistique



Résidus

1. Résidus de Pearson

εPi =yi − pi√pi (1− pi )

2. Résidus de déviance

εi = signe(yi − pi )

√2(lsatur«e(yi )− l(yi , β))

Reg. logistique



Graphique en fonction de pSans répétitions, on observe souvent ce type de graphique :

0.2 0.4 0.6 0.8

−2

−1

01

2

prevision

resid

us

Reg. logistique



Index plot

0 20 40 60 80 100

−2

−1

01

2

prevision

resid

us

Reg. logistique


Analyse des erreurs

Les erreurs

PPPPPPPPPRéaliséPrévu

OUI NON

OUI TP FNNON FP TN

I Sensibilité TTP = TP/#OUI = TP/(TP + FN)

I Spécificité TTN = TN/#NON = TN/(FP + TN)

I Taux de faux positifs FPR = FP/#Oui = FP/(FP + TN)

I précision (accuracy)ACC = (TP + TN)/(TP + TN + FP + FN)

Courbe ROC : taux de vrais positifs en fonction du taux de fauxpositifs.

Download - Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Top Related