Reg. logistique
Introduction à la régression logistique
Introduction à la régression logistique
A. Fermin et E. Matzner-Løber
Reg. logistique
Introduction à la régression logistique
Rappels régression MC
Objectif
Modéliser la variable d’intérêt Y par une fonction des variables(potentiellement) explicatives X
I modéliser la concentration en ozone en fonction des variablesmétéorologiques
I modéliser la hauteur d’un arbre en fonction de son diamètreI ...
Reg. logistique
Introduction à la régression logistique
Rappels régression MC
Rappels de la démarche
1. Graphes2. Ecriture du modèle théorique3. Estimation des paramètres4. Analyse des résidus5. Choix de variables6. Modèle(s) final(aux)
Reg. logistique
Introduction à la régression logistique
Rappels régression MC
Modélisation
X = (X1, · · · ,Xp) p variables explicativesY variable quantitative à expliquerEcriture du modèles
Y = Xβ + ε
sous les hypothèsesI (H1) le rang de X vaut pI (H2) ε ∼ N (0, σ2I )
sous l’hypothèse de normalité des résidus, on a
Y ∼ N (Xβ, σ2I )
Nous prendrons les notations suivantes : point x , Ex(Y ) = x ′β.
Reg. logistique
Introduction à la régression logistique
Rappels régression MC
Estimations
Estimateur de MC, estimateur qui minimise
‖Y − Xβ‖2.
Estimateur du MV, estimateur qui maximise
logL(Y , β, σ2) = −n
2log σ2 − n
2log 2π − 1
2σ2 ‖Y − Xβ‖2.
Estimateur des MCO ou du MV identiques (sauf pour σ2)
Reg. logistique
Introduction à la régression logistique
Introduction et rappels
Nouveaux problèmes
I expliquer la présence/absence d’une maladie cardiovasculaire (notée aussi CHD), par l’âge X des patients
I prédire l’état d’une machine outil (fonctionnement/arrêt) enfonction de son ancienneté afin de faire de la maintenanceprédictive par exemple
Reg. logistique
Introduction à la régression logistique
Introduction et rappels
Nouveaux problèmes suite
I prédire l’état d’un porcelet (vivant/mort) en post-sevrage dansune station en fonction de la saison (4 modalités), de ladensité (nb d’animaux par case, 3 modalités), race, poidsd’entrée en post-sevrage, gain de poids moyen quotidien prispar l’animal, indice de consommation (quantité d’aliment enkg pour 1kg de croissance)
I analyser les espèce d’Iris : setosa, versicolor et virginica, enfonction de la longueur et largeur des pétales
Reg. logistique
Introduction à la régression logistique
Introduction et rappels
Nouveaux problèmes suite
Quelle est la différence entre ces problèmes et ceux que nous avonsdéjà résolus ?
La variable Y est qualitative
Reg. logistique
Introduction à la régression logistique
Introduction et rappels
Nouveaux problèmes suite
Quelle est la différence entre ces problèmes et ceux que nous avonsdéjà résolus ?
La variable Y est qualitative
Reg. logistique
Introduction à la régression logistique
Les données
Exemple : maladie cardio-vasculaire
Y sain / malade d’une maladie cardio-vasculaire, par l’âge X despatients. n = 100 observations
Id age chd1 20 sain2 23 sain3 24 sain4 25 malade...
...97 64 sain98 64 malade99 65 malade100 69 malade
Reg. logistique
Introduction à la régression logistique
Les données
Représentation graphique
● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ●●● ●●●● ●● ●● ● ● ●● ● ● ● ●
20 30 40 50 60 70
age
chd
sain
mal
ade
Reg. logistique
Introduction à la régression logistique
Les données
Première estimation, découpage en classes d’âge
Age n Absent Présent Proportion[19, 29[ 10 9 1 .10[29, 34[ 15 13 2 .13[34, 39[ 12 9 3 .25[39, 44[ 15 10 5 .33[44, 49[ 13 7 6 .46[49, 54[ 8 3 5 .625[54, 59[ 17 4 13 .76[59, 69[ 10 2 8 .8
Reg. logistique
Introduction à la régression logistique
Les données
Représentation graphique
20 30 40 50 60 70 80
0.0
0.2
0.4
0.6
0.8
1.0
Age
Chd
Reg. logistique
Introduction à la régression logistique
Les données
pour aller plus loin
On souhaiterait trouver une fonctionI un peu plus régulièreI qui utilise toutes les données (sinon faire des classes qui
varient avec x)pour obtenir par exemple
Reg. logistique
Introduction à la régression logistique
Les données
Fonction souhaitée
20 30 40 50 60 70 80
0.0
0.2
0.4
0.6
0.8
1.0
Age
Chd
Reg. logistique
Introduction à la régression logistique
Les données
Equation d’une courbe en SUne première façon d’obtenir une courbe en S est de considérer
x → exp(x ′β)
1 + exp(x ′β)
ββββ
====
1020.50
0.0
0.2
0.4
0.6
0.8
1.0
proba
x β
−10 5 0 105
Reg. logistique
Introduction à la régression logistique
Modélisation
Y variable binaire
Ici la variable Y prend 2 valeurs, modélisons
(Y |X = x) ∼ B(p(x))
P(Y = 1|X = x) = p(x) et P(Y = 0|X = x) = 1− p(x)
Nous avons donc
Ex(Y ) = p(x)
Varx(Y ) = p(x)(1− p(x)) hétéroscédasticité
Reg. logistique
Introduction à la régression logistique
Modélisation
Y variable binaire
Ici la variable Y prend 2 valeurs, modélisons
(Y |X = x) ∼ B(p(x))
P(Y = 1|X = x) = p(x) et P(Y = 0|X = x) = 1− p(x)
Nous avons donc
Ex(Y ) = p(x)
Varx(Y ) = p(x)(1− p(x)) hétéroscédasticité
Reg. logistique
Introduction à la régression logistique
Modélisation
Comparaison modèle linéaire
Dans le modèle linéaire
E(Y |x) = x ′β
Quand Y est binaire, on a
E(Y |x) = p(x) à valeurs dans [0, 1]
mais il existe des transformations g (appelées fonctions de lien) tq
g(p(x)) = x ′β
Reg. logistique
Introduction à la régression logistique
Modélisation
La fonction « logit »
E(Y |X = x) = p(x) =exp(x ′β)
1 + exp(x ′β)
La fonction « logit » :
p 7→ g(p) = log(p
1− p)
est bijective (dérivable) et nous avons
g(p(x)) = log(p(x)
1− p(x)) = x ′β
Reg. logistique
Introduction à la régression logistique
Régression logistique
Définition
1. « Choix » d’une loi pour (Y |X = x) : Bernoulli2. Choix d’une fonction g : fonction logit3. Modéliser E(Y |X = x) = P(Y = 1|X = x) grâce à
g {P(Y = 1|X = x)} = x ′β
Les paramètres β sont inconnus !
Reg. logistique
Introduction à la régression logistique
Régression logistique
Estimation de β par MV
DefinitionLa vraisemblance du modèle est définie par :
Ln(y1, . . . , yn, β) =n∏
i=1
P(Y = yi |X = xi )
que nous noterons simplement Ln(β).
Reg. logistique
Introduction à la régression logistique
Régression logistique
Ecriture de la vraisemblance
Exprimons la vraisemblance en fonction de β :
Ln(β) =n∏
i=1
P(Y = yi |X = xi ) =n∏
i=1
p(xi )yi (1− p(xi ))1−yi .
En passant au log, on obtient
Ln(β) =n∑
i=1
{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}
après quelques calculs à faire en exercice
=n∑
i=1
{yix ′iβ − log(1 + exp(x ′iβ))}
Reg. logistique
Introduction à la régression logistique
Régression logistique
On cherche le maximum
On calcule les dérivées partielles et on les annule pour obtenir leséquations normales :
n∑i=1
[xi (yi − p(xi )] = X ′(Y − Pβ) = 0
Rappels du modèle linéaire
X ′(Y − Xβ) = 0
Reg. logistique
Introduction à la régression logistique
Régression logistique
Maximisation de la vraisemblance
Malheureusement...Il n’existe pas de solutions explicites pour maximiser lavraisemblance (on n’aura donc pas d’écriture explicite pour β).
MaisLa vraisemblance possède (généralement) un unique maximum, et ilexiste des algorithmes numériques itératifs permettant d’obtenir cemaximum :
I algorithme de Newton ;I algorithme du score de Fisher.
Reg. logistique
Introduction à la régression logistique
Régression logistique
L’exemple du chd
Sur R le modèle logistique s’ajuste avec la fonction glm :
> model <- glm(chd ~ age,data=donnees,family=binomial)> summary(model)Coefficients:
Estimate Std. Error z value Pr(>|z|)(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***
age 0.11092 0.02406 4.610 4.02e-06 ***–-
Number of Fisher Scoring iterations: 4
I Il est possible de vérifier si l’algorithme itératif a bienconvergé :
> model$converged [1] TRUE
Reg. logistique
Introduction à la régression logistique
Régression logistique
Modèle ajusté
P(Y = 1|age) =exp(−5.30945 + 0.11092× age)
1 + exp(−5.30945 + 0.11092× age).
Reg. logistique
Introduction à la régression logistique
Régression logistique
Fonction estimée
20 30 40 50 60 70
0.0
0.2
0.4
0.6
0.8
1.0
age
chd
Reg. logistique
Introduction à la régression logistique
Régression logistique
Interprétation directe
Quand le coefficient βj associé à la variable Xj estI positif : Xj augmente → p augmenteI négatif : Xj augmente → p diminue
Ici, βage = 0.11, donc la probabilité augmente avec l’âge !
Reg. logistique
Introduction à la régression logistique
Régression logistique
Questions ?
I règle d’affectation ?I doit-on découper les variables quantitatives en classes ?I peut-on rajouter des transformations des variables initiales
dans le modèle ?I ....
Reg. logistique
Introduction à la régression logistique
Loi des estimateurs
Comportement asymptotique des estimateursI Contrairement au modèle linéaire, on ne connaît pas la loi des
estimateurs βj pour le modèle logistique.I Néanmoins, la théorie du maximum de vraisemblance nous
permet permet d’obtenir la loi limite du vecteur aléatoire β :√n(β − β)
L→ N (0, I(β)−1).
Remarques
I I(β), matrice d’information de Fisher du modèle au point β ;I Cette matrice est inconnue mais possibilité de "bien" l’estimer.I En pratique, on fait l’approximation
√n(β − β)
L≈ N (0, I(β)−1).
Reg. logistique
Introduction à la régression logistique
Loi des estimateurs
Comportement asymptotique des estimateursI Contrairement au modèle linéaire, on ne connaît pas la loi des
estimateurs βj pour le modèle logistique.I Néanmoins, la théorie du maximum de vraisemblance nous
permet permet d’obtenir la loi limite du vecteur aléatoire β :√n(β − β)
L→ N (0, I(β)−1).
Remarques
I I(β), matrice d’information de Fisher du modèle au point β ;I Cette matrice est inconnue mais possibilité de "bien" l’estimer.I En pratique, on fait l’approximation
√n(β − β)
L≈ N (0, I(β)−1).
Reg. logistique
Introduction à la régression logistique
Loi des estimateurs
Intervalles de confiance et testsLoi de βj
On déduit du théorème précédent
√nβj − βjσj
L≈ N (0, 1),
où σ2j désigne le je terme de la diagonale de I(β).
Applications :
I Intervalle de confiance de niveau 1− α pour βj :[βj − q1−α/2
σj√n
; βj + q1−α/2σj√n
].
I Tests : H0 : βj = 0 contre H1 : βj 6= 0.
Reg. logistique
Introduction à la régression logistique
Loi des estimateurs
L’exemple du chdI Le modèle :
logP(chd = 1|age)
1− P(chd = 1|age)= β0 + β1age.
I La sortie R :Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***age 0.11092 0.02406 4.610 4.02e-06 ***
pc = 4.02e−06, au risque 5%, on rejette l’hypothèseβ1 = 0.
I Intervalle de confiance :> confint(model)
2.5 % 97.5 %(Intercept) -7.72587162 -3.2461547
age 0.06693158 0.1620067
Reg. logistique
Introduction à la régression logistique
Loi des estimateurs
L’exemple du chdI Le modèle :
logP(chd = 1|age)
1− P(chd = 1|age)= β0 + β1age.
I La sortie R :Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***age 0.11092 0.02406 4.610 4.02e-06 ***
pc = 4.02e−06, au risque 5%, on rejette l’hypothèseβ1 = 0.
I Intervalle de confiance :> confint(model)
2.5 % 97.5 %(Intercept) -7.72587162 -3.2461547
age 0.06693158 0.1620067
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
Résidus
1. Résidus bruts, variances différentes
ε = yi − pi
2. Résidus de Pearson
εPi =yi − pi√pi (1− pi )
En général, on travaille avec les résidus de déviance
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
La déviance
1. Le meilleur modèle en terme d’ajustement est appelé modèlesaturé
2. Déviance
D = 2
[n∑
i=1
(Lsatur«e − L(β))
]≥ 0.
-
Ajustementparfait
0 Déviance
bon moyen mauvais Qualité d’ajustement
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
La vraisemblanceRappelons
Ln =∑n
i=1{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}
et donc calculée
Ln(p(xi )) =∑n
i=1{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}
A comparer avec le meilleur modèle possible
Definition (Modèle saturé, 1 observation à chaque Xi .)C’est le modèle qui a pour log-vraisemblance Lsatur«e définie par :
Lsatur«e =n∑
i=1
1{Yi=1} logYi + 1{Yi=0} log(1− Yi ).
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
Modèle saturé et régression logistique simpleExemple CHD si on ne garde qu’une observation par âge
20 30 40 50 60 70 80
0.0
0.2
0.4
0.6
0.8
1.0
Age
Chd
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
Modèle saturé et régression logistique simple : CHD
20 30 40 50 60 70 80
0.0
0.2
0.4
0.6
0.8
1.0
Age
Chd
Lsatur«e =n∑
i=1
1{Yi=1} log Yi + 1{Yi=0} log(1− Yi ).
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
Résidus
1. Résidus de Pearson
εPi =yi − pi√pi (1− pi )
2. Résidus de déviance
εi = signe(yi − pi )
√2(lsatur«e(yi )− l(yi , β))
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
Graphique en fonction de pSans répétitions, on observe souvent ce type de graphique :
0.2 0.4 0.6 0.8
−2
−1
01
2
prevision
resid
us
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
Index plot
0 20 40 60 80 100
−2
−1
01
2
prevision
resid
us
Reg. logistique
Introduction à la régression logistique
Analyse des erreurs
Les erreurs
PPPPPPPPPRéaliséPrévu
OUI NON
OUI TP FNNON FP TN
I Sensibilité TTP = TP/#OUI = TP/(TP + FN)
I Spécificité TTN = TN/#NON = TN/(FP + TN)
I Taux de faux positifs FPR = FP/#Oui = FP/(FP + TN)
I précision (accuracy)ACC = (TP + TN)/(TP + TN + FP + FN)
Courbe ROC : taux de vrais positifs en fonction du taux de fauxpositifs.