la régression logistique 14... · 2017-02-10 · la régression logistique cours de bmv1 année...
TRANSCRIPT
La régression logistiqueLa régression logistique
Cours de BMV1 Année académique 2011-2012
Frédéric Farnir
Position du problèmePosition du problème
� Analysons l’influence du poids du veau sur le taux de dystocies dans une race bovine◦ Y = % dystocies ◦ X = poids des veaux à la naissance◦ X = poids des veaux à la naissance
=> Y = f(X)◦ Il s’agit d’un problème de « régression »,
mais…� X est bien une variable continue
� Y est une variable binaire� ici, dystocie ( = 1) ou non ( = 0)
Position du problèmePosition du problème
� Rappel
SortieQuantitative Qualitative
RégressionRégression logistique
Tables de contingence
Quantitative
Qualitative
Entrée
ANOVA
Exemple de problèmeExemple de problème
� Dans le cas des dystocies, on aurait des données dans le format suivant:
Poids du veau (kg)
Dystocie ?(Oui = 1, Non = 0)
35 0
41 1
40 0
.
.
....
Exemple de problèmeExemple de problème
� Alternativement, on peut représenter les données dans le format suivant:
Classe de poids du veau (kg)
Nombre de veaux
Nombre de dystocies
Proportions
< 36 8
[36 – 39[ 28
1
6
[39 – 42[ 41
[42 – 45[ 17
18
9
> 45 4 3
0.13
0.21
0.44
0.53
0.75
Exemple de problèmeExemple de problème
� Conclusions provisoires:◦ La proportion de cas augmente avec le poids
des veaux◦ On peut vouloir modéliser et objectiver cette
dépendance en utilisant l’approche de la régression linéaire
Exemple de problèmeExemple de problème
� Régression linéaire:
Obs X Y
1 34.5 1
2 34.5 0
E[Y|X] = α + β * X
avec:2 34.5 0
97 46.5 1
98 46.5 0
… … …
Moyen. 39.92 0.377
avec:
a = α = Y – b * X:__
^
b = β = Σ x * y / Σ x²^
Exemple de problèmeExemple de problème
� Régression linéaire (suite)
Obs X Y
1 34.5 1
2 34.5 0
E[Y|X] = P(Y = 0 | X) * 0 + P(Y = 1| X) * 1= P(Y = 1 | X)
2 34.5 0
97 46.5 1
98 46.5 0
… … …
Moyen. 39.92 0.377
� La régression essaie donc de prédire la probabilité de dystocie en fonction du poids
Exemple de problèmeExemple de problème
� Régression linéaire: solutionsP(Y = 1|X) = -1.734 + 0.0529 * X
Classe de poids du veau (kg)
Proportions Prédictions
< 36
[36 – 39[
[39 – 42[
[42 – 45[
> 45
0.125
0.214
0.439
0.529
0.750
0.091
0.250
0.408
0.567
0.726
Exemple de problèmeExemple de problème
� Régression linéaire: conclusions◦ Estimations à priori raisonnables…
mais:◦ si X < -a/b = 32.78 kg => P < 0 !!◦ si X > (1-a)/b = 51.69 kg => P > 1 !!◦ si X > (1-a)/b = 51.69 kg => P > 1 !!
=> Problème structurel dans le modèle…
51.6932.78
Poids (kg)
P(dystocie)
1
0
Exemple de problèmeExemple de problème
� Régression linéaire: conclusions (suite)◦ donc, au mieux, validité limitée du modèle !◦ De plus, violation des hypothèses:� a) non-normalité des résidus� a) non-normalité des résidus
pour un X donné, le résidu:(Y – E[Y | X]) = (Y – P(X))
ne peut prendre que deux valeurs:(1 – P(X)) ou -P(X)
=> difficile dans ces conditions de prétendre à la normalité des données
Exemple de problèmeExemple de problème
� Régression linéaire: conclusions (suite)◦ De plus, violation des hypothèses:� b) hétérosédasticité
^ ^E[e|X] = P(Y=1 | X) * (1 –Y) + P(Y=0 | X) * (0 –Y)
= π(X)*(1 – π(X)) + (1 – π(X))*(-π(X))= 0
E[e²|X] = π(X)*(1 – π(X))² + (1 – π(X))*(-π(X))²= π(X)*(1 – π(X)) = f(X)…
En particulier, V(e|X) → 0 quand π(X) → 0 ou 1
^ ^
Une approche alternativeUne approche alternative
� Le problème structurel provient donc du fait que (α + β * X) → ±∞ si X → ±∞. alors que les probabilités ∈ [0;1]◦ Dans notre exemple, quand les veaux sont ◦ Dans notre exemple, quand les veaux sont
très légers (X <<), P → 0 et quand les veaux sont très lourds (X >>), P →1.
Une approche alternative (suite)Une approche alternative (suite)
� On a donc besoin de transformer(α + β * X) pour le contraindre à rester dans l’intervalle [0;1], ou, de manière équivalente, transformer p = P(Y|X) pour l’amener à prendre des valeurs dans l’amener à prendre des valeurs dans ] -∞; +∞[
� La première approche utilise des « fonctions de lien » (link functions), la deuxième des « fonctions de probabilité » (probability functions)
Une approche alternative (suite)Une approche alternative (suite)
� Exemple de fonction de lien:f(p) = logit(p) = ln[p/(1-p)] = λ
◦ p → 0 => f(p) → -∞◦ p → 1 => f(p) → +∞◦ p → 1 => f(p) → +∞◦ La fonction de probabilité correspondante est:
g(λ) = exp(λ)/[1+exp(λ)]◦ p → -∞ => g(λ) → 0◦ p → +∞ => g(λ) → 1
Une approche alternative (suite)Une approche alternative (suite)
� Exemple de fonction de probabilité (suite):
g(λ)Fonction monotone:à chaque λ correspond 1 et 1 seul g(λ)à chaque g(λ) correspond 1 et 1 seul λ
λ
1
0
à chaque g(λ) correspond 1 et 1 seul λ
Une approche alternative (suite)Une approche alternative (suite)
� L’idée est donc de:◦ transformer p en f(p) via une fonction de
lien, telle que logit◦ effectuer un régression de f(p) sur X:◦ effectuer un régression de f(p) sur X:
f(p) = α + β * X◦ en déduire des valeurs prédites de
probabilité via la fonction de probabilité:p = g(α + β * X)
Une approche alternative (suite)Une approche alternative (suite)
� Remarques◦ D’autres fonctions de lien existent…� exemple = probit(p) = Φ-1(p)
◦ Le passage par une fonction de lien rend la ◦ Le passage par une fonction de lien rend la relation entre X et p non linéaire� Incrémenter X de δ a un effet sur p qui dépend de
la valeur de X
� exemple: a = 1 et b = 2p(0) = exp(1)/[1+exp(1)] = 0.731p(1) = exp(3)/[1+exp(3)] = 0.953p(2) = exp(5)/[1+exp(5)] = 0.993
D = 0.222
D = 0.040
Une approche alternative (suite)Une approche alternative (suite)� Question: comment estimer les
paramètres α et β ?◦ On peut, comme pour la régression linéaire,
essayer de minimiser l’erreur de prédiction◦ On peut également maximiser la probabilité ◦ On peut également maximiser la probabilité
de ce qui a été observé� Cette probabilité, fonction de a et b, est appelée
fonction de vraisemblance (likelihood)
� La méthode est alors appelée méthode du maximum de vraisemblance (maximum likelihood)
Une approche alternative (suite)Une approche alternative (suite)� Maximum de vraisemblance◦ Avantage� La méthode s’adapte aux distributions des données,
et est donc très souple
◦ Inconvénients◦ Inconvénients� Pas de solution analytique (comme pour la
régression linéaire, par exemple)
� Nécessité d’ « algorithmes de maximisation »
Une approche alternative (suite)Une approche alternative (suite)� Vraisemblance et régression logistique◦ La probabilité d’une observation (Xi, δi) sur le
patient i, où δi vaut 0 ou 1, peut être modélisée par une variable de Bernoulli:
( ) ( )( ) δδ −1
◦ Si les observations sont indépendantes, la probabilité conjointe (vraisemblance) des observations vaut:
( ) ( )( ) ii
iii XXp δδ ππ −−= 11*
( ) ( )( )∏∏=
−
=
−=n
iii
n
ii
ii XXp1
1
1
1* δδ ππ
Une approche alternative (suite)Une approche alternative (suite)� Vraisemblance et régression logistique◦ De manière plus générale, plusieurs individus
(ni) pourraient partager le poids Xi, avec ri
pour lesquels δ = 1 et (n - ri) où δ = 0. Dans ce cas, la variable de Bernoulli devient une ce cas, la variable de Bernoulli devient une variable binomiale, et la vraisemblance est amendée en ajoutant simplement le terme combinatoire (qui ne dépend pas de α et β)
� n = # de valeurs différentes de Xi
( ) ( )( )∏∏=
−
=
−==n
i
rni
ri
rn
n
ii
iiii
iXXCpL
11
1** ππ
Une approche alternative (suite)Une approche alternative (suite)� Vraisemblance et régression logistique◦ On souhaite donc choisir les valeurs a et b de
α et β qui maximisent cette expression◦ Rappelons que α et β interviennent dans cette
expression via π(X ) d’une manière qui dépend expression via π(Xi) d’une manière qui dépend de la fonction de lien choisie� Exemple: f(π) = logit(π)
=> π(X) = exp(α + β*X)/[1+exp(α + β*X)]
◦ Nous allons décrire la maximisation de la vraisemblance avec cette fonction particulière� raisonnement similaire pour d’autres fonctions
Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance◦ Les valeurs a et b de α et β qui maximisent L
maximisent également l = ln(L), qui est plus facile à manipuler:
( ) nnnn
◦ La dérivée de cette expression (par rapport à α ou β) vaut:
( ) ( ) ( ) ( ) ( )∑∑∑∑====
−−++==n
iiii
n
iii
n
i
rn
n
ii rnrCpl i
i1111
1ln*ln*lnln ππ
( ) ( ) ( )∑∑==
−−−=n
iiiii
n
iiii rnrl
11
1'*'*' ππππ
Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance (suite)◦ Utilisons à présent la fonction logit pour
calculer π’ (=> régression logistique):� ∂πi / ∂α = πi * (1 - πi)
� ∂π / ∂β = X * π * (1 – π )� ∂πi / ∂β = Xi * πi * (1 – πi)
◦ On doit donc résoudre:
où πi = exp(a+b*Xi)/[1+exp(a+b*Xi)]
( ) ( )∑∑==
−=−n
iiii
n
iii rnr
11
*1* ππ
( ) ( )∑∑==
−=−n
iiiii
n
iiii XrnXr
11
**1** ππ
Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance (suite)◦ La résolution analytique est impossible◦ On utilise un logiciel et un algorithme
d’optimisation pour obtenir a et b� On commence avec a et b� On commence avec a0 et b0
� On calcule l = l(a0,b0)
� On obtient a1 et b1 de a0 et b0 (Comment ? algorithme…) tels que l(a1,b1) > l(a0,b0)
� On obtient a2 et b2 de a1 et b1 (Comment ? algorithme…) tels que l(a2,b2) > l(a1,b1)
� On arrête quand l(ai+1,bi+1) ≈ l(ai,bi)
Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance (suite)◦ Exemple d’algorithme (Newton-Raphson)� On calcule:
� p = Σ ni*πi*(1-πi)
� q = Σ ni*πi*Xi*(1-πi)� q = Σ ni*πi*Xi*(1-πi)
� r = Σ ni*πi*Xi²*(1-πi)
� s = Σ (ri – ni*πi)
� t = Σ (ri – ni*πi)*Xi
� On a alors que:� ai+1 = ai + (r*s – q*t)/(p*r – q²)
� bi+1 = bi + (p*t – q*s)/(p*r – q²)
Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance (suite)◦ Résultats sur l’exemple des dystocies
Classe de poids du veau (kg)
< 36
Proportions
0.125
PrédictionsLIN
0.091
PrédictionsLOG
0.131< 36
[36 – 39[
[39 – 42[
[42 – 45[
> 45
0.125
0.214
0.439
0.529
0.750
0.091
0.250
0.408
0.567
0.726
0.131
0.241
0.399
0.582
0.744
Interprétation de la Interprétation de la régrég. logistique. logistique
� On a vu plus haut que l’interprétation de β était différente de celle faite avec la régression linéaire:◦ Linéaire: ∆Y/∆X = β◦ Linéaire: ∆Y/∆X = β◦ Logistique: ∆P/∆X = f(β,X)
� Une interprétation peut être faite en terme d’Odds-Ratio (OR)
Rappel sur les ORRappel sur les ORPoids (kg) # veaux
< 36 8
[36 – 39[ 28
# dystocies
1
6
[39 – 42[ 41 18
Légers
[42 – 45[ 17 9
> 45 4 3Lourds
dystocies
légers 25
normales
52
lourds 12 9
OR = 12*52/9/25= 2.773
χ² = 4.275p = 0.0387
Rappel sur les ORRappel sur les ORdyst (1)
légers (0) 25
norm (0)
52
lourds (1) 12 9
OR = 12*52/9/25= 2.773
χ² = 4.275p = 0.0387
� Odds(Dyst) = π(Dyst|Lourd)/ π(Dyst|Léger)� Odds(Dyst) = π(Dyst|Lourd)/ π(Dyst|Léger)= π(Y=1|X=1)/π(Y=1|X=0)
� Odds(Norm) = π(Norm|Lourd)/ π(Norm|Léger)= π(Y=0|X=1)/π(Y=0|X=0)
( ) ( )( ) ( )00/10
01/11
========
=XYXY
XYXYOR
ππππ
OR et régression logistiqueOR et régression logistique� De manière analogue, quand X est continue:
◦ Utilisant π(Y=1|X) = exp(α+β*X)/[1+exp(α+β*X)]
( ) ( )( ) ( )00
00
0/10
1/11
xXYxXY
xXYxXYOR
==+====+==
=ππππ
◦ Utilisant π(Y=1|X) = exp(α+β*X)/[1+exp(α+β*X)]et π(Y=0|X) = 1/[1+exp(α+β*X)],on obtient (quel que soit x0):
OR = eβ
� si β = 0 (pas de dépendance de Y sur X), OR = 1
� si β > (<) 0, la probabilité augmente (diminue) avec X
Signification de la Signification de la régrrégr. logistique. logistique
� Si β = 0, comme pour la régression linéaire , la variable de sortie ne dépend pas de X:
π(X) = exp(α)/[1+exp(α)] = Cte
� On teste donc la régression logistique en testant l’hypothèse nulle:
H0: β = 0
Signification de la Signification de la régrrégr. logistique. logistique
� Approche 1: par permutations◦ On attribue aléatoirement les phénotypes (0
ou 1) aux différentes valeurs de X◦ On calcule bpermuté◦ On calcule bpermuté
◦ Après n répétitions, on compare la valeur réllede b à la distribution de bpermuté
� |bréel| > bpermuté(1-α) => significatif au seuil α� |bréel| < bpermuté(1-α) => non significatif au seuil α
Signification de la Signification de la régrrégr. logistique. logistique
� Approche 1: résultats◦ Distribution ~ normale
◦ Centrée sur 0
◦ 16 résultats sur 10000 permutations excèdent b = 0.246 => p ≈ 0.0016b = 0.246 => p ≈ 0.0016
◦ => rejet de H0 pour α = 0.01
Signification de la Signification de la régrrégr. logistique. logistique
� Approche I1: test de Wald◦ On exploite la normalité de b (cfr approche I)◦ b ~ N(0,√Vb)� On montre que: Vb = p/(p*r - q²)� On montre que: Vb = p/(p*r - q²)
� On calcule donc: z = b*√(p*r – q²)/ √ p
� Dans l’exemple:� On obtient: z = 2.944
p(>z) = 0.0016
Signification de la Signification de la régrrégr. logistique. logistique
� Approche III: test du rapport de vraisemblance◦ On calcule LH1 = max L(α,β)◦ On calcule LH0 = max L(α,β=0) = L(α)◦ On peut montrer que:
LRT = ln(LH1 / LH0) = lH1 – lH0 ~ χ²1 sous H0(Likelihood Ratio Test)
◦ On a vu plus haut comment calculer les paramètres optimaux sous H1=> (a1= - 10.38881,b1= 0.24638) => lH1 = -7.53012
Signification de la Signification de la régrrégr. logistique. logistique
� Approche III: test du rapport de vraisemblance� Pour calculer lH0, on réutilise:
( ) ( )∑∑==
−=−n
iiii
n
iii rnr
11
*1* ππnn
� Ici, seule la dérivée relative à α a un sens
( ) ( )∑∑==
−=−n
iiiii
n
iiii XrnXr
11
**1** ππ
( ) ( )∑∑==
−=−n
iiii
n
iii rnr
11
*1* ππ
Signification de la Signification de la régrrégr. logistique. logistique
� Approche III: test du rapport de vraisemblance◦ On veut à présent calculer le paramètre
optimal (a0) sous H0 => lH0
◦ Reprenons: ◦ Reprenons:
où: πi = π =ea0/(1+ea0)
◦ On obtient alors que:
et
( ) ( )∑∑==
−=−n
iiii
n
iii rnr
11
*1* ππ
( )
−= ∑∑==
n
iii
n
ii rnra
110 ln ( )
−+= ∑∑∑===
n
iii
n
ii
n
ii rnrr
1110π
Signification de la Signification de la régrrégr. logistique. logistique
� Approche III: test du rapport de vraisemblance◦ Ce qui conduit à:� lH0 = -12.52376
◦ Par conséquent:
LRT = -7.53012 – (-12.52376) = 4.99364p(LRT) = p(χ²1 > 4.99364) = 0.025
Et c’est la fin du cours…Et c’est la fin du cours…