la régression logistique 14... · 2017-02-10 · la régression logistique cours de bmv1 année...

La régression logistiqueLa régression logistique

Cours de BMV1 Année académique 2011-2012

Frédéric Farnir

Position du problèmePosition du problème

� Analysons l’influence du poids du veau sur le taux de dystocies dans une race bovine◦ Y = % dystocies ◦ X = poids des veaux à la naissance◦ X = poids des veaux à la naissance

=> Y = f(X)◦ Il s’agit d’un problème de « régression »,

mais…� X est bien une variable continue

� Y est une variable binaire� ici, dystocie ( = 1) ou non ( = 0)

Position du problèmePosition du problème

� Rappel

SortieQuantitative Qualitative

RégressionRégression logistique

Tables de contingence

Quantitative

Qualitative

Entrée

ANOVA

Exemple de problèmeExemple de problème

� Dans le cas des dystocies, on aurait des données dans le format suivant:

Poids du veau (kg)

Dystocie ?(Oui = 1, Non = 0)

35 0

41 1

40 0

.

.

....


� Alternativement, on peut représenter les données dans le format suivant:

Classe de poids du veau (kg)

Nombre de veaux

Nombre de dystocies

Proportions

< 36 8

[36 – 39[ 28

1

6

[39 – 42[ 41

[42 – 45[ 17

18

9

> 45 4 3

0.13

0.21

0.44

0.53

0.75


� Conclusions provisoires:◦ La proportion de cas augmente avec le poids

des veaux◦ On peut vouloir modéliser et objectiver cette

dépendance en utilisant l’approche de la régression linéaire


� Régression linéaire:

Obs X Y

1 34.5 1

2 34.5 0

E[Y|X] = α + β * X

avec:2 34.5 0

97 46.5 1

98 46.5 0

… … …

Moyen. 39.92 0.377

avec:

a = α = Y – b * X:__

^

b = β = Σ x * y / Σ x²^


� Régression linéaire (suite)

Obs X Y

1 34.5 1

2 34.5 0

E[Y|X] = P(Y = 0 | X) * 0 + P(Y = 1| X) * 1= P(Y = 1 | X)

2 34.5 0

97 46.5 1

98 46.5 0

… … …

Moyen. 39.92 0.377

� La régression essaie donc de prédire la probabilité de dystocie en fonction du poids


� Régression linéaire: solutionsP(Y = 1|X) = -1.734 + 0.0529 * X


Proportions Prédictions

< 36

[36 – 39[

[39 – 42[

[42 – 45[

> 45

0.125

0.214

0.439

0.529

0.750

0.091

0.250

0.408

0.567

0.726


� Régression linéaire: conclusions◦ Estimations à priori raisonnables…

mais:◦ si X < -a/b = 32.78 kg => P < 0 !!◦ si X > (1-a)/b = 51.69 kg => P > 1 !!◦ si X > (1-a)/b = 51.69 kg => P > 1 !!

=> Problème structurel dans le modèle…

51.6932.78

Poids (kg)

P(dystocie)

1

0


� Régression linéaire: conclusions (suite)◦ donc, au mieux, validité limitée du modèle !◦ De plus, violation des hypothèses:� a) non-normalité des résidus� a) non-normalité des résidus

pour un X donné, le résidu:(Y – E[Y | X]) = (Y – P(X))

ne peut prendre que deux valeurs:(1 – P(X)) ou -P(X)

=> difficile dans ces conditions de prétendre à la normalité des données


� Régression linéaire: conclusions (suite)◦ De plus, violation des hypothèses:� b) hétérosédasticité

^ ^E[e|X] = P(Y=1 | X) * (1 –Y) + P(Y=0 | X) * (0 –Y)

= π(X)*(1 – π(X)) + (1 – π(X))*(-π(X))= 0

E[e²|X] = π(X)*(1 – π(X))² + (1 – π(X))*(-π(X))²= π(X)*(1 – π(X)) = f(X)…

En particulier, V(e|X) → 0 quand π(X) → 0 ou 1

^ ^

Une approche alternativeUne approche alternative

� Le problème structurel provient donc du fait que (α + β * X) → ±∞ si X → ±∞. alors que les probabilités ∈ [0;1]◦ Dans notre exemple, quand les veaux sont ◦ Dans notre exemple, quand les veaux sont

très légers (X <<), P → 0 et quand les veaux sont très lourds (X >>), P →1.

Une approche alternative (suite)Une approche alternative (suite)

� On a donc besoin de transformer(α + β * X) pour le contraindre à rester dans l’intervalle [0;1], ou, de manière équivalente, transformer p = P(Y|X) pour l’amener à prendre des valeurs dans l’amener à prendre des valeurs dans ] -∞; +∞[

� La première approche utilise des « fonctions de lien » (link functions), la deuxième des « fonctions de probabilité » (probability functions)


� Exemple de fonction de lien:f(p) = logit(p) = ln[p/(1-p)] = λ

◦ p → 0 => f(p) → -∞◦ p → 1 => f(p) → +∞◦ p → 1 => f(p) → +∞◦ La fonction de probabilité correspondante est:

g(λ) = exp(λ)/[1+exp(λ)]◦ p → -∞ => g(λ) → 0◦ p → +∞ => g(λ) → 1


� Exemple de fonction de probabilité (suite):

g(λ)Fonction monotone:à chaque λ correspond 1 et 1 seul g(λ)à chaque g(λ) correspond 1 et 1 seul λ

λ

1

0

à chaque g(λ) correspond 1 et 1 seul λ


� L’idée est donc de:◦ transformer p en f(p) via une fonction de

lien, telle que logit◦ effectuer un régression de f(p) sur X:◦ effectuer un régression de f(p) sur X:

f(p) = α + β * X◦ en déduire des valeurs prédites de

probabilité via la fonction de probabilité:p = g(α + β * X)


� Remarques◦ D’autres fonctions de lien existent…� exemple = probit(p) = Φ-1(p)

◦ Le passage par une fonction de lien rend la ◦ Le passage par une fonction de lien rend la relation entre X et p non linéaire� Incrémenter X de δ a un effet sur p qui dépend de

la valeur de X

� exemple: a = 1 et b = 2p(0) = exp(1)/[1+exp(1)] = 0.731p(1) = exp(3)/[1+exp(3)] = 0.953p(2) = exp(5)/[1+exp(5)] = 0.993

D = 0.222

D = 0.040

Une approche alternative (suite)Une approche alternative (suite)� Question: comment estimer les

paramètres α et β ?◦ On peut, comme pour la régression linéaire,

essayer de minimiser l’erreur de prédiction◦ On peut également maximiser la probabilité ◦ On peut également maximiser la probabilité

de ce qui a été observé� Cette probabilité, fonction de a et b, est appelée

fonction de vraisemblance (likelihood)

� La méthode est alors appelée méthode du maximum de vraisemblance (maximum likelihood)

Une approche alternative (suite)Une approche alternative (suite)� Maximum de vraisemblance◦ Avantage� La méthode s’adapte aux distributions des données,

et est donc très souple

◦ Inconvénients◦ Inconvénients� Pas de solution analytique (comme pour la

régression linéaire, par exemple)

� Nécessité d’ « algorithmes de maximisation »

Une approche alternative (suite)Une approche alternative (suite)� Vraisemblance et régression logistique◦ La probabilité d’une observation (Xi, δi) sur le

patient i, où δi vaut 0 ou 1, peut être modélisée par une variable de Bernoulli:

( ) ( )( ) δδ −1

◦ Si les observations sont indépendantes, la probabilité conjointe (vraisemblance) des observations vaut:

( ) ( )( ) ii

iii XXp δδ ππ −−= 11*

( ) ( )( )∏∏=

−

=

−=n

iii

n

ii

ii XXp1

1

1

1* δδ ππ

Une approche alternative (suite)Une approche alternative (suite)� Vraisemblance et régression logistique◦ De manière plus générale, plusieurs individus

(ni) pourraient partager le poids Xi, avec ri

pour lesquels δ = 1 et (n - ri) où δ = 0. Dans ce cas, la variable de Bernoulli devient une ce cas, la variable de Bernoulli devient une variable binomiale, et la vraisemblance est amendée en ajoutant simplement le terme combinatoire (qui ne dépend pas de α et β)

� n = # de valeurs différentes de Xi

( ) ( )( )∏∏=

−

=

−==n

i

rni

ri

rn

n

ii

iiii

iXXCpL

11

1** ππ

Une approche alternative (suite)Une approche alternative (suite)� Vraisemblance et régression logistique◦ On souhaite donc choisir les valeurs a et b de

α et β qui maximisent cette expression◦ Rappelons que α et β interviennent dans cette

expression via π(X ) d’une manière qui dépend expression via π(Xi) d’une manière qui dépend de la fonction de lien choisie� Exemple: f(π) = logit(π)

=> π(X) = exp(α + β*X)/[1+exp(α + β*X)]

◦ Nous allons décrire la maximisation de la vraisemblance avec cette fonction particulière� raisonnement similaire pour d’autres fonctions

Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance◦ Les valeurs a et b de α et β qui maximisent L

maximisent également l = ln(L), qui est plus facile à manipuler:

( ) nnnn

◦ La dérivée de cette expression (par rapport à α ou β) vaut:

( ) ( ) ( ) ( ) ( )∑∑∑∑====

−−++==n

iiii

n

iii

n

i

rn

n

ii rnrCpl i

i1111

1ln*ln*lnln ππ

( ) ( ) ( )∑∑==

−−−=n

iiiii

n

iiii rnrl

11

1'*'*' ππππ

Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance (suite)◦ Utilisons à présent la fonction logit pour

calculer π’ (=> régression logistique):� ∂πi / ∂α = πi * (1 - πi)

� ∂π / ∂β = X * π * (1 – π )� ∂πi / ∂β = Xi * πi * (1 – πi)

◦ On doit donc résoudre:

où πi = exp(a+b*Xi)/[1+exp(a+b*Xi)]

( ) ( )∑∑==

−=−n

iiii

n

iii rnr

11

*1* ππ

( ) ( )∑∑==

−=−n

iiiii

n

iiii XrnXr

11

**1** ππ

Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance (suite)◦ La résolution analytique est impossible◦ On utilise un logiciel et un algorithme

d’optimisation pour obtenir a et b� On commence avec a et b� On commence avec a0 et b0

� On calcule l = l(a0,b0)

� On obtient a1 et b1 de a0 et b0 (Comment ? algorithme…) tels que l(a1,b1) > l(a0,b0)

� On obtient a2 et b2 de a1 et b1 (Comment ? algorithme…) tels que l(a2,b2) > l(a1,b1)

� On arrête quand l(ai+1,bi+1) ≈ l(ai,bi)

Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance (suite)◦ Exemple d’algorithme (Newton-Raphson)� On calcule:

� p = Σ ni*πi*(1-πi)

� q = Σ ni*πi*Xi*(1-πi)� q = Σ ni*πi*Xi*(1-πi)

� r = Σ ni*πi*Xi²*(1-πi)

� s = Σ (ri – ni*πi)

� t = Σ (ri – ni*πi)*Xi

� On a alors que:� ai+1 = ai + (r*s – q*t)/(p*r – q²)

� bi+1 = bi + (p*t – q*s)/(p*r – q²)

Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance (suite)◦ Résultats sur l’exemple des dystocies


< 36

Proportions

0.125

PrédictionsLIN

0.091

PrédictionsLOG

0.131< 36

[36 – 39[

[39 – 42[

[42 – 45[

> 45

0.125

0.214

0.439

0.529

0.750

0.091

0.250

0.408

0.567

0.726

0.131

0.241

0.399

0.582

0.744

Interprétation de la Interprétation de la régrég. logistique. logistique

� On a vu plus haut que l’interprétation de β était différente de celle faite avec la régression linéaire:◦ Linéaire: ∆Y/∆X = β◦ Linéaire: ∆Y/∆X = β◦ Logistique: ∆P/∆X = f(β,X)

� Une interprétation peut être faite en terme d’Odds-Ratio (OR)

Rappel sur les ORRappel sur les ORPoids (kg) # veaux

< 36 8

[36 – 39[ 28

# dystocies

1

6

[39 – 42[ 41 18

Légers

[42 – 45[ 17 9

> 45 4 3Lourds

dystocies

légers 25

normales

52

lourds 12 9

OR = 12*52/9/25= 2.773

χ² = 4.275p = 0.0387

OR et régression logistiqueOR et régression logistique� De manière analogue, quand X est continue:

◦ Utilisant π(Y=1|X) = exp(α+β*X)/[1+exp(α+β*X)]

( ) ( )( ) ( )00

00

0/10

1/11

xXYxXY

xXYxXYOR

==+====+==

=ππππ

◦ Utilisant π(Y=1|X) = exp(α+β*X)/[1+exp(α+β*X)]et π(Y=0|X) = 1/[1+exp(α+β*X)],on obtient (quel que soit x0):

OR = eβ

� si β = 0 (pas de dépendance de Y sur X), OR = 1

� si β > (<) 0, la probabilité augmente (diminue) avec X

Signification de la Signification de la régrrégr. logistique. logistique

� Si β = 0, comme pour la régression linéaire , la variable de sortie ne dépend pas de X:

π(X) = exp(α)/[1+exp(α)] = Cte

� On teste donc la régression logistique en testant l’hypothèse nulle:

H0: β = 0


� Approche 1: par permutations◦ On attribue aléatoirement les phénotypes (0

ou 1) aux différentes valeurs de X◦ On calcule bpermuté◦ On calcule bpermuté

◦ Après n répétitions, on compare la valeur réllede b à la distribution de bpermuté

� |bréel| > bpermuté(1-α) => significatif au seuil α� |bréel| < bpermuté(1-α) => non significatif au seuil α


� Approche 1: résultats◦ Distribution ~ normale

◦ Centrée sur 0

◦ 16 résultats sur 10000 permutations excèdent b = 0.246 => p ≈ 0.0016b = 0.246 => p ≈ 0.0016

◦ => rejet de H0 pour α = 0.01


� Approche I1: test de Wald◦ On exploite la normalité de b (cfr approche I)◦ b ~ N(0,√Vb)� On montre que: Vb = p/(p*r - q²)� On montre que: Vb = p/(p*r - q²)

� On calcule donc: z = b*√(p*r – q²)/ √ p

� Dans l’exemple:� On obtient: z = 2.944

p(>z) = 0.0016


� Approche III: test du rapport de vraisemblance◦ On calcule LH1 = max L(α,β)◦ On calcule LH0 = max L(α,β=0) = L(α)◦ On peut montrer que:

LRT = ln(LH1 / LH0) = lH1 – lH0 ~ χ²1 sous H0(Likelihood Ratio Test)

◦ On a vu plus haut comment calculer les paramètres optimaux sous H1=> (a1= - 10.38881,b1= 0.24638) => lH1 = -7.53012


� Approche III: test du rapport de vraisemblance� Pour calculer lH0, on réutilise:

( ) ( )∑∑==

−=−n

iiii

n

iii rnr

11

*1* ππnn

� Ici, seule la dérivée relative à α a un sens

( ) ( )∑∑==

−=−n

iiiii

n

iiii XrnXr

11

**1** ππ

( ) ( )∑∑==

−=−n

iiii

n

iii rnr

11

*1* ππ


� Approche III: test du rapport de vraisemblance◦ On veut à présent calculer le paramètre

optimal (a0) sous H0 => lH0

◦ Reprenons: ◦ Reprenons:

où: πi = π =ea0/(1+ea0)

◦ On obtient alors que:

et

( ) ( )∑∑==

−=−n

iiii

n

iii rnr

11

*1* ππ

( )

−= ∑∑==

n

iii

n

ii rnra

110 ln ( )

−+= ∑∑∑===

n

iii

n

ii

n

ii rnrr

1110π


� Approche III: test du rapport de vraisemblance◦ Ce qui conduit à:� lH0 = -12.52376

◦ Par conséquent:

LRT = -7.53012 – (-12.52376) = 4.99364p(LRT) = p(χ²1 > 4.99364) = 0.025

Et c’est la fin du cours…Et c’est la fin du cours…

la régression logistique 14... · 2017-02-10 · la régression logistique cours de bmv1 année...

Documents