1 régression logistique et analyse discriminante : comparaisons théoriques et pratiques gilbert...

95
1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta @ cnam . fr http:// cedric . cnam . fr /~ saporta

Upload: aude-ribeiro

Post on 04-Apr-2015

112 views

Category:

Documents


2 download

TRANSCRIPT

Page 2: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

2

Bibliographie Bardos: « Analyse discriminante », Dunod, 2001 Celeux, Nakache :« Analyse discriminante sur

variables qualitatives» Polytechnica ,1994 Droesbeke, Lejeune, Saporta (éditeurs): « Modèles

statistiques pour données qualitatives » Technip, 2005 Hastie, Tibshirani, Friedman : « The Elements of

Statistical Learning », Springer-Verlag, 2001 Hosmer, Lemeshow : «Applied logistic regression»,

Wiley, 2000 Nakache, Confais: « Statistique explicative appliquée

», Technip, 2003 Thomas, Edelman,Crook: «  Credit scoring and its

applications », SIAM, 2002

Page 3: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

3

Plan

I L’analyse discriminante II La régression logistiqueIII Prédicteurs qualitatifs et scoringIV Comparaison

Page 4: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

4

Objet d’étude

Observations multidimensionnelles réparties en k groupes définis a priori. K=2 le plus souvent

Exemples d’application : Pronostic des infarctus (J.P. Nakache)

• 2 groupes : décès, survie (variables médicales) Iris de Fisher :

• 3 espèces : 4 variables (longueur et largeur des pétales et sépales)

Risque des demandeurs de crédit• 2 groupes : bons, mauvais (variables qualitatives)

Autres : • Publipostage, reclassement dans une typologie.

Page 5: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

5

Quelques dates :

Analyse discriminante Mahalanobis (crâniologie) 1927 Fisher (biométrie) 1936

Régression logistique Berkson (biostatistique) 1944 Cox 1958 Mc Fadden (économétrie) 1973

Page 6: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

6

1. Aspect géomètrique:- Réduction de dimension, axes et

variables discriminantes.- Cas de 2 groupes.- Méthodes géométriques de

classement.

2. AD probabiliste

I : L’analyse discriminante

Page 7: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

7

Représentation des données

n points dans p appartenant à k groupes.

1 21 1 1 1

1 2

1 2

1 2 1 2

1

2

...

0 1 ... 0

1 0 ... 0

...

0 0 ... 1

1 0 ... 0

indicatrices des groupes variables explicatives

j p

j pi i i i

j pn n n n

k j p

i

n

X X X X

X X X X

X X X X

Page 8: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

8

Réduction de dimension. Recherche d’axes et de variables discriminantes.

Dispersion intergroupe et dispersion intra groupe.

W = matrice variance intra W = 1/n ni Vi

B = matrice variance inter B = 1/n ni (gi - g) (gi - g)’

V = W + B variance totale

V1

g1

V2

g2

Vk

gk

Page 9: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

9

Axes discriminants : deux objectifs

Dispersion intraclasse minimale : min u’Wu

Dispersion interclasse maximale : max u’Bu

u

g2

gkg1

Page 10: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

10

Simultanéité impossible

Compromis :

-1 -1

min max

max

V W B

u V u u W u u B u

u B u u B uou

u V u u W u

V Bu u W Bu u

min ' min i

max ' max

u Wu Wu u

u Bu Bu u i

Page 11: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

11

ACP du nuage des gi avec :Métrique V-1

Métrique W-1 Mahalanobis

1

-1

a) Bu u

Bu u

Bu (W B)u

1- Bu Wu

b) W Bu u u1-

V

V

Page 12: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

12

Nombre d’axes discriminants

ACP des groupes : dimension de l’espace contenant les groupes gi

Si n>p>k (cas usuel), k-1 axes discriminantsExemple célèbre : Iris de Fisher

• K = 3 Setosa, Versicolor, Virginica• P=4 longueur pétale, longueur sépale, largeur pétale,

largeur sépale

• n1=n2=n3 =50

Donc deux axes

Page 13: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

13

Iris setosa Iris versicolor Iris virginica

Page 14: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

14

Page 15: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

15

Page 16: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

16

Cas de deux groupes

g1 et g2 sont sur une une droite : 1 seul axe discriminant :

RAPPEL : en ACP axe a, facteur u = M a

Combinaison discriminante proportionnelle à M (g2 - g1) = W-1 (g2 - g1) ou V-1 (g2 - g1)

FONCTION DE FISHER :

1 12 1

1 12 1

2 1

( )p p

X X

W g g W

X X

e

a

d e a

e Ma e uM

,

a g g ( )1 2

Page 17: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

17

Historique

pj

jj=1

1 2

d

1, 2 p

-11 2

-

Historiquement : d= u x =X u

d -dTest (de Student) de comparaison de 2 moyennes : T=

s

Fisher (1936)

Trouver u , u , ..., u tel que T maximal.

Solution : u proportionnel à W g -g

Nota : W

1 -1 21 2

1 2 1 2 p

n ng -g =α V g -g avec : α=1+ D

n n-2

Page 18: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

18

Distance de MAHALANOBIS

Distance au sens de la métrique W-1.

1. pour p=1 :

2. p quelconque :

Standardisation de chaque composante xj

Décorrélation...

2 11 2 1 2'pD g g W g g

2

2 1 21 ~ F 1, n-2

x xD

g1

Dp g2

2 11 2 1 2

2 1/ 2 1/ 21 2 1 2

1/2

'

p

p

W X

D g g W g g

D g g W W g g

Page 19: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

19

Équivalence régression

1

2

1

21 2

1 221 2

1 2

a si G

b si G

ˆRégression : ' '

n n ˆ a= et b= - y 0 alors 2 n n

p

p

Y

y X e X X X y

DSi V g g R

n nD

n n

22

21 2

( 2)

1p

n n RD

n n R

Page 20: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

20

Équivalence régressionMAIS : Modèle linéaire usuel non valide :

en discriminante c’est l’inverse que l’on suppose :

/ ~ ; ix y N

2/ ~ ; y x N x I

Page 21: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

21

Conséquences

Pas de test,pas d’erreurs standard sur les coefficients

MAIS possibilité d’utiliser les méthodes de pas à pas en régression.

Aussi une source de malentendus…

Page 22: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

22

Obs C PRONO FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL  1 2 SURVIE 90 1.71 19.0 16 19.5 16.0 912 2 1 DECES 90 1.68 18.7 24 31.0 14.0 1476 3 1 DECES 120 1.40 11.7 23 29.0 8.0 1657 4 2 SURVIE 82 1.79 21.8 14 17.5 10.0 782 5 1 DECES 80 1.58 19.7 21 28.0 18.5 1418 6 1 DECES 80 1.13 14.1 18 23.5 9.0 1664 7 2 SURVIE 94 2.04 21.7 23 27.0 10.0 1059 8 2 SURVIE 80 1.19 14.9 16 21.0 16.5 1412 9 2 SURVIE 78 2.16 27.7 15 20.5 11.5 759 10 2 SURVIE 100 2.28 22.8 16 23.0 4.0 807 11 2 SURVIE 90 2.79 31.0 16 25.0 8.0 717 12 2 SURVIE 86 2.70 31.4 15 23.0 9.5 681 13 2 SURVIE 80 2.61 32.6 8 15.0 1.0 460 14 2 SURVIE 61 2.84 47.3 11 17.0 12.0 479 15 2 SURVIE 99 3.12 31.8 15 20.0 11.0 513 16 2 SURVIE 92 2.47 26.8 12 19.0 11.0 615 17 2 SURVIE 96 1.88 19.6 12 19.0 3.0 809 18 2 SURVIE 86 1.70 19.8 10 14.0 10.5 659 19 2 SURVIE 125 3.37 26.9 18 28.0 6.0 665 20 2 SURVIE 80 2.01 25.0 15 20.0 6.0 796

Page 23: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

23

FONCTION LINEAIRE DISCRIMINANTE VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROBA........ VARIABLES FONCTION REGRESSION TYPES STUDENTNUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.) (SEUIL= 0.20).............................................................................................. 3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154 4 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.006 5 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.317 6 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897 7 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.173 8 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.549 9 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.849CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.6958..............................................................................................R2 = 0.55759 F = 16.74489 PROBA = 0.000D2 = 4.94213 T2 = 124.77643 PROBA = 0.000..............................................................................................

SPAD

Page 24: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

24

Méthodes géométriques de classement

Échantillon d’apprentissage

e observation de groupe inconnu

e classé dans le groupe i tel que: d(e ; gi) minimal

e

?

y x xp' . . .

.

.

.

1

1

2

1

g1

g2

g3

G1

G2

G3

e

Page 25: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

25

pour deux groupes

On classe dans G1 si:

Fonction de Fisher >cScore de Fisher:

' 1 ' 1 ' 1 ' 11 1 1 2 2 2

1 ' 1 ' 111 2 1 1 2 22

2 2

( ) ' ( )

g W e g W g g W e g W g

g g W e g W g g W g

1 ' 1 ' 111 2 1 1 2 22( ) ' ( )g g W e g W g g W g

Page 26: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

26

Interprétation géométrique

Projection sur la droite des centres avec la métrique W-1

Dualité axe-frontière plane frontière

axe discriminant

Page 27: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

27

Analyse discriminante probabiliste.

p j p r o b a b i l i t é a p r io r i d ’ a p p a r te n i r a u g r o u p e j f j ( x ) lo i d e s x i d a n s l e g r o u p e j

1

( )F o r m u le d e B a y e s : ( / )

( )

j jj k

j jj

p fP G

p f

x

xx

P r o b lè m e : e s t im e r l e s f j ( x )

Page 28: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

28

La règle bayésienne naïve dans le cadre normal

j

11/ 2/ 2

j j

1j j

x densité d'une N ;

1 1 exp -

22

max p f x attribuer x au groupe le plus

probable a posteriori

1 1max Ln p

2 2

j j

j j j jp

j

j j j

f

f x x x

x x Ln

règle quadratique

Page 29: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

29

La règle bayésienne

1 2

1 1 1j

1j

simplificatrice : ... =

On attribue x au groupe j tel que :

1 1max Ln p

2 2

1 : max Ln p

2

j j j

j j

j

indépendantdu groupe

a

Hypothèse

x x x

donc

1

j j

Règle linéaire équivalente à la règle géométrique si équiprobabilité, après estimation

de par g et de par W.

jx

Page 30: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

30

Analyse discriminante probabiliste: cas de deux groupes

1 1 2 2

-11/ 2 / 2

-1 -1 -1 -11 21 1 2 2 2

1

-1 12 11 2 1 2 1 2

fonction de Fisher

1exp 1/ 2 '

2

1/ 2 p 1/ 2 p

' p / 1/ 2 '

i p i i

p f x p f x

f x x x

x Log x Log

x Log p

Affecter au groupe 1 si :

Page 31: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

31

Fonction de score et probabilité

Fonction de score S(x) :

Règle :affecter au groupe 1 si S(x)>0

Probabilité d’appartenance au groupe 1 :

1

11

1 2

2 1

11 1

1 11 1 2 2

1 11 1 2 2

1/2

1/2 1/2

1/2 1/2

G /

/

P

1/ 1

x x

x x x x

x x x x

p ex

p e p e

p p ep

1 121 2 1 2 1 2

1

1( ) ( ) ' ln( ) ( ) ' ( )

2

pS x x

p

Page 32: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

32

Probabilité a posteriori

-S x 1/p-1 1/p=1+e

1 Fonction logistique du score

1 1

S x

S x S x

Log S x

ep

e e

Page 33: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

33

S(x)

2

1

1( ( ) 0) ln

2p

p

pP S x P U

p

• Probabilité d’erreur de classement de G2 en G1 :On classe en G1 si S(x)>0

Page 34: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

34

Posterior Probability of Membership in PRONO From Classified Obs PRONO into PRONO DECES SURVIE 1 SURVIE SURVIE 0.4515 0.5485 2 DECES DECES 0.8140 0.1860 3 DECES DECES 0.9597 0.0403 4 SURVIE SURVIE 0.2250 0.7750 5 DECES DECES 0.8112 0.1888 6 DECES DECES 0.8928 0.1072 7 SURVIE SURVIE 0.3202 0.6798 8 SURVIE DECES * 0.8711 0.1289 9 SURVIE SURVIE 0.0984 0.9016 10 SURVIE SURVIE 0.0797 0.9203 11 SURVIE SURVIE 0.0138 0.9862 12 SURVIE SURVIE 0.0160 0.9840 13 SURVIE SURVIE 0.0052 0.9948 14 SURVIE SURVIE 0.0105 0.9895 15 SURVIE SURVIE 0.0019 0.9981 16 SURVIE SURVIE 0.0258 0.9742 17 SURVIE SURVIE 0.2011 0.7989 18 SURVIE SURVIE 0.2260 0.7740 19 SURVIE SURVIE 0.0022 0.9978 20 SURVIE SURVIE 0.1222 0.8778 21 SURVIE SURVIE 0.0014 0.9986 22 DECES DECES 0.8629 0.1371 23 DECES SURVIE * 0.4804 0.5196 24 DECES DECES 0.9900 0.0100 25 DECES DECES 0.5845 0.4155 26 DECES DECES 0.7447 0.2553 27 DECES DECES 0.7067 0.2933 28 DECES SURVIE * 0.4303 0.5697 29 SURVIE SURVIE 0.1118 0.8882 30 SURVIE DECES * 0.5734 0.4266 31 SURVIE SURVIE 0.2124 0.7876

Proc discrimSAS

Page 35: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

35

II: La régression logistique

II.1 Le modèle logistique simpleII.2 Odds ratiosII.3 Interprétation économètriqueII.4 EstimationII.5 Tests

Page 36: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

36

II.1 Le modèle logistique simple

Réponse dichotomique : Y = 0 / 1Variable explicative : XObjectif : Modéliser

• Le modèle linéaire (x) = 0 + 1x convient mal lorsque X est continue.

• Le modèle logistique est plus naturel

(x) = Prob(Y = 1/X = x)

Page 37: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

37

Le modèle logistique simple

x

x

10

10

e1

e)x(

x))x(1

)x((Log 10

ou

Probabilité d'une maladie cardiaque

en fonction de l'age

AGE

70605040302010

Pro

b(Y

=1 / X

)

1.0

.8

.6

.4

.2

0.0

Fonction de lien : Logit

Page 38: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

38

Il s’agit bien d’un probléme de régression:Modélisation de l’espérance

conditionnelle E(Y/X=x)=f(x)

Choix de la forme logistique en épidémiologie:S’ajuste bienInterprétation de 1 en termes d’odds-ratio

Page 39: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

39

II.2 Odds-Ratio

Si X binaire (sujet exposé X=1, non exposé X=0)

0 1 0

0 1 01/ 1 ( 1/ 0)( )

1 1Y X P Y XP

e e

e e

1( 1/ 1) / ( 0 / 1)

( 1/ 0) / ( 0 / 0)

P Y X P Y XOR e

P Y X P Y X

Page 40: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

40

Odds-Ratio Mesure l’évolution du rapport des

chances d’apparition de l’événement Y=1 contre Y=0 (la cote des parieurs) lorsque X passe de x à x+1.

Formule générale:

1( 1) /(1 ( 1))

( ) /(1 ( ))

x xOR e

x x

Page 41: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

41

II.3Interprétation économètrique

Y possession d’un bien durable par un ménage: manifestation visible d’une variable latente Z inobservable continue.

Z est l’« intensité du désir » de posséder le bien

Si Z<seuil Y=0, sinon Y=1Le seuil peut être choisi égal à 0

Page 42: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

42

Modèle d’utilité

pour le ménage i de caractéristiques xi (âge,

sexe, revenu, CSP...), la possession du bien

procure un niveau d’utilité U(1,xi), la non

possession U(0,xi).

Yi = 1 U(1,xi) > U(0,xi)

Yi = 0 U(0,xi) > U(1,xi)

Variable latente Zi = U(1,xi) – U(0,xi).

Page 43: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

43

Modèle d’utilité (suite)

Zi = xi + i

πi = P(Yi=1|xi)= P(Zi > 0)=P(xi > -i) = F(xi)

F fonction de répartition de -i

Choix de F:Logistique :modèle logit, régression logistiqueNormal: modèle probit

Page 44: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

44

II.4 Estimation des paramètres

Les données

X Y x1 xi xn

y1 yi yn

yi = 1 si caractère présent, 0 sinon

i10

i10

x

x

ii

e1

e

)xX/1Y(P)x(

Le modèle

Page 45: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

45

Vraisemblance (conditionnelle!)

Probabilité d’observer les données[(x1,y1), …, (xi,yi), …, (xn,yn)]

n

1iii )xX/yY(Prob

n

1i

y1i

yi

ii ))x(1()x(

),(L 10

n

1i

y1x

xy

x

xi

i10

i10

i

i10

i10

)e1

e1()

e1

e(

Page 46: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

46

maximum de vraisemblance maximisent

Maximisation de la log-vraisemblance

Estimateurs obtenus par des procédures numériques: pas d’expression analytique

10ˆet ˆ 0 1( , ) (β)L L

1

( ) log ( ) log ( ) (1 ) log(1 ( ))n

i i i ii

L y x y x

β

10

11

( )( ( )) 0

( )( ( )) 0

n

i ii

n

i i ii

y x

x y x

Page 47: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

47

Précision (asymptotique) des estimateurs

La matrice

est estimée par la matrice

)ˆ(V)ˆ,ˆ(Cov

)ˆ,ˆ(Cov)ˆ(V)ˆ(V

110

100

1

ˆ2

2 )(L Log

Page 48: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

48

12

1

1 1

2

1 1

1 1 1 1

( )ˆ( )

ˆ ˆ ˆ ˆ (1 ) (1 )

ˆ ˆ ˆ ˆ(1 ) (1 )

ˆ ˆ1 (1 ) 0 1

ˆ ˆ1 0 (1 ) 1

n n

i i i i ii i

n n

i i i i i ii i

n n n n

V

x

x x

x x

x x

1

1 ( ) .

X VX

Page 49: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

49

Régression logistique multiple

Généralisation à p variables explicatives X1,…, Xp.

0 1 1

0 1 1

...

...( ) ( 1/ )1

p p

p p

x x

x x

ex P Y X x

e

Page 50: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

50

The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 2.9331 1.7855 2.6985 0.1004 INCAR 1 -4.5491 0.9402 23.4083 <.0001 PAPUL 1 0.2015 0.0622 10.4937 0.0012 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits INCAR 0.011 0.002 0.067 PAPUL 1.223 1.083 1.382

Page 51: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

51

II.5 Tests sur les paramètres

Trois méthodes sont disponibles pour tester l’apport de la variable X au modèle :

1. Le test de Wald2. La méthode du rapport de vraisemblance3. Le test du score 

H0 : j = 0H1 : j 0

Page 52: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

52

Test de Wald

analogue à un test de Student en régression usuelle, si l’on considère la statistique w définie par :

représente l’estimation de l’écart-type de l’estimateur de 1.

Sous l’hypothèse H0, w2 suit approximativement une

loi du khi-deux à un degré de liberté .

Rejet de H0 si w2

1

1

ˆ

ˆˆ( )w

s

1ˆˆ( )s

)1(21

Page 53: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

53

Test du rapport des vraisemblances

L’apport de la variable X est mesuré à l’aide de la statistique :

 G = -2 log [ ] 

sous l’hypothèse H0 G suit asymptotiquement une loi du khi-deux à un degré de liberté.

Vraisemblance sans la variable:

Vraisemblance sans la variable

Vraisemblance avec la variable

01

01

nnnn

n n

Page 54: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

54

Test du score

U vecteur des dérivées partielles de la log-vraisemblance estimées

Le score suit également asymptotiquement sous H0 une loi du khi-deux à un degré de liberté

En régression logistique simple, le score est égal à nr2 , où r est le coefficient de corrélation linéaire (abusif!) entre Y et X

00 0

1

ˆ ˆˆ( ) ( ) ( )

H HHscore U J U

Page 55: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

55

Comparaison des 3 tests

Page 56: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

56

Tests

Tests d’absence d’effet de toutes les variables: H0 : 1 = …… = p = 0 Rapport de vraisemblance GScore test USous H0, suivent tous deux

asymptotiquement une loi du 2 à p ddl

Page 57: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

57

III Discrimination sur variables qualitatives et scoring

1 2 p 1 2 p

variable de groupe

X , X , ... , X Variables explicatives à m , m , ... , m modalités

bon payeur Y :

mauvais payeur

Y

Solvabilité d'emprunteurs auprès de banques

Exemples

1 2

1 2

X : sexe, X : catégorie professionnelle etc.

bon conducteur (pas d'accidents) Y :

mauvais conducteur

X : sexe, X : t

Risque en assurance automobile

3ranche d'âge, X : véhicule sportif ou non ...

Y numéro de groupe

Reclassement dans une typologie

Page 58: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

58

Un peu de (pré)histoire

Fisher (1940) Un seul prédicteur Equations de l’AFC« Scores » were introduced

Page 59: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

59

Page 60: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

60

Page 61: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

61

Cas général p prédicteursQuantification optimale:

Donner des scores partiels aux catégories pour maximiser la distance de Mahalanobis dans Rp

Une analyse discriminante où les variables qualitatives sont remplacées par des indicatrices

0 1 0 1 0

1 0 0 0 1

0 0 1 1 0

=X

Page 62: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

62

X n’est pas de plein rang: rank(X)=mi-

pSolution classique: éliminer une indicatrice

par prédicteur Disqual (Saporta, 1975):

• ADL effectuée sur une sélection de facteurs de l’ACM de X. Analogue de la régression sur composantes principales

Page 63: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

63

DISQUAL 1ère étape

Analyse des correspondances du tableau des prédicteurs.

k variables numériques : garder les coordonnées factorielles les plus discriminantes

1 . . .

1

2

.=

.

.

n

kz z

Z

1 2 3 4 Prop. Loc

Profession Logement

P P P P .

1 1 0 0 0 0 1

2 0 1 0 0 1 0

. .

.... .

. .

. .

variables indicatrices

X

n

Page 64: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

64

2ème étape :

Analyse discriminante linéaire (Fisher).

Score = combinaison linéaire des coordonnées factorielles= combinaison linéaire des indicatrices des catégories

Coefficients = grille de notation

1

Score k

jj

j

d

s z

: coordonnées des catégories sur l'axe n°j j j jz = Xu u

1 1

grille de score

k kj j

j jj j

s d Xu X d u

1 1 21 2

..

( ).

.

j j

j j

z zd

V

V g gz

Page 65: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

65

Sélection des axes

Selon l’ordre de  l’ACM% d’inertie

Selon le pouvoir discriminantStudent sur 2 groupes,F sur k groupes

Page 66: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

66

Example assurance (SPAD)

1106 contrats automobile belges: 2 groupes: « 1 bons», « 2 mauvais »9 prédicteurs: 20 catégories

Usage (2), sexe (3), langue (2), age (3), région (2), bonus-malus (2), puissance (2), durée (2), age du véhicule (2)

Page 67: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

67

ACM

Page 68: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

68

ADL de Fisher sur les composantes

 FACTEURS CORRELATIONS COEFFICIENTS .............................................................................. 1 F 1 0.719 6.9064 2 F 2 0.055 0.7149 3 F 3 -0.078 -0.8211 4 F 4 -0.030 -0.4615 5 F 5 0.083 1.2581 6 F 6 0.064 1.0274 7 F 7 -0.001 0.2169 8 F 8 0.090 1.3133 9 F 9 -0.074 -1.1383 10 F 10 -0.150 -3.3193 11 F 11 -0.056 -1.4830 CONSTANTE 0.093575 ..............................................................................R2 = 0.57923 F = 91.35686 D2 = 5.49176 T2 = 1018.69159 ..............................................................................

Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10

Page 69: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

69

scores normalisésEchelle de 0 à 1000Transformation linéaire du score et du seuil

Page 70: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

70

+----------------------------------------------------------------------------+ | | COEFFICIENTS | TRANSFORMED | | CATEGORIES | DISCRIMINANT | COEFFICIENTS | | | FUNCTION | (SCORE) | +----------------------------------------------------------------------------+ | 2 . Use type | | USE1 - Profess. | -4.577 | 0.00 | | USE2 - private | 0.919 | 53.93 | +----------------------------------------------------------------------------+ | 4 . Gender | | MALE - male | 0.220 | 24.10 | | FEMA - female | -0.065 | 21.30 | | OTHE - companies | -2.236 | 0.00 | +----------------------------------------------------------------------------+ | 5 . Language | | FREN – French | -0.955 | 0.00 | | FLEM - flemish | 2.789 | 36.73 | +----------------------------------------------------------------------------+ | 24 . Birth date | | BD1 - 1890-1949 BD | 0.285 | 116.78 | | BD2 - 1950-1973 BD | -11.616 | 0.00 | | BD? - ???BD | 7.064 | 183.30 | +----------------------------------------------------------------------------+ | 25 . Region | | REG1 - Brussels | -6.785 | 0.00 | | REG2 – Other regions | 3.369 | 99.64 | +----------------------------------------------------------------------------+ | 26 . Level of bonus-malus | | BM01 - B-M 1 (-1) | 17.522 | 341.41 | | BM02 - Others B-M (-1) | -17.271 | 0.00 | +----------------------------------------------------------------------------+ | 27 . Duration of contract | | C<86 - <86 contracts | 2.209 | 50.27 | | C>87 - others contracts | -2.913 | 0.00 | +----------------------------------------------------------------------------+ | 28 . Horsepower | | HP1 - 10-39 HP | 6.211 | 75.83 | | HP2 - >40 HP | -1.516 | 0.00 | +----------------------------------------------------------------------------+ | 29 . year of vehicle construction | | YVC1 - 1933-1989 YVC | 3.515 | 134.80 | | YVC2 - 1990-1991 YVC | -10.222 | 0.00 | +----------------------------------------------------------------------------+

Grille de score

Page 71: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

71

Scoring et régression logistique

Inclusion aisée de prédicteurs qualitatifs en introduisant mi-1 indicatrices

Modalité omise= modalité de référence. Attention à l’interprétation

Standard de l’industrie bancaire (sauf Banque de France)

Page 72: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

72

CATEGORIES COEFFICIENTS LOGISTIC REGRESSION

use type profess private

0.00

0.7060 Insuree type

male female

companies

0.4797 0.4868

0.00 language

french flemish

-0.1236

0.00 birth cohort 1890-1949 1950-1973 unknown

-0.3596 -1.6155

0.00 region

Brussels Other regions

-0.8585

0.00 level of bonus-malus

B-M + other B-M (-1)

0.00

-2.4313 year of subscription

<86 contracts others

0.4932

0.00 horsepower 10-39 HP

40-349 HP

0.7305

0.00 year of vehicle construction

1933-1989 1990-1991

1.3362

0.00 Intercept -0.2498

Page 73: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

73

IV Comparaison logistique- discriminanteAvantages proclamés de la logistique:

Interprétabilité des coefficients (odds-ratios)Erreurs standard calculablesModélisation des probabilitésHypothèses plus générales qu’en AD gaussienneMaximum de vraisemblance au lieu de moindres

carrés (régression linéaire de Y sur les Xj)Prise en charge facile des X qualitatifs (logiciels)

Page 74: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

74

Mais:Erreurs standard asymptotiques , bootstrap en

ADNon convergence en cas de séparation

parfaite. Fisher existe toujours

Maximum de vraisemblance conditionnel:non optimal dans le cas gaussien standard

L’AD peut aussi traiter les variables qualitatives, et de manière plus robuste grâce aux contraintes de sous-espace (Disqual)

Page 75: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

75

Querelle largement idéologique

(modélisation versus analyse des données)L’AD est aussi un modèle, mais sur les lois

des X/Y, la logistique sur les lois de Y/XEn pratique différences peu nettes:

fonctions de score souvent très proches «  It is generally felt that logistic regression is a safer,

more robust bet than the LDA model, relying on fewer assumptions . It is our experience that the models give very similar results , even when LDA is used in inappropriately, such as with qualitative variables. » Hastie and al.(2001)

Page 76: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

76

  Variable N Mean Std Dev Sum Minimum Maximum  scorfish 101 1.00000 1.47644 101.00000 -2.42806 4.21377 scorlog 101 -0.22423 3.68078 -22.64725 -8.76376 7.86074  scorfish scorlog  scorfish 1.00000 0.99881 scorlog 0.99881 1.00000

Page 77: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

77

Usages souvent différents: AD pour classer, logistique pour modéliser (facteurs de risque) Logistique aussi utilisée en scoring

Si l’objectif est de classer: On ne fait plus de la science mais de l’aide à la décision Mieux vaut essayer les deux méthodes. Mais comment les comparer? Le vrai critère de choix est la performance en

généralisation

Page 78: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

78

Qualité d’une règle de classement

Tableau de classement : On classe des observations dont le groupe est

connu :

Pourcentage de bien classés :

Taux d’erreur de classement :

n n

n11 22

n n

n12 21

groupe prédit

groupe n n

réel n n

1 2

1

211 12

21 22

Page 79: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

79

Sur quel échantillon faire ce tableau ?

Échantillon test d’individus supplémentaires.Si on reclasse l’échantillon ayant servi à

construire la règle (estimation des coefficients) : «méthode de resubstitution» BIAIS

surestimation du pourcentage de bien classés.Solutions pour des échantillons de petite taille

: Validation croisée ou bootstrap

Page 80: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

80

Seuil et probabilités a posteriori

P(G1/x) dépend des probas a priori p1 et p2

Problèmes de l’échantillonnage stratifié poser priors = en discrim ou pevent= en

Logistic sinon probas a posteriori fausses seul le terme constant 0 est modifié: on

ajoute ln(p2/p1)

Sans importance pour un score

Page 81: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

81

Qualité d’un score Qu’il soit obtenu par Fisher ou logistique:

Comparaison des distributions du score sur les deux groupes

fonctions de répartition

Page 82: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

82

Courbe ROC

Groupe à détecter G1: scores élevés

Sensibilité 1-= P(S>s/G1):% de vrais positifs

Spécificité 1-=P(S<s/G2) :% de vrais négatifs

Page 83: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

83

Courbe ROC

Page 85: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

85

Courbe ROC invariante pour toute transformation monotone croissante

Surface sous la courbe: mesure de performance permettant de comparer (partiellement) des modèles

On tire une obs de G1 et une de G2

AUC estimée par la proportion de paires concordantes

nc statistique de Wilcoxon-Mann-WhitneyU+W= n1n2+0.5n1(n1+1) AUC=U/n1n2

1 2((1 ) ( )( ) )s

sAUC Xd s P Xs

1 2cc n n n

Page 86: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

86

Association des probabilités prédites et des réponses observées Pairs 2550 Percent Concordant 94.3 Percent Discordant 5.7 Percent Tied 0.0 Somers' D 0.886 Gamma 0.886 Tau-a 0.447 c 0.943

Exemple infarctus proc logistic

Page 87: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

87

Infarctus: comparaison Fisher et logistique

Courbe ROC

1 - Spécificité

1.00.75.50.250.00

Sen

sitiv

ité

1.00

.75

.50

.25

0.00

Source de la courbe

SCORLOG

SCORFISH

Page 88: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

88

Assurance

Page 89: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

89

Zone sous la courbe

.934

.933

Variable(s) derésultats testsSCDISQUASCLOGIST

Zone

Page 90: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

90

Lift chart

% of the target

Page 91: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

91

Surface sous la courbe de lift

Proportion des unités ayant un score>s

Surface:

1 1(1 ) (1 )p p

1 1

1 1

11

(1 ) (1 ) (1 )

(1 ) (1 ) (1 ) (1 )

(1 )2

L d p p

p d p d

pp AUC

Page 92: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

92

Coefficient Ki (Kxen)

Ki=(aire entre courbe lift et diagonale) / (aire entre courbe lift et courbe idéale)

1 1

1 1

12(1 ) 12

1 12

2 1L p p AUC

Ki Cp

Ap

U

Ki=Somers’ D ou Accuracy Ratio AR

Page 93: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

93

Optimiser AUC ou Ki: mêmes résultats.Ne prend pas en compte les coûtsNe pas comparer sur données

d’apprentissage…

Page 94: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

94

Les 3 échantillonsApprentissage: pour estimer les

paramètres des modèlesTest : pour choisir le meilleur modèleValidation : pour estimer la performance

sur des données futuresNécessité de faire plusieurs tirages

Modèle final: avec toutes les observations

Page 95: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr

95

Conclusion

ADL et régression logistique: fondements également solides mais différents

Un faux débat s’il s’agit seulement de prédire.

Convergence des pratiques : validation en logistique Courbe ROC en discriminante

Prudence quand on calcule des probabilités: Vraies probas ou simples scores