1 régression logistique et analyse discriminante : comparaisons théoriques et pratiques gilbert...
Post on 04-Apr-2015
112 Views
Preview:
TRANSCRIPT
1
Régression logistique et analyse discriminante : comparaisons théoriques et pratiques
Gilbert SaportaConservatoire National des Arts et Métierssaporta@cnam.frhttp://cedric.cnam.fr/~saporta
2
Bibliographie Bardos: « Analyse discriminante », Dunod, 2001 Celeux, Nakache :« Analyse discriminante sur
variables qualitatives» Polytechnica ,1994 Droesbeke, Lejeune, Saporta (éditeurs): « Modèles
statistiques pour données qualitatives » Technip, 2005 Hastie, Tibshirani, Friedman : « The Elements of
Statistical Learning », Springer-Verlag, 2001 Hosmer, Lemeshow : «Applied logistic regression»,
Wiley, 2000 Nakache, Confais: « Statistique explicative appliquée
», Technip, 2003 Thomas, Edelman,Crook: « Credit scoring and its
applications », SIAM, 2002
3
Plan
I L’analyse discriminante II La régression logistiqueIII Prédicteurs qualitatifs et scoringIV Comparaison
4
Objet d’étude
Observations multidimensionnelles réparties en k groupes définis a priori. K=2 le plus souvent
Exemples d’application : Pronostic des infarctus (J.P. Nakache)
• 2 groupes : décès, survie (variables médicales) Iris de Fisher :
• 3 espèces : 4 variables (longueur et largeur des pétales et sépales)
Risque des demandeurs de crédit• 2 groupes : bons, mauvais (variables qualitatives)
Autres : • Publipostage, reclassement dans une typologie.
5
Quelques dates :
Analyse discriminante Mahalanobis (crâniologie) 1927 Fisher (biométrie) 1936
Régression logistique Berkson (biostatistique) 1944 Cox 1958 Mc Fadden (économétrie) 1973
6
1. Aspect géomètrique:- Réduction de dimension, axes et
variables discriminantes.- Cas de 2 groupes.- Méthodes géométriques de
classement.
2. AD probabiliste
I : L’analyse discriminante
7
Représentation des données
n points dans p appartenant à k groupes.
1 21 1 1 1
1 2
1 2
1 2 1 2
1
2
...
0 1 ... 0
1 0 ... 0
...
0 0 ... 1
1 0 ... 0
indicatrices des groupes variables explicatives
j p
j pi i i i
j pn n n n
k j p
i
n
X X X X
X X X X
X X X X
8
Réduction de dimension. Recherche d’axes et de variables discriminantes.
Dispersion intergroupe et dispersion intra groupe.
W = matrice variance intra W = 1/n ni Vi
B = matrice variance inter B = 1/n ni (gi - g) (gi - g)’
V = W + B variance totale
V1
g1
V2
g2
Vk
gk
9
Axes discriminants : deux objectifs
Dispersion intraclasse minimale : min u’Wu
Dispersion interclasse maximale : max u’Bu
u
g2
gkg1
10
Simultanéité impossible
Compromis :
-1 -1
min max
max
V W B
u V u u W u u B u
u B u u B uou
u V u u W u
V Bu u W Bu u
min ' min i
max ' max
u Wu Wu u
u Bu Bu u i
11
ACP du nuage des gi avec :Métrique V-1
Métrique W-1 Mahalanobis
1
-1
a) Bu u
Bu u
Bu (W B)u
1- Bu Wu
b) W Bu u u1-
V
V
12
Nombre d’axes discriminants
ACP des groupes : dimension de l’espace contenant les groupes gi
Si n>p>k (cas usuel), k-1 axes discriminantsExemple célèbre : Iris de Fisher
• K = 3 Setosa, Versicolor, Virginica• P=4 longueur pétale, longueur sépale, largeur pétale,
largeur sépale
• n1=n2=n3 =50
Donc deux axes
13
Iris setosa Iris versicolor Iris virginica
14
15
16
Cas de deux groupes
g1 et g2 sont sur une une droite : 1 seul axe discriminant :
RAPPEL : en ACP axe a, facteur u = M a
Combinaison discriminante proportionnelle à M (g2 - g1) = W-1 (g2 - g1) ou V-1 (g2 - g1)
FONCTION DE FISHER :
1 12 1
1 12 1
2 1
( )p p
X X
W g g W
X X
e
a
d e a
e Ma e uM
,
a g g ( )1 2
17
Historique
pj
jj=1
1 2
d
1, 2 p
-11 2
-
Historiquement : d= u x =X u
d -dTest (de Student) de comparaison de 2 moyennes : T=
s
Fisher (1936)
Trouver u , u , ..., u tel que T maximal.
Solution : u proportionnel à W g -g
Nota : W
1 -1 21 2
1 2 1 2 p
n ng -g =α V g -g avec : α=1+ D
n n-2
18
Distance de MAHALANOBIS
Distance au sens de la métrique W-1.
1. pour p=1 :
2. p quelconque :
Standardisation de chaque composante xj
Décorrélation...
2 11 2 1 2'pD g g W g g
2
2 1 21 ~ F 1, n-2
x xD
g1
Dp g2
2 11 2 1 2
2 1/ 2 1/ 21 2 1 2
1/2
'
p
p
W X
D g g W g g
D g g W W g g
19
Équivalence régression
1
2
1
21 2
1 221 2
1 2
a si G
b si G
ˆRégression : ' '
n n ˆ a= et b= - y 0 alors 2 n n
p
p
Y
y X e X X X y
DSi V g g R
n nD
n n
22
21 2
( 2)
1p
n n RD
n n R
20
Équivalence régressionMAIS : Modèle linéaire usuel non valide :
en discriminante c’est l’inverse que l’on suppose :
/ ~ ; ix y N
2/ ~ ; y x N x I
21
Conséquences
Pas de test,pas d’erreurs standard sur les coefficients
MAIS possibilité d’utiliser les méthodes de pas à pas en régression.
Aussi une source de malentendus…
22
Obs C PRONO FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL 1 2 SURVIE 90 1.71 19.0 16 19.5 16.0 912 2 1 DECES 90 1.68 18.7 24 31.0 14.0 1476 3 1 DECES 120 1.40 11.7 23 29.0 8.0 1657 4 2 SURVIE 82 1.79 21.8 14 17.5 10.0 782 5 1 DECES 80 1.58 19.7 21 28.0 18.5 1418 6 1 DECES 80 1.13 14.1 18 23.5 9.0 1664 7 2 SURVIE 94 2.04 21.7 23 27.0 10.0 1059 8 2 SURVIE 80 1.19 14.9 16 21.0 16.5 1412 9 2 SURVIE 78 2.16 27.7 15 20.5 11.5 759 10 2 SURVIE 100 2.28 22.8 16 23.0 4.0 807 11 2 SURVIE 90 2.79 31.0 16 25.0 8.0 717 12 2 SURVIE 86 2.70 31.4 15 23.0 9.5 681 13 2 SURVIE 80 2.61 32.6 8 15.0 1.0 460 14 2 SURVIE 61 2.84 47.3 11 17.0 12.0 479 15 2 SURVIE 99 3.12 31.8 15 20.0 11.0 513 16 2 SURVIE 92 2.47 26.8 12 19.0 11.0 615 17 2 SURVIE 96 1.88 19.6 12 19.0 3.0 809 18 2 SURVIE 86 1.70 19.8 10 14.0 10.5 659 19 2 SURVIE 125 3.37 26.9 18 28.0 6.0 665 20 2 SURVIE 80 2.01 25.0 15 20.0 6.0 796
23
FONCTION LINEAIRE DISCRIMINANTE VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROBA........ VARIABLES FONCTION REGRESSION TYPES STUDENTNUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.) (SEUIL= 0.20).............................................................................................. 3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154 4 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.006 5 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.317 6 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897 7 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.173 8 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.549 9 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.849CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.6958..............................................................................................R2 = 0.55759 F = 16.74489 PROBA = 0.000D2 = 4.94213 T2 = 124.77643 PROBA = 0.000..............................................................................................
SPAD
24
Méthodes géométriques de classement
Échantillon d’apprentissage
e observation de groupe inconnu
e classé dans le groupe i tel que: d(e ; gi) minimal
e
?
y x xp' . . .
.
.
.
1
1
2
1
g1
g2
g3
G1
G2
G3
e
25
pour deux groupes
On classe dans G1 si:
Fonction de Fisher >cScore de Fisher:
' 1 ' 1 ' 1 ' 11 1 1 2 2 2
1 ' 1 ' 111 2 1 1 2 22
2 2
( ) ' ( )
g W e g W g g W e g W g
g g W e g W g g W g
1 ' 1 ' 111 2 1 1 2 22( ) ' ( )g g W e g W g g W g
26
Interprétation géométrique
Projection sur la droite des centres avec la métrique W-1
Dualité axe-frontière plane frontière
axe discriminant
27
Analyse discriminante probabiliste.
p j p r o b a b i l i t é a p r io r i d ’ a p p a r te n i r a u g r o u p e j f j ( x ) lo i d e s x i d a n s l e g r o u p e j
1
( )F o r m u le d e B a y e s : ( / )
( )
j jj k
j jj
p fP G
p f
x
xx
P r o b lè m e : e s t im e r l e s f j ( x )
28
La règle bayésienne naïve dans le cadre normal
j
11/ 2/ 2
j j
1j j
x densité d'une N ;
1 1 exp -
22
max p f x attribuer x au groupe le plus
probable a posteriori
1 1max Ln p
2 2
j j
j j j jp
j
j j j
f
f x x x
x x Ln
règle quadratique
29
La règle bayésienne
1 2
1 1 1j
1j
simplificatrice : ... =
On attribue x au groupe j tel que :
1 1max Ln p
2 2
1 : max Ln p
2
j j j
j j
j
indépendantdu groupe
a
Hypothèse
x x x
donc
1
j j
Règle linéaire équivalente à la règle géométrique si équiprobabilité, après estimation
de par g et de par W.
jx
30
Analyse discriminante probabiliste: cas de deux groupes
1 1 2 2
-11/ 2 / 2
-1 -1 -1 -11 21 1 2 2 2
1
-1 12 11 2 1 2 1 2
fonction de Fisher
1exp 1/ 2 '
2
1/ 2 p 1/ 2 p
' p / 1/ 2 '
i p i i
p f x p f x
f x x x
x Log x Log
x Log p
Affecter au groupe 1 si :
31
Fonction de score et probabilité
Fonction de score S(x) :
Règle :affecter au groupe 1 si S(x)>0
Probabilité d’appartenance au groupe 1 :
1
11
1 2
2 1
11 1
1 11 1 2 2
1 11 1 2 2
1/2
1/2 1/2
1/2 1/2
G /
/
P
1/ 1
x x
x x x x
x x x x
p ex
p e p e
p p ep
1 121 2 1 2 1 2
1
1( ) ( ) ' ln( ) ( ) ' ( )
2
pS x x
p
32
Probabilité a posteriori
-S x 1/p-1 1/p=1+e
1 Fonction logistique du score
1 1
S x
S x S x
Log S x
ep
e e
33
S(x)
2
1
1( ( ) 0) ln
2p
p
pP S x P U
p
• Probabilité d’erreur de classement de G2 en G1 :On classe en G1 si S(x)>0
34
Posterior Probability of Membership in PRONO From Classified Obs PRONO into PRONO DECES SURVIE 1 SURVIE SURVIE 0.4515 0.5485 2 DECES DECES 0.8140 0.1860 3 DECES DECES 0.9597 0.0403 4 SURVIE SURVIE 0.2250 0.7750 5 DECES DECES 0.8112 0.1888 6 DECES DECES 0.8928 0.1072 7 SURVIE SURVIE 0.3202 0.6798 8 SURVIE DECES * 0.8711 0.1289 9 SURVIE SURVIE 0.0984 0.9016 10 SURVIE SURVIE 0.0797 0.9203 11 SURVIE SURVIE 0.0138 0.9862 12 SURVIE SURVIE 0.0160 0.9840 13 SURVIE SURVIE 0.0052 0.9948 14 SURVIE SURVIE 0.0105 0.9895 15 SURVIE SURVIE 0.0019 0.9981 16 SURVIE SURVIE 0.0258 0.9742 17 SURVIE SURVIE 0.2011 0.7989 18 SURVIE SURVIE 0.2260 0.7740 19 SURVIE SURVIE 0.0022 0.9978 20 SURVIE SURVIE 0.1222 0.8778 21 SURVIE SURVIE 0.0014 0.9986 22 DECES DECES 0.8629 0.1371 23 DECES SURVIE * 0.4804 0.5196 24 DECES DECES 0.9900 0.0100 25 DECES DECES 0.5845 0.4155 26 DECES DECES 0.7447 0.2553 27 DECES DECES 0.7067 0.2933 28 DECES SURVIE * 0.4303 0.5697 29 SURVIE SURVIE 0.1118 0.8882 30 SURVIE DECES * 0.5734 0.4266 31 SURVIE SURVIE 0.2124 0.7876
Proc discrimSAS
35
II: La régression logistique
II.1 Le modèle logistique simpleII.2 Odds ratiosII.3 Interprétation économètriqueII.4 EstimationII.5 Tests
36
II.1 Le modèle logistique simple
Réponse dichotomique : Y = 0 / 1Variable explicative : XObjectif : Modéliser
• Le modèle linéaire (x) = 0 + 1x convient mal lorsque X est continue.
• Le modèle logistique est plus naturel
(x) = Prob(Y = 1/X = x)
37
Le modèle logistique simple
x
x
10
10
e1
e)x(
x))x(1
)x((Log 10
ou
Probabilité d'une maladie cardiaque
en fonction de l'age
AGE
70605040302010
Pro
b(Y
=1 / X
)
1.0
.8
.6
.4
.2
0.0
Fonction de lien : Logit
38
Il s’agit bien d’un probléme de régression:Modélisation de l’espérance
conditionnelle E(Y/X=x)=f(x)
Choix de la forme logistique en épidémiologie:S’ajuste bienInterprétation de 1 en termes d’odds-ratio
39
II.2 Odds-Ratio
Si X binaire (sujet exposé X=1, non exposé X=0)
0 1 0
0 1 01/ 1 ( 1/ 0)( )
1 1Y X P Y XP
e e
e e
1( 1/ 1) / ( 0 / 1)
( 1/ 0) / ( 0 / 0)
P Y X P Y XOR e
P Y X P Y X
40
Odds-Ratio Mesure l’évolution du rapport des
chances d’apparition de l’événement Y=1 contre Y=0 (la cote des parieurs) lorsque X passe de x à x+1.
Formule générale:
1( 1) /(1 ( 1))
( ) /(1 ( ))
x xOR e
x x
41
II.3Interprétation économètrique
Y possession d’un bien durable par un ménage: manifestation visible d’une variable latente Z inobservable continue.
Z est l’« intensité du désir » de posséder le bien
Si Z<seuil Y=0, sinon Y=1Le seuil peut être choisi égal à 0
42
Modèle d’utilité
pour le ménage i de caractéristiques xi (âge,
sexe, revenu, CSP...), la possession du bien
procure un niveau d’utilité U(1,xi), la non
possession U(0,xi).
Yi = 1 U(1,xi) > U(0,xi)
Yi = 0 U(0,xi) > U(1,xi)
Variable latente Zi = U(1,xi) – U(0,xi).
43
Modèle d’utilité (suite)
Zi = xi + i
πi = P(Yi=1|xi)= P(Zi > 0)=P(xi > -i) = F(xi)
F fonction de répartition de -i
Choix de F:Logistique :modèle logit, régression logistiqueNormal: modèle probit
44
II.4 Estimation des paramètres
Les données
X Y x1 xi xn
y1 yi yn
yi = 1 si caractère présent, 0 sinon
i10
i10
x
x
ii
e1
e
)xX/1Y(P)x(
Le modèle
45
Vraisemblance (conditionnelle!)
Probabilité d’observer les données[(x1,y1), …, (xi,yi), …, (xn,yn)]
n
1iii )xX/yY(Prob
n
1i
y1i
yi
ii ))x(1()x(
),(L 10
n
1i
y1x
xy
x
xi
i10
i10
i
i10
i10
)e1
e1()
e1
e(
46
maximum de vraisemblance maximisent
Maximisation de la log-vraisemblance
Estimateurs obtenus par des procédures numériques: pas d’expression analytique
10ˆet ˆ 0 1( , ) (β)L L
1
( ) log ( ) log ( ) (1 ) log(1 ( ))n
i i i ii
L y x y x
β
10
11
( )( ( )) 0
( )( ( )) 0
n
i ii
n
i i ii
y x
x y x
47
Précision (asymptotique) des estimateurs
La matrice
est estimée par la matrice
)ˆ(V)ˆ,ˆ(Cov
)ˆ,ˆ(Cov)ˆ(V)ˆ(V
110
100
1
ˆ2
2 )(L Log
48
12
2ˆ
1
1 1
2
1 1
1 1 1 1
( )ˆ( )
ˆ ˆ ˆ ˆ (1 ) (1 )
ˆ ˆ ˆ ˆ(1 ) (1 )
ˆ ˆ1 (1 ) 0 1
ˆ ˆ1 0 (1 ) 1
n n
i i i i ii i
n n
i i i i i ii i
n n n n
V
x
x x
x x
x x
1
1 ( ) .
X VX
49
Régression logistique multiple
Généralisation à p variables explicatives X1,…, Xp.
0 1 1
0 1 1
...
...( ) ( 1/ )1
p p
p p
x x
x x
ex P Y X x
e
50
The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 2.9331 1.7855 2.6985 0.1004 INCAR 1 -4.5491 0.9402 23.4083 <.0001 PAPUL 1 0.2015 0.0622 10.4937 0.0012 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits INCAR 0.011 0.002 0.067 PAPUL 1.223 1.083 1.382
51
II.5 Tests sur les paramètres
Trois méthodes sont disponibles pour tester l’apport de la variable X au modèle :
1. Le test de Wald2. La méthode du rapport de vraisemblance3. Le test du score
H0 : j = 0H1 : j 0
52
Test de Wald
analogue à un test de Student en régression usuelle, si l’on considère la statistique w définie par :
représente l’estimation de l’écart-type de l’estimateur de 1.
Sous l’hypothèse H0, w2 suit approximativement une
loi du khi-deux à un degré de liberté .
Rejet de H0 si w2
1
1
ˆ
ˆˆ( )w
s
1ˆˆ( )s
)1(21
53
Test du rapport des vraisemblances
L’apport de la variable X est mesuré à l’aide de la statistique :
G = -2 log [ ]
sous l’hypothèse H0 G suit asymptotiquement une loi du khi-deux à un degré de liberté.
Vraisemblance sans la variable:
Vraisemblance sans la variable
Vraisemblance avec la variable
01
01
nnnn
n n
54
Test du score
U vecteur des dérivées partielles de la log-vraisemblance estimées
Le score suit également asymptotiquement sous H0 une loi du khi-deux à un degré de liberté
En régression logistique simple, le score est égal à nr2 , où r est le coefficient de corrélation linéaire (abusif!) entre Y et X
00 0
1
ˆ ˆˆ( ) ( ) ( )
H HHscore U J U
55
Comparaison des 3 tests
56
Tests
Tests d’absence d’effet de toutes les variables: H0 : 1 = …… = p = 0 Rapport de vraisemblance GScore test USous H0, suivent tous deux
asymptotiquement une loi du 2 à p ddl
57
III Discrimination sur variables qualitatives et scoring
1 2 p 1 2 p
variable de groupe
X , X , ... , X Variables explicatives à m , m , ... , m modalités
bon payeur Y :
mauvais payeur
Y
Solvabilité d'emprunteurs auprès de banques
Exemples
1 2
1 2
X : sexe, X : catégorie professionnelle etc.
bon conducteur (pas d'accidents) Y :
mauvais conducteur
X : sexe, X : t
Risque en assurance automobile
3ranche d'âge, X : véhicule sportif ou non ...
Y numéro de groupe
Reclassement dans une typologie
58
Un peu de (pré)histoire
Fisher (1940) Un seul prédicteur Equations de l’AFC« Scores » were introduced
59
60
61
Cas général p prédicteursQuantification optimale:
Donner des scores partiels aux catégories pour maximiser la distance de Mahalanobis dans Rp
Une analyse discriminante où les variables qualitatives sont remplacées par des indicatrices
0 1 0 1 0
1 0 0 0 1
0 0 1 1 0
=X
62
X n’est pas de plein rang: rank(X)=mi-
pSolution classique: éliminer une indicatrice
par prédicteur Disqual (Saporta, 1975):
• ADL effectuée sur une sélection de facteurs de l’ACM de X. Analogue de la régression sur composantes principales
63
DISQUAL 1ère étape
Analyse des correspondances du tableau des prédicteurs.
k variables numériques : garder les coordonnées factorielles les plus discriminantes
1 . . .
1
2
.=
.
.
n
kz z
Z
1 2 3 4 Prop. Loc
Profession Logement
P P P P .
1 1 0 0 0 0 1
2 0 1 0 0 1 0
. .
.... .
. .
. .
variables indicatrices
X
n
64
2ème étape :
Analyse discriminante linéaire (Fisher).
Score = combinaison linéaire des coordonnées factorielles= combinaison linéaire des indicatrices des catégories
Coefficients = grille de notation
1
Score k
jj
j
d
s z
: coordonnées des catégories sur l'axe n°j j j jz = Xu u
1 1
grille de score
k kj j
j jj j
s d Xu X d u
1 1 21 2
..
( ).
.
j j
j j
z zd
V
V g gz
65
Sélection des axes
Selon l’ordre de l’ACM% d’inertie
Selon le pouvoir discriminantStudent sur 2 groupes,F sur k groupes
66
Example assurance (SPAD)
1106 contrats automobile belges: 2 groupes: « 1 bons», « 2 mauvais »9 prédicteurs: 20 catégories
Usage (2), sexe (3), langue (2), age (3), région (2), bonus-malus (2), puissance (2), durée (2), age du véhicule (2)
67
ACM
68
ADL de Fisher sur les composantes
FACTEURS CORRELATIONS COEFFICIENTS .............................................................................. 1 F 1 0.719 6.9064 2 F 2 0.055 0.7149 3 F 3 -0.078 -0.8211 4 F 4 -0.030 -0.4615 5 F 5 0.083 1.2581 6 F 6 0.064 1.0274 7 F 7 -0.001 0.2169 8 F 8 0.090 1.3133 9 F 9 -0.074 -1.1383 10 F 10 -0.150 -3.3193 11 F 11 -0.056 -1.4830 CONSTANTE 0.093575 ..............................................................................R2 = 0.57923 F = 91.35686 D2 = 5.49176 T2 = 1018.69159 ..............................................................................
Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10
69
scores normalisésEchelle de 0 à 1000Transformation linéaire du score et du seuil
70
+----------------------------------------------------------------------------+ | | COEFFICIENTS | TRANSFORMED | | CATEGORIES | DISCRIMINANT | COEFFICIENTS | | | FUNCTION | (SCORE) | +----------------------------------------------------------------------------+ | 2 . Use type | | USE1 - Profess. | -4.577 | 0.00 | | USE2 - private | 0.919 | 53.93 | +----------------------------------------------------------------------------+ | 4 . Gender | | MALE - male | 0.220 | 24.10 | | FEMA - female | -0.065 | 21.30 | | OTHE - companies | -2.236 | 0.00 | +----------------------------------------------------------------------------+ | 5 . Language | | FREN – French | -0.955 | 0.00 | | FLEM - flemish | 2.789 | 36.73 | +----------------------------------------------------------------------------+ | 24 . Birth date | | BD1 - 1890-1949 BD | 0.285 | 116.78 | | BD2 - 1950-1973 BD | -11.616 | 0.00 | | BD? - ???BD | 7.064 | 183.30 | +----------------------------------------------------------------------------+ | 25 . Region | | REG1 - Brussels | -6.785 | 0.00 | | REG2 – Other regions | 3.369 | 99.64 | +----------------------------------------------------------------------------+ | 26 . Level of bonus-malus | | BM01 - B-M 1 (-1) | 17.522 | 341.41 | | BM02 - Others B-M (-1) | -17.271 | 0.00 | +----------------------------------------------------------------------------+ | 27 . Duration of contract | | C<86 - <86 contracts | 2.209 | 50.27 | | C>87 - others contracts | -2.913 | 0.00 | +----------------------------------------------------------------------------+ | 28 . Horsepower | | HP1 - 10-39 HP | 6.211 | 75.83 | | HP2 - >40 HP | -1.516 | 0.00 | +----------------------------------------------------------------------------+ | 29 . year of vehicle construction | | YVC1 - 1933-1989 YVC | 3.515 | 134.80 | | YVC2 - 1990-1991 YVC | -10.222 | 0.00 | +----------------------------------------------------------------------------+
Grille de score
71
Scoring et régression logistique
Inclusion aisée de prédicteurs qualitatifs en introduisant mi-1 indicatrices
Modalité omise= modalité de référence. Attention à l’interprétation
Standard de l’industrie bancaire (sauf Banque de France)
72
CATEGORIES COEFFICIENTS LOGISTIC REGRESSION
use type profess private
0.00
0.7060 Insuree type
male female
companies
0.4797 0.4868
0.00 language
french flemish
-0.1236
0.00 birth cohort 1890-1949 1950-1973 unknown
-0.3596 -1.6155
0.00 region
Brussels Other regions
-0.8585
0.00 level of bonus-malus
B-M + other B-M (-1)
0.00
-2.4313 year of subscription
<86 contracts others
0.4932
0.00 horsepower 10-39 HP
40-349 HP
0.7305
0.00 year of vehicle construction
1933-1989 1990-1991
1.3362
0.00 Intercept -0.2498
73
IV Comparaison logistique- discriminanteAvantages proclamés de la logistique:
Interprétabilité des coefficients (odds-ratios)Erreurs standard calculablesModélisation des probabilitésHypothèses plus générales qu’en AD gaussienneMaximum de vraisemblance au lieu de moindres
carrés (régression linéaire de Y sur les Xj)Prise en charge facile des X qualitatifs (logiciels)
74
Mais:Erreurs standard asymptotiques , bootstrap en
ADNon convergence en cas de séparation
parfaite. Fisher existe toujours
Maximum de vraisemblance conditionnel:non optimal dans le cas gaussien standard
L’AD peut aussi traiter les variables qualitatives, et de manière plus robuste grâce aux contraintes de sous-espace (Disqual)
75
Querelle largement idéologique
(modélisation versus analyse des données)L’AD est aussi un modèle, mais sur les lois
des X/Y, la logistique sur les lois de Y/XEn pratique différences peu nettes:
fonctions de score souvent très proches « It is generally felt that logistic regression is a safer,
more robust bet than the LDA model, relying on fewer assumptions . It is our experience that the models give very similar results , even when LDA is used in inappropriately, such as with qualitative variables. » Hastie and al.(2001)
76
Variable N Mean Std Dev Sum Minimum Maximum scorfish 101 1.00000 1.47644 101.00000 -2.42806 4.21377 scorlog 101 -0.22423 3.68078 -22.64725 -8.76376 7.86074 scorfish scorlog scorfish 1.00000 0.99881 scorlog 0.99881 1.00000
77
Usages souvent différents: AD pour classer, logistique pour modéliser (facteurs de risque) Logistique aussi utilisée en scoring
Si l’objectif est de classer: On ne fait plus de la science mais de l’aide à la décision Mieux vaut essayer les deux méthodes. Mais comment les comparer? Le vrai critère de choix est la performance en
généralisation
78
Qualité d’une règle de classement
Tableau de classement : On classe des observations dont le groupe est
connu :
Pourcentage de bien classés :
Taux d’erreur de classement :
n n
n11 22
n n
n12 21
groupe prédit
groupe n n
réel n n
1 2
1
211 12
21 22
79
Sur quel échantillon faire ce tableau ?
Échantillon test d’individus supplémentaires.Si on reclasse l’échantillon ayant servi à
construire la règle (estimation des coefficients) : «méthode de resubstitution» BIAIS
surestimation du pourcentage de bien classés.Solutions pour des échantillons de petite taille
: Validation croisée ou bootstrap
80
Seuil et probabilités a posteriori
P(G1/x) dépend des probas a priori p1 et p2
Problèmes de l’échantillonnage stratifié poser priors = en discrim ou pevent= en
Logistic sinon probas a posteriori fausses seul le terme constant 0 est modifié: on
ajoute ln(p2/p1)
Sans importance pour un score
81
Qualité d’un score Qu’il soit obtenu par Fisher ou logistique:
Comparaison des distributions du score sur les deux groupes
fonctions de répartition
82
Courbe ROC
Groupe à détecter G1: scores élevés
Sensibilité 1-= P(S>s/G1):% de vrais positifs
Spécificité 1-=P(S<s/G2) :% de vrais négatifs
83
Courbe ROC
84
Courbe ROC
Evolution de 1- puissance du test en fonction de , risque de première espèce lorsque le seuil varie
Proportion de vrais positifs en fonction de la proportion de faux positifs
Un site: http://www.anaesthetist.com/mnm/stats/roc/
85
Courbe ROC invariante pour toute transformation monotone croissante
Surface sous la courbe: mesure de performance permettant de comparer (partiellement) des modèles
On tire une obs de G1 et une de G2
AUC estimée par la proportion de paires concordantes
nc statistique de Wilcoxon-Mann-WhitneyU+W= n1n2+0.5n1(n1+1) AUC=U/n1n2
1 2((1 ) ( )( ) )s
sAUC Xd s P Xs
1 2cc n n n
86
Association des probabilités prédites et des réponses observées Pairs 2550 Percent Concordant 94.3 Percent Discordant 5.7 Percent Tied 0.0 Somers' D 0.886 Gamma 0.886 Tau-a 0.447 c 0.943
Exemple infarctus proc logistic
87
Infarctus: comparaison Fisher et logistique
Courbe ROC
1 - Spécificité
1.00.75.50.250.00
Sen
sitiv
ité
1.00
.75
.50
.25
0.00
Source de la courbe
SCORLOG
SCORFISH
88
Assurance
89
Zone sous la courbe
.934
.933
Variable(s) derésultats testsSCDISQUASCLOGIST
Zone
90
Lift chart
% of the target
91
Surface sous la courbe de lift
Proportion des unités ayant un score>s
Surface:
1 1(1 ) (1 )p p
1 1
1 1
11
(1 ) (1 ) (1 )
(1 ) (1 ) (1 ) (1 )
(1 )2
L d p p
p d p d
pp AUC
92
Coefficient Ki (Kxen)
Ki=(aire entre courbe lift et diagonale) / (aire entre courbe lift et courbe idéale)
1 1
1 1
12(1 ) 12
1 12
2 1L p p AUC
Ki Cp
Ap
U
Ki=Somers’ D ou Accuracy Ratio AR
93
Optimiser AUC ou Ki: mêmes résultats.Ne prend pas en compte les coûtsNe pas comparer sur données
d’apprentissage…
94
Les 3 échantillonsApprentissage: pour estimer les
paramètres des modèlesTest : pour choisir le meilleur modèleValidation : pour estimer la performance
sur des données futuresNécessité de faire plusieurs tirages
Modèle final: avec toutes les observations
95
Conclusion
ADL et régression logistique: fondements également solides mais différents
Un faux débat s’il s’agit seulement de prédire.
Convergence des pratiques : validation en logistique Courbe ROC en discriminante
Prudence quand on calcule des probabilités: Vraies probas ou simples scores
top related