1 régression logistique et analyse discriminante : comparaisons théoriques et pratiques gilbert...

Régression logistique et analyse discriminante : comparaisons théoriques et pratiques

Gilbert SaportaConservatoire National des Arts et Métierssaporta@cnam.frhttp://cedric.cnam.fr/~saporta

Bibliographie Bardos: « Analyse discriminante », Dunod, 2001 Celeux, Nakache :« Analyse discriminante sur

variables qualitatives» Polytechnica ,1994 Droesbeke, Lejeune, Saporta (éditeurs): « Modèles

statistiques pour données qualitatives » Technip, 2005 Hastie, Tibshirani, Friedman : « The Elements of

Statistical Learning », Springer-Verlag, 2001 Hosmer, Lemeshow : «Applied logistic regression»,

Wiley, 2000 Nakache, Confais: « Statistique explicative appliquée

», Technip, 2003 Thomas, Edelman,Crook: « Credit scoring and its

applications », SIAM, 2002

I L’analyse discriminante II La régression logistiqueIII Prédicteurs qualitatifs et scoringIV Comparaison

Objet d’étude

Observations multidimensionnelles réparties en k groupes définis a priori. K=2 le plus souvent

Exemples d’application : Pronostic des infarctus (J.P. Nakache)

• 2 groupes : décès, survie (variables médicales) Iris de Fisher :

• 3 espèces : 4 variables (longueur et largeur des pétales et sépales)

Risque des demandeurs de crédit• 2 groupes : bons, mauvais (variables qualitatives)

Autres : • Publipostage, reclassement dans une typologie.

Quelques dates :

Analyse discriminante Mahalanobis (crâniologie) 1927 Fisher (biométrie) 1936

Régression logistique Berkson (biostatistique) 1944 Cox 1958 Mc Fadden (économétrie) 1973

1. Aspect géomètrique:- Réduction de dimension, axes et

variables discriminantes.- Cas de 2 groupes.- Méthodes géométriques de

classement.

2. AD probabiliste

I : L’analyse discriminante

Représentation des données

n points dans p appartenant à k groupes.

1 21 1 1 1

1 2 1 2

0 1 ... 0

1 0 ... 0

0 0 ... 1

1 0 ... 0

indicatrices des groupes variables explicatives

j pi i i i

j pn n n n

X X X X

Réduction de dimension. Recherche d’axes et de variables discriminantes.

Dispersion intergroupe et dispersion intra groupe.

W = matrice variance intra W = 1/n ni Vi

B = matrice variance inter B = 1/n ni (gi - g) (gi - g)’

V = W + B variance totale

Axes discriminants : deux objectifs

Dispersion intraclasse minimale : min u’Wu

Dispersion interclasse maximale : max u’Bu

Simultanéité impossible

Compromis :

min max

u V u u W u u B u

u B u u B uou

u V u u W u

V Bu u W Bu u

min ' min i

max ' max

u Wu Wu u

u Bu Bu u i

ACP du nuage des gi avec :Métrique V-1

Métrique W-1 Mahalanobis

a) Bu u

Bu (W B)u

1- Bu Wu

b) W Bu u u1-

Nombre d’axes discriminants

ACP des groupes : dimension de l’espace contenant les groupes gi

Si n>p>k (cas usuel), k-1 axes discriminantsExemple célèbre : Iris de Fisher

• K = 3 Setosa, Versicolor, Virginica• P=4 longueur pétale, longueur sépale, largeur pétale,

largeur sépale

• n1=n2=n3 =50

Donc deux axes

Iris setosa Iris versicolor Iris virginica

Cas de deux groupes

g1 et g2 sont sur une une droite : 1 seul axe discriminant :

RAPPEL : en ACP axe a, facteur u = M a

Combinaison discriminante proportionnelle à M (g2 - g1) = W-1 (g2 - g1) ou V-1 (g2 - g1)

FONCTION DE FISHER :

1 12 1

( )p p

W g g W

e Ma e uM

a g g ( )1 2

Historique

1, 2 p

Historiquement : d= u x =X u

d -dTest (de Student) de comparaison de 2 moyennes : T=

Fisher (1936)

Trouver u , u , ..., u tel que T maximal.

Solution : u proportionnel à W g -g

Nota : W

1 -1 21 2

1 2 1 2 p

n ng -g =α V g -g avec : α=1+ D

Distance de MAHALANOBIS

Distance au sens de la métrique W-1.

1. pour p=1 :

2. p quelconque :

Standardisation de chaque composante xj

Décorrélation...

2 11 2 1 2'pD g g W g g

2 1 21 ~ F 1, n-2

2 11 2 1 2

2 1/ 2 1/ 21 2 1 2

D g g W g g

D g g W W g g

Équivalence régression

1 221 2

a si G

b si G

ˆRégression : ' '

n n ˆ a= et b= - y 0 alors 2 n n

y X e X X X y

DSi V g g R

n n RD

Équivalence régressionMAIS : Modèle linéaire usuel non valide :

en discriminante c’est l’inverse que l’on suppose :

/ ~ ; ix y N

2/ ~ ; y x N x I

Conséquences

Pas de test,pas d’erreurs standard sur les coefficients

MAIS possibilité d’utiliser les méthodes de pas à pas en régression.

Aussi une source de malentendus…

Obs C PRONO FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL 1 2 SURVIE 90 1.71 19.0 16 19.5 16.0 912 2 1 DECES 90 1.68 18.7 24 31.0 14.0 1476 3 1 DECES 120 1.40 11.7 23 29.0 8.0 1657 4 2 SURVIE 82 1.79 21.8 14 17.5 10.0 782 5 1 DECES 80 1.58 19.7 21 28.0 18.5 1418 6 1 DECES 80 1.13 14.1 18 23.5 9.0 1664 7 2 SURVIE 94 2.04 21.7 23 27.0 10.0 1059 8 2 SURVIE 80 1.19 14.9 16 21.0 16.5 1412 9 2 SURVIE 78 2.16 27.7 15 20.5 11.5 759 10 2 SURVIE 100 2.28 22.8 16 23.0 4.0 807 11 2 SURVIE 90 2.79 31.0 16 25.0 8.0 717 12 2 SURVIE 86 2.70 31.4 15 23.0 9.5 681 13 2 SURVIE 80 2.61 32.6 8 15.0 1.0 460 14 2 SURVIE 61 2.84 47.3 11 17.0 12.0 479 15 2 SURVIE 99 3.12 31.8 15 20.0 11.0 513 16 2 SURVIE 92 2.47 26.8 12 19.0 11.0 615 17 2 SURVIE 96 1.88 19.6 12 19.0 3.0 809 18 2 SURVIE 86 1.70 19.8 10 14.0 10.5 659 19 2 SURVIE 125 3.37 26.9 18 28.0 6.0 665 20 2 SURVIE 80 2.01 25.0 15 20.0 6.0 796

FONCTION LINEAIRE DISCRIMINANTE VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROBA........ VARIABLES FONCTION REGRESSION TYPES STUDENTNUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.) (SEUIL= 0.20).............................................................................................. 3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154 4 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.006 5 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.317 6 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897 7 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.173 8 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.549 9 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.849CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.6958..............................................................................................R2 = 0.55759 F = 16.74489 PROBA = 0.000D2 = 4.94213 T2 = 124.77643 PROBA = 0.000..............................................................................................

Méthodes géométriques de classement

Échantillon d’apprentissage

e observation de groupe inconnu

e classé dans le groupe i tel que: d(e ; gi) minimal

y x xp' . . .

pour deux groupes

On classe dans G1 si:

Fonction de Fisher >cScore de Fisher:

' 1 ' 1 ' 1 ' 11 1 1 2 2 2

1 ' 1 ' 111 2 1 1 2 22

( ) ' ( )

g W e g W g g W e g W g

g g W e g W g g W g

1 ' 1 ' 111 2 1 1 2 22( ) ' ( )g g W e g W g g W g

Interprétation géométrique

Projection sur la droite des centres avec la métrique W-1

Dualité axe-frontière plane frontière

axe discriminant

Analyse discriminante probabiliste.

p j p r o b a b i l i t é a p r io r i d ’ a p p a r te n i r a u g r o u p e j f j ( x ) lo i d e s x i d a n s l e g r o u p e j

( )F o r m u le d e B a y e s : ( / )

j jj k

p fP G

P r o b lè m e : e s t im e r l e s f j ( x )

La règle bayésienne naïve dans le cadre normal

11/ 2/ 2

x densité d'une N ;

1 1 exp -

max p f x attribuer x au groupe le plus

probable a posteriori

1 1max Ln p

j j j jp

f x x x

x x Ln

règle quadratique

La règle bayésienne

1 1 1j

simplificatrice : ... =

On attribue x au groupe j tel que :

1 1max Ln p

1 : max Ln p

indépendantdu groupe

Hypothèse

Règle linéaire équivalente à la règle géométrique si équiprobabilité, après estimation

de par g et de par W.

Analyse discriminante probabiliste: cas de deux groupes

1 1 2 2

-11/ 2 / 2

-1 -1 -1 -11 21 1 2 2 2

-1 12 11 2 1 2 1 2

fonction de Fisher

1exp 1/ 2 '

1/ 2 p 1/ 2 p

' p / 1/ 2 '

i p i i

p f x p f x

f x x x

x Log x Log

x Log p

Affecter au groupe 1 si :

Fonction de score et probabilité

Fonction de score S(x) :

Règle :affecter au groupe 1 si S(x)>0

Probabilité d’appartenance au groupe 1 :

1 11 1 2 2

1/2 1/2

x x x x

p e p e

p p ep

1 121 2 1 2 1 2

1( ) ( ) ' ln( ) ( ) ' ( )

pS x x

Probabilité a posteriori

-S x 1/p-1 1/p=1+e

1 Fonction logistique du score

S x S x

Log S x

1( ( ) 0) ln

pP S x P U

• Probabilité d’erreur de classement de G2 en G1 :On classe en G1 si S(x)>0

Posterior Probability of Membership in PRONO From Classified Obs PRONO into PRONO DECES SURVIE 1 SURVIE SURVIE 0.4515 0.5485 2 DECES DECES 0.8140 0.1860 3 DECES DECES 0.9597 0.0403 4 SURVIE SURVIE 0.2250 0.7750 5 DECES DECES 0.8112 0.1888 6 DECES DECES 0.8928 0.1072 7 SURVIE SURVIE 0.3202 0.6798 8 SURVIE DECES * 0.8711 0.1289 9 SURVIE SURVIE 0.0984 0.9016 10 SURVIE SURVIE 0.0797 0.9203 11 SURVIE SURVIE 0.0138 0.9862 12 SURVIE SURVIE 0.0160 0.9840 13 SURVIE SURVIE 0.0052 0.9948 14 SURVIE SURVIE 0.0105 0.9895 15 SURVIE SURVIE 0.0019 0.9981 16 SURVIE SURVIE 0.0258 0.9742 17 SURVIE SURVIE 0.2011 0.7989 18 SURVIE SURVIE 0.2260 0.7740 19 SURVIE SURVIE 0.0022 0.9978 20 SURVIE SURVIE 0.1222 0.8778 21 SURVIE SURVIE 0.0014 0.9986 22 DECES DECES 0.8629 0.1371 23 DECES SURVIE * 0.4804 0.5196 24 DECES DECES 0.9900 0.0100 25 DECES DECES 0.5845 0.4155 26 DECES DECES 0.7447 0.2553 27 DECES DECES 0.7067 0.2933 28 DECES SURVIE * 0.4303 0.5697 29 SURVIE SURVIE 0.1118 0.8882 30 SURVIE DECES * 0.5734 0.4266 31 SURVIE SURVIE 0.2124 0.7876

Proc discrimSAS

II: La régression logistique

II.1 Le modèle logistique simpleII.2 Odds ratiosII.3 Interprétation économètriqueII.4 EstimationII.5 Tests

II.1 Le modèle logistique simple

Réponse dichotomique : Y = 0 / 1Variable explicative : XObjectif : Modéliser

• Le modèle linéaire (x) = 0 + 1x convient mal lorsque X est continue.

• Le modèle logistique est plus naturel

(x) = Prob(Y = 1/X = x)

Le modèle logistique simple

x))x(1

)x((Log 10

Probabilité d'une maladie cardiaque

en fonction de l'age

70605040302010

=1 / X

Fonction de lien : Logit

Il s’agit bien d’un probléme de régression:Modélisation de l’espérance

conditionnelle E(Y/X=x)=f(x)

Choix de la forme logistique en épidémiologie:S’ajuste bienInterprétation de 1 en termes d’odds-ratio

II.2 Odds-Ratio

Si X binaire (sujet exposé X=1, non exposé X=0)

0 1 01/ 1 ( 1/ 0)( )

1 1Y X P Y XP

1( 1/ 1) / ( 0 / 1)

( 1/ 0) / ( 0 / 0)

P Y X P Y XOR e

P Y X P Y X

Odds-Ratio Mesure l’évolution du rapport des

chances d’apparition de l’événement Y=1 contre Y=0 (la cote des parieurs) lorsque X passe de x à x+1.

Formule générale:

1( 1) /(1 ( 1))

( ) /(1 ( ))

x xOR e

II.3Interprétation économètrique

Y possession d’un bien durable par un ménage: manifestation visible d’une variable latente Z inobservable continue.

Z est l’« intensité du désir » de posséder le bien

Si Z<seuil Y=0, sinon Y=1Le seuil peut être choisi égal à 0

Modèle d’utilité

pour le ménage i de caractéristiques xi (âge,

sexe, revenu, CSP...), la possession du bien

procure un niveau d’utilité U(1,xi), la non

possession U(0,xi).

Yi = 1 U(1,xi) > U(0,xi)

Yi = 0 U(0,xi) > U(1,xi)

Variable latente Zi = U(1,xi) – U(0,xi).

Modèle d’utilité (suite)

Zi = xi + i

πi = P(Yi=1|xi)= P(Zi > 0)=P(xi > -i) = F(xi)

F fonction de répartition de -i

Choix de F:Logistique :modèle logit, régression logistiqueNormal: modèle probit

II.4 Estimation des paramètres

Les données

X Y x1 xi xn

y1 yi yn

yi = 1 si caractère présent, 0 sinon

)xX/1Y(P)x(

Le modèle

Vraisemblance (conditionnelle!)

Probabilité d’observer les données[(x1,y1), …, (xi,yi), …, (xn,yn)]

1iii )xX/yY(Prob

ii ))x(1()x(

),(L 10

maximum de vraisemblance maximisent

Maximisation de la log-vraisemblance

Estimateurs obtenus par des procédures numériques: pas d’expression analytique

10ˆet ˆ 0 1( , ) (β)L L

( ) log ( ) log ( ) (1 ) log(1 ( ))n

i i i ii

L y x y x

( )( ( )) 0

i i ii

Précision (asymptotique) des estimateurs

La matrice

est estimée par la matrice

)ˆ(V)ˆ,ˆ(Cov

)ˆ,ˆ(Cov)ˆ(V)ˆ(V

2 )(L Log

1 1 1 1

( )ˆ( )

ˆ ˆ ˆ ˆ (1 ) (1 )

ˆ ˆ ˆ ˆ(1 ) (1 )

ˆ ˆ1 (1 ) 0 1

ˆ ˆ1 0 (1 ) 1

i i i i ii i

i i i i i ii i

n n n n

1 ( ) .

Régression logistique multiple

Généralisation à p variables explicatives X1,…, Xp.

...( ) ( 1/ )1

ex P Y X x

The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 2.9331 1.7855 2.6985 0.1004 INCAR 1 -4.5491 0.9402 23.4083 <.0001 PAPUL 1 0.2015 0.0622 10.4937 0.0012 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits INCAR 0.011 0.002 0.067 PAPUL 1.223 1.083 1.382

II.5 Tests sur les paramètres

Trois méthodes sont disponibles pour tester l’apport de la variable X au modèle :

1. Le test de Wald2. La méthode du rapport de vraisemblance3. Le test du score

H0 : j = 0H1 : j 0

Test de Wald

analogue à un test de Student en régression usuelle, si l’on considère la statistique w définie par :

représente l’estimation de l’écart-type de l’estimateur de 1.

Sous l’hypothèse H0, w2 suit approximativement une

loi du khi-deux à un degré de liberté .

Rejet de H0 si w2

ˆˆ( )w

1ˆˆ( )s

Test du rapport des vraisemblances

L’apport de la variable X est mesuré à l’aide de la statistique :

G = -2 log [ ]

sous l’hypothèse H0 G suit asymptotiquement une loi du khi-deux à un degré de liberté.

Vraisemblance sans la variable:

Vraisemblance sans la variable

Vraisemblance avec la variable

Test du score

U vecteur des dérivées partielles de la log-vraisemblance estimées

Le score suit également asymptotiquement sous H0 une loi du khi-deux à un degré de liberté

En régression logistique simple, le score est égal à nr2 , où r est le coefficient de corrélation linéaire (abusif!) entre Y et X

ˆ ˆˆ( ) ( ) ( )

H HHscore U J U

Comparaison des 3 tests

Tests d’absence d’effet de toutes les variables: H0 : 1 = …… = p = 0 Rapport de vraisemblance GScore test USous H0, suivent tous deux

asymptotiquement une loi du 2 à p ddl

III Discrimination sur variables qualitatives et scoring

1 2 p 1 2 p

variable de groupe

X , X , ... , X Variables explicatives à m , m , ... , m modalités

bon payeur Y :

mauvais payeur

Solvabilité d'emprunteurs auprès de banques

Exemples

X : sexe, X : catégorie professionnelle etc.

bon conducteur (pas d'accidents) Y :

mauvais conducteur

X : sexe, X : t

Risque en assurance automobile

3ranche d'âge, X : véhicule sportif ou non ...

Y numéro de groupe

Reclassement dans une typologie

Un peu de (pré)histoire

Fisher (1940) Un seul prédicteur Equations de l’AFC« Scores » were introduced

Cas général p prédicteursQuantification optimale:

Donner des scores partiels aux catégories pour maximiser la distance de Mahalanobis dans Rp

Une analyse discriminante où les variables qualitatives sont remplacées par des indicatrices

0 1 0 1 0

1 0 0 0 1

0 0 1 1 0

X n’est pas de plein rang: rank(X)=mi-

pSolution classique: éliminer une indicatrice

par prédicteur Disqual (Saporta, 1975):

• ADL effectuée sur une sélection de facteurs de l’ACM de X. Analogue de la régression sur composantes principales

DISQUAL 1ère étape

Analyse des correspondances du tableau des prédicteurs.

k variables numériques : garder les coordonnées factorielles les plus discriminantes

1 . . .

1 2 3 4 Prop. Loc

Profession Logement

P P P P .

1 1 0 0 0 0 1

2 0 1 0 0 1 0

.... .

variables indicatrices

2ème étape :

Analyse discriminante linéaire (Fisher).

Score = combinaison linéaire des coordonnées factorielles= combinaison linéaire des indicatrices des catégories

Coefficients = grille de notation

Score k

: coordonnées des catégories sur l'axe n°j j j jz = Xu u

grille de score

k kj j

j jj j

s d Xu X d u

1 1 21 2

V g gz

Sélection des axes

Selon l’ordre de l’ACM% d’inertie

Selon le pouvoir discriminantStudent sur 2 groupes,F sur k groupes

Example assurance (SPAD)

1106 contrats automobile belges: 2 groupes: « 1 bons», « 2 mauvais »9 prédicteurs: 20 catégories

Usage (2), sexe (3), langue (2), age (3), région (2), bonus-malus (2), puissance (2), durée (2), age du véhicule (2)

ADL de Fisher sur les composantes

FACTEURS CORRELATIONS COEFFICIENTS .............................................................................. 1 F 1 0.719 6.9064 2 F 2 0.055 0.7149 3 F 3 -0.078 -0.8211 4 F 4 -0.030 -0.4615 5 F 5 0.083 1.2581 6 F 6 0.064 1.0274 7 F 7 -0.001 0.2169 8 F 8 0.090 1.3133 9 F 9 -0.074 -1.1383 10 F 10 -0.150 -3.3193 11 F 11 -0.056 -1.4830 CONSTANTE 0.093575 ..............................................................................R2 = 0.57923 F = 91.35686 D2 = 5.49176 T2 = 1018.69159 ..............................................................................

Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10

scores normalisésEchelle de 0 à 1000Transformation linéaire du score et du seuil

+----------------------------------------------------------------------------+ | | COEFFICIENTS | TRANSFORMED | | CATEGORIES | DISCRIMINANT | COEFFICIENTS | | | FUNCTION | (SCORE) | +----------------------------------------------------------------------------+ | 2 . Use type | | USE1 - Profess. | -4.577 | 0.00 | | USE2 - private | 0.919 | 53.93 | +----------------------------------------------------------------------------+ | 4 . Gender | | MALE - male | 0.220 | 24.10 | | FEMA - female | -0.065 | 21.30 | | OTHE - companies | -2.236 | 0.00 | +----------------------------------------------------------------------------+ | 5 . Language | | FREN – French | -0.955 | 0.00 | | FLEM - flemish | 2.789 | 36.73 | +----------------------------------------------------------------------------+ | 24 . Birth date | | BD1 - 1890-1949 BD | 0.285 | 116.78 | | BD2 - 1950-1973 BD | -11.616 | 0.00 | | BD? - ???BD | 7.064 | 183.30 | +----------------------------------------------------------------------------+ | 25 . Region | | REG1 - Brussels | -6.785 | 0.00 | | REG2 – Other regions | 3.369 | 99.64 | +----------------------------------------------------------------------------+ | 26 . Level of bonus-malus | | BM01 - B-M 1 (-1) | 17.522 | 341.41 | | BM02 - Others B-M (-1) | -17.271 | 0.00 | +----------------------------------------------------------------------------+ | 27 . Duration of contract | | C<86 - <86 contracts | 2.209 | 50.27 | | C>87 - others contracts | -2.913 | 0.00 | +----------------------------------------------------------------------------+ | 28 . Horsepower | | HP1 - 10-39 HP | 6.211 | 75.83 | | HP2 - >40 HP | -1.516 | 0.00 | +----------------------------------------------------------------------------+ | 29 . year of vehicle construction | | YVC1 - 1933-1989 YVC | 3.515 | 134.80 | | YVC2 - 1990-1991 YVC | -10.222 | 0.00 | +----------------------------------------------------------------------------+

Grille de score

Scoring et régression logistique

Inclusion aisée de prédicteurs qualitatifs en introduisant mi-1 indicatrices

Modalité omise= modalité de référence. Attention à l’interprétation

Standard de l’industrie bancaire (sauf Banque de France)

CATEGORIES COEFFICIENTS LOGISTIC REGRESSION

use type profess private

0.7060 Insuree type

male female

companies

0.4797 0.4868

0.00 language

french flemish

-0.1236

0.00 birth cohort 1890-1949 1950-1973 unknown

-0.3596 -1.6155

0.00 region

Brussels Other regions

-0.8585

0.00 level of bonus-malus

B-M + other B-M (-1)

-2.4313 year of subscription

<86 contracts others

0.4932

0.00 horsepower 10-39 HP

40-349 HP

0.7305

0.00 year of vehicle construction

1933-1989 1990-1991

1.3362

0.00 Intercept -0.2498

IV Comparaison logistique- discriminanteAvantages proclamés de la logistique:

Interprétabilité des coefficients (odds-ratios)Erreurs standard calculablesModélisation des probabilitésHypothèses plus générales qu’en AD gaussienneMaximum de vraisemblance au lieu de moindres

carrés (régression linéaire de Y sur les Xj)Prise en charge facile des X qualitatifs (logiciels)

Mais:Erreurs standard asymptotiques , bootstrap en

ADNon convergence en cas de séparation

parfaite. Fisher existe toujours

Maximum de vraisemblance conditionnel:non optimal dans le cas gaussien standard

L’AD peut aussi traiter les variables qualitatives, et de manière plus robuste grâce aux contraintes de sous-espace (Disqual)

Querelle largement idéologique

(modélisation versus analyse des données)L’AD est aussi un modèle, mais sur les lois

des X/Y, la logistique sur les lois de Y/XEn pratique différences peu nettes:

fonctions de score souvent très proches « It is generally felt that logistic regression is a safer,

more robust bet than the LDA model, relying on fewer assumptions . It is our experience that the models give very similar results , even when LDA is used in inappropriately, such as with qualitative variables. » Hastie and al.(2001)

Variable N Mean Std Dev Sum Minimum Maximum scorfish 101 1.00000 1.47644 101.00000 -2.42806 4.21377 scorlog 101 -0.22423 3.68078 -22.64725 -8.76376 7.86074 scorfish scorlog scorfish 1.00000 0.99881 scorlog 0.99881 1.00000

Usages souvent différents: AD pour classer, logistique pour modéliser (facteurs de risque) Logistique aussi utilisée en scoring

Si l’objectif est de classer: On ne fait plus de la science mais de l’aide à la décision Mieux vaut essayer les deux méthodes. Mais comment les comparer? Le vrai critère de choix est la performance en

généralisation

Qualité d’une règle de classement

Tableau de classement : On classe des observations dont le groupe est

connu :

Pourcentage de bien classés :

Taux d’erreur de classement :

n11 22

n12 21

groupe prédit

groupe n n

réel n n

211 12

Sur quel échantillon faire ce tableau ?

Échantillon test d’individus supplémentaires.Si on reclasse l’échantillon ayant servi à

construire la règle (estimation des coefficients) : «méthode de resubstitution» BIAIS

surestimation du pourcentage de bien classés.Solutions pour des échantillons de petite taille

: Validation croisée ou bootstrap

Seuil et probabilités a posteriori

P(G1/x) dépend des probas a priori p1 et p2

Problèmes de l’échantillonnage stratifié poser priors = en discrim ou pevent= en

Logistic sinon probas a posteriori fausses seul le terme constant 0 est modifié: on

ajoute ln(p2/p1)

Sans importance pour un score

Qualité d’un score Qu’il soit obtenu par Fisher ou logistique:

Comparaison des distributions du score sur les deux groupes

fonctions de répartition

Courbe ROC

Groupe à détecter G1: scores élevés

Sensibilité 1-= P(S>s/G1):% de vrais positifs

Spécificité 1-=P(S<s/G2) :% de vrais négatifs

Courbe ROC

Evolution de 1- puissance du test en fonction de , risque de première espèce lorsque le seuil varie

Proportion de vrais positifs en fonction de la proportion de faux positifs

Un site: http://www.anaesthetist.com/mnm/stats/roc/

Courbe ROC invariante pour toute transformation monotone croissante

Surface sous la courbe: mesure de performance permettant de comparer (partiellement) des modèles

On tire une obs de G1 et une de G2

AUC estimée par la proportion de paires concordantes

nc statistique de Wilcoxon-Mann-WhitneyU+W= n1n2+0.5n1(n1+1) AUC=U/n1n2

1 2((1 ) ( )( ) )s

sAUC Xd s P Xs

1 2cc n n n

Association des probabilités prédites et des réponses observées Pairs 2550 Percent Concordant 94.3 Percent Discordant 5.7 Percent Tied 0.0 Somers' D 0.886 Gamma 0.886 Tau-a 0.447 c 0.943

Exemple infarctus proc logistic

Infarctus: comparaison Fisher et logistique

Courbe ROC

1 - Spécificité

1.00.75.50.250.00

Source de la courbe

SCORLOG

SCORFISH

Assurance

Zone sous la courbe

Variable(s) derésultats testsSCDISQUASCLOGIST

Lift chart

% of the target

Surface sous la courbe de lift

Proportion des unités ayant un score>s

Surface:

1 1(1 ) (1 )p p

(1 ) (1 ) (1 )

(1 ) (1 ) (1 ) (1 )

L d p p

p d p d

pp AUC

Coefficient Ki (Kxen)

Ki=(aire entre courbe lift et diagonale) / (aire entre courbe lift et courbe idéale)

12(1 ) 12

2 1L p p AUC

Ki=Somers’ D ou Accuracy Ratio AR

Optimiser AUC ou Ki: mêmes résultats.Ne prend pas en compte les coûtsNe pas comparer sur données

d’apprentissage…

Les 3 échantillonsApprentissage: pour estimer les

paramètres des modèlesTest : pour choisir le meilleur modèleValidation : pour estimer la performance

sur des données futuresNécessité de faire plusieurs tirages

Modèle final: avec toutes les observations

Conclusion

ADL et régression logistique: fondements également solides mais différents

Un faux débat s’il s’agit seulement de prédire.

Convergence des pratiques : validation en logistique Courbe ROC en discriminante

Prudence quand on calcule des probabilités: Vraies probas ou simples scores

1 régression logistique et analyse discriminante : comparaisons théoriques et pratiques gilbert...

Documents

sta 201 statistique multivariée...

le multidimensional scaling et la cartographie des...

victoria saporta executive director, prudential policy

cnam electronique...

dossier inscription 2009-2010 maquette - ipst-cnam.fr...

classification supervisée et credit scoring -...

présentation du cours fpg 105 fonction ressources humaines...

saporta historia de la novela americana cap 1 y 3

formation en alternance de bac+3 à bac+5 - ipst-cnam.fr ·...

service des archivas f. 14r1--( i - centre pompidou ·...

conception et photographie karine saporta · le sport) ou...

traitement de la multicolinéarité en...

analyse discriminante sur données fonctionnelles gilbert...

dynamodb cto, spincar steve saporta - tcf · pdf...

computer heritage: problems and perspectives at the musée...

rmi - cnam samia.bouzefrane@cnam.fr 1 objets distribués...

alguna saporta c i one sal test htp

analyse donnes bouroche saporta-libre

arielle saporta resume · arielle saporta ux designer |...

conservatoire national des arts et métiers chaire de...