classification supervisée et données fonctionnelles

Classification supervisée et

données fonctionnelles

Gilbert SaportaChaire de Statistique Appliquée & CEDRICConservatoire National des Arts et Métiers292 rue Saint Martin F 75141 Paris Cedex [email protected]://cedric.cnam.fr/~saporta

Plan

1. Introduction2. Régression MCO sur données fonctionnelles3. Régression PLS fonctionnelle4. Méthodes linéaires de discrimination5. Prédiction anticipée

SFC 2010 2

5. Prédiction anticipée6. Conclusion et perspectives

Travaux réalisés en collaboration avec C.Preda(Univ . Lille2) et D.Costanzo (Univ.Calabria)

1. Introduction

Données fonctionnelles: courbes ou trajectoires d’un processus stochastique Xt

Réponse Y

SFC 2010 3

Réponse Y Y numérique: régression

Y catégorielle: classification supervisée, discrimination

Intervalle de temps commun [0;T], variables centrées

Précurseurs:

R.A. Fisher – 1924J. C. Deville – 1974P. Besse – 1979G. Saporta – 1981

Plus récemment:

SFC 2010 4

Plus récemment:

Aguilera, Valderrama – 1993, 1995, 1998Ramsay, Silverman – 1995, 1997Van der Heijden – 1997Preda, Cohen – 1999Cardot, Ferraty, Vieu - 1999, 2005

Régression sur données fonctionnelles

Exemple 1: Y= récolte

SFC 2010 5

Xt = température

p= ∞∞∞∞

R.A.Fisher (1924)

Données de très grande dimension: infinité non dénombrable (en principe..) de prédicteurs

Combinaison linéaire

« Integral regression »

SFC 2010 6

« Integral regression »

Au lieu d’une somme finie

0

ˆ ( )T

tY t X dtβ= ∫

1

ˆp

j jj

Y Xβ=

=∑

SFC 2010 7

R.A.Fisher « The Influence of Rainfall on the Yield of Wheat at Rothamsted »Philosophical Transactions of the Royal Society, B, 213, 89-142 (1924)

•Discrimination sur données fonctionnelles

Exemple 2: courbes de pétrissage pour biscuits (Danone Vitapole)

SFC 2010 8

SFC 2010 9

Comment prédire la qualité des biscuits?

Après lissage par B-splines cubiques

(Lévéder & al, 2004)

Discrimination sur données fonctionnelles

Cas particulier de la régression sur données fonctionnelles pour deux classes

Anticipation

déterminer t*<T tel que l’analyse sur [0;t*]

SFC 2010 10

déterminer t*<T tel que l’analyse sur [0;t*] donne des prédictions semblables à l’analyse sur [0;T]

2. Régression MCO sur

données fonctionnelles

Y ; Xt (E(Y)=E(Xt) =0 )

2.1 Les mco Equations normales ou de Wiener-Hopf:

SFC 2010 11

C(t,s)= cov(Xt, Xs)=E(XtXs)

0

ˆ ( )T

tY t X dtβ= ∫

0cov( , ) ( , ) ( )

T

tX Y C t s s dsβ= ∫

2.2 décomposition de Karhunen-Loeve

facteurs:

Composantes principales:

1

( )t i ii

X f t ξ∞

=

=∑

0( , ) ( ) ( )

T

i i iC t s f s ds f tλ=∫

( )T

f t X dtξ = ∫

SFC 2010 12

Composantes principales:

Covariance avec une composante principale:

0( )

T

i i tf t X dtξ = ∫

0 0cov( , ) cov( , ( ) ) ( ) ( )

T T

i i i t t ic Y Y f t X dt E X Y f t dtξ= = =∫ ∫

Résolution numérique:

Equations intégrales non explicites dans le cas général: C(t,s) connu point par point

Fonctions en escalier: nombre fini de variables et d’individus: opérateurs

SFC 2010 13

variables et d’individus: opérateurs matriciels mais de grande taille

Approximations par discrétisation du temps

Une solution exacte:

W matrice des produits scalaires entre trajectoires ( ) ( )

0

, 1,2,..,T

uv u vw x t x t dt u v n= =∫

SFC 2010 14

Composantes principales: vecteur propres de W

Facteurs principaux

( ) ( )1

1 1 n

u uu

f t X tn

ξλ =

= ∑

Theorème de Picard: β unique si et seulement si:

2

21

i

i i

c

λ

∞

=

< ∞∑

SFC 2010 15

Géneralement faux ... Surtout quand n est fini car p >n. Ajustement parfait en minimisant:

( )2

01

1( ) ( )

n T

i ii

y t x t dtn

β=

−∑ ∫

Même quand β est unique, « L’équation de Wiener-Hopf n’est pas une équation intégrale ordinaire mais un accouplement entre fonction et distribution dont la solution est plus souvent une distribution qu’une fonction » Paul Kree, 1972

SFC 2010 16

qu’une fonction » Paul Kree, 1972

Nécessité de contraintes. (cf Green & Silverman 1994, Ramsay & Silverman 1997).

2.3 Régression sur composantes principales

1 1

cov( , )ˆ i ii i

i ii i

Y cY

ξ ξ ξλ λ

∞ ∞

= =

= =∑ ∑

22 2ˆ( , ) ( , ) i

i

cR Y Y r Y ξ

λ

∞ ∞

= =∑ ∑

SFC 2010 17

Approximation de rang q:

1 1i

i i iλ= =∑ ∑

( ) ( )

1 1

cov( ; ) cov( ; )ˆˆ ( ) ( )q q

q qi ii i

i ii i

Y YY t f t

ξ ξξ βλ λ= =

= =∑ ∑

Quelles composantes? Les q premières?

Les q plus corrélées?

SFC 2010 18

Les composantes principales sont calculées sans tenir compte de la réponse Y

3. Régression PLS fonctionnelle

Utiliser les composantes PLS au lieu des composantes principales

Première composante PLS :T

∫2

1w =

SFC 2010 19

Puis itération sur les résidus

2

0max cov ( , ( ) )

T

w tY w t X dt∫2

1w =

2

0

cov( , )( )

cov ( , )

t

T

t

X Yw t

X Y dt=

∫ 1 0( )

T

tt w t X dt= ∫

Approximation de Y par Xt d’ordre q:

Convergence :

( ) 1 1 ( )0

ˆˆ ... ( ) dt T

PLS q q q PLS q tY c t c t t Xβ= + + = ∫

2ˆ ˆlim ( ) 0E Y Y− =

SFC 2010 20

Mais q doit être fini pour avoir une formule!

q déterminé par validation croisée(Preda & Saporta, 2005)

( )ˆ ˆlim ( ) 0q PLS qE Y Y→∞ − =

Première composante PLS facilement interprétable: coefficients du même signe que r(y;xt)

Pas d’équation intégrale

Meilleur ajustement par PLS que par ACP:

2 2ˆ ˆ( ; ) ( ; )R Y Y R Y Y≥

SFC 2010 21

(De Jong 1993)

2 2( ) ( )

ˆ ˆ( ; ) ( ; )PLS q PCR qR Y Y R Y Y≥

4. Discrimination linéaire

4.1 ADL fonctionnelle

ADL : combinaison linéaire

maximisant le rapport 0

( )T

tt X dtβ∫

SFC 2010 22

variance inter/variance intra

Pour 2 groupes la FLD de Fisher s’obtient en régressant Y codé sur Xt

eg(Preda & Saporta, 2005a)

01

0 1

and pp

p p−

La régression PLS avec q composantes donne une approximation de β(t) et du score:

SFC 2010 23

score:

Pour plus de 2 groupes: régression PLS2 entre k-1 indicatrices de Y et Xt

T 0

ˆd ( ) ( )T

PLS PLS tX t X dtβ= Φ = ∫

Régression PLS2

Y multiple: (Y1, Y2, …,Yp)

Critère de Tucker:

2

0max cov ( ( ) ; )

p

t i iw t X dt c Y∞

∑∫

SFC 2010 24

Composantes PLS :

01

max cov ( ( ) ; )t i ii

w t X dt c Y=∑∫

1

p

i ii

s c Y=

=∑0( ) tt w t X dt

∞= ∫

Première composante PLS: premiervecteur propre du produit des opérateurs d’Escoufier WxWY

SFC 2010 25

Preda & Saporta, 2002 & 2005a ; Barker & Rayens , 2003

4.2 Mesures de qualité

Pour k=2 : courbe ROC et AUC

Pour un seuil s , x est classé en 1 si dT(x)>s

Sensibilité ou taux de vrais positifs:

SFC 2010 26

Sensibilité ou taux de vrais positifs: P(dT(x)>s/Y=1)=1-β

1- Spécificité ou 1-taux de vrais négatifs: P(dT(x)>s/Y=0)=α

Courbe ROC

SFC 2010 27

• En cas de discrimination parfaite :courbe confondue avec les côtés du carré• Si distribution conditionnelles identiques, courbe confondue avec la diagonale

Courbe ROC invariante pour toute transformation

monotone croissante

Surface sous la courbe: mesure de performance permettant de comparer (partiellement) des modèles

1 2((1 ) ( )( ) )

s

sAUC Xd s P Xsβ α

=−∞

=+∞= − = >∫

SFC 2010 28

On tire une obs de G1 et une de G2

AUC estimée par la proportion de paires concordantes

nc statistique de Wilcoxon-Mann-Whitney

U+W= n1n2+0.5n1(n1+1) AUC=U/n1n2

s=+∞∫

1 2cc n n n=

courbes de pétrissage

Après T= 480s de pétrissage, on obtient des biscuits de qualités Y

115 observations: 50 « bon », 40 «mauvais » and 25 «indéterminés »

241 mesures à pas constant

Lissage avec B-splines cubiques , 16 nœuds

SFC 2010 29

Performance pour Y=bon,mauvais

On divise 100 fois les données en apprentissage et test (60, 30)

Taux d’erreur moyen

SFC 2010 30

Taux d’erreur moyen

0.142 avec 3 composantes principales

0.112 avec 3 composantes PLS

AUC moyen= 0.746

4.3 Régression logistique fonctionnelle

0ln ( ) ( )d ; 1, ,

1

Ti

ii

x t t t i nπ α β

π

= + = − ∫ K

) );(|1( TttxXYP ii ∈===π

SFC 2010 31

Hypothèse: β(t) et les trajectoires sont dans le même espace de dimension fini (Ramsay et al., 1997)

ψψβ b′==∑=

p

qqq tbt

1

)()( ψψ i

p

qqiqi tctx c′==∑

=1

)()(

D’où une régression logistique classique:

avec

ln1

π απ

= + Φ − 1 C b

)( iqc=C )d)()(( ∫==ΦT

qkkq ttt ψψφ

SFC 2010 32

Aguilera et al. (2006) utilisent les composantes principales de Xt comme base

5. Prédiction anticipée

Chercher t*<T tel que l’analyse sur [0;t*]donne des prédictions semblables à l’analyse sur [0;T]

SFC 2010 33

Solution:

En augmentant s depuis 0 , chercher la première valeur telle que AUC(s) ne diffère pas significativement de AUC(T)

Test d’égalité via une procédure bootstrap

Rééchantillonnage des données, stratifié pour conserver les proportions des classes

A chaque réplication b on calcule AUCb(s) et AUCb(T)

Test basé sur les différences (Student ou

SFC 2010 34

Test basé sur les différences (Student ou Wilcoxon pour données appariées) δb=AUCb(s)- AUCb(T)

5.2 Données simulées

Deux classes équiprobables

W(t) brownien standard

SFC 2010 35

W(t) brownien standard

SFC 2010 36

Avec B=50

SFC 2010 37

Prédiction anticipée B=50

t*=186

• Il est donc possible

5.3 Courbes de pétrissage

SFC 2010 38

• Il est donc possible de réduire de plus de moitié la durée d’étude! P value of the Wilcoxon test

5.4 Prévision adaptative

Au lieu d’un t* commun, adapter t* à chaque trajectoire nouvelle ω , connaissant le début de la trajectoire. Pour certaines trajectoires il pourra être

SFC 2010 39

Pour certaines trajectoires il pourra être nécessaire d’observer le processus plus longtemps que sur [0, t*] , pour d’autres non.

t* devient une v.a. t*(ω)

Procédure proche dans son esprit des tests séquentiels:

On discrétise [0, T] avec un pas h

Si à t, on arrête d’observer X(ω) et que l’on prend une décision de classement alors t*=t , sinon on continue jusqu’à t+h etc.

La décision dépend de la similarité de

SFC 2010 40

La décision dépend de la similarité de X(ω) avec des observations xi en tenant compte de la prédiction que l’on peut faire de Y

« Taux de conservation »

dt score discriminant calculé sur [0,t]

Ωω(t) ensemble des observations prédites comme ω au temps t.

SFC 2010 41

comme ω au temps t.

proportion classée dans le groupe Y=0 au temps T . Idem pour

0| ( )tpωΩ

1| ( ) 0| ( ) 1| ( ) t t tp p pω ω ωΩ Ω Ω

On a

Deux taux de conservation:

0| ( ) 1| ( ) 0| ( ) 1| ( )=1 et + =1 t t t tp p p pω ω ω ωΩ Ω Ω Ω+

SFC 2010 42

Taux global de conservation

Pour tout t

( )( ) ( )min ;t tC Cω ωΩ Ω

Règle de décision

En prenant un niveau de confiance γ, ici 0.9, on définit la règle adaptative pour ω à l’instant t:

(1) Si CΩ(ω,t)> γ alors l’observation de ω sur [0, t] suffit pour prédire Y(ω) car la prédiction à t est la même que la prédiction à T du sous-groupe Ω (t)

SFC 2010 43

même que la prédiction à T du sous-groupe Ωω(t)

(2) Si CΩ(ω,t)< γ , on continue d’observer jusqu’à t+h et on recommence jusqu’à satisfaction de (1)

Application

une nouvelle farine

SFC 2010 44

taux de conservation

25 « nouvelles » farines

Distribution cumulée empirique de t*(ω) . 5 points plus en avance que t= 186, temps

SFC 2010 45

que t= 186, temps optimal pour la prédiction anticipée. 10 prédites comme «mauvaise».

6.Conclusions et perspectives

La régression PLS permet d’effectuer une prédiction linéaire de manière simple et efficace

Nécessité de prétraitements pour données bruitées

SFC 2010 46

bruitées

Prédiction anticipée via une procédure bootstrap, possibilité de prédiction « on-line »: adapter t* pour chaque nouvelle courbe

En cours: Comparaison avec régression logistique PLS

fonctionnelle et autres approches

Références Aguilera A.M., Escabias, M. ,Valderrama M.J. (2006) Using principal

components for estimating logistic regression with high-dimensional multicollinear data, Computational Statistics & Data Analysis, 50,1905-1924

Barker M., Rayens W. (2003) Partial least squares for discrimination. J. of Chemometrics 17:166–173

Dabo-Niang S., Ferraty F. (2008): Functional and Operatorial Statistics, Springer-Verlag

Costanzo D., Preda C. , Saporta G. (2006) Anticipated prediction in discriminant analysis on functional data for binary response . In

SFC 2010 47

Costanzo D., Preda C. , Saporta G. (2006) Anticipated prediction in discriminant analysis on functional data for binary response . In COMPSTAT2006, p. 821-828, Physica-Verlag

Lévéder C., Abraham C., Cornillon P. A., Matzner-Lober E., Molinari N. (2004) Discrimination de courbes de pétrissage. Chimiometrie 2004, 37–43.

Preda C. , Saporta G. (2005) PLS regression on a stochastic process, Computational Statistics and Data Analysis, 48, 149-158.

Preda C., Saporta G., Lévéder C., (2007) PLS classification offunctional data, Computational Statistics, 22(2), 223-235

Ramsay J.O. , Silverman (2005) Functional data analysis, 2nd edition,Springer

classification supervisée et données fonctionnelles

Documents