classification supervisée et données fonctionnelles
TRANSCRIPT
Classification supervisée et
données fonctionnelles
Gilbert SaportaChaire de Statistique Appliquée & CEDRICConservatoire National des Arts et Métiers292 rue Saint Martin F 75141 Paris Cedex [email protected]://cedric.cnam.fr/~saporta
Plan
1. Introduction2. Régression MCO sur données fonctionnelles3. Régression PLS fonctionnelle4. Méthodes linéaires de discrimination5. Prédiction anticipée
SFC 2010 2
5. Prédiction anticipée6. Conclusion et perspectives
Travaux réalisés en collaboration avec C.Preda(Univ . Lille2) et D.Costanzo (Univ.Calabria)
1. Introduction
Données fonctionnelles: courbes ou trajectoires d’un processus stochastique Xt
Réponse Y
SFC 2010 3
Réponse Y Y numérique: régression
Y catégorielle: classification supervisée, discrimination
Intervalle de temps commun [0;T], variables centrées
Précurseurs:
R.A. Fisher – 1924J. C. Deville – 1974P. Besse – 1979G. Saporta – 1981
Plus récemment:
SFC 2010 4
Plus récemment:
Aguilera, Valderrama – 1993, 1995, 1998Ramsay, Silverman – 1995, 1997Van der Heijden – 1997Preda, Cohen – 1999Cardot, Ferraty, Vieu - 1999, 2005
Régression sur données fonctionnelles
Exemple 1: Y= récolte
SFC 2010 5
Xt = température
p= ∞∞∞∞
R.A.Fisher (1924)
Données de très grande dimension: infinité non dénombrable (en principe..) de prédicteurs
Combinaison linéaire
« Integral regression »
SFC 2010 6
« Integral regression »
Au lieu d’une somme finie
0
ˆ ( )T
tY t X dtβ= ∫
1
ˆp
j jj
Y Xβ=
=∑
SFC 2010 7
R.A.Fisher « The Influence of Rainfall on the Yield of Wheat at Rothamsted »Philosophical Transactions of the Royal Society, B, 213, 89-142 (1924)
•Discrimination sur données fonctionnelles
Exemple 2: courbes de pétrissage pour biscuits (Danone Vitapole)
SFC 2010 8
SFC 2010 9
Comment prédire la qualité des biscuits?
Après lissage par B-splines cubiques
(Lévéder & al, 2004)
Discrimination sur données fonctionnelles
Cas particulier de la régression sur données fonctionnelles pour deux classes
Anticipation
déterminer t*<T tel que l’analyse sur [0;t*]
SFC 2010 10
déterminer t*<T tel que l’analyse sur [0;t*] donne des prédictions semblables à l’analyse sur [0;T]
2. Régression MCO sur
données fonctionnelles
Y ; Xt (E(Y)=E(Xt) =0 )
2.1 Les mco Equations normales ou de Wiener-Hopf:
SFC 2010 11
C(t,s)= cov(Xt, Xs)=E(XtXs)
0
ˆ ( )T
tY t X dtβ= ∫
0cov( , ) ( , ) ( )
T
tX Y C t s s dsβ= ∫
2.2 décomposition de Karhunen-Loeve
facteurs:
Composantes principales:
1
( )t i ii
X f t ξ∞
=
=∑
0( , ) ( ) ( )
T
i i iC t s f s ds f tλ=∫
( )T
f t X dtξ = ∫
SFC 2010 12
Composantes principales:
Covariance avec une composante principale:
0( )
T
i i tf t X dtξ = ∫
0 0cov( , ) cov( , ( ) ) ( ) ( )
T T
i i i t t ic Y Y f t X dt E X Y f t dtξ= = =∫ ∫
Résolution numérique:
Equations intégrales non explicites dans le cas général: C(t,s) connu point par point
Fonctions en escalier: nombre fini de variables et d’individus: opérateurs
SFC 2010 13
variables et d’individus: opérateurs matriciels mais de grande taille
Approximations par discrétisation du temps
Une solution exacte:
W matrice des produits scalaires entre trajectoires ( ) ( )
0
, 1,2,..,T
uv u vw x t x t dt u v n= =∫
SFC 2010 14
Composantes principales: vecteur propres de W
Facteurs principaux
( ) ( )1
1 1 n
u uu
f t X tn
ξλ =
= ∑
Theorème de Picard: β unique si et seulement si:
2
21
i
i i
c
λ
∞
=
< ∞∑
SFC 2010 15
Géneralement faux ... Surtout quand n est fini car p >n. Ajustement parfait en minimisant:
( )2
01
1( ) ( )
n T
i ii
y t x t dtn
β=
−∑ ∫
Même quand β est unique, « L’équation de Wiener-Hopf n’est pas une équation intégrale ordinaire mais un accouplement entre fonction et distribution dont la solution est plus souvent une distribution qu’une fonction » Paul Kree, 1972
SFC 2010 16
qu’une fonction » Paul Kree, 1972
Nécessité de contraintes. (cf Green & Silverman 1994, Ramsay & Silverman 1997).
2.3 Régression sur composantes principales
1 1
cov( , )ˆ i ii i
i ii i
Y cY
ξ ξ ξλ λ
∞ ∞
= =
= =∑ ∑
22 2ˆ( , ) ( , ) i
i
cR Y Y r Y ξ
λ
∞ ∞
= =∑ ∑
SFC 2010 17
Approximation de rang q:
1 1i
i i iλ= =∑ ∑
( ) ( )
1 1
cov( ; ) cov( ; )ˆˆ ( ) ( )q q
q qi ii i
i ii i
Y YY t f t
ξ ξξ βλ λ= =
= =∑ ∑
Quelles composantes? Les q premières?
Les q plus corrélées?
SFC 2010 18
Les composantes principales sont calculées sans tenir compte de la réponse Y
3. Régression PLS fonctionnelle
Utiliser les composantes PLS au lieu des composantes principales
Première composante PLS :T
∫2
1w =
SFC 2010 19
Puis itération sur les résidus
2
0max cov ( , ( ) )
T
w tY w t X dt∫2
1w =
2
0
cov( , )( )
cov ( , )
t
T
t
X Yw t
X Y dt=
∫ 1 0( )
T
tt w t X dt= ∫
Approximation de Y par Xt d’ordre q:
Convergence :
( ) 1 1 ( )0
ˆˆ ... ( ) dt T
PLS q q q PLS q tY c t c t t Xβ= + + = ∫
2ˆ ˆlim ( ) 0E Y Y− =
SFC 2010 20
Mais q doit être fini pour avoir une formule!
q déterminé par validation croisée(Preda & Saporta, 2005)
( )ˆ ˆlim ( ) 0q PLS qE Y Y→∞ − =
Première composante PLS facilement interprétable: coefficients du même signe que r(y;xt)
Pas d’équation intégrale
Meilleur ajustement par PLS que par ACP:
2 2ˆ ˆ( ; ) ( ; )R Y Y R Y Y≥
SFC 2010 21
(De Jong 1993)
2 2( ) ( )
ˆ ˆ( ; ) ( ; )PLS q PCR qR Y Y R Y Y≥
4. Discrimination linéaire
4.1 ADL fonctionnelle
ADL : combinaison linéaire
maximisant le rapport 0
( )T
tt X dtβ∫
SFC 2010 22
variance inter/variance intra
Pour 2 groupes la FLD de Fisher s’obtient en régressant Y codé sur Xt
eg(Preda & Saporta, 2005a)
01
0 1
and pp
p p−
La régression PLS avec q composantes donne une approximation de β(t) et du score:
SFC 2010 23
score:
Pour plus de 2 groupes: régression PLS2 entre k-1 indicatrices de Y et Xt
T 0
ˆd ( ) ( )T
PLS PLS tX t X dtβ= Φ = ∫
Régression PLS2
Y multiple: (Y1, Y2, …,Yp)
Critère de Tucker:
2
0max cov ( ( ) ; )
p
t i iw t X dt c Y∞
∑∫
SFC 2010 24
Composantes PLS :
01
max cov ( ( ) ; )t i ii
w t X dt c Y=∑∫
1
p
i ii
s c Y=
=∑0( ) tt w t X dt
∞= ∫
Première composante PLS: premiervecteur propre du produit des opérateurs d’Escoufier WxWY
SFC 2010 25
Preda & Saporta, 2002 & 2005a ; Barker & Rayens , 2003
4.2 Mesures de qualité
Pour k=2 : courbe ROC et AUC
Pour un seuil s , x est classé en 1 si dT(x)>s
Sensibilité ou taux de vrais positifs:
SFC 2010 26
Sensibilité ou taux de vrais positifs: P(dT(x)>s/Y=1)=1-β
1- Spécificité ou 1-taux de vrais négatifs: P(dT(x)>s/Y=0)=α
Courbe ROC
SFC 2010 27
• En cas de discrimination parfaite :courbe confondue avec les côtés du carré• Si distribution conditionnelles identiques, courbe confondue avec la diagonale
Courbe ROC invariante pour toute transformation
monotone croissante
Surface sous la courbe: mesure de performance permettant de comparer (partiellement) des modèles
1 2((1 ) ( )( ) )
s
sAUC Xd s P Xsβ α
=−∞
=+∞= − = >∫
SFC 2010 28
On tire une obs de G1 et une de G2
AUC estimée par la proportion de paires concordantes
nc statistique de Wilcoxon-Mann-Whitney
U+W= n1n2+0.5n1(n1+1) AUC=U/n1n2
s=+∞∫
1 2cc n n n=
courbes de pétrissage
Après T= 480s de pétrissage, on obtient des biscuits de qualités Y
115 observations: 50 « bon », 40 «mauvais » and 25 «indéterminés »
241 mesures à pas constant
Lissage avec B-splines cubiques , 16 nœuds
SFC 2010 29
Performance pour Y=bon,mauvais
On divise 100 fois les données en apprentissage et test (60, 30)
Taux d’erreur moyen
SFC 2010 30
Taux d’erreur moyen
0.142 avec 3 composantes principales
0.112 avec 3 composantes PLS
AUC moyen= 0.746
4.3 Régression logistique fonctionnelle
0ln ( ) ( )d ; 1, ,
1
Ti
ii
x t t t i nπ α β
π
= + = − ∫ K
) );(|1( TttxXYP ii ∈===π
SFC 2010 31
Hypothèse: β(t) et les trajectoires sont dans le même espace de dimension fini (Ramsay et al., 1997)
ψψβ b′==∑=
p
qqq tbt
1
)()( ψψ i
p
qqiqi tctx c′==∑
=1
)()(
D’où une régression logistique classique:
avec
ln1
π απ
= + Φ − 1 C b
)( iqc=C )d)()(( ∫==ΦT
qkkq ttt ψψφ
SFC 2010 32
Aguilera et al. (2006) utilisent les composantes principales de Xt comme base
5. Prédiction anticipée
Chercher t*<T tel que l’analyse sur [0;t*]donne des prédictions semblables à l’analyse sur [0;T]
SFC 2010 33
Solution:
En augmentant s depuis 0 , chercher la première valeur telle que AUC(s) ne diffère pas significativement de AUC(T)
Test d’égalité via une procédure bootstrap
Rééchantillonnage des données, stratifié pour conserver les proportions des classes
A chaque réplication b on calcule AUCb(s) et AUCb(T)
Test basé sur les différences (Student ou
SFC 2010 34
Test basé sur les différences (Student ou Wilcoxon pour données appariées) δb=AUCb(s)- AUCb(T)
5.2 Données simulées
Deux classes équiprobables
W(t) brownien standard
SFC 2010 35
W(t) brownien standard
SFC 2010 36
Avec B=50
SFC 2010 37
Prédiction anticipée B=50
t*=186
• Il est donc possible
5.3 Courbes de pétrissage
SFC 2010 38
• Il est donc possible de réduire de plus de moitié la durée d’étude! P value of the Wilcoxon test
5.4 Prévision adaptative
Au lieu d’un t* commun, adapter t* à chaque trajectoire nouvelle ω , connaissant le début de la trajectoire. Pour certaines trajectoires il pourra être
SFC 2010 39
Pour certaines trajectoires il pourra être nécessaire d’observer le processus plus longtemps que sur [0, t*] , pour d’autres non.
t* devient une v.a. t*(ω)
Procédure proche dans son esprit des tests séquentiels:
On discrétise [0, T] avec un pas h
Si à t, on arrête d’observer X(ω) et que l’on prend une décision de classement alors t*=t , sinon on continue jusqu’à t+h etc.
La décision dépend de la similarité de
SFC 2010 40
La décision dépend de la similarité de X(ω) avec des observations xi en tenant compte de la prédiction que l’on peut faire de Y
« Taux de conservation »
dt score discriminant calculé sur [0,t]
Ωω(t) ensemble des observations prédites comme ω au temps t.
SFC 2010 41
comme ω au temps t.
proportion classée dans le groupe Y=0 au temps T . Idem pour
0| ( )tpωΩ
1| ( ) 0| ( ) 1| ( ) t t tp p pω ω ωΩ Ω Ω
On a
Deux taux de conservation:
0| ( ) 1| ( ) 0| ( ) 1| ( )=1 et + =1 t t t tp p p pω ω ω ωΩ Ω Ω Ω+
SFC 2010 42
Taux global de conservation
Pour tout t
( )( ) ( )min ;t tC Cω ωΩ Ω
Règle de décision
En prenant un niveau de confiance γ, ici 0.9, on définit la règle adaptative pour ω à l’instant t:
(1) Si CΩ(ω,t)> γ alors l’observation de ω sur [0, t] suffit pour prédire Y(ω) car la prédiction à t est la même que la prédiction à T du sous-groupe Ω (t)
SFC 2010 43
même que la prédiction à T du sous-groupe Ωω(t)
(2) Si CΩ(ω,t)< γ , on continue d’observer jusqu’à t+h et on recommence jusqu’à satisfaction de (1)
Application
une nouvelle farine
SFC 2010 44
taux de conservation
25 « nouvelles » farines
Distribution cumulée empirique de t*(ω) . 5 points plus en avance que t= 186, temps
SFC 2010 45
que t= 186, temps optimal pour la prédiction anticipée. 10 prédites comme «mauvaise».
6.Conclusions et perspectives
La régression PLS permet d’effectuer une prédiction linéaire de manière simple et efficace
Nécessité de prétraitements pour données bruitées
SFC 2010 46
bruitées
Prédiction anticipée via une procédure bootstrap, possibilité de prédiction « on-line »: adapter t* pour chaque nouvelle courbe
En cours: Comparaison avec régression logistique PLS
fonctionnelle et autres approches
Références Aguilera A.M., Escabias, M. ,Valderrama M.J. (2006) Using principal
components for estimating logistic regression with high-dimensional multicollinear data, Computational Statistics & Data Analysis, 50,1905-1924
Barker M., Rayens W. (2003) Partial least squares for discrimination. J. of Chemometrics 17:166–173
Dabo-Niang S., Ferraty F. (2008): Functional and Operatorial Statistics, Springer-Verlag
Costanzo D., Preda C. , Saporta G. (2006) Anticipated prediction in discriminant analysis on functional data for binary response . In
SFC 2010 47
Costanzo D., Preda C. , Saporta G. (2006) Anticipated prediction in discriminant analysis on functional data for binary response . In COMPSTAT2006, p. 821-828, Physica-Verlag
Lévéder C., Abraham C., Cornillon P. A., Matzner-Lober E., Molinari N. (2004) Discrimination de courbes de pétrissage. Chimiometrie 2004, 37–43.
Preda C. , Saporta G. (2005) PLS regression on a stochastic process, Computational Statistics and Data Analysis, 48, 149-158.
Preda C., Saporta G., Lévéder C., (2007) PLS classification offunctional data, Computational Statistics, 22(2), 223-235
Ramsay J.O. , Silverman (2005) Functional data analysis, 2nd edition,Springer