Analyse discriminante sur données fonctionnelles
Gilbert SaportaChaire de Statistique Appliquée & CEDRICConservatoire National des Arts et Métiers292 rue Saint Martin F 75141 Paris Cedex [email protected]://cedric.cnam.fr/~saporta
Grenoble, 17 janvier 2008 2
Plan
1. Introduction 2. Régression MCO sur données
fonctionnelles3. Régression PLS fonctionnelle4. Méthodes linéaires de discrimination5. Régression typologique6. Prédiction anticipée7. Conclusion et perspectives
Travaux réalisés en collaboration avec C.Preda(Univ. Lille2) et D.Costanzo (Univ.Calabria)
Grenoble, 17 janvier 2008 3
1. Introduction
Données fonctionnelles: courbes ou trajectoires d’un processus stochastique Xt
Réponse Y Y numérique: régression Y catégorielle: classification supervisée,
discrimination Intervalle de temps commun [0;T], variables
centrées
Grenoble, 17 janvier 2008 4
Régression sur données fonctionnelles
Exemple 1: Y= récolte Xt = température
p=
R.A.Fisher (1924)
Grenoble, 17 janvier 2008 5
Données de très grande dimension: infinité non dénombrable (en principe..) de prédicteurs
Combinaison linéaire « Integral regression »
Au lieu d’une somme finie
0
ˆ ( )T
tY t X dt
1
ˆp
j jj
Y X
Grenoble, 17 janvier 2008 6
R.A.Fisher « The Influence of Rainfall on the Yield of Wheat at Rothamsted » Philosophical Transactions of the Royal Society, B, 213, 89-142 (1924)
Grenoble, 17 janvier 2008 7
•Discrimination sur données fonctionnelles
Exemple 2: courbes de pétrissage pour biscuits (Danone Vitapole)
Grenoble, 17 janvier 2008 8
Après lissage par B-splines cubiques (Lévéder & al, 2004)
Comment prédire la qualité des biscuits?
Grenoble, 17 janvier 2008 9
Discrimination sur données fonctionnelles Cas particulier de la régression sur
données fonctionnelles pour deux classes
Anticipation déterminer t*<T tel que l’analyse sur
[0;t*] donne des prédictions semblables à l’analyse sur [0;T]
Grenoble, 17 janvier 2008 10
2. Régression sur données fonctionnelles
Y ; Xt (E(Y)=E(Xt) =0 ) 2.1 Les mco
Equations normales ou de Wiener-Hopf:
C(t,s)= cov(Xt, Xs)=E(XtXs)
0
ˆ ( )T
tY t X dt
0cov( , ) ( , ) ( )
T
tX Y C t s s ds
Grenoble, 17 janvier 2008 11
2.2 décomposition de Karhunen-Loeve
facteurs:
Composantes principales:
Covariance avec une composante principale:
1
( )t i ii
X f t
0( , ) ( ) ( )
T
i i iC t s f s ds f t
0( )
T
i i tf t X dt
0 0cov( , ) cov( , ( ) ) ( ) ( )
T T
i i i t t ic Y Y f t X dt E X Y f t dt
Grenoble, 17 janvier 2008 12
Theorème de Picard: unique si et seulement si:
Géneralement faux ... Surtout quand n est fini car p >n. Ajustement parfait en minimisant:
2
21
i
i i
c
2
01
1( ) ( )
n T
i ii
y t x t dtn
Grenoble, 17 janvier 2008 13
Même quand est unique, « L’équation de Wiener-Hopf n’est pas une équation intégrale ordinaire mais un accouplement entre fonction et distribution dont la solution est plus souvent une distribution qu’une fonction » Paul Kree, 1972
Nécessité de contraintes. (cf Green & Silverman 1994, Ramsay & Silverman 1997).
Grenoble, 17 janvier 2008 14
2.3 Régression sur composantes principales
Approximation de rang q:
1 1
cov( , )ˆ i ii i
i ii i
Y cY
2
2 2
1 1
ˆ( , ) ( , ) ii
i i i
cR Y Y R Y
( ) ( )
1 1
cov( ; ) cov( ; )ˆˆ ( ) ( )q q
q qi ii i
i ii i
Y YY t f t
Grenoble, 17 janvier 2008 15
Résolution numérique: Equations intégrales non explicites
dans le cas général: C(t,s) connu point par point
Fonctions en escalier: nombre fini de variables et d’individus: opérateurs matriciels mais de grande taille
Approximations par discrétisation du temps
Grenoble, 17 janvier 2008 16
Quelles composantes? Les q premières? Les q plus corrélées?
Les composantes principales sont calculées sans tenir compte de la réponse Y
Grenoble, 17 janvier 2008 17
3. Régression PLS fonctionnelle
Utiliser les composantes PLS au lieu des composantes principales
Première composante PLS :
Puis itération sur les résidus
2
0max cov ( , ( ) )
T
w tY w t X dt2
1w
2
0
cov( , )( )
cov ( , )
t
T
t
X Yw t
X Y dt
1 0( )
T
tt w t X dt
Grenoble, 17 janvier 2008 18
Approximation de Y par Xt d’ordre q:
Convergence :
Mais q doit être fini pour avoir une formule!
q déterminé par validation croisée(Preda & Saporta, 2005)
( ) 1 1 ( )0
ˆˆ ... ( ) dt T
PLS q q q PLS q tY c t c t t X
2
( )ˆ ˆlim ( ) 0q PLS qE Y Y
Grenoble, 17 janvier 2008 19
Première composante PLS facilement interprétable: coefficients du même signe que r(y;xt)
Pas d’équation intégrale Meilleur ajustement par PLS que par ACP:
(De Jong 1993)
2 2( ) ( )
ˆ ˆ( ; ) ( ; )PLS q PCR qR Y Y R Y Y
Grenoble, 17 janvier 2008 20
4. Discrimination linéaire
4.1 ADL fonctionnelle ADL : combinaison linéaire
maximisant le rapport variance inter/variance intra
Pour 2 groupes la FLD de Fisher s’obtient en régressant Y codé sur Xt
eg(Preda & Saporta,
2005a)
0( )
T
tt X dt
01
0 1
and pp
p p
Grenoble, 17 janvier 2008 21
La régression PLS avec q composantes donne une approximation de β(t) et du score:
Pour plus de 2 groupes: régression PLS2 entre k-1 indicatrices de Y et Xt
T 0
ˆd ( ) ( )T
PLS PLS tX t X dt
Grenoble, 17 janvier 2008 22
Régression PLS2
Y multiple: (Y1, Y2, …,Yp) Citère de Tucker:
Composantes PLS :
2
01
max cov ( ( ) ; )p
t i ii
w t X dt cY
1
p
i ii
s cY
0( ) tt w t X dt
Grenoble, 17 janvier 2008 23
Première composante PLS: premier vecteur propre du produit des opérateurs d’Escoufier WxWY
Preda & Saporta, 2002 & 2005a ; Barker & Rayens , 2003
Grenoble, 17 janvier 2008 24
Généralisation du critère de Tucker au cas fonctionnel:
Prévision:
[0; ] [ ; ] t t tX t T Y X t T T a
1 1ˆ ( ) ... ( )t s h hX t c T s t c T s
2
0 0max cov ( ( ) ; ( ) )t sw t X dt c s Y ds
Grenoble, 17 janvier 2008 25
4.2 Régression logistique fonctionnelle
0ln ( ) ( )d ; 1, ,
1
Ti
ii
x t t t i n
) );(|1( TttxXYP ii
Hypothèse: β(t) et les trajectoires sont dans le même espace de dimension fini (Ramsay et al., 1997)
b
p
qqq tbt
1
)()( i
p
qqiqi tctx c
1
)()(
Grenoble, 17 janvier 2008 26
D’où une régression logistique classique:
avec
Leng and Müller (2006) , Escabias et al. (2004), Aguilera et al. (2006) utilisent les composantes principales de Xt comme base
ln1
1 C b
)( iqcC )d)()(( T
qkkq ttt
Grenoble, 17 janvier 2008 27
4.3 Mesures de qualité
Pour k=2 : courbe ROC et AUC Pour un seuil s , x est classé en 1 si dT(x)>s Sensibilité ou taux de vrais positifs:
P(dT(x)>s/Y=1)=1-β 1- Spécificité ou 1-taux de vrais négatifs:
P(dT(x)>s/Y=0)=
Grenoble, 17 janvier 2008 28
Courbe ROC
• En cas de discrimination parfaite : courbe confondue avec les côtés du carré• Si distribution conditionnelles identiques, courbe confondue avec la diagonale
Grenoble, 17 janvier 2008 29
Courbe ROC invariante pour toute transformation monotone croissante
Surface sous la courbe: mesure de performance permettant de comparer (partiellement) des modèles
On tire une obs de G1 et une de G2
AUC estimée par la proportion de paires concordantes
nc statistique de Wilcoxon-Mann-WhitneyU+W= n1n2+0.5n1(n1+1) AUC=U/n1n2
1 2((1 ) ( )( ) )s
sAUC Xd s P Xs
1 2cc n n n
Grenoble, 17 janvier 2008 30
5. Régression typologique
Un mélange de régression et de classification
Grenoble, 17 janvier 2008 31
5.1 Modèle
G , variable à K catégories (sousb-populations)
2
( )
( )
i i
i
E Y x G i x
V Y x G i
X
X
Grenoble, 17 janvier 2008 32
5.2 MCO et régression typologique
Variances résiduelle de la régression globale= varaince résiduelle intra cluster + variance due à la différence entre la régression locale et la régression globale (MCO)
ˆ ˆ LY Y estimation globale versus estimation typologique "locale"
Grenoble, 17 janvier 2008 33
5.3 Estimation (Charles, 1977)
k fixé Moindres carrés alternés
Partition connue: régressions linéaires dans chaque cluster
Affecter chaque observation à la droite ou surface de régression la plus proche
Equivalent au MV pour des régresseurs fixes (Hennig, 2000)
5.4 Choix de k AIC, BIC,validation croisée
2
{1 }
ˆ ˆ( ) arg min ( ( ))ˆii
j ji …KG j y x
Grenoble, 17 janvier 2008 34
5.5 Régression typologique fonctionnelle PLS
Régression MCO fonctionnelle inadéquate pour des estimations par groupe
Modèles locaux estimés par PLS fonctionnel L’algorithme est-il consistent?
Proof in Preda & Saporta, 2005b
Grenoble, 17 janvier 2008 35
Prédiction: Affectation à un groupe (plus proche
voisin ou autre) Aplication du modèle local
Se généralise si Y est un vecteur aléatoire:
,t t T T aY X
Grenoble, 17 janvier 2008 36
5.6 Application à des données boursières
Taux de croissance pendant 1 heure (de 10h à 11h) de 84 actions à la Bourse de Paris
Grenoble, 17 janvier 2008 37
Prédire le comportement de i85 entre 10h55 et 11h en utilisant les données relevées entre 10h et 10h55?
Grenoble, 17 janvier 2008 38
Calcul exact: 1366 variables (nombre
d’intervalles où les courbes restent constantes)
Discrétisation en 60 intervalles. Comparaison between RCP et PLS:
Grenoble, 17 janvier 2008 39
Crash de i85 non détecté!
Grenoble, 17 janvier 2008 40
PLS typologique Quatre clusters (17;32;10;25) Nombre de comosantes PLS component par
cluster: 1; 3; 2 ; 2 (cross-validation)
Grenoble, 17 janvier 2008 41
i85 classée dans le cluster 1
Grenoble, 17 janvier 2008 42
4. Prédiction anticipée
Chercher t*<T tel que l’analyse sur [0;t*]donne des prédictions semblables à l’analyse sur [0;T]
Solution: En augmentant s depuis 0 , chercher la
première valeur telle que AUC(s) ne diffère pas significativement de AUC(T)
Grenoble, 17 janvier 2008 43
Test d’égalité via une procédure bootstrap Rééchantillonnage des données,
stratifié pour conserver les proportions des classes
A chaque réplication b on calcule AUCb(s) et AUCb(T)
Test basé sur les différences (Student ou Wilcoxon pour données appariées) b=AUCb(s)- AUCb(T)
Grenoble, 17 janvier 2008 44
5.Applications
5.1 Données simulées Deux classes équiprobables W(t) brownien standard
Grenoble, 17 janvier 2008 45
Grenoble, 17 janvier 2008 46
Avec B=50
Grenoble, 17 janvier 2008 47
5.2 Courbes de pétrissage Après un temps T= 480 de pétrissage
on fabrique des biscuits de qualité Y 115 observations dont 50 « bonnes »,
40 «mauvaises » et 25 « ajustables » 241 points de mesure équidistants Lissage avec B-splines cubiques , 16
nœuds
Grenoble, 17 janvier 2008 48
Performances pour Y={bon,mauvais} 100 séparations apprentissage test (60,
30) Taux d’erreur moyen
0.142 avec composantes principales 0.112 avec composantes PLS
AUC moyen 0.746
Fonction β(t)
Grenoble, 17 janvier 2008 49
Prédiction anticipée Avec B=50 t*=186
Il est donc possible de réduire de plus de moitié la durée d’étude.
Grenoble, 17 janvier 2008 50
6.Conclusions et perspectives
La régression PLS permet d’effectuer une prédiction linéaire de manière simple et efficace
Nécessité de prétraitements pour données bruitées
Prédiction anticipée via une procédure simple
Grenoble, 17 janvier 2008 51
En cours: Recherche de prédiction « on-line »:
adapter t* pour chaque nouvelle courbe Comparaison avec régression logistique
PLS fonctionnelle et autres approches
Grenoble, 17 janvier 2008 52
Références Aguilera A.M., Escabias, M. ,Valderrama M.J. (2006) Using principal
components for estimating logistic regression with high-dimensional multicollinear data, Computational Statistics & Data Analysis, 50, 1905-1924
Barker M., Rayens W. (2003) Partial least squares for discrimination. J. of Chemometrics 17:166–173
Charles, C., (1977) Régression typologique et reconnaissance des formes. Ph.D., Université Paris IX.
D. Costanzo, C. Preda , G. Saporta (2006) Anticipated prediction in discriminant analysis on functional data for binary response . In COMPSTAT2006, p. 821-828, Physica-Verlag
Hennig, C., (2000) Identifiability of models for clusterwise linear regression. J. Classification 17, 273–296.
Lévéder C., Abraham C., Cornillon P. A., Matzner-Lober E., Molinari N. (2004) Discrimination de courbes de pétrissage. Chimiometrie 2004, 37–43.
Preda C. , Saporta G. (2005a) PLS regression on a stochastic process, Computational Statistics and Data Analysis, 48, 149-158.
Preda C. , Saporta G. (2005b) Clusterwise PLS regression on a stochastic process, Computational Statistics and Data Analysis, 49, 99-108.
Preda C., Saporta G., Lévéder C., (2007) PLS classification of functional data, Computational Statistics, 22(2), 223-235
Ramsay J.O. , Silverman (1997) Functional data analysis, Springer