Vous êtes sur la page 1sur 4

Filtrage de Kalman non linaire laide de noyaux

Liva R ALAIVOLA , Florence D A LCH -B UC Laboratoire dInformatique de Paris 6 Universit Pierre et Marie Curie 8, rue du Capitaine Scott F-75015 Paris, France liva.ralaivola@lip6.fr

Rsum Dans ce travail, nous proposons une mthode originale permettant dapprhender des sries temporelles aux caractristiques non
linaires. Cette mthode repose sur une extension du ltrage de Kalman laide de lastuce du noyau (kernel trick). Lusage dune fonction noyau permet demployer la formulation classique du ltre Kalman dans lespace des caractristiques dni par la fonction noyau.

Abstract In this work, we propose an original method which allows to address the modeling of highly nonlinear time series. This method is based on an extension of the Kalman Filter model with the help of the kernel trick. This algorithm has the advantage to keep the usual matrix equations valid.

Introduction

s t1 xt1

st xt

s t+1 xt+1

Nous proposons dtendre le ltrage de Kalman [1, 10, 19] au traitement de sries dont les dpendances markoviennes ne sont pas linaires. Notre approche se fonde sur lintroduction de fonctions noyaux qui permettent de prendre naturellement en compte les non linarits. Le passage aux fonctions noyaux, appel astuce du noyau (kernel trick) [6], nous permet de considrer que les donnes des sries tudies sont lies linairement mais ce, dans lespace des caractristiques dni par le noyau. linverse dautres techniques non linaires drives du ltre de Kalman telles que EKF (Extended Kalman Filter [19]) et UKF (Unscented Kalman Filter [9]), notre mthode permet denglober dans le mme formalisme matriciel aussi bien les phases classiques de ltrage et de lissage que la phase didentication des paramtres du ltre. Nous rappelons dabord le principe du ltre de Kalman et les quations destimation associes. Nous dcrivons ensuite notre approche et linstancions dans le cas de lobservation dune version simplement bruite du processus cach. Nous prsentons alors une approche maximum a posteriori et fournissons les paramtres optimaux de la vraisemblance pnalise considre. Enn, nous procdons des tests numriques sur la srie chaotique Mackey-Glass.

F IG . 1 Reprsentation en tant que modle tats du ltre de Kalman. suivant (cf. gure 1) : st+1 xt = Ast + s + v = Bst + x + w (1) (2)

o v et w sont des vecteurs de bruit blanc gaussien de cova2 2 riances respectives s I et x I, et o le premier tat du processus est distribu selon un loi gaussienne de moyenne 1 et de 2 covariance s I, I tant la matrice identit. tant donn une srie de mesures x1:T = {x1 , . . . , xT }, lestimation des tats st peut se faire laide des procdures de ltrage et de lissage rappeles dans le tableau 1. Celles-ci sup2 2 2 posent que les paramtres = {A, B, s , x , 1 , s , x , 1 } sont connus et interviennent dans lalgorithme Expectation-Maximization (EM) [4, 5] dans le cas o lon sintresse la dtermination des paramtres du modle [15].

2.2

Filtrage non linaire

Les mthodes de ltrage non linaires permettent dapprhender un processus du type :

2
2.1

Filtre de Kalman
Filtrage linaire

st+1 xt

= f (st ) + v = g(st ) + w

(3) (4)

Lalgorithme propos par Kalman [10] permet lestimation dun processus st Rp , auquel on na accs que par le biais de mesures xt Rd : il se fonde sur le modle probabiliste

o f et g peuvent tre non linaires et o les vecteurs v et w sont des vecteurs de bruit dont les caractristiques sont dcrites comme prcdemment. Ce systme gnralise le systme (1)(2) et ce titre, deux extensions de lalgorithme destimation de Kalman des d-

2 TAB . 1 quations de ltrage et lissage. s0 (1) = 1 , 0 = 1 I, (T ) = sT (T ) et (T ) = T (T ). R(t) et Rt1 (t) servent la s 1 phase de maximisation de EM lorsquest pos le problme de lidentication des paramtres du systme.

Filtrage
st1 (t) t1 (t) e (t) Kt et s (t) (t)
t t

Lissage
Jt1 (t 1) s 1) (t t1 (t) = = = = t1 (t 1)A (t1 (t 1))1 st1 (t 1) + Jt1 ((t) st1 (t)) s t1 (t 1) + Jt1 ((t) t1 (t))Jt1 (t)Jt1 = = (t) + (t) (t) s s t1 (t) + (t) (t 1) s s

= = = = = = =

Ast1 (t 1) + s
2 At1 (t 1)A + s I 2 Bt1 (t)B + x I

t1 (t)B 1 (t) e xt Bst1 (t) x st1 (t) + Kt et


t1

R(t)
t1

(t) Kt B

(t)

t1

(t)

pendances non linaires sont connues : Extended Kalman Filter (EKF) [19] et Unscented Kalman Filter (UKF) [9]. EKF repose sur des approximations linaires de f et g obtenues par leur dveloppement de Taylor au premier ordre ; UKF fait une estimation des tats par un processus efcace d chantillonnage . Tout comme les procdures destimation linaires, EKF et UKF font lhypothse de la connaissance de f et g. La dmarche usuelle pour lapprhension du systme non linaire (3)(4) laide des procdures drives de lestimation de Kalman se dcompose donc en deux tapes. Dabord, les fonctions f et g sont modlises, par exemple laide de rseaux de neurones, partir dune srie dtats non bruits et de leurs mesures, non bruites galement. Les algorithmes EKF ou UKF sont ensuite utiliss.

o les vecteurs ayant en exposant appartiennent F, et les lignes et les colonnes de A et B sont des vecteurs de F ; v et w sont des vecteurs de bruit gaussiens de variances respec2 2 tives s et x . Nous dsignerons les paramtres de (5)(6) par 2 2 2 = {A , B , , , , s , x , 1 }. s x 1 Au lieu de considrer la srie x1:T nous choisissons ainsi dtudier la srie x = {x , . . . , x } des images par des 1 1:T T xt , en notant x := (xt ). Lutilisation de lapplication non t linaire , conduit un modle non linaire alors que, comme nous le montrons dans ce qui suit, le formalisme usuel du ltrage de Kalman reste applicable.

3.3

Filtrage et lissage noyaux

3
3.1

Filtre de Kalman noyaux


Fonctions noyaux

Depuis lintroduction des noyaux dans lalgorithme de lhyperplan de marge optimale [6, 7, 17], de nombreux algorithmes linaires ont t tendus des traitements non linaires grce lastuce des noyaux (cf. [2, 11, 18] par exemple). Une fonction noyau k dnie sur le produit cartsien Rp Rp et satisfaisant les conditions de Mercer [16] peut scrire k(u, v) = (u), (v) pour tout u et v avec : Rp F oprant la transformation des donnes dans lespace des caractristiques F. Lutilisation de k permet de travailler implicitement dans lespace F, et donc dinduire des non linarits. Les noyaux classiquement utiliss sont les noyaux polynomial k(u, v) =
uv p d

+1

, d > 0 et gaussien k(u, v) = exp

uv 2 2pk

3.2

Modle noyau

Lapproche propose permet daborder le problme de lestimation des tats du processus, celui de la prvision et celui de lidentication des dynamiques f et g de (3)(4) en utilisant les quations du tableau 1. Elle repose sur lusage de fonctions noyaux.tant donn une srie dobservations x1:T , un noyau k et la fonction correspondante, nous proposons le modle suivant : s t+1 x t = A s + + v t s = B s t + x +w

(5) (6)

Supposons que est connu et que, par ailleurs, il existe un ensemble ni f 1 , . . . , f m de vecteurs de Rp tel que = F 1 , = F s , = F x (7) s x 1 A = F AF , B = F BF (8) avec 1 , s , x Rm , A, B Rmm et F la matrice F = [(f 1 ) (f m )]. Sous ces hypothses, pour tout vecteur y Rp , on a : A y = F AF y = F Af y = F af o f y = [ (f 1 ), (y) (f m ), (y) ] ou encore f y = [k(f 1 , y) k(f m , y)] et af est le vecteur rsultant de la mul tiplication entre A et f y . On peut procder aux oprations de ltrage et lissage de la srie x1:T partir de la srie x en appliquant les quations 1:T du tableau 1 en remplaant les paramtres de par ceux de leur correspondant. La seule difcult apparaissant dans lexcution de ces procdures se situe au niveau de linversion de matrices de dimension ventuellement innie (e.g., si le noyau gaussien k est utilis). Or, il est facile de montrer par rcurrence1 que, sous les hypothses faites, les matrices t1 (t) es times scrivent sous la forme t1 (t) = F t1 (t)F et que, ds lors, les inversions de e (t) et t1 (t) peuvent se faire grce la formule de Woodbury. Pour le calcul de 1 (t) (pere mettant la dtermination de Kt ) on a par exemple : 2 1 (t) = (Bt1 (t)B + x I)1 e t1 2 = (F BKF (t)KF BF + x I)1 1 1 1 (I 2 F (I + 2 GKF )1 GF ) = 2 x x x
1 Par souci de concision, nous omettons ici la dmonstration qui est par ailleurs triviale.

avec KF = F F = (k(f i , f j ))i,j matrice dordre m et G = BKF t1 (t)KF B. La seule inversion de matrice concerne 1 alors la matrice I + 2 GKF . Le mme type de calcul peut x se faire pour linversion de t1 (t 1) (en tenant compte du fait que Kt scrit aussi sous la forme Kt = F Kt F ). Une fois dnis les paramtres du systme (5)(6), il est donc possible de mettre en uvre le processus destimation dcrit dans le tableau 1.

TAB . 2 Erreur quadratique moyenne en prvision M G17 . Deux noyaux sont considrs et le coefcient de rgularisation gure en indice de FKN. En italique, les meilleurs rsultats.
Mthode SVM FKN0 FKN0.1 FKN1 FKN10 FKN100 gaussien 1S 100S 0.0812 0.2361 0.0864 0.2906 0.0863 0.2893 0.0859 0.2871 0.0844 0.2140 0.0899 0.1733 polynomial 1S 100S 0.1156 0.1112 0.2975 0.1112 0.2775 0.1117 0.2956 0.1203 0.1964 0.0970 0.1744

3.4

Identication des paramtres

Nous nous intressons ici la dtermination de ces paramtres partir de lobservation dune squence x1:T dans le 2 cas particulier o B = I, = 0 et x est connu. La situation correspond au cas usuel o la dynamique liant les tats entre 2 instants successifs doit tre apprise. 2 2 Les paramtres A , , , s , 1 sobtiennent par maxis 1 misation de la log-vraisemblance pnalise L [13] dnie par 2L (x1:T ; ) = 2 log(p(x | )pa (A ) qui scrit 1:T
2 2 n(T 1) log s h( , 1 ) 1

matrice X X de valeurs propres strictement positives (cf. [11]). 2 Le paramtre s est alors [14] :
2 s =

1 m(T 1)

(x A x ) U U (x A x ). t t t1 t1 s s
t=2

a tr (AA ) 2 s
2

(9) (10)

Ces paramtres sont bien de la forme (7)(8), avec f t = xt , les quations destimation peuvent donc tre utilises.

1 2 s

s A s t t1 s
t=2

Expriences

o tr (M ) dsigne la trace de M et o la distribution pa (cf. quation (9)) impose de choisir la matrice A la plus simple possible ; le mme type de distributions a priori a t utilis dans [3, 8] pour linfrence baysienne des paramtres et des tats dun ltre de Kalman linaire. n est la dimension de les2 pace F et h une fonction de et 1 qui se calcule facilement. 1 Lannulation de la drive de L conduit :
T

Nous testons lefcacit de notre approche sur les deux sries unidimensionnelles Mackey-Glass M G17 et M G30 en abordant deux tches. La premire vise construire un modle selon la mthode prconise de la section 3.4 partir de points de ces sries et valuer les capacits de prvision du modle ainsi obtenu. La seconde consiste, partir du modle construit, ter le bruit dune srie.

=
t=2

x x t t1
T

1 T 1

x t
t=2 t=2

x t1
T T

(11)
1

4.1

Prvision

a I +
t=2

x x t1 t1 x A x t t1

1 T 1

x t1
t=2 t=2

x t1 (12)

s
2 s

1 T 1

t=2 T

1 n(T 1)

x A x t t1
t=2

(13)

en tenant compte de B = I et = 0. Lquation (11) pose le problme de linversion dune matrice dordre n, qui peut tre inconnue (ou innie). Tout comme pour le processus destimation, cet inconvnient peut tre vit en introduisant la matrice X = [x x ], les vecteurs f := [0 1 1] , 1 T g := [1 1 0] de dimension T , la matrice P = (Pij ) = (i,j+1 ) dordre T et en dnissant J = P f g/(T 1) et M = diag(g)gg /(T 1). Grce la formule de Woodbury, A se rcrit en effet
A = = X JX I + X M X
1

Nous comparons les performances de notre algorithme celles dune machine vecteurs de support [12] pour laquelle les vecteurs xt = [xt6(d1) xt ] , avec d = 6 sont associs la valeur cible xt+6 . Les capacits de prvision 1 (1S) et 100 (100S) pas de temps sont values pour ces deux modles et indiques dans le tableau 2. La base de validation est constitue de 100 points nayant pas t utiliss lors de lapprentissage effectu sur les 100 premiers xt . Les paramtres de la SVM sont rgls par cross-validation sur un chantillon indpendant. Les paramtres du noyau SVM sont utiliss pour le ltre de Kalman noyaux (FKN). Les rsultats, qui concernent M G17 , sont rsums dans le tableau 22 . On constate dune part que les performances de prvisions atteintes par notre modle sont de trs bonne qualit. Dautre part, lutilisation dun coefcient de rgularisation permet dviter le phnomne de divergence qui se produit avec la SVM et le noyau polynomial pour la prvision 100S.

1 1 1 X J I K(I + M K)1 M X

4.2

Soustraction de bruit

avec K = (k(xi , xj ))i,j . Lquation (13) pose le problme 2 dune division par n. An de dterminer s , on peut utiliser une base orthornorme U de lespace Fx engendr par les x1 , . . . , xT , obtenu en calculant les m vecteurs propres u1 , . . . , um de la

Nous nous intressons ici la tche de soustraction dun bruit blanc de variance 0.5. Le modle FKN est appris sur les
2 Le modle (5)(6) permet seulement davoir des prvisions dans F ; nous avons donc mis en uvre un algorithme de dtermination de primages pour valuer lerreur quadratique moyenne [11, 14].

TAB . 3 Performances pour la soustraction de bruit. Plus la valeur du noyau est proche de 1 plus la soustraction de bruit est efcace.
Mthode FKN EKF UKF CDKF SRCDKF SRUKF Dnomination Filtrage noyaux Extended Kalman Filter Unscented Kalman Filter Central difference KF Square Root CDKF Square Root UKF Performance 0.985 0.993 0.994 0.993 0.990 0.991

Rfrences
[1] B. D. Anderson and J. B. Moore. Optimal Filtering. Prentice Hall, Englewood Cliffs, NJ, 1979. [2] F. R. Bach and M. I. Jordan. Kernel Independent Component Analysis. Journal of Machine Learning Research, 3 :148, 2002. [3] M. J. Beal and Z. Ghahramani. The Variational Kalman Smoother. Technical report, Gatsby Computational Neuroscience Unit, 2001. [4] C.M. Bishop. Neural Networks for Pattern Recognition, chapter 1. Oxford University Press, Inc, New York, 1995. [5] J. Blimes. A gentle tutorial of the EM algorithm and its application to parameter estimation for gaussian mixture and hidden markov models. Technical report, U.C. Berkeley, 1998. [6] B. Boser, I. Guyon, and V. Vapnik. A Training Algorithm for Optimal Margin Classiers. In Proc. of the 5th Annual Workshop on Comp. Learning Theory, volume 5, 1992. [7] C. Burges. A Tutorial on Support Vector Vachines for Pattern Recognition. Data Mining and Knowledge Discovery, 2(2) :955974, 1998. [8] Z. Ghahramani and M.J. Beal. Propagation algorithms for variational bayesian learning. In NIPS, pages 507513, 2000. [9] S. Julier and J. Uhlmann. A New Extension of the Kalman Filter to Nonlinear Systems. In Int. Symp. Aerospace/Defense Sensing, Simul. and Controls, 1997. [10] R. E. Kalman. A New Approach to Linear Filtering and Prediction Problems. Transactions of the ASMEJournal of Basic Engineering, 82(Series D) :3545, 1960. [11] S. Mika, B. Schlkopf, A. J. Smola, K.-R. Mller, M. Scholz, and G. Rtsch. Kernel PCA and De-Noising in Feature Spaces. In NIPS. MIT Press, 1999. [12] S. Mukherjee, E. Osuna, and F. Girosi. Nonlinear prediction of chaotic time series using support vector machines. In Proc. of IEEE NNSP97, 1997. [13] D. Ormoneit and V. Tresp. Averaging, maximum penalized likelihood and bayesian estimation for improving gaussian mixture probability density estimates. IEEE Transactions on Neural Networks, 9, 1998. [14] L. Ralaivola and F. dAlch-Buc. Modles dynamiques noyaux pour la prvision de sries temporelles non linaires. To appear in Actes de la Confrence Apprentissage CAp03, Laval, 2003. [15] A-V.I. Rosti and M.J.F. Gales. Generalised linear Gaussian models. Technical Report CUED/F-INFENG/TR.420, Cambridge University Engineering Department, 2001. [16] B. Schlkopf, R. Herbrich, and A. J. Smola. A generalized representer theorem. Technical Report NC-TR-00-081, NeuroCOLT, 2000. [17] V. Vapnik. Statistical Learning Theory. John Wiley and Sons, inc., 1998. [18] A. Vinokurov, J. Shawe-Taylor, and N. Cristianini. Inferring a Semantic Representation of Text via Cross-Language Correlation Analysis. In Advances in Neural Information Processing Systems, volume 14, 2003. [19] G. Welch and G. Bishop. An introduction to the Kalman lter. Technical Report TR 95-041, University of North Carolina, 1995.

300 premiers points de la srie non bruite en considrant les vecteurs xt = [xt5 , . . . , xt ] pour extraire le signal originel de 300 points bruits grce aux quations destimation. Les performances sont compares celle dun rseau de neurones darchitecture 6-4-1 utilis avec des variantes dEKF et UKF et appris sur des vecteurs xt = [xt30 , xt24 . . . , xt ] 3 . On utilise un noyau gaussien avec k = 1 et un coefcient de rgularisation de 10. Lerreur est mesure en calculant les noyaux entre les vecteurs xt non bruits et ceux estims car FKN ne fournit que des estimations de vecteurs de F. On constate dune part que la qualit destimation de FKN est trs proche de celle des autres mthodes. Il faut cependant remarquer que le codage en vecteur utilis par FKN nest pas aussi optimal [12] que celui utilis par le rseau de neurones. Dautre part, le coefcient de rgularisation utilis a t choisi intuitivement et une mthode plus robuste de dtermination (e.g. par cross-validation) de ce paramtre devrait permettre FKN datteindre de meilleures performances.

Conclusion et perspectives

Nous proposons une extension du ltre de Kalman laide de noyaux. Cette approche originale permet dapprhender des sries temporelles chaotiques et prsente lavantage de conserver le mme type de calculs matriciels que ceux impliqus dans les quations destimation de Kalman. De plus, sagissant de lapprentissage des paramtres du modle, les quations classiques utilises par EM continuent de sappliquer. Nous montrons quil est aussi possible de contrler la complexit du modle en maximisant la vraisemblance pnalise. Les premires simulations ont port sur une simplication du ltre de Kalman noyau dans laquelle le processus observ correspond au processus cach bruit. Les premiers rsultats obtenus en prvision et en identication de bruit sur deux sries non linaires classiques sont trs encourageants. Ce travail peut tre prolong dans diffrentes directions : tout dabord, nous devons valider le modle gnral en prvision, en identication de bruit et en lissage. Ensuite, la question du choix du noyau et surtout de la slection de ses paramtres doit tre tudie. Enn, cet algorithme ouvre la voie lanalyse de squences de donnes structures (non vectorielles) pour lesquelles un noyau peut tre dni.
3 Nous avons utilis la librairie ReBEL, disponible http ://choosh.ece.ogi.edu/rebel/index.html.

lurl