Vous êtes sur la page 1sur 153

THSE de DOCTORAT de lUNIVERSIT PIERRE ET MARIE CURIE

Spcialit : MICROLECTRONIQUE ET MICROINFORMATIQUE prsente

par Dominique URBANI pour obtenir le titre de DOCTEUR DE LUNIVERSIT PARIS 6 Sujet de la thse :

Mthodes statistiques de slection darchitectures neuronales : application la conception de modles de processus dynamiques

Soutenue le 16 Novembre 1995 devant le jury compos de : Mme Mlle Mme M. M. M. D. FOURNIER S. MARCOS Rapporteur S.THIRIA Rapporteur M. WEINFELD L. PERSONNAZ G. DREYFUS

TABLE DES MATIRES

Introduction

........................................................................................................1

Chapitre I

La modlisation de processus dynamiques..........................5

Chapitre II

Estimation des paramtres dun modle............................15

Chapitre III

La slection de modles..........................................................25

Chapitre IV

Procdure de slection de modles NARX........................ 43

Chapitre V

Application de la procdure de slection........................... 65

Conclusion

..................................................................................................... 95

Rfrences bibliographiques

.............................................................................. 97

Annexes

................................................................................................... 105

INTRODUCTION ....................................................................................................... 1 Chapitre I LA MODLISATION DE PROCESSUS DYNAMIQUES .................................... 5 I.1. Processus et modles ........................................................................................... 5 I.2. Modle hypothse et forme prdicteur ........................................................... 8 I.2.1. Modle hypothse ................................................................................. 8 I.2.2. Forme prdicteur thorique et systme dapprentissage ............ 10 I.2.3. Forme prdicteur associe un modle hypothse ..................... 11 I.2.3.1. Le modle hypothse est dterministe ............................. 12 I.2.3.2. Le modle hypothse est NARMAX ................................. 12 I.2.3.3. Le modle hypothse est NBSX ......................................... 13 I.3. Conception de modles NARMAX ................................................................ 14 Chapitre II ESTIMATION DES PARAMTRES DUN MODLE ....................................... 15 II.1. Position du problme ...................................................................................... II.1.1. Lestimateur des moindres-carrs ordinaires .............................. II.1.2. Les mthodes fondes sur lerreur de prdiction. ( mthodes EP ) ................................................................................. II.1.3. Les mthodes de corrlation ........................................................... II.2. Estimation des paramtres dun modle ..................................................... II.3. Algorithmes doptimisation .......................................................................... II.3.1. Les mthodes linaires de rsolution ............................................ II.3.2. Modles non linaires : les mthodes de gradient ..................... II.3.2.1. Principe ................................................................................. II.3.2.2. La mthode du gradient simple ...................................... II.3.2.3. La mthode de Newton ..................................................... II.3.2.4. Les mthodes Quasi-Newtonniennes ............................ II.3.2.5. Optimisation du pas ........................................................... 15 16 18 18 20 21 21 22 22 23 23 24 24

Chapitre III LA SLECTION DE MODLES .............................................................................. 25 III.1. Introduction ..................................................................................................... III.2. Lestimateur du maximum de vraisemblance (EMV) ............................ III.2.1. Lestimateur du maximum de vraisemblance ......................... III.2.2. Proprits de lEMV dans le cas de processus linaires ............ III.2.3. Formulation laide de lapproche EP ........................................ 25 27 27 27 28

III.3. Les tests dhypothses statistiques ................................................................ III.3.1. Principe des tests dhypothses ..................................................... III.3.2. Le test du rapport de vraisemblance (TRV) ............................... III.3.3. Test du rapport de vraisemblance et estimateurs EP : le test LDRT .................................................................................... III.3.4. Le test de Fisher ................................................................................ III.3.5. Slection dun modle dans un ensemble ................................. III.4. Les mthodes de slections multiples ........................................................ III.4.1. Principe des mthodes dAkaike ................................................... III.4.2. Le Critre dInformation dAkaike (AIC) .................................... III.4.2.1. Dfinition ............................................................................ III.4.2.2. Lien avec la slection laide de tests dhypothses ... III.4.3. Critre Final dAkaike fonde sur lerreur de prdiction (FPE) ............................................................. III.5. Les mthodes de slections partielles ..................................................... III.5.1. Les mthodes destructives ......................................................... III.5.2. Les mthodes constructives ....................................................... III.6. Extension des mthodes de slection de modles ....................................

32 32 33 34 34 35 36 36 37 37 38 39 40 40 41 42

Chapitre IV PROCDURE DE SLECTION DE MODLES NARX ....................................... 43 IV.1. Introduction ..................................................................................................... IV.2. Principe de la procdure de slection de modles NARX ..................... IV.3. Premire phase : slection de modles linaires locaux ........................ IV.3.1. Linarisation dun modle NARX .............................................. IV.3.1.1. Linarisation dun modle dterministe ..................... IV.3.1.2. Linarisation dun modle NARX ................................ IV.3.2. Procdure de slection des rgresseurs dun modle linaire par rapport ses paramtres .......................................... IV.3.2.1. Principe de la procdure .................................................. IV.3.2.2. Classement des rgresseurs laide dune mthode dorthogonalisation ......................................................... IV.3.2.3. Description de lalgorithme ............................................ IV.3.2.4. Calcul de lerreur quadratique moyenne ..................... IV.3.2.5. Slection dun modle linaire local ............................ IV.3.3. Fin de la premire phase : compilation des rsultats .............. IV.4. Deuxime phase : slection des rgresseurs dun modle neuronal global du processus .................................................................... 43 43 49 49 49 50 51 51 53 55 57 58 59 60

IV.5. Troisime phase : slection du nombre de neurones du modle ....... IV.6. Limitations et extensions de la procdure ................................................ IV.6.1. Construction et caractrisation de comportements locaux du processus ........................................................................................ IV.6.2. Slection de modles NARMAX .................................................

61 62 62 63

Chapitre V APPLICATION DE LA PROCDURE DE SLECTION .................................... 65 V.1. Processus de rfrence P1 ................................................................................ 65 V.2. Premire phase : slection des entres de modles linaires ................. V.2.1. tude prliminaire : problme du surajustement ..................... V.2.1.1. Premier exemple : processus ARX .................................. V.2.1.2. Deuxime exemple : le processus NARX P1 ................. 67 67 68 69

V.2.2. Choix de lamplitude de la perturbation superpose la commande .............................................................................. 71 V.2.3. Rsultats obtenus avec le processus NARX P1 ........................... 73 V.2.3.1. Comparaison des procdures MCU et MCM ................ V.2.3.2. Modification de la procdure de slection .................... V.2.3.3. Rsultats ............................................................................... V.2.4. Rsultats obtenus avec d'autres processus .................................. V.2.4.1. Prsentation des processus ............................................... V.2.4.2. Rsultats ............................................................................... V.3. Deuxime phase : slection des entres d'un modle non linaire global .................................................................................................................. V.3.1. Rsultats obtenus avec le processus de rfrence P1 .................. V.3.1.1. Critre d'arrt de l'apprentissage .................................... V.3.1.2. Choix du modle complet ................................................ V.3.1.3. Slection des entres du modle ..................................... V.3.1.4. Modification de la procdure .......................................... V.3.2. Conclusion .......................................................................................... V.4. Troisime phase : slection du nombre de neurones du modle ......... V.4.1. Rsultats obtenus avec le processus de rfrence P1 .................. 73 75 75 77 77 78 80 80 81 82 82 84 86 86 86

V.5. Conclusion ........................................................................................................ 91

CONCLUSION .......................................................................................................... 95

RFRENCES BIBLIOGRAPHIQUES ................................................................. 97

Annexe I

Adaptive Training of Fedback Neural Networks for Non-Linear Adaptive Filtering ........................................ article

Annexe II

Training Recurrent Networks : Why and How? An illustration in Process Modelling ............................. article

Annexe III The selection of Neural Models of Non-linear Dynamical Systems by Statistical Tests ................................................. article

Introduction
Au cours des dernires annes, l'une des volutions les plus marquantes des rseaux de neurones formels a t, pour les ingnieurs, l'abandon de la mtaphore biologique au profit de fondements thoriques solides dans le domaine des statistiques : on sait prsent que la proprit fondamentale des rseaux de neurones est l'approximation universelle [Hornik 89] parcimonieuse [Hornik 94]. De plus, le dveloppement dalgorithmes performants pour lapprentissage de ces rseaux, boucls ou non boucls, leur a ouvert de nouvelles perspectives d'utilisation. En particulier, les rseaux de neurones se sont avrs particulirement adapts, dans le domaine de lAutomatique, comme lments de systmes de commande de processus dynamiques non linaires. Des travaux rcents [Nerrand 92], [Rivals 95] ont permis de replacer la mise en uvre des rseaux de neurones comme modles de processus ou correcteurs de systmes dans le cadre plus gnral de lAutomatique classique. Cependant, peu de travaux abordent le problme important de la slection de modles : dans la pratique, les variables qui ont une action importante sur le processus modliser - qu'il soit statique ou dynamique - sont souvent inconnues, et il est ncessaire de les dterminer, puisquelles constituent les entres du modle neuronal. De plus, la qualit des rsultats fournis par un modle dpend en grande partie de la parcimonie de ce dernier : la slection de la structure d'un rseau (nombre de neurones, donc nombre de paramtres ajustables) est donc de la plus grande importance. Dautre part, lintrt croissant pour les rseaux de neurones formels a conduit la ralisation de circuits ddis aux applications neuronales (coprocesseurs spcifiques ou circuits intgrs). La plupart de ces ralisations sont tournes vers la recherche, leurs raisons dtre tant, dune part, dtudier la faisabilit et les performances de nouvelles architectures o u technologies, et, dautre part, de satisfaire les besoins de simulations rapides. Nanmoins, on observe un nombre croissant dapplications des rseaux de neurones des problmes dpassant le cadre de la recherche, et, moyen terme, on peut envisager lutilisation de circuits "neuronaux" spcifiques pour la rsolution de problmes industriels prsentant des contraintes de

vitesse importantes. Naturellement, la ralisation d'un rseau neuronal spcifique est d'autant plus simple que la taille du rseau est plus petite. Ainsi, la qualit des rsultats et la facilit d'implantation matrielle orientent les tudes dans la mme direction : l'optimisation des rseaux, e n termes de nombre d'entres comme de nombre de neurones, pour obtenir des modles aussi parcimonieux que possible. C'est donc dans cette double optique que nous nous sommes intresss au problme de la slection de modle. Dans ce travail, nous avons tudi les mthodes de slection de modles neuronaux dans le cadre de la modlisation de processus dynamiques non linaire. Nanmoins, la plupart des mthodes et des rsultats thoriques sur lesquels nous nous sommes appuys peuvent, sans grandes difficults, tre transposs des problmes voisins, dans lesquels les rseaux de neurones ont prouv leur efficacit (slection des rgresseurs de modles de systmes statiques non linaires, o u dtermination des caractristiques pertinentes pour un problme de classification). Diverses mthodes heuristiques ont t proposes dans le pass ; la plupart dentre elles consistent liminer des paramtres du modle, soit en les comparant un seuil aprs apprentissage, et en supprimant ceux qui sont infrieurs ce seuil, soit en incluant, dans la fonction de cot, un terme qui pnalise les paramtres dont les valeurs sont grandes, de sorte que les paramtres peu importants restent trs voisins de zro. Linconvnient majeur de ces mthodes est que, si elles permettent doptimiser le nombre de paramtres, le nombre dentres et le nombre de neurones du rseau restent gnralement les mmes, et limplantation matrielle du rseau nest pas simplifie. Dans ce travail, nous avons prfr utiliser des mthodes de tests statistiques, qui reposent sur des bases thoriques solides, et dont les performances en linaire sont bien tablies. Dans cette optique, les deux objectifs de notre travail ont t : de replacer le problme de la dtermination de la structure de modles neuronaux de processus non linaires dynamiques dans le cadre plus gnral de la slection de modles laide de mthodes statistiques; de proposer une procdure de slection de modles neuronaux qui sinscrive dans le cadre thorique ainsi dfini, tout en tenant compte des 2

difficults rencontres lors de la mise en uvre sur des cas pratiques. De plus, la slection concerne les entres (rgresseurs) du modle, ainsi que le nombre de ses neurones, et non plus seulement ses paramtres. Les trois premiers chapitres de ce mmoire rpondent la premire de ces proccupations. Dans le chapitre I, nous rappelons quelques concepts fondamentaux pour la modlisation de processus. Nous montrons le lien qui existe entre, dune part, les hypothses a priori formules sur le processus, qui conduisent la dfinition dun modle hypothse et de sa f o r m e prdicteur thorique associe, et, dautre part, le systme dapprentissage quil est ncessaire de mettre en uvre pour lidentification dun tel systme. En particulier, nous mettons e n vidence linfluence de la modlisation des perturbations dans le modle hypothse sur le choix du prdicteur du systme dapprentissage. Dans le chapitre II, nous prsentons les diffrentes mthodes pour lidentification des modles linaires ou non linaires que nous utiliserons. Le chapitre III est consacr la prsentation du problme de la slection de modles ; nous montrons le lien entre la slection de modles, au sens classique, et la dtermination de la structure des rseaux de neurones. Dans le cas de modles hypothses NARMAX, lapproche EP (erreur de prdiction), qui permet de construire des estimateurs des paramtres du modle qui sont asymptotiquement quivalents aux estimateurs du maximum de vraisemblance, est prsente. Diffrentes mthodes de slection de modles sont alors introduites, qui sappliquent parfaitement la slection de modles NARMAX, et des mthodes heuristiques permettant la rduction du nombre dapprentissages ncessaires pour slectionner un modle sont prsentes. Une procdure originale de slection de modles NARX est prsente, puis mise en uvre dans les chapitres IV et V. Cette procdure peut tre partiellement utilise pour slectionner un modle NARMAX. Dans le chapitre IV, la procdure de slection de modles NARX, qui comporte trois phases, est expose. Dans la premire phase, le 3

fonctionnement du processus est tudi dans des domaines de fonctionnement restreints, o le processus peut tre localement approch par des modles linaires ou polynomiaux. La slection des rgresseurs de ces modles locaux se fait laide dune mthode heuristique, qui utilise la linarit par rapport aux paramtres du modle. Dans la deuxime phase, les entres slectionnes lors de la premire phase sont utilises pour construire un modle neuronal global du processus. Une slection des entres de ce modle n o n linaire est effectue partir dun ensemble dapprentissage correspondant un fonctionnement du processus sur lensemble du domaine tudi. Lobjectif de la dernire phase est la dtermination du nombre de neurones optimal du rseau. Cette procdure est mise en uvre dans le chapitre V, sur des processus simuls. Ceci nous permet de mettre en vidence des difficults rencontres lors de lapprentissage, qui sont, pour linstant, incontournables, et de mettre en place des rgles pragmatiques permettant dobtenir des rsultats aussi satisfaisants que possible dans ltat actuel des algorithmes destimation des poids.

Chapitre I. La modlisation de processus dynamiques


I.1. Processus et modles
Un processus est un objet soumis des actions externes, lintrieur duquel des grandeurs interagissent, et sur lequel on peut faire des mesures. Il existe de nombreux types de processus, de natures trs diffrentes : artificiels, naturels (cologiques, biologiques, ), financiers ou sociaux. Les processus que nous considrons dans ce travail sont des objets sur lesquels on peut agir par des actionneurs dans un but dtermin de pilotage de systmes divers, de production ou de transformation de matire, etc. Les grandeurs dintrt mesures (variable pilote, dbit et qualit dun produit, ) sont appeles les sorties du processus. Les variables externes qui lui sont imposes par un oprateur (par exemple un rgulateur ou un oprateur humain) sont appeles commandes ; les autres variables externes qui agissent sur les sorties sont des perturbations , et lon distinguera les perturbations mesurables des perturbations non mesurables . Les commandes et les perturbations mesurables sont appeles les entres du processus. Commandes Perturbations mesurables Perturbations non mesurables Le but de toute modlisation de processus est de construire un modle, c'est-dire une reprsentation mathmatique de son fonctionnement. Les processus dynamiques, auxquels nous nous intressons dans ce travail, sont au cur de nombreux secteurs dactivit (industrie, conomie, recherche, ), et il est souvent ncessaire den construire un modle, par exemple pour comprendre les phnomnes physiques mis en jeu, ou afin de concevoir u n systme automatique pour leur commande. Nous distinguerons deux classes de modles : Les modles de simulation ou simulateurs : un simulateur est un systme qui possde un comportement dynamique analogue celui du processus et qui est destin fonctionner indpendamment de celui-ci. Les simulateurs sont utiles dans de nombreuses applications : Processus Sorties

- pour valider des hypothses sur le processus que lon tudie, pour extrapoler son comportement dans des domaines de fonctionnement o lon ne dispose pas de rsultats dexpriences; - pour concevoir un systme nouveau et apprhender lavance son comportement ou ses caractristiques (cest notamment le cas en microlectronique, mais galement en construction automobile, e n aronautique, ); on parle parfois de modle de conception; - pour tester de nouveaux dispositifs de commande ou de rgulation quil serait trop coteux, ou dangereux, de tester sur le processus lui-mme (par exemple si le processus est une partie dune centrale nuclaire, u n avion, ), ou comme outil de formation de personnel lorsque la manipulation du processus par des personnes inexprimentes est irralisable (pilote de chasse, personnel de surveillance dune raffinerie de ptrole, ). Ces simulateurs devront tre aussi fidles que possible au processus, quel que soit le prix payer en termes de complexit du modle et de temps de calcul; - pour la synthse du correcteur dun systme de commande du processus. Les modles de prdiction ou prdicteurs : un prdicteur fonctionne e n parallle avec le processus modlis, et il prdit la valeur de sortie du processus l'instant t+d, partir des valeurs des entres et des sorties du processus disponibles l'instant t. Dans le domaine de la conception de systmes de commande et de rgulation de processus, les modles de prdiction sont utiliss aussi bien dans les phases de conception dun modle du processus et dapprentissage dun correcteur que pendant la phase dutilisation. De tels systmes tiennent une place trs importante dans lindustrie. La distinction entre modles prdictifs et simulateurs est essentiellement lie lutilisation que lon fait du modle, et un mme modle peut, dans certains cas, tre utilis soit comme prdicteur, soit comme simulateur. Lors de la modlisation dun processus, deux dmarches sont envisageables : La premire consiste construire un modle de connaissance . La conception des modles de connaissance dcoule d'une analyse physique des phnomnes mis en jeu dans le processus; lorsque cela est ncessaire, on dcompose le processus tudi en lments plus simples, pour lesquels on dispose dj dun modle de connaissance prouv. Des donnes exprimentales sont ensuite utilises, dabord pour estimer numriquement les valeurs des paramtres du modle, ensuite pour valider le modle obtenu. 6

En particulier, la recherche scientifique a pour objet essentiel la construction de modles de ce type, qui permettent non seulement de comprendre, mais aussi dextrapoler le comportement dun processus (raction chimique, comportement dun avion dans latmosphre, impact cologique dun insecticide nouveau, ). La seconde dmarche est de construire un modle de type bote noire . Plus prcisement, on cherche une expression mathmatique qui traduise de manire la plus fidle possible le comportement entre-sortie du processus dans u n domaine de fonctionnement dfini par l'utilisation ultrieure. Les paramtres nont gnralement pas de signification physique. Lestimation numrique de ces paramtres repose essentiellement sur un ensemble dobservations exprimentales dont on dispose sur le processus; dans le domaine des rseaux de neurones, cet ensemble dobservations est appel ensemble dapprentissage. Les modles bote noire sont en gnral conomiques en temps de calcul. Leur validit est limite un domaine de fonctionnement dtermin par lensemble dapprentissage, tandis que celle des modles de connaissance est dtermine par lexactitude des hypothses et la pertinence des approximations faites lors de lanalyse physique des phnomnes et de leur mise en quation. Dans le cadre de la conception de modles bote noire de processus n o n linaires, les modles neuronaux sont dexcellents candidats qui permettent gnralement dapprocher le comportement dynamique du processus de faon satisfaisante : en effet, les rseaux de neurones sont des approximateurs universels de fonctions non linaires qui peuvent tre employs aussi bien dans un cadre dterministe que dans un cadre probabiliste. Dans ce travail, nous nous intressons llaboration de modles du type bote noire de processus dynamiques non linaires. Nous ne considrerons que le cas de processus stationnaires, cest--dire tels que les lois qui rgissent leur comportement nvoluent pas au cours du temps. Les modles que nous considrons sont des modles temps discret. Les modles botes noires sont bien adapts la conception de modles pour la commande de processus non linaires, o lon a souvent besoin de systmes de structure relativement simple, afin de pouvoir effectuer de nombreux calculs, et ajuster si ncessaire les paramtres du modle des ensembles de donnes exprimentales nouvelles. Les modles de connaissance, bien que fonds sur une analyse approfondie du processus et ayant des domaines de validit gnralement moins limits, sont souvent trop complexes pour effectuer des calculs de faon rapide. De plus, leur conception est fortement lie au processus particulier que lon cherche modliser, et aux connaissances dont on dispose sur la physique de celui-ci. 7

I.2. Modle hypothse et forme prdicteur


I.2.1 Modle hypothse La conception d'un modle prdictif de comportement repose sur l'hypothse selon laquelle, pour le processus que l'on considre, il existe une description analytique de la relation entre les entres et les sorties du processus. Cette description est gnralement inconnue, et on lexprime de faon formelle. Cette reprsentation formelle, appele modle hypothse , prend en considration les connaissances a priori et les hypothses concernant le comportement du processus. Elle constitue la base de dpart de toute procdure de modlisation. Llaboration dun modle hypothse consiste effectuer des hypothses concernant la nature et les caractristiques du processus : caractre statique o u dynamique du processus; prsence de perturbations (leur nature, leur mode daction); caractre linaire ou non linaire du processus. Il faut en gnral fixer ou estimer un certain nombre de caractristiques numriques du modle. La forme la plus gnrale dun modle hypothse entre-sortie non linaire, dterministe, stationnaire, sans retard, temps discret, est donne par lexpression : yp(t) = j(yp(t1), , yp(tny), u(t1), , u(tnu)) (I.1)

o yp(t) et u(t) sont les sorties et les entres (la commande et les perturbations mesures) du processus linstant t. Pour un modle dynamique, il faut fixer ou estimer lordre n y du modle, ainsi que la valeur de la mmoire nu sur la commande. Pour un modle statique, la fonction j(.) ne dpend que de la variable de commande u aux instants t1, t2, Si lon dispose de connaissances particulires, ou si lon fait des hypothses sur le comportement du processus, elles doivent tre exprimes dans la formulation du modle hypothse : par exemple, si le comportement du processus est linaire, la fonction j (.) est alors une somme pondre des arguments yp(t1), , yp(tny), u(t1), , u(tnu). Supposons que des perturbations non mesures agissent sur le processus. Ces perturbations peuvent tre de deux types : les perturbations dterministes, et les perturbations de type bruit. Les perturbations dterministes peuvent tre modlises par une entre n o n commandable (sinusode, constante, etc.) qui survient ou se modifie des instants alatoires. Par exemple, lencrassement dun appareil au cours de son utilisation peut se modliser par une rampe. Dans le cadre de la conception dun 8

systme de commande, la prsence de telles perturbations conduit concevoir u n systme adaptatif. Les perturbations de type bruit sont des perturbations qui peuvent tre modlises par une squence de variables alatoires. Un bruit de mesure est souvent modlis par un bruit additif sur la sortie du processus; un bruit dtat est un bruit additif sur les variables dtat (variables boucles) du systme. Nous montrerons par la suite que le choix du mode daction du bruit, qui entre dans llaboration dun modle hypothse, dtermine le choix de lalgorithme destimation des paramtres du modle. Lorsque les connaissances a priori sont insuffisantes pour choisir certaines caractristiques du modle hypothse, il faut alors faire des hypothses qui pourront tre remises en cause au cours de la procdure de modlisation. Par exemple, on choisit un modle hypothse linaire, on modlise les perturbations par un bruit dtat, on fixe les valeurs de ny, nu souvent de manire arbitraire. Dans ce travail, nous nous sommes intresss plus particulirement aux modles entre-sortie. En effet, Leontaritis et Billings ont montr quil tait possible de reprsenter une large classe de systmes non linaires bruits temps discret par le modle NARMAX (Non linaire Auto-Rgressif Moyenne Ajuste avec entre eXogne, [Leontaritis 85]). Son expression la plus gnrale est : yp(t) = j(yp(t-1), , yp(t-ny), u(t-1), , u(t-nu), w(t-1), , w(t-nw)) + w(t) o nw est la mmoire sur le bruit w. Les diffrentes variables intervenant dans la forme NARMAX sont : la sortie mesure yp du processus, qui peut tre vectorielle; les perturbations non mesurables, modlises partir dune squence de variables alatoires indpendantes desprance mathmatique nulle {w(t)} (par abus de langage, on dira que w(t) est un bruit pseudo-blanc); le vecteur des entres u : ses composantes sont les commandes, grandeurs sur lesquelles on peut agir pour influer sur le comportement du processus, et ventuellement des perturbations mesurables; les variables dtat du modle qui sont, dans la reprsentation NARMAX, des valeurs passes de la sortie. Dans la suite de ce mmoire, nous supposerons que les variables yp, u et w sont scalaires, mais la gnralisation au cas multivariable seffectue sans difficult majeure. (I.2)

I.2.2 Forme prdicteur thorique et systme dapprentissage Une fois le modle hypothse choisi, il faut dterminer ou estimer, partir de squences dentres {u(t)} et de sortie {yp(t)} du processus, lensemble de ses caractristiques inconnues. Pour cela, on dfinit, dune part, une fonction de cot thorique, et, dautre part, une forme prdicteur thorique associe au modle hypothse. La fonction de cot thorique est une mesure de lerreur de prdiction faite par un systme de prdiction de la sortie du processus. On choisit gnralement comme fonction de cot thorique la variance de lerreur de prdiction. La forme prdicteur thorique est un systme qui permet de calculer, linstant t, une prdiction y(t+d) de la sortie yp(t+d) du processus telle que, si lon suppose le processus parfaitement dcrit par le modle hypothse, la fonction de cot thorique soit minimale. Comme le modle hypothse, la forme prdicteur thorique est un systme formel, qui sexprime laide des mmes caractristiques que le modle hypothse (cest--dire j(.), n y , nu et nw pour u n modle NARMAX). Une fois le modle hypothse postul, la dmarche conduisant la forme prdicteur thorique est la suivante : on suppose que le modle hypothse est une description parfaite du processus; on dfinit la sortie du processus comme une variable alatoire Yp(t), dont une ralisation est note yp(t) (de faon gnrale, nous noterons, dans ce mmoire, les variables alatoires par des majuscules, et les ralisations de ces variables alatoires par les minuscules correspondants). On peut alors exprimer la sortie du processus linstant t+d sous la forme : Yp(t+d) = E[Yp(t+d)| t] + n(t+d) o : . E[Yp(t+d)| t] est lesprance mathmatique conditionnelle de Yp(t+d), lorsque lon dispose de toutes les informations disponibles linstant t. . n(t+d) est la partie non prdictible de Yp(t+d) linstant t. En supposant que le modle hypothse est exact, la meilleure prdiction que lon puisse faire de Yp(t+d) linstant t est E[Yp(t+d)| t]. La sortie de la forme prdicteur thorique, que lon exprime laide de n y , nu, nw, et j(.), est une expression analytique gale chaque instant E[Yp(t+d)| t]. Lorsque la structure du modle et de sa forme prdicteur thorique (entres et ordre du modle, nombre de neurones et architecture dun modle neuronal, etc.) sont dfinies, il faut dterminer la fonction j(.), ou en trouver la meilleure approximation possible. Pour cela, on met en uvre un systme dapprentissage , 10

constitu dun prdicteur et dun algorithme dapprentissage. Ce prdicteur est u n systme dont la structure est identique celle de la forme prdicteur thorique, et qui ralise une fonction paramtre f(.;q). Les arguments de j(.) qui sont des variables alatoires sont remplacs dans lexpression de f(.;q) par leurs ralisations lorsque ces ralisations sont mesurables, et par des estimations lorsquelles ne sont pas mesurables. On dfinit alors une fonction de cot empirique partir des carts entre les sorties mesures du processus et les valeurs calcules par le prdicteur, qui est une estimation de la fonction de cot thorique. A laide de lalgorithme dapprentissage, on calcule la valeur de q qui minimise cette fonction de cot empirique. Si la structure du modle nest pas parfaitement dfinie, on considre alors u n ensemble de modles hypothses, qui sont des cas particuliers du modle hypothse dont la structure est fixe, et lon met en uvre, pour chacun dentre eux, un systme dapprentissage. Une procdure de slection est alors utilise pour choisir le meilleur de ces modles, au sens dun critre que lon doit dfinir. Nous reviendrons sur la mise en uvre des systmes dapprentissage et la slection de modles dans les chapitres II et III. Nous allons auparavent montrer, sur quelques exemples, comment dterminer la forme prdicteur thorique associe un modle hypothse particulier. Notons que lappellation de forme prdicteur (ou prdicteur) nimplique pas que le modle sera ensuite utilis pour faire de la prdiction, mais que, la procdure didentification reposant sur la minimisation dune fonction de cot construite partir de lerreur de prdiction, la mise en uvre du systme dapprentissage ncessite lutilisation dun systme de type prdicteur. Aprs la procdure de modlisation, le modle obtenu pourra tre utilis indiffremment pour construire un modle de prdiction o u un modle de simulation. I.2.3 Forme prdicteur thorique associe un modle hypothse Nous allons montrer, sur quelques exemples, le lien entre le modle hypothse et la forme prdicteur qui lui est associe. Nous ne considrons ici que des prdicteurs 1 pas (d=1). Dans le but dillustrer linfluence du mode daction du bruit sur le choix de la forme prdicteur, nous prsentons les formes prdicteurs thoriques associes un modle hypothse dterministe, u n modle NARMAX, et un modle NBSX (Non linaire Bruit additif sur la Sortie et entre eXogne).

11

I.2.3.1. Le modle hypothse est dterministe Le modle hypothse est de la forme : yp(t) = j(yp(t1), , yp(tny), u(t1), , u(tnu)) (I.1)

Le prdicteur calcule, chaque instant t1, la prdiction y(t) de la sortie yp(t) du processus. Le modle hypothse tant dterministe, la connaissance de j(.) et des valeurs passes de lentre et de la sortie permet de calculer exactement la valeur de yp(t+1). La forme prdicteur thorique doit donc effectivement calculer chaque instant y(t) = yp(t). Le prdicteur suivant : y(t) = j(yp(t1), , yp(tny), u(t1), ., u(tnu)) est tel que la prdiction y(t) calcule chaque instant est bien gale la sortie yp(t) du processus, et lerreur de prdiction est nulle. On a ainsi dfini la forme prdicteur thorique associ au modle dterministe (I.1). On remarque que cette expression correspond un prdicteur non boucl. Cependant, ce prdicteur est tel que, pour tout t, y(t) = yp(t); on peut aussi le mettre sous la forme : y(t) = j(y(t1), , y(tny), u(t1), ., u(tnu)) Ce dernier prdicteur (qui est boucl) ralise alors galement une prdiction parfaite sil est correctement initialis. Il existe donc, dans le cas dun modle dterministe, plusieurs reprsentations de la forme prdicteur thorique; par consquent plusieurs structures de prdicteur peuvent tre utilises pour construire le prdicteur du systme dapprentissage. Le choix de lune ou lautre de ces reprsentations est dict, dune part, par la complexit du systme dapprentissage mettre en uvre (lapprentissage dun prdicteur boucl ncessite des algorithmes dapprentissage plus complexes que celui dun prdicteur non boucl), dautre part, par lutilisation qui sera faite du modle obtenu la fin de la procdure de modlisation (si le modle doit tre utilis boucl, il peut tre prfrable de faire son apprentissage avec un prdicteur boucl). I.2.3.2. Le modle hypothse est NARMAX. Le modle hypothse est de la forme (I.2) : yp(t) = j(yp(t1), , yp(tny), u(t1), , u(tnu), w(t1), , w(tnw)) + w(t) La squence {w(t)}, ralisation de la squence {W(t)} de variables alatoires indpendantes desprance mathmatique nulle et de variance sw2 (bruit pseudo-blanc), est, par dfinition, imprdictible. La forme prdicteur thorique du modle NARMAX (I.2) est donc le prdicteur tel que yp(t) y(t) = w(t), soit : y(t) = j(yp(t1), , yp(tny), u(t1), , u(tnu), w(t1), , w(tnw)) 12

Cependant, un tel prdicteur est irralisable, puisque les valeurs [w(t1), , w(tnw)] ne sont pas mesurables. Il faut donc les estimer, et pour cela, on utilise les valeurs de lerreur de prdiction [e(t1), e(t2), , e(tnw)] comme estimations des valeurs passes du bruit. Lexpression du prdicteur devient alors : y(t) = j(yp(t1), , yp(tny), u(t1), u(tnu), e(t1), , e(tnw)) Ce prdicteur est la forme prdicteur thorique associe au modle NARMAX que lon considre. En effet, si lon suppose que les erreurs passes estiment parfaitement les valeurs passes du bruit, cest--dire que lon a, linstant t1, la relation [e(t1), e(t2), , e(tnw)] = [w(t1), w(t2), , w(tnw)], lerreur de prdiction e(t) linstant t est bien gale w(t), qui est la meilleure prdiction que lon puisse faire. De plus, on retrouve, linstant t, [e(t), e(t1), , e(tnw+1)] = [w(t), w(t1), , w(tnw+1)]. Cas particulier NARX Le modle hypothse et la forme prdicteur thorique respectivement : yp(t) = j(yp(t1), , yp(tny), u(t1), , u(tnu)) + w(t) y(t) = j(yp(t1), , yp(tny), u(t1), , u(tnu)) Les modles NARX conduisent donc des prdicteurs non boucls. I.2.3.3. Le modle hypothse est NBSX Le modle hypothse est : xp(t) = j(xp(t1), , xp(tny), u(t1), , u(tnu)) yp(t) = xp(t) + w(t) Le prdicteur associ scrit simplement : y(t) = j(y(t1), , y(tny), u(t1), , u(tnu)) En effet, si linstant t1, la relation [y(t1), , y(tny)] = [xp(t1), , xp(tny)] est vrifie, la prdiction linstant t est alors gale xp(t), et e(t) = yp(t) y(t) = w(t). On retrouve linstant t la relation [y(t), , y(tny+1)] = [xp(t), , xp(tny+1)]. A chaque instant, lerreur de prdiction est donc bien gale la valeur de la perturbation w(t). On constate, en comparant les formes prdicteurs obtenues pour les modles NARMAX, NARX et NBSX, linfluence de la modlisation des perturbations sur la dtermination de la forme prdicteur. Si le modle hypothse est exact, la forme prdicteur thorique fournit une variance de lerreur de prdiction minimale et gale la variance du bruit, et la variance de lerreur de prdiction 13 (I.3)

scrivent

obtenue avec un prdicteur diffrent est suprieure la variance du bruit [Ljung 87]. Ceci est illustr par Nerrand sur des exemples NARX et NBSX dans le cas ou les prdicteurs sont des prdicteurs neuronaux [Nerrand 92a].

I.3. Conception de modles NARMAX


La procdure de modlisation peut donc se dcomposer en quatre tapes : conception dun ensemble de modles hypothses candidats; dfinition des formes prdicteurs thoriques associes aux modles hypothses; pour chaque modle hypothse candidat : dfinition et apprentissage du modle prdictif, dfini par la forme prdicteur thorique, laide de squences dentres-sorties du processus (squences dapprentissage); slection du meilleur candidat. Dans le cas de modles NARMAX, nous venons de montrer que lon peut facilement dduire la structure du prdicteur thorique de lexpression du modle hypothse. Cependant, les valeurs de n y , nu et nw, ainsi que lexpression de j(.), sont gnralement inconnues. Lors de lidentification du processus, o n doit donc trouver de bonnes valeurs de ces caractristiques, et dterminer, dans une famille de fonctions f(.;q) que lon se donne (un rseau de neurones par exemple), la fonction qui approche au mieux j(.). Nous pouvons prsent dfinir prcisment le cadre dans lequel se place notre travail : nous nous intressons la conception de modles bote noire de processus dynamiques non linaires. Nos efforts porteront sur la conception du prdicteur et lestimation de ses paramtres. les connaissances a priori nous conduisent faire l'hypothse que le processus peut tre dcrit par un modle NARMAX. Lexpression et les arguments de la fonction j(.) dfinissant ce modle doivent tre dtermines. Les processus que nous tudierons tant non linaires, les modles neuronaux sont des candidats naturels [Nerrand 92a]; nous disposons de donnes exprimentales, et l'on supposera que l'on peut effectuer autant d'expriences que ncessaire pour mener bien la modlisation. Cette condition nest videmment pas toujours ralisable dans la ralit industrielle.

14

Chapitre II : Estimation des paramtres dun modle


Dans ce chapitre, nous considrons un modle hypothse de type NARMAX. Lensemble des arguments de j(.) est suppos connu, mais la fonction j(.) est inconnue. On dispose dune famille F de fonctions paramtres f(.;q), possdant les mmes arguments que la fonction j(.) du modle hypothse, et laquelle correspond une famille M de modles paramtrs. Lidentification consiste trouver le modle M( q *) du processus tel que la fonction f(.;q*) approche au mieux j(.) dans le domaine de fonctionnement dfini par lensemble dapprentissage. On note P le modle hypothtique dcrivant parfaitement le processus, qui nest pas ncessairement un lment de M. Si lon considre le vecteur yp des donnes exprimentales comme la ralisation dun vecteur alatoire Y p, toute estimation ^ q calcule partir de yp est une ralisation dun estimateur Q(Yp) de q * . On construit donc un estimateur Q(Yp) de q * , puis lon calcule une estimation ^ q laide de lensemble dapprentissage.

II.1 Position du problme


Pour calculer cette estimation, nous disposons, dune part, de lensemble dapprentissage constitu des squences de donnes {u(t)} et {yp(t)}, et, dautre part, dune famille paramtre de modles ayant une structure commune M( q). Pour obtenir la meilleure approximation de j(.), il faut choisir un critre pour comparer les diffrents modles. Nous devons ici distinguer deux notions diffrentes : le critre de performance et la fonction de cot, que nous avons mentionne dans le chapitre prcdent. Le critre de performance , qui peut tre quantitatif ou qualitatif, permet de juger de la qualit dun modle vis vis dun cahier des charges. Lexpression du critre de performance nintervient pas ncessairement de manire explicite dans la procdure didentification : il permet de juger a posteriori la performance dun modle, sur un ensemble de donnes gnralement diffrent de lensemble dapprentissage. La fonction de cot est une fonction scalaire, que lon utilise pour lestimation des paramtres. Elle dpend des paramtres q du modle et des donnes dapprentissage, et elle est choisie de telle manire quune faible valeur corresponde un bon modle. On la note J(q). Gnralement, J(q) sexprime partir de la squence des erreurs de prdiction {e(t;q)}, o e(t;q) = yp(t) y(t;q). Il faut donc dfinir un estimateur du vecteur des 15

paramtres du modle qui minimise la fonction de cot. Nous allons tout dabord prsenter lestimateur des moindres-carrs ordinaires, utilis pour les modles linaires par rapport aux paramtres. II.1.1 Lestimateur des moindres-carrs ordinaires Considrons le problme suivant : on cherche effectuer la modlisation dun processus, et lon dispose dun ensemble de donnes exprimentales constitu de deux squences de taille N, la squence des vecteurs dentres {x(n)} et la squence des sorties mesures du processus {yp(n)}. Les vecteurs dentres x(n) sont des vecteurs certains; si le processus est dynamique, leurs composantes sont par exemple des valeurs prsentes et passes de la commande u, et des valeurs passes des sorties; si le problme est statique, la valeur yp(n) est la sortie obtenue avec les entres x(n). Les tapes prcdentes de la modlisation nous ont conduit considrer le modle hypothse linaire par rapport aux paramtres q dfini par : Yp(n) =

qi xi(n)
i=1

+ W(n) = x T (n) q + W(n)

(II.1)

Le vecteur x(n) = [x1(n), , xM(n)]T est un vecteur certain, et {W(n)} est une squence pseudo-blanche (squence de variables alatoires indpendantes de moyenne nulle, de variance s2). La matrice x dont les colonnes sont les vecteurs de rgression xi = [xi(1), , xi(N)]T, (i=1, , M), correspondant aux rgresseurs x 1(n), , xM (n), est une matrice certaine, appele matrice de rgression. Lquation linaire ci-dessus peut alors scrire : Yp = x q + W soit encore :
Yp(1) = Yp(N) x (N)
T

(II.2)

x (1)T

q1 + qM

W (1) = W (N)

x1(1)

xM(1)

q1 + qM

W (1)

x 1(N)

xM(N)

W (N)

W(n) tant imprdictible, le meilleur modle que lon puisse construire est : y(n) = xT(n)q = E[Yp(n)| x(n)] (II.3)

On recherche la valeur q * qui minimise le vecteur des erreurs Yp x q . La mesure que lon choisit pour effectuer cette minimisation est proportionnelle au carr de sa norme euclidienne : 1 J(q) = N (Yp xq) T(Yp xq) 16 (II.4)

Soit y p une ralisation de Yp; on appelle estimation des moindres-carrs de q * la valeur ^ q de q qui minimise J(q ). Si f(.) est la fonction qui exprime ^ q en fonction du vecteur des observations y p , l'estimateur des moindres-carrs ordinaires est le vecteur alatoire Q = f(Y p), que l'on exprime aussi sous la forme suivante : 1 Q = arg min J(q) = arg min [N (Yp xq) T(Yp xq)] (II. 5)

Un raisonnement simple permet de rsoudre (II.5) : pour une ralisation yp de Y p, on cherche la valeur de q vrifiant : 1 gradq J(q) = gradq [N (yp xq) T(yp xq)] = 0 soit : 1 (2xTyp + 2xTxq) = 0 N On rsout donc lquation suivante, appele quation normale : [xTyp] = [xTx] q (II.7) (II.6)

Si la matrice [xTx] est inversible (ce qui est gnralement le cas pour N>>M), (II.7) conduit lestimation suivante : ^ q = [xTx]-1 [xTyp] (II.8)

Si le modle est exact (cest--dire si x q = E[Yp]), lestimateur des moindres-carrs (II.8) est non biais. Si le bruit W est gaussien, la matrice de covariance de Q est de norme minimale. Pour un modle dynamique ARX, le vecteur des entres X(t) = [Yp(t1), , Y p(tny), u(t1), , u(tnu)] nest plus un vecteur certain, mais lestimateur des moindres-carrs garde les mmes proprits [Goodwin 77]. Dans le cas de modles hypothses linaires ARMAX, les proprits de lestimateur des moindres-carrs ne sont plus dmontres. On utilise alors des mthodes plus gnrales, qui sappliquent aussi bien aux modles linaires ARMAX quaux modles non linaires NARMAX. Ces mthodes, que nous prsentons dans le paragraphe suivant, conduisent, dans le cas de modles hypothses ARX, la mme estimation des paramtres que la mthode des moindres-carrs prsente ci-dessus, et donc un estimateur non biais de matrice de covariance minimale.

17

II.1.2. Les Mthodes fondes sur lErreur de Prdiction (Mthodes EP) La squence des erreurs de prdiction {e(t;q)} peut tre interprte comme u n vecteur e(q) = [e(1;q), , e(N;q)]T de dimension N. Toute norme de R N est une mesure de ce vecteur, et peut tre utilise pour construire une fonction de cot. La fonction de cot que nous considrons dans ce travail est la norme quadratique de RN suivante : 1 N J(q) = N e2(t;q) (II.9)
t=1

Lestimation de q* est dfinie comme la valeur ^ q qui minimise la fonction de cot J(q) sur le domaine Dq des valeurs de q [Ljung 74]. On peut exprimer lestimateur EP sous la forme : Q = arg [qDq ] min { J(q) } (II.10)

On se ramne un problme doptimisation, qui peut tre rsolu laide dun grand nombre dalgorithmes. On peut remarquer quaucune hypothse sur le caractre linaire ou non linaire du modle nintervient dans la formulation de lapproche EP. Les algorithmes destimation correspondant la norme (II.9), que nous avons choisie, sont appels algorithmes de moindres-carrs . La programmation de ces algorithmes destimation et lanalyse de leur comportement sont simples. Une estimation de la variance de lerreur de prdiction dun modle dont les paramtres sont q est fournie par J(q). Dans le cas de modles linaires par rapport aux paramtres, lestimateur dfini par (II.10) nest autre que lestimateur des moindres-carrs ordinaires que nous avons prsent dans le paragraphe prcdent. Nous verrons au chapitre III que les mthodes fondes lerreur de prdiction stendent des modles plus gnraux. II.1.3. Les mthodes de corrlation Nous avons jusquici prsent le problme de la modlisation sous la forme suivante : le modle que lon recherche est le modle pour lequel les erreurs de prdiction sur un ensemble dapprentissage sont les plus faibles. Il existe une autre formulation du problme qui, quoiquassez proche, dbouche sur des mthodes destimation diffrentes. Elle suppose que lon ait pralablement dfini un ensemble de rgresseurs du modle (les arguments de j), et consiste extraire toutes les informations contenues dans lensemble dapprentissage, pouvant tre expliques laide de ces 18

rgresseurs. Une fois ces informations extraites, la squence des erreurs de prdiction doit tre dcorrle de tous les rgresseurs considrs. Considrons un modle linaire ARX dont les entres sont {yp(t1), , yp(t-ny), u(t1), , u(tnu)}, et un ensemble dapprentissage de dimension finie N. On cherche la valeur ^ q de q telle que :
t=1

x(t) e(t;^ q)=0

(II.11)

Si cette condition est vrifie, lestimation de la corrlation de lerreur avec chacun des rgresseurs sera donc nulle, et lon peut considrer que lon a extrait toute la connaissance pouvant tre explique laide des rgresseurs du modle. Reprenons lquation normale (II.7); on peut la mettre sous la forme : ^ xT(yp x q ) = 0 soit :

x(t) e(t;^ q) = 0
i=1

(II.12)

On retrouve bien lquation (II.11). Lorsque le modle est non linaire par rapport aux paramtres, les mthodes de corrlation sont plus complexes mettre en uvre. En effet, lerreur peut tre non corrle une entre, mais corrle un rgresseur qui est une fonction n o n linaire de cette entre. La mise en uvre des mthodes de corrlation ncessite la rsolution de toutes les quations de la forme :

i=1

f(x(t)) e(t)

=0

(II.13)

o f(.) est une transformation non linaire quelconque des entres. Il est donc ncessaire dannuler la corrlation de lerreur avec toutes les fonctions n o n linaires des entres, ce qui est impossible dans la pratique. La rsolution de toutes les quations de la forme (II.13) tant irralisable, les mthodes de corrlation semblent mal adaptes lestimation de paramtres de modles non linaires. Nous avons donc choisi les mthodes EP, plus faciles mettre en uvre avec des modles non linaires et dont les algorithmes classiques dapprentissage des rseaux de neurones sont des exemples [Nerrand 92].

19

II.2. Estimation des paramtres dun modle


Rappelons que nous disposons, pour mener bien la modlisation du processus, dun ensemble de donnes {u(t), y(t); t=1N}, lensemble dapprentissage, dun modle hypothse obtenu partir des connaissances a priori disponibles sur le processus, et dune forme prdicteur, associe ce modle hypothse. Ce prdicteur est une structure paramtre dont on cherche estimer les paramtres q partir de lensemble dapprentissage en utilisant un estimateur de la forme (II.10) : Q = arg [qDq ] min { J(q) } Pour calculer lestimation ^ q , nous avons besoin dun algorithme doptimisation. Revenons sur le problme simple de lestimation des paramtres dun modle linaire par rapport aux paramtres laide de la mthode des moindres-carrs. Lestimateur utilis est : Q = arg [qDq ] min { 1 T N (Yp xq) (Yp xq) } (II.14)

La sortie du modle tant linaire par rapport aux paramtres, nous obtenons une estimation de q : - soit par la rsolution de lquation normale xTyp = xTx q , qui mne lestimation ^ q = [xTx]-1[xTyp], laide dune mthode de dcomposition de la matrice [xTx] (dcomposition LU, Cholesky, ) [Press 92], - soit laide dune mthode fonde sur la dcomposition orthogonale de la matrice de rgression x (Householder, Gram-Schmidt, ) dont nous dcrivons le principe dans le paragraphe suivant [Press 92]. Si le modle hypothse est non linaire, ces mthodes ne peuvent plus tre utilises; on met alors en uvre des mthodes itratives de type gradient. De faon gnrale, le choix dun estimateur tant effectu, il reste encore choisir lalgorithme doptimisation qui permet le calcul de lestimation.

20

II.3. Algorithmes doptimisation


II.3.1 Les mthodes linaires de rsolution Il existe plusieurs familles de mthodes permettant de calculer lestimation des moindres-carrs ordinaires dans le cas dun modle linaire. Nous prsentons ici deux dentre elles : lestimation des moindres-carrs est obtenue par la rsolution de lquation normale : xTx q = xT yp par limination de Gauss, ou en formant la dcomposition de Cholesky de la matrice [xTx]. La matrice [xTx] tant symtrique dfinie positive, la mthode de Cholesky consiste la dcomposer sous la forme [xTx] = LTL, o L est une matrice triangulaire infrieure. Lquation normale mise sous cette forme se rsout alors ligne ligne. on forme une dcomposition orthogonale de la matrice de rgression x. En effet, considrons le modle hypothse suivant : Yp = x q + W = [x1, , xM] q + W (II.15)

Si le modle est exact, les vecteurs colonnes x1, , xM de la matrice de rgression x engendrent un sous-espace orthogonal au vecteur W. Il est possible de construire une base orthogonale b=[b1, , bM] engendrant le mme sous-espace que la base des vecteurs de rgression, vrifiant la relation x=bA, o A est une matrice triangulaire. Le vecteur Y p peut sexprimer comme la somme dun vecteur d = (b, 0) o b = (bTb)-1(bTYp) est le vecteur des coefficients de projection de Yp sur la base b, et dun vecteur g orthogonal ce sous-espace. Multiplions lquation (II.15) par (bTb)-1bT, on obtient : soit : (bTb)-1 bTYp = (bTb)-1 bTx q + (bTb)-1 bTW = (bTb)-1 bTx q b = Aq La matrice A tant triangulaire, on rsout (II.16) ligne ligne. Les mthodes dorthogonalisation sont numriquement plus lourdes que les mthodes de rsolution de lquation normale (elles ncessitent entre deux et quatre fois plus de calculs que la mthode de Cholesky). En contrepartie, elles sont dans certains cas plus robustes aux erreurs numriques que les mthodes de rsolution de lquation normale, en particulier lorsque la matrice de rgression est mal conditionne (cela survient notamment lorsque le nombre de rgresseurs du modle est exagr). 21 (II.16)

Dans le cadre de la procdure de slection de modles que nous proposons dans le chapitre IV, pour laquelle on est amen estimer les paramtres de modles parfois sur-dimensionns, nous utilisons une mthode fonde sur la mthode dorthogonalisation de Gram-Schmidt. II.3.2. Modles non linaires : les mthodes de gradient Si le modle prdictif est non linaire par rapport aux paramtres, les mthodes de rsolution prcdentes ne sont plus utilisables. On a alors recours des mthodes itratives de type gradient pour effectuer lestimation des paramtres des modles non linaires. Ces mthodes doptimisation sont coteuses en temps de calcul, mais restent simples mettre en uvre, et sappliquent toutes les fonctions f(.; q) drivables par rapport q . Ceci est e n particulier le cas lorsque f(.;q) est ralis par un rseau de neurones. II.3.2.1. Principe La solution de : 1 ^ q = arg [qDq ] min [N (yp y) T(yp y)] = arg [qDq ] min {J(q)} est un minimum de J(q ), et vrifie donc galement : ^ q = arg [qDq ] (grad J(q) = 0) Le Hessien de J(q) en ^ q est dfini positif. (II. 18) (II. 17)

Les mthodes rsolution non linaire consistent rechercher, de faon itrative, une solution numrique de (II.18). Il faut noter que lorsque J(q) possde plusieurs minima, rien ne garantit que le minimum obtenu soit un minimum global. On procde de la manire suivante : A litration 0 : q est initialis une valeur quelconque q0, avec laquelle on calcule le gradient grad J(q0), et, ventuellement, la fonction de cot J(q0). A litration k : i. || grad J(qk1) || e la procdure sarrte, la solution retenue de (II.18) est qk1. ii.

|| grad J(qk1) || > e


qk = qk1 + mk dk,

on calcule qk partir de qk1, J(qk1) et grad J(qk1) :

22

o : m k est le pas du gradient (scalaire positif ), dont la valeur peut tre constante ou optimise chaque itration, dk est une direction de descente, cest--dire un vecteur tel que : [grad J(qk1)]T dk < 0 Les mthodes de rsolution non linaire se diffrencient par le choix de la direction de descente dk et du pas m k . Dans les mthodes de type gradient, la direction de descente dk sexprime toujours partir de grad J(q). Dans le cas de modles neuronaux, le calcul du gradient utilise lalgorithme de rtropropagation [Rumelhart 86]. Pour plus de dtails sur les algorithmes dapprentissage des rseaux de neurones boucls ou non boucls, on se rfrera aux travaux de Nerrand [Nerrand 92a, b]. II.3.2.2. La mthode du gradient simple La mthode la plus simple mettre en uvre est la mthode du gradient simple. Le pas mk est une constante m, et la direction de descente est simplement loppos de celle du gradient. A litration k, la modification de q est : qk = qk1 m grad J(qk1) (II.19)

Cette mthode est trs utilise. Elle a pour avantages une grande facilit de mise en uvre et une grande robustesse. Le choix de m nest pas critique pour la convergence. La mthode est efficace loin dun minimum, mais la vitesse de convergence diminue lorsque lon sapproche du minimum (la modification de q est proportionnelle grad J(qk1), qui tend vers 0). II.3.2.3. La mthode de Newton Algorithme : qk = qk1 [H(qk1)]-1 grad J(qk1) (II.20)

o H(q) est la matrice des drives secondes de J(q) par rapport q (Hessien). Le pas est constant (m =1), et la direction de dplacement est : dk = [H(qk1)]-1 grad J(qk1) (II.21) Si J(q) est quadratique, lalgorithme converge en une itration. La mthode est donc efficace si q est proche dun minimum autour duquel J(q) est presque quadratique. Pour que la mthode converge vers le minimum, la matrice H(q) doit tre dfinie positive. La mthode de Newton est peu employe, car elle ncessite le calcul et linversion du Hessien chaque itration, et la dfinie-positivit du Hessien doit 23

tre satisfaite chaque itration. On lui prfre les mthodes conomiques dites de Quasi-Newton. II.3.2.4. Les mthodes Quasi-Newtoniennes Dans les mthodes quasi-newtoniennes, linverse du Hessien [DJ(qk1)]-1 est approxim par une matrice Mk dfinie positive, modifie chaque itration. La suite des matrices {Mk} est construite de manire converger vers linverse du Hessien lorsque la fonction J(q) est quadratique, approximation qui peut tre lgitimement faite lorsque lon sapproche du minimum. La modification des paramtres chaque itration est : qk = qk1 mk1 Mk1 grad J(qk1) o mk1 est le pas de dplacement qui minimise la fonction : g(m) = J(qk1 + m dk1). La direction de dplacement est dk = Mk1 grad J(qk-1). En pratique, on a intrt commencer par des itrations de lalgorithme du gradient simple, qui est efficace loin du minimum. M 0 est ensuite initialise la matrice identit, puis lon commute sur une mthode quasi-newtonnienne. Parmi les mthodes quasi-newtoniennes proposes dans la littrature [Minoux 83], nous avons choisi dutiliser la mthode BFGS, dveloppe indpendamment par Broyden [Broyden 70], Fletcher [Fletcher 70], Goldfarb [Goldfrab 70] et Shanno [Shanno 69], dont la vitesse de convergence est beaucoup plus grande que celle de la mthode du gradient. II.3.2.5. Optimisation du pas La vitesse de convergence de ces mthodes peut tre amliore en asservissant le pas m. Les mthodes les plus efficaces sont les mthodes de dichotomie (la mthode de Fibonacci, par exemple), mais elles ncessitent gnralement beaucoup de calculs. Des mthodes plus conomiques ont t proposes, e n particulier la mthode de Nash [Nash 90], et la mthode de Wolfe et Powell [Wolfe 69], [Powell 76]. Ces mthodes unidimensionnelles permettent dobtenir un pas convenable avec un nombre limit dvaluations de la fonction de cot et du gradient de J(q). (II.22)

24

Chapitre III. La slection de modles


III.1. Introduction
Lorsqu'un modle hypothse du processus a t choisi, et que la forme prdicteur associe est dtermine, la modlisation consiste choisir, au sein dune famille de fonctions paramtres (un rseau de neurones par exemple), une fonction f(.;q) ralisant une bonne approximation de la fonction j(.) de la forme prdicteur, dans un domaine de fonctionnement born dfini par lensemble dapprentissage. Lorsque, comme nous lavons suppos dans le chapitre prcdent, les caractristiques du modle (les entres, cest--dire les arguments de f(.;q), et la famille de fonctions) ont t pralablement fixes, le choix de la fonction f(.;q) se rduit lestimation des paramtres q la dfinissant. En ralit, les connaissances a priori sont souvent incompltes et conduisent dfinir un ensemble de modles concurrents. Chacun de ces modles correspond des hypothses particulires faites sur le processus, et la modlisation consiste alors choisir, partir de mesures faites sur le processus, un modle appartenant cet ensemble. On peut classer les diffrentes caractristiques dfinissant le modle, que lon doit fixer ou estimer lors de la procdure de modlisation, e n trois niveaux : le type du modle, cest--dire les caractristiques trs gnrales, qui dpendent du processus auquel on sintresse (modle linaire ou non linaire, statique ou dynamique, ), ainsi que lapproche choisie pour effectuer la modlisation (reprsentations dtat ou entre-sortie, ); la structure du modle, dfinie par larchitecture de la famille M de modles, et par lensemble des variables (entres, variables dtat, sorties, ) ncessaires pour exprimer la famille F de fonctions paramtres f(.;q) correspondante; les valeurs des paramtres q du modle. Dans la pratique, le choix du type du modle dcoule gnralement dune tude pralable du processus qui permet, par exemple, didentifier la nature, linaire ou non linaire, statique ou dynamique, des phnomnes mis en jeu dans le processus : informations provenant de modlisations antrieures de processus de nature proche, tude rapide de la structure physique du processus, analyse des rponses du processus des commandes particulires, telles que des sinus ou des chelons, Le choix du type de modle est donc spcifique de chaque processus que lon cherche modliser. Notre travail suppose quune tude pralable a conduit choisir un modle entre-sortie bote noire, et nous considrons les modles hypothses 25

NARMAX. Dans cette hypothse, la slection dune structure consiste donc dterminer les arguments de j(.) et larchitecture de la famille de modles correspondant la famille de fonctions f(.;q). Lors dune telle dmarche, la dtermination de la structure du modle et lestimation de ses paramtres se font conjointement. En effet, la slection entre plusieurs structures consiste comparer les modles obtenus aprs estimation des paramtres de chacune des structures. La procdure destimation se fait donc pendant la slection, pour chacune des structures de modle candidates. Dans le cadre de l'identification de processus l'aide de modles linaires, il existe des mthodes statistiques conduisant la slection du meilleur modle d'un ensemble donn, c'est--dire la dtermination des paramtres ny, nu et nw, qui dfinissent alors compltement la structure du modle, puisque l'architecture est linaire. Dans le cas de modles dynamiques non linaires, les approches existantes sont moins nombreuses et moins performantes. Elles peuvent tre classes en trois ensembles : les mthodes fondes sur lutilisation de tests statistiques, qui sont le plus souvent des transpositions de mthodes linaires au cas non linaire, les mthodes fondes sur une approche bayesienne de lestimation des paramtres dun modle, qui conduisent aux mthodes de weight decay qui peuvent tre interprtes comme des mthodes de slections de modles [MacKay 1992a,b], [Williams 95]. les mthodes heuristiques, qui drivent souvent des mthodes classiques, et qui, si elles ne reposent pas toujours sur des bases thoriques solides, peuvent nanmoins savrer performantes en pratique [Le Cun 90], [Reed 93], [Moody 94]. Nous nous sommes intresss plus particulirement aux mthodes statistiques, et nous allons prsenter dans ce chapitre les principales mthodes de slection de modles linaires et non linaires. On distingue deux classes : les mthodes utilisant des tests dhypothses, qui permettent de comparer les structures de modles deux deux laide dun test statistique. les mthodes de slections multiples, qui consistent slectionner, parmi u n ensemble quelconque de structures, celle qui satisfait le mieux un critre. Nous prsentons tout dabord lEstimateur du Maximum de Vraisemblance (EMV), et le Test du Rapport de Vraisemblance (TRV). En effet, les mthodes de slection fondes sur les tests dhypothse utilisent les proprits asymptotiques de lestimateur du maximum de vraisemblance.

26

III.2. Lestimateur du maximum de vraisemblance (EMV)


III.2.1. Lestimateur du maximum de vraisemblance La mthode du maximum de vraisemblance est une mthode de conception destimateurs dont le principe a t nonc par Fisher [Fisher 1912, 1921]. On dispose dun ensemble de N donnes, dfinissant le vecteur yp, qui sont des ralisations dautant de variables alatoires. Considrons le vecteur alatoire Yp, dont la ralisation est yp, et dont la fonction densit de probabilit est un membre p (x; qo) dune famille paramtre de fonctions densit de probabilit p (x; q) .
Yp Yp

On appelle fonction de vraisemblance la fonction L(q ; yp) = p (x=yp; q) . L(q; Yp Yp) est alors une variable alatoire. Pour une ralisation yp de Yp, lestimation du maximum de vraisemblance de la valeur inconnue qo est la valeur ^ q qui ^ maximise p (x=yp; q) . Soit fMV(yp) la fonction qui exprime q en fonction de yp; Yp l'estimateur du maximum de vraisemblance de q o est la variable alatoire : Q = fMV(Yp). (III.1) III.2.2. Proprits de lEMV dans le cas de processus linaires Lestimateur du maximum de vraisemblance a t appliqu la modlisation de processus dynamiques linaires par des modles ARMAX par strm et Bohlin [strm 65]. Leurs travaux reposent en particulier sur lhypothse quil existe, dans la famille paramtre de modles M, un modle qui dcrit exactement le processus. Si l'on note P le modle hypothtique dcrivant le processus, on a donc PM. On note qo la valeur inconnue correspondant ce modle exact (soit P=M(qo), ou j(.) = f(.;qo)). strm et Bohlin ont montr que, dans ce cas, lestimateur du maximum de vraisemblance est consistant (cest dire que, lorsque N tend vers +, il converge presque srement vers la valeur exacte qo); il est de plus asymptotiquement gaussien (i.e. la distribution de lestimateur converge vers une distribution gaussienne), et asymptotiquement efficace (i.e. la matrice de covariance de lestimateur converge vers la borne de Cramer-Rao, qui est la borne infrieure de la matrice de covariance dun estimateur non biais). Dautre structures dynamiques linaires particulires ont t tudies, pour lesquelles les proprits de lestimateur du maximum de vraisemblance ont t tablies [Balakrishnan 68], [Caines 74]. Ces rsultats, bien que trs importants, ne sont relatifs qu des systmes et des modles linaires. Dautre part, les dmonstrations des proprits asymptotiques reposent sur lhypothse que le processus est exactement dcrit par lun des modles. Nous allons maintenant prsenter un formalisme sinscrivant dans u n cadre plus gnral permettant de construire des estimateurs dont les proprits 27

asymptotiques sont, dans de nombreux cas, asymptotiquements quivalents lestimateur du maximum de vraisemblance. Les modles neuronaux, qui sont des approximateurs universels, sont bien adapts cette approche. III.2.3. Formulation laide de lapproche EP Lestimateur du maximum de vraisemblance est un concept puissant. Il nest cependant pas toujours facile mettre en uvre, car il utilise la fonction densit de probabilit des mesures (cest une approche paramtrique), que lon connat rarement. De plus, de nombreuses proprits de cet estimateur ont t dmontres dans le cas o lon considre un ensemble de variables alatoires indpendantes, dans le cas dun processus linaire statique [Cramer 46], [Wald 49], ou pour des processus dynamiques pouvant tre dcrits parfaitement par u n modle analytique [strm 65]. Lapproche des Mthodes fondes sur lErreur de Prdiction (Prediction Error Identification Methods) [Ljung 74], [Ljung 76a, b] conduit des estimateurs simples mettre en uvre pour une large gamme de modles, et ne ncessitent pas la connaissance de la fonction densit de probabilit des mesures (cest une approche non paramtrique). On montre que, dans le cas de processus linaires gaussiens, statiques o u dynamiques, ces estimateurs sont strictement quivalents lestimateur du maximum de vraisemblance, et possdent par consquent les mmes proprits asymptotiques que celui-ci (consistant, asymptotiquement gaussien, asymptotiquement efficace) [Goodwin 77]. Supposons que le comportement dynamique du processus est exactement dcrit par le modle hypothse NARX suivant : yp(t) = j(yp(t1), , yp(tny), u(t1), , u(tnu)) + w(t) (III.2)

28

o {w(t)} est une ralisation dune squence de variables alatoires indpendantes identiquement distribues (v.a.i.i.d) {W(t)}, desprance mathmatique nulle et de densit de probabilit pW(t)(x) . Supposons que les variables {yp(t1), , yp(tny), u(t1), , u(tnu)}, qui sont ventuellement des ralisations de variables alatoires, sont connues linstant t1. La variable alatoire Yp(t) | yp(t1), , yp(1), que nous noterons ici Yp(t)| t1, est une fonction de W(t); la relation liant ces deux variables alatoire est : Yp(t)| t1 = j(yp(t1), , yp(tny), u(t1), , u(tnu)) + W(t) et l'on a : E[Yp(t)| t1] = j(yp(t1), , yp(tny), u(t1), , u(tnu)) (III.4) Nous pouvons exprimer la fonction densit de probabilit de la variable alatoire Yp(t)| t1 partir de celle de W(t) : pY
p(t)|t-1

(III.3)

(x) = pW(t)(x E[Yp(t)|t1])

(III.5)

Rappelons la dfinition de la densit de probabilit conjointe de deux variables alatoires : P , (x1, x2) = P (x ) PY (x2) Y1 Y2 Y1|Y2 1 2 On peut donc exprimer la densit de probabilit conjointe de l'chantillon Yp sous la forme : p (xN) = p Y Y
p p(N)|ypN1

(x) pY

pN1

(xN1) = pY

p(N)|N1

(x) pY

pN1

(xN1)

(III.6)

o Ypt = [Yp(t), , Yp(1)], ypt = [yp(t), , yp(1)], et xt est un vecteur de dimension t. Remarquons que Yp = YpN. En dcomposant de la mme faon la densit de probalilit conjointe de YpN1, puis de YpN2, , on peut finalement exprimer (III.6) sous la forme : pY
p

(xN)

= pY

pN

(xN)

= pY
t=1

p(t)|t-1

(xt)

(III.7)

Lorsque la fonction densit de probabilit de W(t) est une loi gaussienne, donne par : 1 x2 pW(t)(x) = exp ( 2 ) , (III.8) 2s 2p s les fonctions densit de probabilit de Yp(t)|t1 et Yp ont alors pour expressions : 1 1 (x E[Yp(t) | t1])2 pY (t)|t-1(x) = exp ( 2 ) (III.9.a) p s2 2p s pY (xN) =
p

t=1

1 (xt E[Yp(t) | t1])2 exp ( 2 ) s2 2p s 1 29

(III.9.b)

Lors de lnonc du principe du maximum de vraisemblance, nous avons fait lhypothse que la densit de probabilit tait un membre dune famille paramtre de fonctions densits. Nous allons donc supposer quil existe une famille de fonctions paramtres f(.;q) et une valeur qo telles que : E[Yp(t) | t1] = f(yp(t1), , yp(tny), u(t1), , u(tnu); qo) La densit de probabilit de la variable alatoire Yp(t)|t1 scrit maintenant : pY avec : y(t;q) = f(yp(t1), , yp(tny), u(t1), , u(tnu); q) Notons e(t;q) = yp(t)y(t;q), lerreur de prdiction obtenue avec une valeur q quelconque. Considrons dautre part s comme un paramtre inconnu. La fonction de vraisemblance relative aux paramtres (q, s) est : L(q, s; yp) = p (x=yp; q, s) =
Yp
p(t)|t-1

(x;qo, s) =

1 2p s

exp (

1 (x y(t;qo))2 ) 2 s2

(III.10)

t=1

1 e(t;q)2 exp ( 2 ) s2 2p s 1

(III.11)

On considre alors la quantit : N N 1 N e(t;q)2 2 L*(q, s; yp) = ln L(q, s; yp) = 2 ln(2p) 2 ln(s ) 2 s2
t=1

(III.12) de

Pour une valeur fixe q des paramtres, lestimation vraisemblance ^ s 2 de s2 est donn par : 1 N ^ 2 s = N e(t;q)2
t=1

du maximum

(III.13)

En remplaant s2 par son estimation (III.13), la relation (III.12) scrit au point (q, ^ s 2) : N N 1 N ^ 2 L*(q, s ; yp) @ 2 (ln(2p)+1) 2 ln (N e(t;q)2)
t=1

(III.14)

La maximisation de L*(q ; yp) par rapport q est donc quivalente la minimisation de N ln(J(q)), o J(q) est la fonction de cot quadratique classique : 2 N 1 J(q) = N e(t;q)2 (III.15)
t=1

On retrouve lexpression du cot minimise avec la mthode des moindrescarrs ordinaires, qui est un estimateur EP particulier. Lorsque le processus est 30

parfaitement dcrit par lun des modles de la famille M( q) (P=M(qo)), cet estimateur est consistant, asymptotiquement gaussien et asymptotiquement efficace. Ljung montre que ces rsultats restent valables pour tous les modles pouvant tre dcrits par une relation du type : Yp(t) = f(ypt1, ut1 ; q) + V(t) (III.16)

o ypt1 = {yp(t1), , yp()}, ut1 = {u(t1), , u()}, et {V(t)} est une squence de v.a.i.i.d. dont la distribution nest pas ncessairement gaussienne. Il semble donc tout fait lgitime dutiliser lapproche EP pour effectuer lestimation des modles NARMAX. Lorsque PM, on recherche la meilleure approximation du processus dans M, c'est--dire telle que la valeur de E[J(q; Yp)] soit minimale. On cherche donc la * de q telle que : valeur q N * ; Yp)] = min { E[J(q; Yp)] } E[J(qN (III.17)

* ) est la meilleure approximation de j(.) (ou de f(.), si lon La fonction f(.;qN choisit la formulation (III.16)) que lon puisse construire partir dun ensemble dapprentissage de taille N, au sens du cot thorique E[J(q;Yp)]. On note q * la * lorsque N tend vers linfini. Il a t montr, sous des valeur limite de q N conditions gnrales portant sur lensemble dapprentissage, la famille de modles considres, et la fonction de cot choisie [Ljung 78], [Ljung 79], quun estimateur EP de q * est consistant et asymptotiquement gaussien. De plus, sil existe une valeur qo telle que la squence {e(t;qo)} des erreurs de prdiction obtenue avec M(qo) soit une squence de variables indpendantes, alors q* = qo. Dans le cas densembles dapprentissage de grande taille, pour des modles NARX, avec la fonction de cot classique des moindres carrs (III.15), lutilisation dune approche EP est parfaitement justifie. De la mme manire, les estimateurs EP seront utiliss pour des modles NARMAX. Lorsque lon dispose dun ensemble dapprentissage de taille rduite, et quaucune information particulire sur la distribution des donnes nest disponible, nous utilisons encore la fonction de cot J(q) et lestimateur EP correspondant, bien quaucune proprit de lestimateur ne soit dmontre dans ce cas.

31

III.3. Les tests dhypothses statistiques


Les tests dhypothses peuvent sappliquer pour rsoudre de nombreux de problmes dans lesquels il est ncessaire de prendre une dcision. Nous les prsentons ici dans le cadre particulier de la slection d'un modle parmi plusieurs. Pour faciliter la lecture, nous appellerons dans ce chapitre modle aussi bien une structure qui dfinit une famille de modles paramtrs qu'un modle correspondant une valeur particulire de q. III.3.1. Principe des tests dhypothses On dsire modliser un processus, et lon dispose pour cela d'un ensemble dapprentissage constitu dune squence de taille N dentre-sortie {u(t), yp(t)} de ce processus. On dispose dun modle M A du processus, paramtr par le vecteur de paramtres qA, tel que qA = [ aT bT ]T, et lon fait l'hypothse, non remise en cause par la suite, qu'il existe un vecteur qAo = [ aoT boT ]T tel que P=MA(qAo). M A est appel le modle complet, et lon note dA la dimension de qA , da la dimension de a, et s = (dA da) la dimension de b. Considrons maintenant un deuxime modle not M0, paramtr par le vecteur de paramtre q0 = [ aT b*T ]T, o b* est un vecteur impos, par exemple b*=0 (le modle M0 = M(q0) est alors un sous-modle du modle MA). On dsire savoir si le modle restreint M 0 est suffisant pour reprsenter correctement le processus, c'est--dire si bo = b*. On dfinit donc l'hypothse suivante, que lon appelle hypothse nulle : [ H0 : bo = b* ] On dfinit galement lhypothse alternative : [ HA : bo b* ] Afin de savoir si le modle M 0 est suffisant relativement lensemble dapprentissage, on teste lhypothse nulle : pour cela, on construit une variable alatoire qui suit une loi de distribution connue si lhypothse nulle est exacte; on divise lensemble des valeurs possibles que peut prendre la variable alatoire e n deux sous-ensembles, de telle sorte que, si l'hypothse nulle est exacte, la probabilit quune ralisation de cette variable alatoire appartienne au premier sous-ensemble soit beaucoup plus grande que la probabilit quelle appartienne au second; on calcule la valeur de sa ralisation obtenue avec lensemble dapprentissage dont on dispose; si cette ralisation nappartient pas au sous ensemble correspondant la probabilit la plus grande, on rejette lhypothse nulle, sinon, on laccepte. 32

Par exemple, on se donne un couple de valeurs (a1, a2), et l'on rejette lhypothse H0 si la valeur de la variable alatoire nappartient pas [a1, a2]. Deux types derreurs peuvent survenir : [1] on rejette lhypothse nulle alors quelle est vraie [2] on accepte lhypothse nulle alors quelle est fausse On appelle risque de premire espce la probabilit r=p (i) pour que la ralisation dune variable alatoire suivant la loi de probabilit que lon considre nappartienne pas [a1, a2] (erreur de type [1]), et le niveau de confiance la probabilit complmentaire (1p (i)). Le choix du couple de valeurs (a1, a2) fixe donc le risque r, et lorsque l'on dsire effectuer un test, on choisit donc deux valeurs (a 1, a 2) telles que l'on obtienne un risque r. III.3.2. Le Test du Rapport de Vraisemblance (TRV) On dispose de deux modles M A et M0, et lon veut construire un test permettant de dcider si le modle restreint M0 est suffisant pour dcrire le processus, tant donn lensemble dapprentissage dont on dispose. Pour construire le test du rapport de vraisemblance, on considre le rapport : l(yp) = p (x=yp;qA)
Yp

p (x=yp;q0)
Yp

L(qA;yp) L(q0;yp)

(III.18)

appel rapport de vraisemblance, o q 0 = q0(yp) est lestimation du maximum de vraisemblance des paramtres du modle restreint (hypothse nulle), et qA = qA(yp) lestimation du maximum de vraisemblance des paramtres du modle complet (hypothse alternative). Lorsque lhypothse nulle est vraie, ce rapport est proche de 1; dans le cas contraire, la valeur de l(yp) est gnralement grande. Si lon remplace la valeur yp par la variable alatoire Yp, la fonction alatoire l(Yp) est une statistique telle que, sous lhypothse nulle, la variable alatoire : d(Yp) = 2 ln l(Yp) = 2 ln ( L(QA;Yp) L(Q0;Yp) ) = 2L*(QA;Yp) 2L*(Q0;Yp) (III.19)

converge en loi vers une variable alatoire de Pearson (c2) s degrs de libert [Goodwin 77] lorsque N tend vers linfini. Cette proprit permet de construire le test du rapport de vraisemblance.

33

III.3.3. Test du Rapport de Vraisemblance et estimateurs EP : le test LDRT Comme pour lestimateur du maximum de vraisemblance, la mise en uvre du test du rapport de vraisemblance ncessite la connaissance de la fonction de vraisemblance, dont on ne dispose gnralement pas. Cependant, nous avons v u que dans le cas dun ensemble dapprentissage de grande taille, lestimation du maximum de vraisemblance pouvait tre obtenue, sans connatre lexpression de la fonction de vraisemblance, en utilisant un estimateur EP. En effet, lorsque N tend vers +, la maximisation de ln(L(q;Y p)) est asymptotiquement quivalente la minimisation de la fonction de cot N ln J(q), o J(q) est lerreur quadratique 2 moyenne. Les expressions de l(Yp) et de d(Yp) peuvent tre rcrites en tenant compte de ces quivalences, et la relation (III.19) devient alors : d(Yp) = 2 ln l(Yp) = N ln J(Q0) N ln J(QA) = N ln J(Q0) J(QA) (III.20)

o Q0 et QA sont les estimateurs correspondants respectivement lhypothse nulle et lhypothse alternative. La variable alatoire d(Yp) converge en loi vers une variable alatoire de Pearson (c2) s degrs de libert. Le test ainsi dfini est connu, dans le cas plus gnral o la sortie yp(t) est vectorielle, sous le nom de Logarithm Determinant Ratio Test, ou LDRT [Leontaritis 87]. III.3.4. Le test de Fisher Le test de Fisher est un test classique dans le cas gaussien pour les modles linaires par rapport aux paramtres, fond sur le rsultat suivant : Soient Yp = [Yp(1), , Yp(N)]T un vecteur alatoire gaussien de R N , desprance mathmatique m = [m(1), , m(N)]T et de variance s2I, YA sa projection orthogonale sur HA (sous-espace vectoriel de R N de dimension dA), et Y0 sa projection sur H0 (sous-espace de HA de dimension d0 < dA), on a les proprits suivantes : les vecteurs YA et YpYA sont indpendants, si m est un vecteur de HA , la variable alatoire : s2 suit une loi de Pearson (c2) (NdA) degrs de libert si m est un vecteur de H0, la variable alatoire : X=

||YpYA||2

||Y A Y 0||2/(d A d0) ||YAY0||2 N dA = ( ) ||Y pY A ||2/(N dA ) ||YpYA||2 dA d0 suit une loi de Fisher (dA d0 , N dA) degr de libert
T= 34

Dans le contexte de la slection de modle l'aide de tests dhypothses, Yp peut tre interprt comme le vecteur des donnes dapprentissage, YA le vecteur des prdictions obtenues avec un modle linaire M A, et Y0 le vecteur des prdictions obtenues avec un sous modle M0 de MA. Si lhypothse nulle est vraie, la variable T suit une loi de Fisher (dA-do, N dA) degrs de libert. Le test de Fisher est le test dhypothse le plus utilis dans le cas de modles linaires par rapport aux paramtres. On peut montrer que les tests TRV, LDRT et le test de Fisher sont asymptotiquement quivalents [Sderstrm 77]. III.3.5. Slection dun modle dans un ensemble On considre un ensemble de modles Em, et l'on dsire slectionner u n modle de cet ensemble, l'aide de tests d'hypothses. On suppose que l'on sait construire un modle Mc dont tous les modles de notre ensemble sont des sousmodles, et qui est suffisamment complexe pour approcher le processus de faon satisfaisante. Le modle Mc est appel modle complet. Tous les modles peuvent ainsi tre compars au modle complet l'aide d'un test. Il faut alors dfinir une procdure qui permet, partir du rsultat de tous les tests, de slectionner lun de ces modles. En pratique, on procde gnralement de la manire suivante : partir des connaissances a priori sur le processus, on construit le modle complet Mc. Lensemble des modles sur lequel va s'effectuer la slection est alors lensemble (ou un sous ensemble) de tous les sous-modles de Mc. Toutes les comparaisons modle complet/sous-modle sont effectues. S i aucun sous-modle nest accept, le modle slectionn est donc Mc. Lorsque plusieurs sous-modles sont accepts, qui ne peuvent tre compars entre eux (aucunes relations dinclusion ne peuvent tre tablies entre les diffrents modles), on choisit le moins complexe. Lorsque plusieurs modles de mme taille sont accepts, on ne peut pas les comparer laide de tests. On utilise gnralement pour choisir lun dentre eux un critre particulier, par exemple la valeur de la fonction de cot calcule sur un ensemble de donnes particulires (ensemble dapprentissage ou ensemble de donnes nouvelles). Cette mthode est simple mettre en uvre, mais elle est coteuse en nombre destimations de paramtres et de tests effectuer lorsque lensemble des modles est de grande taille. Nous prsenterons dans le paragraphe III.5. des moyens de rduire ce nombre de faon significative. Dautre part, il faut noter que lutilisation de tests dhypothses pour la slection peut thoriquement conduire des rsultats contradictoires: soient M1, 35

M 2 et M 3 trois modles tels que M 3 est un sous-modle de M2, qui est un sousmodle de M 1. Il nexiste aucune garantie que les rsultats des tests (M2 compar M 1) et (M3 compar M2) soient cohrents avec le rsultat du test (M3 compar M 1). Nous reviendrons sur ce point au paragraphe III.4.2.2.

III.4. Les mthodes de slections multiples


Une approche diffrente de la slection de modle a t dveloppe, e n particulier par Akaike, partir du principe suivant : on dfinit une fonction de cot qui tient compte la fois de la performance dun modle sur les donnes dapprentissage, et de la complexit de la structure du modle. Le modle slectionn est celui qui minimise cette fonction de cot. Cette fonction pouvant tre calcule pour chacun des modles indpendamment des autres, une slection peut tre effectue sur un ensemble quelconque de modles. Nous nous intressons plus particulirement aux mthodes dveloppes par Akaike, dont nous prsentons succinctement le principe [Akaike 69], [Akaike 74a,b]. III.4.1. Principe des mthodes dAkaike Dans les chapitres prcdents, nous avons prsent lestimation des paramtres dun modle comme un problme doptimisation. Pour cela, nous avons dfini la fonction de cot thorique, et une estimation de cette dernire, la fonction de cot empirique. Le problme de la slection dun modle peut tre formul de faon similaire. Considrons un ensemble Em de modles, dont chaque lment est caractris par une structure Mk=M(qk) (lensemble des rgresseurs, son architecture, ), et par le vecteur q k des paramtres. Comme pour lestimation des paramtres, on dfinit une fonction de cot I(M k , q k) qui mesure la performance de chacun des modles, mais prend galement en considration leur structure en pnalisant les modles les plus complexes. La slection dun modle consiste donc dterminer le couple (Mk, ^ q k) tel que : (Mk, ^ q k) = arg [Em ] arg [qk] min { I(Mk, qk) } (III.22)

36

k k Soient QN(Yp) lestimateur des paramtres q

du modle M k, et JN(qk)
k QN (Yp)

la . On

fonction de cot utilise pour construire lestimateur des paramtres choisit comme mesure du modle Mk la quantit :
D k I(Mk, qk) = J (^ q *)

(III.23)
k k ^ q * = Nlim E[ Q (Yp) ] N >

avec : k J (q ) = lim E[ JN(qk)], N>

Cette valeur thorique ne peut tre calcule, mais une bonne estimation est fournie par [Ljung 87] : 1 ^k k ^ ^k I (Mk, qk) @ JN( q N ) + N trace[ J ( q * ) Pq ] o : ^k k J ( q * ) est la matrice des drives secondes de J (qk) au point q = ^ q* Pq est la matrice de covariance asymptotique de
k

(III.24)

N(Q N Q*) .

III.4.2. Le critre dinformation dAkaike (AIC) III.4.2.1. Dfinition Choisissons comme fonction de cot : 1 1 JN (qk) = N ln( L(qk; Yp) ) = N L*(qk; Yp)

(III.25)

o L(qk;Yp) est la fonction de vraisemblance des paramtres qk pour un ensemble dapprentissage Yp de taille N. Si lon suppose, dune part, que le processus k correspond la valeur qo= ^ q * , dautre part que J (qo) est inversible, on montre [Ljung 87] que : k k Pq = J (^ q * )-1 = J (qo)-1 En utilisant (III.24), on obtient alors le critre dinformation dAkaike (Akaike Information Criterion ou AIC) : dim(qk) 1 dim(qk) k ^k ^ = L*( q ) + AIC(Mk, qk) = JN( q N ) + N N N N (III.26) Nous avons montr dans le paragraphe III.2.3. que, pour un modle NARX, et lorsque le bruit {W(t)} est gaussien de variance inconnue s2, la fonction L*(q k , s; Yp) scrit : L*(qk, 1 N e(t;qk)2 N N s) = 2 2 ln(s 2) 2 ln(2p) 2 s
t=1

37

En remplaant s2 par son estimation donne par (III.13), et en supprimant dans lexpression obtenue les termes indpendants de q k (puisquils ont la mme valeur pour tous les modles), on obtient :
k AIC(Mk, qk) = N ln [ e(t;^ q N )2] + 2 dim(qk)

(III.27)

t=1

III.4.2.2. Lien avec la slection laide de tests dhypothse Nous allons ici montrer que la slection laide du critre dinformation dAkaike peut tre interprte comme une mthode particulire de slection laide de tests dhypothse. Soient Yp un ensemble de donnes dapprentissage, M0, M1, et M2 trois modles de dimensions respectives do, d1 = d01 et d2 = d02. M 0 est un modle complet, M 1 un modle restreint de M0, et M 2 un modle restreint de M1. On veut slectionner lun de ces trois modles laide du test dfini partir de (III.19). On considre les modles M0 et M1. Pour une ralisation yp de Yp, on compare la ralisation de (III.19) : 2 ln(l(yp)) = 2 ln L(^ q 0; yp) 2 ln(L(^ q 1; yp)) = 2L*(^ q 0) 2L*(^ q 1) (III.28) une valeur critique k(1), correspondant au risque r(1) que lon sest fix. Lorsque : 2[L*(^ q 0)L*(^ q 1)] < k(1), (III.29) on ne peut rejeter lhypothse nulle partir des donnes d'apprentissage dont o n dispose (par abus de langage, on dira quon accepte le modle M1). On compare maintenant de la mme manire M2 M1, et M2 est galement accept (2[L*(^ q 1) ^ L*( q )] < k(1)).
2

Enfin, on compare M 2 directement M 0, et lon note k(2) la valeur critique pour un risque r(2) et s=2 degrs de libert. Si les deux premiers tests ont conduit ne pas rejeter, dune part, M1 par rapport M0, dautre part, M 2 par rapport M 1, on veut que, lorsque lon compare M2 directement M0, le test ne rejette pas M 2. Pour cela, on choisit k(2) tel que k(2)k(1)+k(1), do : 2 (L*(^ q 0)L*(^ q 2)) = 2 [L*(^ q 0)L*(^ q 1 ) + L* ( ^ q 1)L*(^ q 2)] < k(1) + k(1) k(2) De faon analogue, si les deux premiers conduisent rejeter dune part M 1 par rapport M0, dautre part M 2 par rapport M1, on veut que le test de M 2 par rapport M0 rejette M2. On choisit alors k(2) tel que k(2)k(1)+k(1). Le seul choix

38

satisfaisant ces deux conditions est k(2) = 2 k(1), et de faon plus gnrale, k(s) = s k(1). Pour s quelconque, on peut crire : ^ 2[L*(^ q 0) L*( q 1)] < s k(1) = (d0 d1) k(1) soit : 2L*(^ q 1) + d1 k(1) < 2L*(^ q 0) + d0 k(1) Pour effectuer la slection dun modle dans un ensemble, on calcule pour chaque modle Mi(q i) de dimension di la valeur : Ci = 2L*(^ q i) + di k(1) = 2 ln L(^ q i; yp) + di k(1) (III.30)

et lon slectionne le modle qui minimise cette expression. Pour k(1) = 2, o n retrouve, au facteur 1/2N prs, lexpression du critre Akaike (III.26). Lapproche Akaike peut donc tre interprte comme un cas particulier de la mthode de slection laide du test TRV, dans laquelle le niveau de confiance (ou le risque) avec lequel on effectue un test dpend de la diffrence entre les dimensions de chaque modle. Si l'on choisit pour s=1 la valeur critique k(1)=2, les valeurs critiques pour s=2, 3, sont alors donnes par k(2)=2k(1), k(3)=3k(1), Shibata [Shibata 76] a montr que le critre dinformation dAkaike (III.26) a gnralement tendance sur-dimensionner le vecteur des paramtres. Diffrentes valeurs de k(1) ont t tudies [Bhansali 77]. Stone [Stone 77] a tudi le lien entre slection laide du critre AIC et validation croise : ce critre reflte la variance des erreurs dun modle que lon obtient avec un modle sur u n ensemble de donnes diffrent de lensemble de lensemble dapprentissage. III.4.3 Critre Final dAkaike fonde sur lerreur de prdiction (FPE) Choisissons maintenant la fonction de cot suivante : JN(q) = 1 N 2 N e(t;q)
t=1

(III.31)

k Si lon suppose, une fois encore, que le processus correspond qo= ^ q * , et que J (qo) est inversible, on obtient lexpression du critre FPE dAkaike (Akaikes Final Prediction-Error Criterion) [Akaike 1969] :

1 N+dim( q k ) ^k (III.32) 2 Ndim( q k ) JN( q N ) Notons que si lon rapproche, dune part, lexpression du critre dinformation dAkaike (III.27) dans le cas dune squence de bruit {W(t)} gaussienne, et, dautre part, le critre FPE (III.32), on peut montrer que ces deux critres sont FPE(Mk, qk) = 39

asymptotiquement quivalents. Toutes les proprits asymptotiques du critre AIC sont donc valables pour le critre FPE. Comme pour le critre AIC, il existe

40

une formulation plus gnrale du critre qui fait apparatre la valeur de k(1) : 1 2N+k(1) dim(qk) k JN(^ qN ) FPE(Mk, q(k), k(1)) = 2 k 2Nk(1) dim(q ) (III.33)

III.5. Mthodes de slection partielles


Les mthodes de slection que nous venons de prsenter, aussi bien celles fondes sur les tests dhypothses que les mthodes de type Akaike, ncessitent lapprentissage de tous les modles candidats. Ceci est souvent irralisable e n pratique : pour un ensemble Em constitu de tous les sous-modles dun modle
n complet de dimension nq, le nombre de modles en comptition est 2 q. Pour u n modle de taille raisonnable, le nombre de sous-modles devient trs vite prohibitif : si lon considre par exemple un rseau de neurones compltement connect, possdant deux entres (la commande, scalaire, et une entre constante), et 3 neurones, le nombre de paramtres est 9 et il existe 512 sousmodles de ce rseau. Si le modle possde 3 entres et 4 neurones (soit 18 paramtres), le nombre de sous-modles est 262.144 ! Deux mthodes sous-optimales, que nous appellerons mthode destructive et mthode constructive, permettent de rduire considrablement le nombre dapprentissages ncessaire pour slectionner un modle laide dune mthode dAkaike.

III.5.1 Mthode destructive Cette mthode, que lon rencontre parfois dans la littrature sous le nom de procdure SBE (Stepwise Backward Elimination) [Draper 81], consiste comparer le modle complet tous les sous-modles ayant un paramtre de moins que le modle complet. Soit C(q) un critre de type AIC ou FPE, le modle qui correspond la valeur de C la plus faible est slectionn. Si ce nest pas le modle complet, la slection continue, et stend alors tous les sous-modles du modle slectionn qui correspondent s=2. La procdure continue ainsi jusqu ce quun modle correspondant s=si minimise C, et quaucun de ses sous-modles n e fournisse une meilleure valeur de C. Le nombre maximum de modles (et dapprentissages) impliqus par une telle procdure est : nq(nq+1) 1+ 2 cest--dire 46 modles pour un modle complet possdant 9 paramtres, et 172 modles pour un modle complet 18 paramtres.

41

Cette mthode peut facilement tre adapte une slection laide de tests dhypothses : parmi tous les sous-modles du modle complet possdant u n paramtre impos une valeur nulle (s=1), on dtermine celui qui minimise la fonction de cot qui intervient dans lexpression du test dhypothse, et on le compare au modle complet laide dun test. Sil nest pas rejet, on considre lensemble de ses sous-modles possdant un paramtre de moins que lui, cest-dire deux de moins que le modle complet (s=2). On dtermine nouveau parmi ses sous-modles celui qui minimise la fonction de cot, et on le compare galement au modle complet. On continue jusqu obtenir un modle qui nest pas rejet par le test, et dont tous les sous-modles possdant un paramtre de moins sont rejets. On appellera cette mthode la mthode de slection avec Modle Complet Unique (MCU). Une autre mthode est envisageable : lorsque quun sous-modle du modle complet nest pas rejet par le test, on supposera que lon peut lgitimement lutiliser comme modle complet pour la suite. Chaque sous-modle nest compar qu son sur-modle immdiat. Nous parlerons alors de mthode avec Modles Complets Multiples (MCM). III.5.2 Mthode constructive Cette mthode, appele aussi procdure SFI (Stepwise Forward Inclusion), est trs proche dans lesprit de la mthode prcdente : on considre tout dabord le modle correspondant s=nq (cest--dire que le modle est constitu d'un paramtre constant), ainsi que tous les modles correspondant s=nq1 (modles 1 paramtre). Si lun dentre eux est meilleur que le modle constant, au sens dun critre C de type AIC, on le slectionne, puis lon considre tous ses surmodles possdant deux paramtres libres (s=nq2), et lon recommence la slection. Lorsque le critre dun modle est meilleur que celui de tous ses surmodles, ce modle est slectionn. Comme pour la mthode destructive, le nombre maximal de modles que lon peut avoir considrer est : 1+ nq(nq+1) 2

Ces mthodes ne mnent pas forcment au modle optimal que lon obtient lorsque les 2n q modles possibles sont pris en considration. Cependant, lorsque les deux mthodes conduisent au mme modle, on peut raisonnablement penser que celui-ci est le meilleur modle de notre ensemble.

42

III.6. Extension des mthodes de slection de modles


Dans ce mmoire, nous nous sommes intresss aux mthodes statistiques de slection de modles dans le cadre de la modlisation de processus laide de modles NARMAX. Cependant, ces mthodes peuvent tre appliques des problmes de nature diffrente. Cest le cas en particulier lorsque le modle hypothse du systme tudi peut se mettre sous la forme gnrale suivante (extension de (III.16) au cas dentres multivariables) : Yp(t) = f(ypt1, ut1 ; q) + V(t) (III.34)

o ypt1 = {yp(t1), , yp()}, ut1 = {u(t1), , u ()}, u (ti) est le vecteur des entres du processus linstant t i, et {V(t)} est une squence de v.a.i.i.d. dont la distribution nest pas ncessairement gaussienne. Les processus statiques non linaires multi-entres sont des cas particuliers de (III.34); en effet, les modles hypothses candidats sont de la forme : Yp(n) = j(u1(n), , unx(n)) + V(n) o les composantes du vecteur u (n) = [u1(n), , unx(n)]T sont les entres du processus, qui peuvent tre des variables que l'exprimentateur fixe, ou qu'il peut simplement mesurer. La squence des mesures {Yp(n)} est alors constitue de variables alatoires indpendantes. Par exemple, yp(t) est la valeur dune caractristique physico-chimique dune molcule (par exemple, le coefficient de partage eau-octanol logP), et les entres du modle sont des descripteurs de la molcule (nombre datomes de carbone ou d'hydrogne, prsence d'atomes de fluor, charges sur les atomes lectrongatifs, ). Les mthodes statistiques prsentes dans ce chapitre peuvent alors tre utilises pour liminer les descripteurs peu pertinents pour le calcul de cette caractristique, et pour dterminer le nombre de neurones dun modle qui fournit une bonne estimation de la valeur de cette caractristique.

43

Chapitre IV : Procdure de slection de modles NARX


IV.1. Introduction
Dans ce chapitre, nous proposons une procdure originale de slection de modles. Nous supposons que le processus possde une caractristique statique dans tout le domaine de fonctionnement considr, et que son comportement dynamique peut tre dcrit par un modle NARX stable. La procdure de slection est fonde sur les mthodes et algorithmes prsents dans les chapitres prcdents. Elle se dcompose en trois phases qui conduisent la dtermination des arguments de la fonction j(.) (premire et deuxime phases) et de larchitecture du modle neuronal (troisime phase).

IV.2. Principe de la procdure de slection de modles NARX


On considre un processus stable dont le comportement peut tre reprsent par le modle hypothse NARX suivant : yp(t) = j(yp(t1), ... , yp(tny*), u(t1), ... , u(tnu*)) + w(t), (IV.1) o j(.) est une fonction continue par morceaux, et n y * et n u * sont des caractristiques inconnues. La forme prdicteur thorique associe ce modle est : y(t) = j[yp(t1), ... , yp(tny*), u(t1), ... , u(tnu*)] (IV.2)

Les familles de modles que nous avons choisies dans ce travail sont donc des rseaux de neurones non boucls, compltement connects (Figure IV.1), dont les neurones cachs ont comme fonction dactivation la fonction sigmode f(x) = tanh(x), et le neurone de sortie est linaire. Le problme consiste choisir un modle performant (cest--dire qui permet de construire la meilleure approximation de j(.) dans le domaine dfini par lensemble dapprentissage) tout en tant le plus parcimonieux possible (cest--dire moins complexe que tout autre modle de cette famille dont les performances sont quivalentes). On cherche pour cela dterminer les arguments de la fonction j(.) (les rgresseurs de yp(t)), et larchitecture de ce modle neuronal. Notons que la dtermination de larchitecture dun modle compltement connect consiste seulement dterminer le nombre de ses neurones cachs.

44

Sortie du rseau y(t) Neurones cachs f f Neurone de sortie

...

....

....
yp(t-1) yp(t-ny ) u(t-1)

....
u(t-n u) Entres du rseau de neurones

Figure IV.1 Modle neuronal prdictif non boucl compltement connect En pratique, on dfinit un modle de la forme IV.2, que lon appelle le modle complet, et lon slectionne lun de ses sous-modles. Si lon n e possde pas de connaissances a priori sur lordre de grandeur de n y * et n u *, on est confront une alternative : choisir un modle complet correspondant de grandes valeurs de n y et nu, mais lensemble de ses sous-modles est alors gnralement trop grand que lon puisse effectivement mettre en uvre une procdure de slection; se restreindre un modle complet de petite taille, en choisissant de faibles valeurs de nu et ny; on prend alors le risque de choisir un modle trop petit. Pour limiter ces problmes, nous avons choisi de dcomposer la slection de modles en plusieurs parties. Dans une premire phase, on considre le comportement du processus dans des domaines de fonctionnement restreints, autour de points de fonctionnement, et lon modlise ces comportements laide de modles locaux linaires ou polynomiaux. En effet, toute fonction non linaire, borne, continue par morceaux, peut tre approxime, dans le voisinage dun point pour lequel la fonction est continue, par une fonction linaire ou polynomiale dont les arguments sont les arguments de la fonction non linaire, ou des produits de ces arguments. Ces modles sont linaires par rapport leurs paramtres, et leur structure est entirement dfinie par leurs rgresseurs. On peut alors utiliser, pour lestimation de leurs paramtres et la slection de leurs rgresseurs, des 45

mthodes de rsolution rapides qui utilisent les proprits de linarit des modles. Ceci permet de considrer des modles ayant un grand nombre d'entres. Dans des domaines restreints de fonctionnement du processus, certains rgresseurs ont une action importante sur le comportement du processus, alors que dautres peuvent tre ngligs. Dans une zone locale particulire, il est donc possible que tous les rgresseurs de yp(t) ne soient pas slectionns. Cependant, la procdure repose sur lhypothse que, si les domaines de fonctionnement locaux que lon a choisi sont reprsentatifs du domaine de fonctionnement global du processus, tout rgresseur significatif aura une action significative dans au moins lun des domaines de fonctionnement local, et sera alors slectionn. On considre donc que les rgresseurs significatifs du modle non linaire du processus sont prsents dans lunion de tous les rgresseurs slectionns localement, et l'on utilise cette union de rgresseurs pour le modle global du processus. Notons quil est ncessaire de disposer dune squence dapprentissage pour chacun des domaines locaux choisis. De telles expriences, n e correspondant pas ncessairement un fonctionnement habituel du processus, ne peuvent pas toujours tre effectues, en particulier lorsquil sagit de processus industriels. Lorsque lon ne peut pas construire ces squences dapprentissage, et que lon ne dispose donc que dobservations correspondant un fonctionnement global du processus, il est toujours possible deffectuer la premire phase de la procdure : en utilisant quand mme un modle linaire, ou polynomial simple, dont on slectionnera les rgresseurs. Cependant, si le processus est fortement non linaire, lerreur de modlisation sera importante, et les rsultats de la slection pourront tre assez mdiocres; en utilisant un modle polynomial de degr plus lev. Un tel modle permet de modliser de faon plus exacte le comportement dun processus non linaire, mais le nombre de ses rgresseurs devient vite prohibitif lorsque le degr considr augmente. Dans la suite de ce chapitre, nous dfinirons les domaines de fonctionnement locaux comme des voisinages autour de points de fonctionnement, et nous supposerons que la fonction j(.) est continue dans chacun de ces domaines. Lorsque la premire phase est effectue, on construit un modle n o n linaire global du processus. La premire phase conduisant gnralement la slection de rgresseurs non significatifs, on valide ceux slectionns 46

lors de la premire phase en construisant un modle neuronal, le modle complet, dont le comportement sur lensemble du domaine de fonctionnement est satisfaisant. On dtermine alors, dans lensemble de ses sous-modles, le modle le plus parcimonieux qui donne toujours une bonne approximation de j(.). Nous sparerons la recherche des rgresseurs de ce modle, qui constitue lobjectif de la deuxime phase, de la dtermination de son architecture, qui est effectue lors de la troisime phase. En pratique, la dfinition du modle complet nest pas toujours vidente : en effet, si les rgresseurs sont dtermins lors de la premire phase, il nous faut encore choisir le nombre de neurones. Dans les chapitres prcdents, lors de la prsentation des mthodes statistiques de slection, nous avons dsign par modle complet u n modle fournissant une trs bonne approximation de la partie dterministe du processus E[yp(t)|t1]. Lerreur quadratique moyenne (EQM) obtenue avec ce modle tend vers la variance du bruit lorsque la taille de lensemble dapprentissage tend vers linfini. Si lensemble dapprentissage est de trs grande taille (le modle gnralise bien), lEQM est peu diffrente de la variance du bruit w, quelle soit calcule sur lensemble dapprentissage (EQMA), ou sur un ensemble de donnes nouvelles (EQMV), que nous appellerons ensemble de validation. Par ailleurs, tout modle contenant le modle complet tant par dfinition suffisamment complexe pour construire la mme approximation, il est galement un modle complet. Lorsque lon doit choisir un modle complet comme point de dpart dune procdure de slection, on peut choisir le modle le plus complexe possible. Cependant, dans la pratique, cette dmarche pertinente : nest absolument pas

dune part, plus le modle complet est complexe, plus la procdure de slection est longue (la taille de lensemble des sous-modles dun modle crot de faon exponentielle avec le nombre de paramtres); dautre part, la taille de lensemble dapprentissage est finie, et peut tre assez limite. Or, lestimation des paramtres dun modle consiste ajuster ces paramtres pour minimiser lerreur quadratique moyenne entre les sorties observes et les prdictions calcules avec le modle, ceci pour lensemble dobservations particulier quest lensemble dapprentissage. Les prdictions de la sortie du processus pour des observations qui 47

nappartiennent pas lensemble dapprentissage sont interpols par le modle. Lorsque la complexit du modle est trop importante par rapport la taille de lensemble dapprentissage, les estimations des sorties du processus calcules avec le modle sont trs proches des valeurs exactes de ses sorties pour les donnes de lensemble dapprentissage, mais linterpolation de la fonction j(.) en dehors de ces points particuliers est gnralement mauvaise, et un modle plus simple suffirait construire une meilleure approximation de j(.). On dit alors quil y a surajustement . Dans un tel cas, lEQM obtenue sur lensemble dapprentissage (EQMA) est infrieure la variance du bruit, mais lEQM obtenue sur lensemble de validation (EQMV) est significativement plus leve. Un exemple est prsent sur les figures IV.2. et IV.3. : le processus est simul par l'quation yp(t) = sin(x(t))/x(t) + w(t), o w(t) est un bruit pseudoblanc; on effectue l'apprentissage de deux rseaux de neurones couches, le premier possdant 4 neurones cachs (soit 13 paramtres), le second 8 neurones cachs (25 paramtres); l'ensemble d'apprentissage est constitu de 20 points. Sur chacune des deux figures sont reprsents : [i] un ensemble de points constitu de 1000 ralisations de yp(t), o x(t) prend ses valeurs dans [0, 15] (courbe gris clair), [ii] les 20 points de l'ensemble d'apprentissage (points noirs), [iii] la fonction ralise par le modle neuronal aprs apprentissage (courbe noire). La figure IV.2. correspond au modle 4 neurones cachs, la figure IV.3. au modle 8 neurones cachs. Pour le modle 8 neurones cachs, qui est trop complexe, on observe u n phnomne de surajustement trs important, alors que le modle 4 neurones cachs fournie une approximation de j(.) trs satisfaisante.

Figure IV.2.

48

Figure IV.3. Une dmarche pragmatique pour choisir le modle complet consiste donc chercher le plus petit modle avec lequel on observe du surajustement. Pour cela, on considre un modle simple dont les rgresseurs sont ceux slectionns lors de la premire phase, et lon compare lEQMA et lEQMV obtenues avec ce modle. Si lEQMV est beaucoup plus importante que lEQMA, il est inutile de construire un modle plus complexe. Si ces valeurs sont comparables, on considre un modle plus complexe, et lon compare nouveau lEQMA et lEQMV. On procde de la sorte jusqu obtenir u n modle avec lequel on observe un surajustement, que lon choisit comme modle complet. La deuxime phase consiste alors slectionner, laide dune mthode de slection statistique, lun de ses sous-modles parmi ceux qui possdent le mme nombre de neurones, et dont les rgresseurs sont constitues dun sous-ensemble de lensemble des rgresseurs du modle complet. Remarquons que lon suppose implicitement que tous les rgresseurs significatifs ont t slectionns lors de la premire phase, cest--dire quil nexiste pas de rgresseurs dont laction nest significative que pour des signaux de grande amplitude, et ngligeable dans les domaines de fonctionnements locaux que nous avons choisis. Dautre part, le modle neuronal doit reprsenter le comportement non linaire du processus dans un domaine de fonctionnement dfini par lutilisation future. Il est donc bien sr ncessaire de disposer de squences dapprentissage explorant compltement ce domaine. Le nombre de neurones du modle est slectionn lors de la troisime phase. Si un ou plusieurs rgresseurs ont t limins lors de la deuxime phase, le nombre de paramtres du modle peut maintenant tre insuffisant. Comme au dbut de la deuxime phase, on augmente donc, si ncessaire, le nombre de neurones jusqu obtenir un modle suffisamment complexe, qui 49

est choisi comme modle complet. On effectue alors une slection sur lensemble de ses sous-modles possdant les mmes rgresseurs et u n nombre de neurones infrieur. On utilise gnralement lors de cette troisime phase les mmes squences dapprentissage et de validation que lors de la deuxime. Nous dcrivons en dtail les trois phases de la procdure dans les paragraphes IV.3, IV.4 et IV.5. Le modle slectionn par la procdure est le modle obtenu la fin de la troisime phase. Nous allons maintenant dtailler cette procdure, et prsenter les algorithmes et les mthodes qui permettent de mener bien la slection dun modle NARX.

IV.3. Premire phase : slection de modles linaires locaux.


IV.3.1. Linarisation dun modle NARX IV.3.1.1. Linarisation dun modle dterministe On cherche modliser un processus non linaire, stable, que lon suppose pour linstant dterministe, dont le comportement dynamique est dcrit par le modle hypothse suivant : (IV.3) yp(t) = j(yp(t1), , yp(tny), u(t1), , u(tnu)) = j(x(t)) avec : x(t) = [yp(t1), , yp(tny), u(t1), , u(tnu)]T Pour une commande de valeur constante u(t) = uo, le processus converge vers u n rgime stationnaire, correspondant une sortie yo. yp(t) = yo = j(yo, , yo, uo, , uo) = j(xo) (IV.4) crivons le dveloppement limit de j(.) au voisinage de xo : yp(t) = yo + (xxo)Tj(xo) + O(xxo)2 Pour des valeurs de x proches de xo, on peut faire lapproximation : yp(t) yo + (xxo)j(xo) = x j(xo) + [yo xo j(xo)] (IV.6) (IV.5)

Dans un voisinage restreint de xo, correspondant des valeurs moyennes uo de la commande et yo de la sortie, le modle hypothse peut donc tre approch par un modle affine. Autour du point (xo, yo), on obtient le modle linaire suivant : y p(t) = o : 50

i=1

ny

(ti) + ci y p

nu

u(tj) cny +j

(IV.7)

j=1

(t) = y (t) y , -y p p o u(t) = u(t) uo, - ci, i={1, , ny} est la drive partielle de j(.) par rapport yp(ti) en xo, - cny +j, j={1, , nu} est la drive partielle de j(.) par rapport u(tj) en xo. IV.3.1.2. Linarisation dun modle NARX Considrons maintenant le modle hypothse NARX suivant : yp(t) = j(yp(t1), , yp(tny), u(t1), , u(tnu)) + w(t) (IV.8)

Supposons que ce modle hypothse est stable. On applique une commande constante uo : lesprance mathmatique de yp(t) converge alors vers une valeur yo, et le vecteur des rgresseurs du modle est : x(t) = [yp(t1), , yp(tny), uo, , uo]. Lorsque le bruit est damplitude suffisamment faible, le modle hypothse NARX avec commande constante peut tre approxim autour de xo par un modle AR : y p(t) =

i=1

ny

(ti) + w(t) ci y p

(IV.9)

Si lon superpose la commande constante uo une squence Du(t) damplitude suffisamment faible (on a alors u (t) =Du(t)), le modle NARX peut alors tre localement approxim par un modle ARX de la forme : y p(t) =

i=1

ny

(ti) + ci y p

nu

cny +j Du(tj) + w(t)

(IV.10)

j=1

En pratique, il est parfois impossible de se placer dans les conditions o le processus peut tre approch par un modle ARX : lorsque les amplitudes du bruit w(t) ou de la squence Du(t) superpose la commande sont trop importantes, le comportement du processus devient trs non linaire, et lhypothse de linarit nest plus valable. Or, si lon peut toujours choisir les valeurs de Du(t), on ne peut influer sur w(t). Cependant, on peut toujours utiliser un modle non linaire polynomial : la procdure de slection que nous prsentons dans le paragraphe qui suit concerne des modles linaires par rapport aux paramtres, nous pourrons donc lappliquer aussi bien des modles linaires qu des modles polynomiaux par rapport aux entres primaires (c'est-dire les rgresseurs de type yp(ti) ou u(tj)).

51

IV.3.2. Procdure de slection des rgresseurs dun modle linaire par rapport ses paramtres IV.3.2.1. Principe de la procdure Nous nous plaons ici dans le cadre de la modlisation dun processus laide dun modle linaire par rapport ses paramtres. Nous disposons dun modle, possdant nq rgresseurs {x1(t), , xnq(t) }, et nous voulons effectuer une slection sur lensemble de ses sous-modles. Dans ce paragraphe, nous appellerons, par abus de langage, le modle nq paramtres modle complet. La slection ncessite que, pour chaque modle considr, on effectue une estimation des coefficients (avec la mthode des moindres carrs par exemple), ainsi que le calcul de l'erreur quadratique moyenne obtenue sur lensemble dapprentissage. Nous lavons dj dit, ceci devient irralisable ds que le nombre de rgresseurs du modle complet est lev, mme pour des modles linaires. Nous avons prsent au chapitre prcdent plusieurs mthodes permettant de rduire de faon trs sensible le nombre dapprentissages et de tests ncessaires pour slectionner un modle, mais ces mthodes ne tiennent pas compte du caractre linaire des modles que nous considrons. La mthode que nous prsentons met profit les proprits des modles linaires et utilise des mthodes spcifiques de ceux-ci. Cest une mthode de type destructive, inspire de travaux de Chen [Chen 89a], qui permet de rduire le nombre maximum de tests que lon doit effectuer (nq1). On effectue dans un premier temps un classement des rgresseurs du modle complet. Pour cela, on procde de la manire suivante : litration 1, on considre les nq modles possdant un seul des n q rgresseurs {x1(t), , xnq(t) } du modle complet : M 1, j : y1, j(t) = q1, j xj(t), j={1, , nq}.

On estime les valeurs des paramtres q 1, j laide de la mthode des moindrescarrs, puis lon dtermine le modle M 1, k1 qui ralise la meilleure prdiction y1, k1(t) de yp(t) sur lensemble dapprentissage (cest--dire celui avec lequel lEQMA est la plus faible), et lon classe en premire position le rgresseur unique xk1(t) de ce modle. litration s, on a dj class (s1) rgresseurs {xk1(t) , , xks1(t) }; on considre alors les n q(s1) modles dont les rgresseurs sont constitus des (s1) rgresseurs dj choisis et de lun des nq(s1) restants : Ms , j : ys, j(t) =
s1

k=1

s s [qk , j xk(t)] + qs , j xj(t),

j={1, , nq}, j{k1, , ks1}

52

on dtermine le modle Ms, ks qui ralise la meilleure prdiction ys, ks(t) de yp(t) sur lensemble dapprentissage, et lon classe en sime position le rgresseur xks(t) . La procdure utilise lors de cette tape est dcrite dans le paragraphe IV.3.2.2. Une fois le classement des n q rgresseurs effectu, on construit un ensemble ordonn {M1, , Mnq } de nq modles : le modle Ms est le modle de taille s, sousmodle du modle complet, ayant comme rgresseurs les s premiers rgresseurs classs. Le modle complet est donc Mnq . La slection seffectue sur cet ensemble restreint et ordonn de modles. Pour cela, on compare, laide dun test dhypothse, le modle Mnq -1 Mnq : si le test conduit au rejet du modle Mnq -1, la procdure s'arrte et lon conserve donc tous les rgresseurs du modle complet. En effet, si le test rejette l'hypothse selon laquelle le dernier rgresseur (c'est--dire celui dont la contribution l'EQMA est la plus faible) peut tre supprim, cela signifie quil est ncessaire pour la description du processus, ainsi que tous les rgresseurs qui le prcdent dans la liste; si le test ne conduit pas rejeter cette hypothse, on limine le dernier rgresseur de la liste, puis lon compare le modle Mnq 2 Mnq , et ainsi de suite (mthode MCU) (Figure IV.4.a). Comparaison Mn / Mn 1 q q Non rejet de Mnq 1 Rejet de Mnq 2 Rejet de Mnq 1 Slection de Mnq

Comparaison Mn / Mn 2 q q Non rejet de Mnq 2

Slection de Mnq 1

Comparaison Mn / Mn 3 q q

Figure IV.4.a Nous utiliserons galement la mthode MCM, qui consiste choisir le modle Mk comme modle complet ds lors quil nest pas rejet par le test, et donc de comparer le modle suivant, Mk-1, non pas avec Mnq , mais avec M k. On suppose 53

alors que, lorsquun modle nest pas rejet par le test, il peut tre choisi comme modle complet pour la suite (Figure IV.4.b).

Comparaison Mn / Mn 1 q q Non rejet de Mnq 1

Rejet de Mnq 1

Slection de Mnq

Comparaison Mn 1 / Mn 2 q q Non rejet de Mnq 2

Rejet de Mnq 2

Slection de Mnq 1

Comparaison Mn 2 / Mn 3 q q

Figure IV.4.b

IV.3.2.2. Classement d'orthogonalisation

des

rgresseurs

laide

d'une

mthode

Lalgorithme de classement que nous prsentons a t propos dans diffrents articles, en particulier par Korenberg [Korenberg 85] et Billings [Billings 88], [Billings 89] sous le nom dOFR (Orthogonal Forward Regression), et repose sur l'utilisation de la mthode d'orthogonalisation de Gram-Schimdt. Pour mieux comprendre la procdure de classement des rgresseurs, nous allons donner une interprtation gomtrique du problme : lensemble dapprentissage que lon considre est de taille N finie, les vecteurs {x1, , xnq } associs aux rgresseurs {x1(t), , xnq(t) }, ainsi que le vecteur yp des sorties, sont donc des vecteurs dun espace EN de dimension N. Dans cet espace, ces n q vecteurs engendrent un sous espace vectoriel En q de dimension n q (sils sont linairement indpendants, ce qui est quasiment toujours vrai lorsque N>>nq). Le modle complet est suppos suffisant pour dcrire les donnes : cela signifie ici que le vecteur des prdictions calcul avec le modle complet (et correspondant la projection de yp sur En q) est une prdiction satisfaisante de yp. La slection dun sous modle du modle complet consiste alors rechercher le plus petit sous espace Ek de En q tel que la projection de yp sur Ek soit une prdiction satisfaisante de yp. 54

Soient EQM1 et EQM2 les EQM obtenues respectivement avec un modle M 1, dont xk(t) nest pas un rgresseur, et un modle M 2 dont les rgresseurs sont les rgresseurs de M 1 et xk(t); nous appellerons dans ce paragraphe contribution du rgresseur xk(t) la prdiction de yp(t), pour un modle M 1 donn, la valeur positive EQM1EQM2. Si lon note y la prdiction de yp obtenue avec M1, la contribution de xk(t) sexprime partir du carr du cosinus de langle dfini par y et xk. A la premire itration de la procdure de classement, aucun rgresseur na t choisi, la seule prdiction de yp dont on dispose est donc y=0. Le premier vecteur xk1 choisi est celui dont la contribution est maximale, cest--dire tel que : cos2(xk1, yp) = max k [cos2(xk, yp)], k=1, , nq

On note p1 = xk1 ce vecteur, qui engendre le sous espace E(1) de dimension 1. Le premier rgresseur est donc xk1(t). yp est alors exprim comme la somme de deux vecteurs orthogonaux : la projection de yp sur E(1) (note yk sur la figure IV.5), et yp2 = yp1 yk. Le vecteur yk est la partie de yp explique par xk1. On dcompose de la mme manire les nq1 vecteurs {x1, , xk11, xk1+1, , xnq }. E (1) yp 2 xk 1 yp=yp 1 E(1) yk ||yk || = ||yp || |cos(yp , xk1 )|

xj2

xj (jk1) Figure IV.5.

Notons donc yp = yp1, yp2 la projection de yp sur le sous espace de En q orthogonal E(1), et { x12 , , x k 1-12, xk1+12, , xnq 2 } les projections des vecteurs {x1, , xk11, xk1+1, , xnq } sur ce mme sous-espace. On dtermine, nouveau, parmi ces vecteurs, le vecteur p2 = x k22 qui maximise cos2(xk, yp), et le rgresseur correspondant xk2(t). On procde une fois encore l'orthogonalisation des vecteurs restants par rapport au sous espace vectoriel E2 = E(1)xE(2) engendr par {p1, p2}, et lon continue ainsi jusqu' ce que tous les vecteurs soient classs. A la fin du classement, on obtient alors une nouvelle base [p1, , pnq ], orthogonale, et engendrant le mme sous espace En q que [x1, , xnq ].

55

Si les n q vecteurs sont lis, ils engendrent un espace EM de dimension M<n q. Les M premiers vecteurs de la liste sont obtenus de la mme manire que prcdemment, et forment une base de EM . A litration M+1, les (nq-M) vecteurs restants, appartenant EM , sont projets orthogonalement EM; leurs projections tant nulles, on peut alors supprimer les rgresseurs correspondants. IV.3.2.3. Description de l'algorithme Itration k=1 Le rgresseur class en premire position correspond au vecteur qui forme langle le plus petit avec yp. La contribution dun vecteur x i lexplication du vecteur yp est mesure par : zi =

||xiTyp||2 xiTyp 2 = ( ) xiTxi = cos2(xi, yp)||yp||2 ||xi||2 x iT x i

(IV.11)

xiTyp o ( T ) est le coefficient de projection de yp sur le sous espace E (i), engendr xi xi par xi. Pour faciliter la prsentation de la procdure, on note : yp = yp1 , [x1, , xnq ] = [x11, , xnq 1]

On calcule donc les coefficients b11, , bnq 1 de projection de yp sur les n q vecteurs x11, , xnq 1 : b1
1

(x 11)T y p 1 = , , (x 11)T (x 11)

bnq =
1

(xnq1)T yp1

(xnq1)T(xnq1)
2

(IV.12)

et lon en dduit les contributions respectives de chacun de ces vecteurs : z 1 1 = (b 1 1 ) (x 1 1 ) T ( x 1 1 ) ,


2

znq 1 = (bnq 1) (xnq1) T(xnq 1)

(IV.13)

Le vecteur p1 = xk11 class en premier est tel que : zk11 = sup { zi1, i=1, , nq } (IV.14)

Le premier rgresseur de la liste est alors xk1(t), correspondant au vecteur p1 = xk11, et lon note b1 = b k 11, et z1 = zk11. On orthogonalise alors le vecteur des sorties yp1 = yp, ainsi que tous les vecteurs non encore classs, par rapport p1. Lorthogonalisation seffectue de la faon suivante : yp2 = yp1 b1 p1 , et xi = xi ai p1 ,
2 1 1

(IV.15.a) ( p 1 ) T x i1 avec : a i = (p1)T(p1)


1

(IV.15.b)

56

Les ai1 (i=1, , nq et ik1) sont les coefficients de projection des vecteurs x1, , xnq sur p1. Ces coefficients dfinissent une matrice triangulaire suprieure A telle que [xk1, , xknq ] = [p1, , pknq ]A. Lordonnancement de la nouvelle base ntant pas encore connu (on ne connat pour linstant que le premier vecteur p1), les valeurs des coefficients ai1 sont stockes, et seront utilises pour construire A au cours des itrations suivantes. Itration s Les s1 vecteurs {p1, , pks1} = {xk11, , xks1s1}, ont t classs, ainsi que les s1 rgresseurs correspondants {xk1(t), , xks1(t)}. Les vecteurs restants sont les vecteurs {xik ; i{k1, , ks1}), orthogonaux aux vecteurs {p1, , ps1}, et yps est la partie de yp non encore explique. On calcule les coefficients (bis | i=1, , nq, i{k1, , ks1}) de projection de yp sur les vecteurs xis correspondants : (x1s)T yps , , b1 = (x 1s)T (x 1s)
s

bnq =
s

(xnqs)T yps (xnqs)T(xnqs)


2

(IV.16)

et lon en dduit les contributions respectives de chacun de ces vecteurs : z 1 s = (b 1 s ) (x 1 s ) T ( x 1 s ) , (IV.17) Le vecteur ps = xkss class en position s est tel que : zkss = sup { zis, i=1, , nq, i{k1, , ks1}} (IV.18)
2

znq s = (bnq s) (xnqs) T(xnq s)

Le rgresseur correspondant est xks(t). On note bs = bkss, et zs = zkss. Les valeurs des coefficients a1,s , , as-1,s de la matrice A sont gales aux valeurs a ks1, , a k ss1 calcules au cours des itrations prcdentes.

57

On orthogonalise alors les vecteurs yps et x1s, , xnq s par rapport ps, et lon poursuit la procdure jusqu ce que tous les rgresseurs soient classs. On obtient finalement les relations : yp =

i=1

nq

bi pi + e,

(IV.19)

||yp||2 =

i=1

nq

bi2

||pi||2

+ ||e||2 =

i=1

nq

zi + ||e||2

(IV.20)

||e||2 o e et N sont respectivement le vecteur des erreurs de prdiction et lEQMA obtenus avec le modle nq paramtres.
IV.3.2.4. Calcul de lerreur quadratique moyenne Cette procdure permet de calculer facilement la solution des moindres carrs ordinaires pour chacun des modles de la liste que lon a construite, cela au fur et mesure de cette construction. Considrons le modle hypothse linaire complet : (IV.21) yp = xq + w On peut maintenant galement lexprimer sous la forme : yp = pb + w Do la relation : x q = p Aq = p b soit : b1 b2 = 0 1 0 a 1,2 1 a 1,3 a 2,3 1 1 bnq 0 anq-1, nq 1 a1, nq q1 q2 a 2 ,n q => Aq = b (IV.23) (IV.22)

qn

A tant triangulaire suprieure, la rsolution de cette quation en q est immdiate, et fournit la solution des moindres carrs ordinaires pour le modle complet. A litration s, on considre le modle linaire de dimension s ayant comme rgresseurs [xk1(t), , xks(t)]. On dispose : - des bases ps = [pk1, , pks] et xs = [xk1, , xks] engendrant le sous-espace Es, - de la projection bs = [b1, , bs] de yp sur Es, - de la matrice As, correspondant la sous-matrice de dimension (s,s) de A, qui vrifient les relations : 58

xs = As ps (IV.24.a, b) yp = xs qs + es = ps bs + es et Lestimation des moindres carrs des paramtres qs, ainsi que la valeur de lEQMA, est alors obtenue de faon simple par la rsolution des quations : b s = As q s et

||yp||2 =

i=1

bi2 ||pi||2 + ||es||2 =

i=1

zi + ||es||2

(IV.25.a, b)

IV.3.2.5. Slection dun modle linaire local Pour slectionner un modle, nous utilisons le test LDRT prsent au chapitre III (il est aussi possible dutiliser une mthodes de type Akaike). Cependant, nous allons introduire une modification la procdure prsente dans le paragraphe IV.3.2.1. En effet, nous avons alors suppos que la slection seffectuait e n choisissant comme modle complet le modle nq paramtres. Or, lorsquelle est de trs grande taille, la matrice x est souvent mal conditionne. Nous proposons donc une heuristique pour liminer, avant la slection proprement dite, u n grand nombre de rgresseurs candidats, et prslectionner un modle de petite taille. Dun point de vue gomtrique, le sous-espace correspondant ce modle est de faible dimension, et la base des vecteurs qui lengendre nest compose que des vecteurs de rgresseurs significatifs. La matrice est alors gnralement bien conditionne. Nous utilisons lheuristique suivante : le premier modle (un seul rgresseur) est compar au deuxime (avec deux rgresseurs), dont il est un sous-modle; o n calcule pour cela la valeur du rapport correspondant un test LDRT (III.20). S i cette valeur est infrieure un seuil fix, correspondant une probabilit leve (par exemple 5 ou 10%), on ritre lopration en comparant le modle deux rgresseurs avec le modle trois rgresseurs, et ainsi de suite. Les comparaison effectues ne sont pas proprement parler un test, puisque lon ne peut vraiment dfinir de modle complet. Cependant, tant que les modles considrs sont trop simples, la procdure met en jeu de nouveaux modles de plus en plus complexes. Lorsque la valeur du rapport est suprieure au seuil, le dernier modle pris en considration est choisi comme modle complet, et lon effectue alors la vritable slection de ses rgresseurs, laide dune mthode MCU (ou MCM), comme nous lavons dcrit dans le paragraphe IV.3.2.1. La valeur importante de la probabilit utilise pour lheuristique conduit gnralement un modle lgrement trop grand, et la slection proprement dite, effectue avec un risque plus petit (1%), permet dliminer des rgresseurs peu pertinents.

59

Dans la procdure OFR prsente par [Billings 89], la slection des rgresseurs ne se fait pas laide de tests dhypothse : la procdure est arrte lorsque les contributions des vecteurs non encore classs deviennent ngligeables devant la norme de yp. Plus prcisment, si s est le nombre de vecteurs dj classs et orthogonaliss, on arrte la procdure si la condition suivante est vrifie :

||yp||2

k=1 ||yp||2

zks <r (IV.26)

La valeur du seuil r permet de moduler le nombre de rgresseurs slectionns dans le modle final. Les auteurs ont galement utilis d'autres tests darrt, par exemple : zs+1 <r (IV.27) s ||yp||2 z i
i=1

Notons que les critres (IV.26) et (IV.27) tiennent compte de la valeur de lEQMA obtenue avec le modle, mais pas de sa complexit. Dautre part, lutilisation du critre (IV.27) suppose implicitement que les valeurs successives z1, z2, forment une suite dcroissante. Bien quen pratique cette hypothse soit le plus gnralement vrifie, elle nest pas toujours vraie. Enfin, il faut surtout noter que le seuil r, choisi de faon arbitraire, nest pas toujours facile choisir a priori . IV.3.3 Fin de la premire phase : compilation des rsultats Pour chacun des domaines de fonctionnement locaux, on obtient un modle local, dfini par lensemble de ses rgresseurs et de ses paramtres. On effectue alors la runion de tous ces ensembles de rgresseurs. Lorsque des modles polynomiaux ont t utiliss, on ne conserve pas, pour la deuxime phase, les monmes de degr suprieur 1, mais uniquement les termes linaires partir desquels ces monmes sont construits (par exemple, si le monme yp(t1)u(t3) t slectionn, on ne garde que les entres primaires yp(t1) et u(t3)).

60

IV.4. Deuxime phase : slection des rgresseurs dun modle neuronal global du processus
A partir des rgresseurs obtenus la fin de la premire phase, nous allons maintenant construire un modle neuronal du processus valable sur tout le domaine de fonctionnement auquel on sintresse. On doit donc disposer dun nouvel ensemble de mesures dans ce domaine, que lon divise en un ensemble dapprentissage et un ensemble de validation. Comme nous lavons expliqu dans le paragraphe IV.2., on construit alors une suite de modles de complexit croissante, dont les rgresseurs sont les rgresseurs slectionns lors de la premire phase. Le premier modle est simple (il possde trs peu de neurones cachs). Si lEQMV obtenue avec ce modle est significativement suprieure lEQMA, il y a surajustement, provenant dune complexit trop importante du rseau par rapport aux informations contenues dans lensemble dapprentissage. Il est donc inutile de considrer des modles plus complexes, et ce modle est alors choisi comme modle complet. Si lEQMV est comparable lEQMA, on considre un nouveau modle, avec comme entres les mmes rgresseurs, et un ou plusieurs neurones supplmentaires. On construit ainsi une suite de modles de complexit croissante, jusqu ce que lon commence observer du surajustement. Le modle correspondant est alors choisi comme modle complet. On considre lensemble de ses sous-modles qui possdent le mme nombre de neurones, mais dont un ou plusieurs rgresseurs ont t supprims. La seconde phase consiste slectionner lun de ces modles. Lorsque le nombre n e de rgresseurs du modle complet est trs petit, il est envisageable deffectuer lapprentissage de tous ces modles, puis de slectionner lun dentre eux, laide de tests dhypothses ou dune mthode de type Akaike. Lorsque ne est grand, nous utilisons une procdure de slection partielle, plus conome en nombre dapprentissages : on effectue lapprentissage du modle complet, puis de tous les sous-modles possdant n e 1 entres. On dtermine alors celui, not Mne1 qui fournit la meilleure prdiction sur lensemble dapprentissage. On le compare alors, soit laide dun test dhypothse, soit partir dun critre de type Akaike, au modle complet Mne. Si Mne1 est rejet, la procdure sarrte, et Mne est slectionn. Si Mne1 nest pas rejet, la slection continue sur lensemble des sous modles de Mne1 qui possdent n e 2 entres. On slectionne nouveau le meilleur de ces modles, Mne2. Deux dmarches sont alors possibles : on compare Mne2 au modle complet initial (mthode MCU), ou lon compare Mne2 Mne1 (mthode MCM). Quelle que soit la mthode choisie, si le modle Mne2 est rejet, la procdure sarrte, et Mne1 est 61

slectionn. Dans le cas contraire, la procdure se poursuit jusqu ce quun modle soit finalement slectionn.

IV.5. Troisime phase : slection du nombre de neurones du modle


Les rgresseurs du modle du processus ont t slectionnes au cours des deux premires phase de la procdure, et ne sont plus remis en cause. On cherche maintenant optimiser larchitecture du modle neuronal, cest--dire dterminer le nombre de neurones tel que le modle soit le plus petit modle suffisamment complexe pour modliser les donnes dapprentissage sans surajustement. Le modle est alors la fois performant (lEQMA et lEQMV ont des valeurs trs proches, et lEQMV est infrieure ou comparable aux EQMV obtenues avec des modles plus complexes) et parcimonieux (les EQMA et EQMV obtenues avec tous les modles comportant moins de neurones sont suprieures lEQMA et lEQMV obtenues avec ce modle optimal). Le nombre dentres du modle ayant t modifi lors de la deuxime phase, il faut nouveau valuer, mme grossirement, le nombre de neurones du modle. Cette estimation ne constitue en aucun cas une optimisation efficace du nombre optimal de neurones du modle, et ne doit pas se substituer la procdure de slection. Une fois le nombre nc du nouveau modle complet choisi, on considre lensemble des rseaux compltements connects ayant comme rgresseurs ceux slectionnes lors des phases prcdentes et un nombre de neurones variant de 1 nc. Toutes les architectures ainsi dfinies sont incluses les unes dans les autres. Larchitecture incluant toutes les autres est celle du modle complet, et celle inclue dans toutes les autres est larchitecture linaire; On compare donc au modle complet possdant nc neurones le modle possdant n c1 neurones, puis, si ce dernier est accept, on recommence avec le modle possdant n c2 neurones, et ainsi de suite. La procdure sarrte lorsquun modle est rejet. Le modle slectionn est le modle prcdent, n o n rejet.

62

IV.6. Limitations et extension de la procdure


IV.6.1. Construction et caractrisation de comportements locaux du processus Lors de la premire phase, il faut choisir une dcomposition particulire du domaine de fonctionnement du processus, puis, laide dun choix judicieux de la squence de commandes, obtenir, pour chacun des domaines locaux, u n ensemble dobservations caractristique du comportement local du processus. Une fois ces ensembles de donnes collects, il faut choisir, pour chaque domaine local, un modle du comportement du processus linaire par rapport aux paramtres. La mise en uvre de cette procdure nest pas toujours simple. Tout dabord, il est souvent malais de juger du caractre linaire (ou polynomial) du comportement dun processus, et dapprcier la pertinence de lhypothse de linarit. Comment, dans ce cas, choisir le modle (linaire ou polynomial ? quel degr pour un modle polynomial ?), mais, surtout, comment juger de la pertinence du choix des squences de commande, et donc justifier la partition du domaine de fonctionnement en zones locales que lon a faite ? En gnral, on dispose sur le processus de connaissances a priori , provenant par exemple de modlisations antrieures, ou dune exprience du processus, qui permettent dapporter des rponses satisfaisantes ces problmes. Dautre part, on ne cherche pas, lors de cette premire phase, construire des reprsentations trs fidles du processus, mais simplement dtecter les variables qui ont une action significative sur son comportement, et nous verrons dans le chapitre V que des modles grossiers sont souvent suffisants. Soulignons enfin que le problme de la dtection du caractre linaire dun processus a dj t tudi, et plusieurs tests sont proposs, notamment dans [Haber 85] et [Billings 85]. Par ailleurs, dans cette premire partie de la procdure de slection, o n souhaite recueillir sur le processus des observations correspondant u n fonctionnement non ordinaire, laide de squences de commandes particulires. Or, il nest pas toujours facile ou possible de faire fonctionner le processus dans des conditions de fonctionnement en gnral assez diffrentes de son mode de fonctionnement rel, et qui, de plus, peuvent tre coteuses raliser. Si, pour lune des ces raisons, la premire phase ne peut pas tre effectue, on passe directement la deuxime phase.

63

IV.6.2. Slection de modles NARMAX Nous navons considr dans cette procdure que des modles NARX. En pratique, de nombreux processus dynamiques rels sont mal reprsents par des modles NARX. En revanche, une large classe de processus dynamiques n o n linaires peuvent tre modliss laide de modles hypothses NARMAX. Dans des domaines restreints de fonctionnement, ces modles peuvent gnralement tre approchs par des modles ARMAX, ou PARMAX (Polynomial ARMAX). La procdure de classement des rgresseurs de modles ARX (ou PARX), propose dans le paragraphe IV.3, ne peut tre applique telle quelle pour des modles ARMAX ou PARMAX. En effet, dans la premire phase, il nest plus possible dutiliser la procdure de classement par orthogonalisation, pas plus que tout autre mthode linaire de type moindres-carrs, puisque les prdicteurs associs aux modles hypothses ARMAX ou NARMAX sont boucls. Cependant, il est possible deffectuer la slection des rgresseurs de ces modles laide dune des mthodes de slection partielle que nous avons dcrites dans le chapitre III. Lestimation des paramtres de ces modles boucls se fait laide dalgorithmes destimation itratifs [Rivals 95], et lon utilise le test LDRT ou u n critre de type Akaike pour effectuer la slection de modles. De faon gnrale, les mthodes de type EP (mthodes fondes sur lerreur de prdiction, dont nous avons prsent le principe dans les chapitres prcdents), peuvent tre utilises sans modification, pour les phases deux et trois, avec des modles NARMAX. On veillera cependant ne pas choisir un modle complet trop complexe, afin de limiter le nombre dapprentissages.

64

65

Chapitre V : Application de la procdure de slection


Dans ce chapitre, nous mettons en uvre la procdure de slection de modles NARX, prsente dans le chapitre IV. Plusieurs processus simuls sont utiliss pour illustrer les mthodes proposes, mettre en vidence les problmes, notamment numriques, que lon est susceptible de rencontrer, et prsenter les solutions proposes. Nous nous sommes tout particulirement intresss au processus que nous prsentons dans le paragraphe V.1, et sur lequel nous avons test lensemble de la procdure.

V.1. Processus de rfrence P1


Le processus est simul par lquation temps discret (V.1) suivante : yp(t) = 50 tanh 2.10-3 w(t) o w(t) est un bruit pseudo-blanc gaussien. Son comportement dynamique dpend beaucoup de lamplitude de la commande : pour des commandes damplitudes voisines de 0 (|u|0,1), le processus se comporte comme un filtre passe-bas linaire du premier ordre. Dans ce domaine, cest la partie linaire de la fonction tanh(.) qui intervient, et lon peut faire les approximations 1+u(t1)2 1, y(t1) << 24, et yp(t1) >> u(t1)2 yp(t2). Cela conduit au modle linaire du premier ordre dquation : yp(t) @ 0,8 yp(t1) + 0,5u(t1) + w(t) (V.2)

[24+y3p(t1)

yp(t1) 8

u(t1)2 y (t2) 1+u(t1)2 p

]]+ 0,5 u(t1) +

Ce modle est stable, avec un gain statique de lordre de 2,5. Si lon considre que P1 reprsente la discrtisation d'un processus temps continu avec une priode dchantillonnage T, la constante de temps du processus vaut environ 3,6T (Figure V.1.a). pour des amplitudes de |u| variant de 0,1 0,6, le comportement du processus peut tre reprsent par un modle du premier ordre non linaire stable (Figure V.1.a)

66

0,8

sortie du processus yp

0,4

0 250 -0,4 commande u -0,8 500 750 1000

Figure V.1.a
Comportement du processus pour des commandes variant entre 0 et 0,8 (var(w)=0)

lorsque lamplitude de la commande varie entre 0,6 et 10, le comportement est non linaire, avec un comportement oscillatoire pour des amplitudes suprieures 1 (Figure V.1.b). Le processus devient non symtrique par rapport u=0 pour des amplitudes de u suprieures 5.
10 7,5 5 2,5 0 -2,5 0 -5 -7,5 -10 commande u 250 500 750 t 1000 sortie du processus yp

Figure V.1.b
Comportement du processus pour des commandes variant entre 0 et 10

Notons que le processus peut prsenter, dans certains cas, un comportement trs diffrent de ceux dcrits ci-dessus : lorsque lamplitude de la commande u applique au processus est trs grande et valeur positive (u>10), ou lorsque le bruit perturbant le processus est relativement important (|w|>5), le processus change de domaine de fonctionnement, et lamplitude de yp(t) est suprieure 50. On observe ce phnomne sur la figure V.1.c.

67

60 sortie du processus yp 40

20

commande u

0 50 -20 100 perturbation w 150 200

Figure V.1.c Dans notre tude, nous avons vit ce domaine de fonctionnement en nous limitant une squence de commande comprise dans le domaine [-10, 10].

V.2. Premire phase : slection des entres de modles linaires


V.2.1. tude prliminaire : problme du surajustement Nous avons voqu, dans le chapitre prcdent, le problme du surajustement : lorsque la taille de lensemble dapprentissage est insuffisant, lapprentissage conduit une modlisation dinformations non reprsentatives du comportement gnral du processus, mais spcifiques de cet ensemble dapprentissage particulier. Lorsque le processus est bruit, lEQMA obtenue avec un modle trop complexe peut tre infrieure la variance du bruit. Or, au cours de la premire phase de la procdure de slection, il faut choisir des modles locaux comportant le plus grand nombre possible de rgresseurs, afin dtre assur que les rgresseurs significatifs sont pris en considration. De plus, lorsque lon utilise des modles polynomiaux, le nombre de paramtres devient encore plus important. Pour limiter le surajustement, il est donc ncessaire dtudier linfluence du rapport (taille de lensemble dapprentissage/taille du modle) sur le surajustement. Si lon peut considrer autant de donnes quon le dsire, o n choisira un ensemble dapprentissage de taille suffisamment leve. Sil nest pas possible de recueillir suffisamment de donnes, il faut alors limiter la taille des modles, au risque de ne pas obtenir tous les rgresseurs significatifs. Afin de mieux apprhender ce problme, nous avons tudi quelques exemples, que nous prsentons maintenant.

68

V.2.1.1. Premier exemple : processus ARX. Le processus est simul par un filtre passe-bas du second ordre ARX : yp(t) = 1,88 yp(t1) 0,882 yp(t2) + 0,0166 u(t1) + 0,00715 u(t2) + w(t) (V.3) Le processus simul est tudi autour du point de fonctionnement correspondant une commande constante Uo=0. On explore le voisinage de ce point en superposant Uo une perturbation alatoire de distribution uniforme damplitude Du=0,1. Le modle complet choisi possde nq=100 entres {yp(t1), , yp(t50), u(t1), , u(t50)}. Nous avons effectu plusieurs simulations, correspondant des variances de {w(t)} variant de 10-4 1, et nous avons utilis chaque fois deux ensembles dapprentissage, le premier de taille N=100, le second de taille N=1000. Jusqu' prsent, nous avons utilis l'erreur quadratique moyenne (EQM) comme estimation de la variance de l'erreur de prdiction. Cependant, lorsque le nombre d'exemple et le nombre de paramtres du modle sont de valeurs comparables, cette estimation est biaise, et il est prfrable d'utiliser l'estimation non biaise EQM/(Nnq). Chaque fois quun nouveau rgresseur est choisi et class, nous avons donc calcul les estimations non biaises de la variance de l'erreur sur l'ensemble d'apprentissage et de la variance de l'erreur sur l'ensemble de validation, respectivement EQMA'=EQMA/(Np) et EQMV'=EQMV/(Np), o p est le nombre de rgresseurs du modle considr. Des rsultats, caractristiques de ce que nous avons observ, sont prsents dans les figures V.2.a et V.2.b. Ils correspondent une variance de {w(t)} gale 1.
1,0E+05 1,0E+04 1,0E+03 1,0E+02 1,0E+01 Var(w(t)) 1,0E+00 EQMA' 1,0E-01 0 10 20 30 40 50 60 70 Nombre de rgresseurs du modle 80 90 EQMV'

Figure V.2.a : var(yp(t))8, var(w(t))1, N=100

69

1,0E+03 1,0E+02 1,0E+01 1,0E+00 1,0E-01 1,0E-02 1,0E-03 0 10 20 30 40 50 60 70 Nombre de rgresseurs du modle 80 90 100 EQMV' EQMA' Var(w(t))

Figure V.2.b : var(yp(t))8, var(w(t))1, N=1000 On constate que lorsque le nombre de paramtres est proche de la taille de lensemble dapprentissage, lEQMA diminue fortement, alors que lEQMV' augmente de faon trs importante (Figure V.2.a). Lorsque la taille de lensemble dapprentissage est grande devant le nombre de paramtres du modle, lEQMA' et lEQMV' restent trs proches (Figure V.2.b). De plus, leurs valeurs peuvent tre remplacs par celle de l'EQMA et de l'EQMV, ce que nous ferons dans la suite de ce chapitre. V.2.1.2. Deuxime exemple : le processus NARX P1 Nous avons rpt la mme exprience avec le processus NARX P1, pour plusieurs points de fonctionnement. En chacun de ces points, nous avons superpos la commande constante une composante alatoire de densit uniforme damplitude maximale Du=0,1 (soit var(u(t))=3,33.10-3); le modle complet possde nq=100 entres {yp(t1), , yp(t50), u(t1), , u(t50)}. Comme dans lexemple prcdent, nous avons effectu plusieurs simulations, correspondant des variances de w(t) variant de 10-4 1. Les ensembles dapprentissage sont de tailles N=100, 200 ou 1000. Nous prsentons ci-dessous les rsultats obtenus pour une variance de w de lordre de 1, pour une valeur constante de la commande Uo=0,1 (Figures V.3.a, V.3.b et V.3.c).

70

1,0E+05 EQMV' 1,0E+03

1,0E+01

Var(w(t))

1,0E-01 EQMA' 1,0E-03 0 10 20 30 40 50 60 70 Nombre de rgresseurs du modle 80 90

Figure V.3.a : var(yp(t))2,1, var(w(t))1, N=100


1,0E+05

1,0E+03 EQMV' 1,0E+01 EQMA' 1,0E-01 Var(w(t))

1,0E-03 0 10 20 30 40 50 60 70 Nombre de rgresseurs du modle 80 90 100

Figure V.3.b : var(yp(t))2,1, var(w(t))1, N=200


1,0E+05

1,0E+03

1,0E+01

EQMV' EQMA' Var(w(t))

1,0E-01

1,0E-03 0 10 20 30 40 50 60 70 Nombre de rgresseurs du modle 80 90 100

Figure V.3.c : var(yp(t))2,1, var(w(t))1, N=1000

71

Pour N=100, le surajustement est important. Pour N=200, les courbes des EQMA' et des EQMV' sont proches, le surajustement observ est acceptable. Pour N=1000, le phnomne est ngligeable, mme pour les plus grands modles (nq100). Ces rsultats sont reprsentatifs des rsultats observs pour lensemble des essais que nous avons effectus. V.2.2. Choix de lamplitude de la perturbation superpose la commande Nous cherchons construire, dans la premire phase, une collection de modles du processus, chacun dentre eux correspondant un domaine de fonctionnement restreint. Pour agir sur le processus dans un domaine de fonctionnement particulier, le seul moyen dont on dispose est la commande. Nous dfinirons ici un domaine local de fonctionnement du processus comme un voisinage dun point de fonctionnement stable. Chacune des squences de commande ncessaires est obtenue en superposant une commande constante Uo, qui dtermine le point de fonctionnement, une perturbation alatoire D u(t) de distribution uniforme dans [Duo, Duo]. Cependant, en pratique, la mise e n uvre dune telle dmarche nest pas toujours possible, et il faut prendre e n considration les remarques suivantes : dans la ralit, les processus subissent des perturbations alatoires sur lesquelles on ne peut pas agir, et que lon ne peut mesurer : il est donc important de savoir si une squence de commande a une action significative sur le processus, ou, au contraire, si son influence est ngligeable devant linfluence du bruit. Lors de la constitution des squences dapprentissage locales, on cherchera donc dtecter si la variance de yp(t) varie en fonction de lamplitude Duo; dautre part, supposons que lon choisisse un modle linaire pour modliser le processus dans un domaine local particulier; si la valeur de Duo est trop importante, le modle linaire nest plus valable. Il est donc utile de dtecter si le processus prsente effectivement un comportement proche dun comportement linaire pour une valeur donne Duo. Le problme se pose galement lorsque lon choisit un modle polynomial de degr fix; enfin, il faut sefforcer de construire un ensemble de modles recouvrant tout le domaine de fonctionnement tudi. Pour cela, il faut choisir un nombre suffisant de points de fonctionnement, puis dterminer pour chacun deux u n domaine de fonctionnement local, de telle sorte que la runion de ces domaines locaux englobe tout le domaine de fonctionnement. Remarquons que nous n e cherchons pas dans cette premire phase construire un modle global partir de modles locaux, mais simplement slectionner les rgresseurs ayant une action 72

significative sur le comportement du processus. Il nest donc pas indispensable que les modles locaux recouvrent parfaitement le domaine de fonctionnement que lon tudie. Notre problme est de trouver une bonne valeur de Duo. On commence par estimer la valeur minimale de Duo pour que les variations de la commande influent de faon significative sur le comportement du processus. Pour cela, o n peut, par exemple, estimer la variance de yp(t) pour une commande constante Uo, puis lon superpose cette commande une squence de perturbations damplitude maximale Duo faible, et lon estime nouveau la variance de yp(t). S i lordre de grandeur de celle-ci reste identique, on augmente la valeur de Duo (par exemple dun facteur 10), et lon estime nouveau la variance de yp(t). On procde ainsi jusqu trouver une valeur Du qui nous satisfait. Le comportement du processus est-il encore linaire pour cette valeur de Du ? Nous proposons ici deux tests simples mettre en uvre qui peuvent apporter des informations sur le comportement dun processus dans une zone particulire : tude de la caractristique statique : on applique une commande de valeur Uo, et lon note Yo la valeur moyenne de yp(t) en rgime stationnaire. Puis lon applique des commandes U o+ D U 1, U o+ D U 2, , et lon mesure les valeurs moyennes de yp(t) correspondantes Yo+DY1, Yo+DY2, Si la caractristique statique du processus nest pas linaire autour du point (Uo, Yo), (le rapport DYi/DUi nest pas constant), le comportement du processus est non linaire. Si le rapport (DYi/ D U i) est constant, cela nimplique pas ncessairement la validit dun modle linaire. tude du comportement dynamique : nous cherchons mettre en vidence un comportement dynamique correspondant un processus linaire; on cherche donc des caractristiques du processus pendant un rgime transitoire. Pour cela, on effectue n expriences : en partant dun tat initial (Uo, Yo), on applique diffrents chelons de commande damplitude D U 1, DUn. On mesure alors, pour chaque exprience, des valeurs particulires Yi (maximum, mi-hauteur entre valeur initiale et valeur finale, ) de lcart entre les sorties yp(t) du processus et Yo. Si le processus est linaire, les points dfinis par les couples ( D U i, Y i) appartiennent une mme droite passant par (0, 0). Cette mthode est cependant trs sensible au bruit w(t), et la prsence dun niveau de bruit important peut fortement modifier lallure de la courbe pour de faibles valeurs de D U i. Pour remdier cet inconvnient, on peut prendre en considration plusieurs points autour du point particulier choisi, afin de moyenner leffet du bruit. 73

Les mthodes que nous venons de prsenter sont simples, et peuvent s'avrer utiles pour choisir une valeur Duo. Cependant, pour tre relativement performantes, elles ncessitent un nombre important dexpriences qu'il n'est pas toujours possible d'effectuer. Toutefois, le choix de Duo nest pas critique dans la procdure que nous proposons : il nest pas ncessaire que le modle soit une trs bonne approximation du processus dans le domaine local que l'on tudie, et une valuation grossire de lordre de grandeur de Duo est gnralement suffisante. De plus, lorsque lon modlise un processus rel, on dispose souvent de connaissances suffisantes pour choisir, dans chaque zone locale tudie, u n modle linaire ou polynomial du processus qui soit une approximation acceptable du processus. On vite ainsi des expriences prliminaires nombreuses et coteuses, ou impossibles effectuer. V.2.3. Rsultats obtenus avec le processus NARX P1 Le processus tudi est le processus P1, dfini par (V.1). Plusieurs tudes ont t effectues, correspondant des processus perturbs par des bruits de variances diffrentes : var{w(t)} = {10-4; 10-2; 10-1; 1; 10}. Le domaine de fonctionnement global auquel nous nous intressons correspond des amplitudes de la commande u variant dans le domaine [-10, +10]. Pour plusieurs valeurs de Uo, une tude rapide est effectue pour dterminer une valeur satisfaisante de Duo. Pour Uo=0, on se limite une valeur maximale de Du=0,1. En dehors de ce point particulier, un bon compromis est Du=1,0. Ce choix permet de se limiter 13 tudes locales correspondant aux valeurs de Uo suivantes : Uo{-10; -8; -6; -4; -2; -1; 0; 1; 2; 4; 6; 8; 10}. En chacun de ces points, nous choisissons un modle affine par rapport aux rgresseurs {yp(t1), , yp(tny), u(t1), u(tnu)}, avec 201 rgresseurs (ny=nu=100, une entre constante). Lentre constante est classe, et ventuellement slectionne, au mme titre que les autres. On simule le processus sur une squence dentre-sortie de 1100 chantillons. Les 100 premires observations de yp(t) et u(t) ne sont pas prises en considration dans lensemble dapprentissage, mais sont utilises pour initialiser le modle. Ainsi, la taille de lensemble dapprentissage est N=1000. V.2.3.1. Comparaison des procdures MCU et MCM Nous avons compar deux procdures de slection, la procdure MCU (le mme modle complet est utilis pour tous les tests), et la procdure MCM (lorsquun sous-modle du modle complet est accept, il est choisi comme nouveau modle complet). Dans ces deux procdures, (cf. paragraphe IV.3.2.5), nous procdons une prslection des 201 rgresseurs du modle de dpart, 74

laide dun pseudo-test LDRT 5%. On obtient une premire liste restreinte de rgresseurs qui dfinit le modle complet. On applique alors lune ou lautre des deux mthodes de slection. Uo 10,0 8,0 6,0 4,0 2,0 1,0 0,0 1,0 2,0 4,0 6,0 8,0 10,0 Total Procdure MCM (1)
(1)

Procdure MCU (1)+ (2)


(2)

= y1, y2, u1, y10

= u15, u72, u62, u24, u100, y14, u22 y52, y79 y93, y100, u11, u6

y2, y1, u1, u73, u61, u77 y3, y2, y1, u1, u84 y3, y2, y1, u1 y3, y1, y2, u1, u97, u26 y1, y2, y48, u65 y1, u1 y1, y2, u60 y1, y2, u1, u78, u27 y3, y1, y2, u1, u30 y3, y1, y2, u1 y1, y2, u1, y5 y1, y2, u1, u100 yp(t1), yp(t2), u(t1) + 16 rgresseurs Tableau V.1

y42, u24, y79, u11, u47, u26, y12 u16, y90, u43, y59, u100, u22 u45, y79, u1, u99, u42 u79, u5 u1, y93, y9, y26, u82, u29, y51, y65, u65 y62, y70, u96, u60, u86, y3, u69 y92, y37, u13, u48, u87 u35, y69, u44 u8, u35, u98, y99, u24, u3, y77 u7, u30, u82, u39, u23, u59 + 50 rgresseurs

Nous prsentons les rsultats obtenus pour un processus perturb par un bruit de variance var(w)10-2 dans le tableau V.1. Pour faciliter sa lecture du tableau, nous avons not yi le rgresseur yp(ti), et uj le rgresseur u(tj). La valeur de Uo est indique dans la premire colonne, les procdure MCM apparaissant dans la seconde procdure MCU sont les rgresseurs de sajoutent ceux de la troisime colonne. Les processus simul (V.1) sont indiqus en gras. rgresseurs slectionns avec la colonne, ceux slectionns avec la la deuxime colonne auxquelles arguments de la fonction j(.) du

On constate que les modles slectionns laide de la procdure MCU sont beaucoup plus complexes que ceux slectionns avec la procdure MCM : outre les trois rgresseurs qui sont des arguments de j(.), 16 rgresseurs sont conservs avec la procdure modles complets multiples, et 70 environ avec la procdure

75

modle complet unique, ce qui est beaucoup trop pour envisager de passer la seconde phase de la slection. Notons que ces rsultats illustrent le point soulign dans le chapitre III (III.3.5. et III.4.2.2.) : lorsque lon slectionne un modle dans un ensemble, la faon dont on explore cet ensemble influe sur le choix du modle slectionn. Ces deux procdures de slection de modles, fondes sur le mme test dhypothse, avec le mme risque, conduisent la slection de modles trs diffrents. Dautre part, nous utilisons pour modliser le comportement du processus des modles complets linaires. Or, le processus ntant pas parfaitement linaire dans chacun des domaines tudis, lEQMA obtenue avec les diffrents modles complets ne dpend pas seulement de la variance du bruit, mais galement de lerreur dterministe rsultant de la modlisation imparfaite du processus, ce qui perturbe les rsultats des tests dhypothses. Ces rsultats sont assez caractristiques de ce que lon observe pour dautres niveaux de bruit, et sur dautres processus simuls que le processus P1. Nous nutiliserons plus pour la premire phase que la procdure MCM. V.2.3.2. Modification de la procdure de slection. A chaque slection, pour une valeur particulire de Uo, des rgresseurs n o n pertinents sont slectionns (cf. Tableau V.1). Si lon garde tous les rgresseurs slectionns dans chaque domaine local, le nombre des rgresseurs conservs la fin de la premire phase est trop important, et lutilit de cette premire partie de la procdure de slection devient alors minime. Cependant, si lon effectue plusieurs slections avec des ensembles dapprentissage diffrents, les rgresseurs slectionns dune exprience lautre sont gnralement trs diffrents. Nous allons donc distinguer les rgresseurs dont la slection est reproductible sur plusieurs expriences de ceux qui sont slectionns de faon alatoire, en fonction de ralisations particulires des variables alatoires W et Yp. Nous proposons dutiliser, pour chaque point de fonctionnement, plusieurs ensembles dapprentissage, et deffectuer, pour chacun deux, une slection des rgresseurs. Les rgresseurs slectionns dans deux expriences, ou plus, sont conservs, les autres sont rejets. V.2.3.3. Rsultats Pour chacun des treize domaines locaux de fonctionnement choisis, o n procde la slection des rgresseurs du modle en utilisant trois ensembles dapprentissage diffrents, et lon conserve ceux qui sont slectionns au moins deux fois sur trois. Pour chaque slection, on effectue une prslection des rgresseurs laide dun test LDRT 5%. La slection des rgresseurs se fait 76

ensuite avec une procdure MCM, les modles tant compars laide dun test LDRT. Deux valeurs du risque ont t utilises, 1% et 1. Les simulations ont t effectues avec des niveaux de bruit dont la variance varie de 104 10. Le modle complet possde 200 entres, plus une entre constante (ny=100, nu=100). Les rsultats obtenus sont prsents dans les tableaux V.2 et V.3. Les variables marques dun astrisque correspondent aux rgresseurs slectionnes deux fois sur trois seulement. Var(w)=10-2 Uo = 10 8 6 4 2 1 0 1 2 4 6 8 10 Total Tests 1 (1) (1) = y1, y2, u1 y1, y2, u1 y1, y2, y3, u1 y1, y2, y3, u1, u2 y1, y2, y3, u1, u2 y1, y2, u1 y1, y2, u1 y1, y2, u1 y1, y2, u1 y1, y2, y3, u1, u2 y1, y2, y3, u1, u2 y1, y2, u1 y1, y2, u1 yp(t1), yp(t2), yp(t3) u(t1), u(t2) Tableau V.2 Slections des rgresseurs de modles locaux, pour var(w)=0,01 Nous pouvons faire les remarques suivantes : deux rgresseurs, yp(t3) et u(t2), qui napparaissent pas dans lexpression du processus P1, sont slectionns de faon presque systmatique, et pour plusieurs points de fonctionnements (Tableau V.2). Or, si lon revient une interprtation gomtrique, on peut remarquer que le vecteur y3 est presque colinaire aux vecteurs y1, y2, tandis que u2 est trs proche de u1. La slection de ces deux rgresseurs est donc peu surprenante, et permet de compenser en partie linsuffisance du modle linaire; en revanche, les rgresseurs yp(t52), yp(t49), yp(t6) ne sont slectionnes que pour une seule valeur de Uo, et dans deux essais sur trois seulement (ces 77 Tests 1% (1)+ (2) (2) = {} {} {} {} {} {} {} {} {} {} {} {} {} {}

dtails des rsultats napparaissent pas dans le tableau V.3). Lutilisation dautres ensembles dapprentissage conduit la slection de rgresseurs diffrents. La slection rpte de ces rgresseurs est donc une simple concidence. Nanmoins, ce phnomne reste assez limit, et lon peut esprer que ces rgresseurs seront limins lors de la seconde phase; les rsultats obtenus avec des risques de 1 et 1% sont trs proches. Var(w) 10-4 10-2 10-1 1,0 Tests 1 (1) yp(t1), yp(t2), yp(t3) u(t1), u(t2) yp(t1), yp(t2), yp(t3) u(t1), u(t2) yp(t1), yp(t2), yp(t3) u(t1), u(t2)* yp(t1), yp(t2), yp(t3) u(t1) 10,0 yp(t1), yp(t2), yp(t3) yp(t6)*, u(t1) Tests 1% (1)+ (2) yp(t52)* {} yp(t49)* {} {}

Tableau V.3 Rgresseurs slectionns (total) pour des simulations avec diffrents niveaux de bruit Lamlioration des rsultats est trs satisfaisante. Les rgresseurs conservs e n chaque point sont beaucoup moins nombreux et les arguments de j(.), {yp(t1), yp(t2), u(t1)}, sont slectionns pour toutes les simulations. V.2.4. Rsultats obtenus avec dautres processus Nous avons test cette procdure sur trois autres processus. Nous prsentons rapidement ici les processus simuls et les rsultats obtenus. V.2.4.1. Prsentation des processus * Processus P2 Le deuxime exemple choisi est un processus non linaire du premier ordre, propos par O. Nerrand [Nerrand 92a], et simul laide de lquation suivante : c + d yp(t1) T yp(t) = [1 a + b y (t-1) ] yp(t1) + [ T a + b y (t1) ] u(t1) + w(t) p p avec : a = 0,139, b = 1,20, c = 5,633, d = 0,326 78 (V.4)

* Processus P3 Ce processus et le suivant ont t proposs par Narendra et Parthasarathy [Narendra 90]. Lquation de simulation du processus P3 est : yp(t) = yp(t1) yp(t2) yp(t3) u(t2) (yp(t3) 1) + u(t1) + w(t)(V.5) (1 + yp(t2)2 + yp(t3)2)

Il est stable pour des commandes variant entre 1,12 et +1,12. Nous nous limiterons donc des valeurs de la commande appartenant [1, +1]. * Processus P4 Lexpression de lquation de simulation du processus non linaire P4 est : yp(t) = 5 yp(t1) yp(t2) + u(t1) + 0.8 u(t2) + w(t) (V.6) 1 + yp(t1)2 + yp(t2)2 + yp(t3)2

Ce processus est tudi pour des valeurs de la commande variant dans le domaine [10, 10]. V.2.4.2. Rsultats * Processus P2 (Tableau V.4) Comme dans le cas du processus P1, trois ensembles dapprentissage sont utiliss pour chaque domaine local. Nous avons choisi les points de fonctionnement {0; 1; 2; 4; 6; 8; 10}. Le modle de dpart possde 201 entres (nu=ny=100), la taille de chaque ensemble dapprentissage est N=1000. Les rsultats obtenus sont tout fait satisfaisants. Var(w) 10-4 (Du=0,1) 10-2 (Du=1) 10-1 (Du=10) 1 (Du=10) Tests 1
(1)

Tests 1% (1)+ (2) yp(t14)*, yp(t46)* {} {} {}

yp(t1), u(t1), yp(t42)* yp(t1), u(t1) yp(t1), u(t1) yp(t1), u(t1) Tableau V.4

79

* Processus P3 (Tableau V.5) Comme nous lavons dj dit, ce processus devient instable pour |u|1,12, o u pour un bruit w trop important : nous avons donc choisi comme ensemble de valeurs de Uo {0,9; 0,8; 0,6; 0,4; 0,2; 0,0; 0,2; 0,4; 0,6; 0,8; 0,9}, et Du=0,1. Nous avons effectu des simulations avec deux niveaux de bruit : var(w) = 10-4 et 10-2. Les rsultats sont prsents dans le tableau V.5. Var(w) 10-4 (Du=1) 10-2 (Du=1) Tests 1
(1)

Tests 1% (1)+ (2) {} {}

yp(t1), yp(t2), yp(t3) u(t1), u(t2) yp(t1), yp(t2), yp(t3) u(t1), u(t2) Tableau V.5

* Processus P4 (Tableau V.6) Nous avons choisi dtudier le processus pour des commandes variant dans le domaine [10, +10]. Lensemble des valeurs de Uo est {10; 8; 6; 4; 2; 0; 2; 4; 6; 8; 10}. Var(w) 10-4 (Du=1) Tests 1
(1)

Tests 1% (1)+ (2) yp(t5)

yp(t1), yp(t2), yp(t3), yp(t4), yp(t5)*, yp(t6) u(t1), u(t2), u(t3), u(t4), u(t5)

10-2 (Du=1)

yp(t1), yp(t2), yp(t3), yp(t4), yp(t5), yp(t83)* u(t1), u(t2), u(t3), u(t4), u(t5)

yp(t43)*

10-1 (Du=1)

yp(t1), yp(t2), yp(t3), yp(t4), u(t1), u(t2), u(t3), u(t4)

{}

1 (Du=1) 10 (Du=1)

yp(t1), yp(t2), yp(t3), u(t1), u(t2) yp(t1), yp(t2), yp(t3)*, u(t1), u(t2) Tableau V.6 80

yp(t4)* {}

* Conclusions Deux conclusions apparaissent lanalyse des rsultats obtenus sur les quatre processus tudis : lorsque le niveau de bruit est lev et perturbe fortement le processus, le modle slectionn est gnralement plus simple que lorsque la variance de la perturbation w est faible ou nulle; dans tous les exemples que nous avons prsents, les arguments des fonctions simulant les processus sont toujours slectionns. Dans tous les cas, nous avons considr 201 rgresseurs candidats, une dizaine dentre eux au maximum est finalement conserv. Il est maintenant tout fait envisageable de passer la deuxime phase, et dutiliser, comme modle global du processus, un modle neuronal, mieux adapt que des modles linaires ou polynomiaux la modlisation de processus non linaires.

V.3. Deuxime phase : slection des entres dun modle non linaire global
Dans la premire phase, la liste des rgresseurs susceptibles dtre utiliss comme entres dun modle neuronal du processus a t rduite de faon importante. Cependant, tous les rgresseurs slectionns ne sont pas toujours utiles. Nous allons donc construire un modle non linaire global, dont les entres sont les rgresseurs slectionns lors de la premire phase, puis effectuer une nouvelle slection des rgresseurs, comme nous lavons dcrit dans le chapitre IV. V.3.1. Rsultats obtenus avec le processus de rfrence P1 Nous prsentons ici les rsultats obtenus avec un processus perturb par u n bruit de variance var(w(t))=10-2. Les rgresseurs slectionns lors de la premire phase sont {yp(t1), yp(t2), yp(t3), u(t1), u(t2)}. Nous utilisons un ensemble dapprentissage de N=1000 points, correspondant la rponse du processus une squence de crneaux damplitude variant entre 10 et 10 (Figure V.4), et qui fait bien fait apparatre le comportement non linaire global du processus.

81

15,0 10,0 5,0 0,0 100 -5,0 -10,0 t 1000

Figure V.4 Squence dapprentissage (var(w(t))0,1) La figure V.5 reprsente la squence de validation, obtenue pour des conditions de fonctionnement du processus similaires celles utilises pour construire lensemble dapprentissage.
20,0 15,0 10,0 5,0 0,0 200 -5,0 -10,0 500 t 1000

Figure V.5 Squence de test (var(w(t))0,1) V.3.1.1. Critre darrt de lapprentissage Pour choisir un critre darrt, nous avons tudi la sensibilit de lapprentissage par rapport aux conditions initiales et aux paramtres de lalgorithme dapprentissage. Dans tous les cas, on effectue dabord quelques centaines ditrations du gradient simple, puis on utilise une mthode de quasinewton (la mthode BFGS, avec optimisation du pas par la mthode de Wolfe et Powell [Minoux 83]). Il apparat que l'apprentissage est trs sensible aux conditions initiales : pour deux initialisations lgrement diffrentes des coefficients dun modle, lalgorithme peut converger vers des minima locaux tels que le rapport des 82

EQMA soit dans un rapport suprieur 10; dans le mme temps, pour la plupart des apprentissages, la valeur de lEQMA aprs quelques centaines ditrations est trs proche de la valeur de lEQMA la convergence (les variations sont souvent infrieures 1%). Nous avons donc choisi de limiter le nombre ditrations 2000, le gradient simple tant utilis pendant les 300 premires itrations. Lestimation obtenue est parfois un peu diffrente de la valeur obtenue la convergence, mais ce choix permet de multiplier les apprentissages, et donc les chances de trouver un bon minimum. De plus, si on le juge ncessaire, lapprentissage dun modle particulirement intressant peut tre poursuivi jusqu son terme. V.3.1.2. Choix du modle complet Les entres du modle complet sont les rgresseurs slectionns lors de la premire phase. Ltude des EQMA et EQMV obtenues avec des modles de complexits diffrentes (2, 3, 5, 8 et 10 neurones cachs) nous a conduit choisir un rseau de neurones compltement connect possdant 11 neurones (10 neurones cachs sigmode, et un neurone de sortie linaire). Ce modle comporte donc 121 coefficients. Aprs apprentissage, lEQMA obtenue avec ce modle est 9,32.10-3, et l'EQMV est 8,12.10-2. Le rapport entre EQMV et EQMA est de lordre de 10, on peut donc supposer quil y a surajustement lors de lapprentissage du modle, et que celui-ci est plus complexe quil nest ncessaire. Nanmoins, cela est peu gnant tant que ce surajustement est peu important, et nous conserverons ce modle comme modle complet. V.3.1.3. Slection des rgresseurs du modle Plusieurs mthodes de slection ont t utilises dans cette deuxime phase : une procdure de slection modle complet unique (MCU) utilisant un test LDRT 1%, une procdure de slection modles complets multiples (MCM) utilisant u n test LDRT 1%, une mthode de slection laide dun critre AIC modifi, pour lequel la valeur k(1) est choisie gale 4 : ^ ^ AIC4 = 2 N ln(J( q )) + k(1) dim(q) = 2 N ln(J( q )) + 4 dim(q) Avec lensemble dapprentissage que nous avons choisi (Figure V.4), ces trois mthodes conduisent la slection du modle dont les rgresseur sont {yp(t1), yp(t-2), u(t-1)}, cest--dire les arguments qui interviennent dans la dfinition du processus P1 (Figure V.6). 83

Modle complet yp(t-1), yp(t-2), yp (t-3), u(t-1), u(t-2)


EQMA = 9,32.10-3

yp (t-1), yp(t-2), yp(t-3), u(t-1)


EQMA = 9,56.10-3

yp (t-1), yp(t-2), yp(t-3), u(t-2)


EQMA = 1,84.10-1

yp (t-1), yp(t-2), u(t-1), u(t-2)


EQMA = 9,68.10-3

yp (t-1), yp(t-3), u(t-1), u(t-2)


EQMA = 1,70.10-2

yp(t-2), yp (t-3), u(t-1), u(t-2)


EQMA = 1,57.10-2

non rejet

rejet

non rejet

rejet

rejet

y p(t-1), yp(t-2), y p(t-3)


EQMA = 1,52.10-1

yp(t-1), yp (t-2), u(t-1)


EQMA = 9,79.10-3

yp(t-1), yp (t-3), u(t-1)


EQMA = 2,99.10-3

yp (t-2), yp(t-3), u(t-1)


EQMA = 5,98.10-3

rejet

non rejet

rejet

rejet

y p(t-1), yp(t-2)
EQMA = 3,59.10-1

y p(t-1), u(t-1)
EQMA = 2,82.10-1

yp (t-2), u(t-1)
EQMA = 2,44.10-1

rejet

rejet

rejet

Figure V.6 Slection des rgresseurs dun modle neuronal du processus P1 laide dun test LDRT On a donc ainsi limin les rgresseurs non pertinents, yp(t3) et u(t2), et obtenu un modle moins complexe que le modle complet initial (il ne comporte que 99 paramtres). Les performances de ces deux modles sont tout fait comparables sur lensemble dapprentissage : modle 5 rgresseurs : EQMA(5) = 9,32.10-3, modle 3 rgresseurs : EQMA(3) = 9,79.10-3, ^ var(w(t)) = 10,8.10-3.

^ o var(w(t)) est l'estimation de la variance du bruit sur l'ensemble d'apprentissage. Sur lensemble de validation, lEQMV obtenue avec le modle 3 rgresseurs est lgrement meilleure celle obtenue avec le modle complet. Elle reste cependant assez suprieure lEQMA : EQMV(5) = 8,12.10-2, EQMV(3) = 6,42.10-2, ^ var(w(t)) = 9,84.10-3. 84

Neuf autres ensembles dapprentissage, de mme taille que le premier ensemble ont t utiliss. Ils correspondent un fonctionnement du processus analogue : les squences de commande sont constitues d'autres suites de crneaux damplitude variant entre 10 et +10, et la variance du bruit est de 10-2. Les rsultats sont prsents dans le tableau V.7. y1, y2, u1 MCU (1%) MCM (1%) AIC4 7 6 8 Tableau V.7 On constate que, dans la majorit des cas, les trois mthodes conduisent la slection dun modle dont les rgresseurs sont les arguments {yp(t1), yp(t2), u(t1)}. Dans tous les cas, ces arguments sont prsents dans les modles slectionns. Cependant, certaines slections conduisent des modles plus complexes quil nest ncessaire : suivant les mthodes, 2 4 des 10 slections conduisent un modle sur-dimensionn. V.3.1.4. Modification de la procdure Il existe, dans toute mthode statistique de slection de modle, un risque de choisir un modle incorrect qui est inhrent la mthode. Ce risque est fix 1% pour les tests dhypothse, et la mthode AIC4 est asymptotiquement quivalente une slection laide de tests dhypothse avec un risque infrieur 2%. Dautre part, les proprits des tests dhypothse et des mthodes de slection de type Akaike, que nous avons prsentes dans les chapitres prcdents, sont des rsultats asymptotiques, qui reposent donc sur lhypothse que lensemble dapprentissage est de taille infinie, alors que les ensembles dapprentissage qui sont utiliss dans toute procdure de slection de modles sont, videmment, de taille finie. Cependant, ces considrations ne peuvent expliquer elles seules les checs que nous observons, et il est ncessaire de prendre en considration, dune part, le choix darrt de lalgorithme dapprentissage, dautre part, lexistence de minima locaux et les problmes de convergence des algorithmes itratifs. Ainsi, on peut obtenir, suivant les alas des apprentissages, un modle pour lequel lEQMA est suprieure lEQMA obtenue avec lun de ses sous-modles : lutilisation de mthodes statistiques pour choisir lun de ces deux modles est 85 y1, y2, y3, u1 1 2 2 y1, y2, y3, u1, u2 2 2 0

alors inutile; inversement, lapprentissage dun modle est parfois particulirement bon, la valeur de lEQMA que lon obtient est alors trs infrieure celle obtenue avec un sous-modle qui possde thoriquement une structure suffisamment complexe, mais dont lapprentissage a converg trop lentement, ou vers un minimum local. Le sous-modle est alors rejet tort. Afin damliorer les performances de la procdure de slection, nous proposons plusieurs modifications motives par les constations suivantes : * Pour tous les processus tudis, les tests rejettent toujours les modles, auxquels manque un rgresseur important, et les seuls checs de la procdure concernent la slection de modles sur-dimensionns. Nous proposons donc dutiliser des mthodes correspondant des risques faibles, qui favorisent la slection de modles peu complexes. Pour cela, nous avons utilis une mthode de type Akaike, avec une valeur de k(1)=8. On obtient alors une nette amlioration des rsultats, puisque toutes les slections conduisent au choix du modle ayant comme rgresseurs {yp(t1), yp(t2), u(t1)} (Tableau V.8). y1, y2, u1 AIC4 AIC8 8 10 Tableau V.8 Le choix entre les mthodes utilisant des tests dhypothses et les mthodes de type Akaike nest pas dterminant, puisque dans les deux cas, il est possible de moduler le comportement des mthodes, ceci laide dun seul paramtre (le risque pour les tests statistiques, la valeur de k(1) pour les mthodes dAkaike). Nous pourrions utiliser un test LDRT avec un risque plus faible pour obtenir les mmes rsultats. Les mthodes de type AIC sont cependant particulirement simples rgler, car le choix de la valeur k(1) est simple; on choisit habituellement une valeur comprise entre 4 et 8, les grandes valeurs favorisant la slection de modles de faible complexit. * Les apprentissages sont trs sensibles aux conditions initiales, et il est donc souhaitable deffectuer plusieurs apprentissages avec des conditions initiales diffrentes pour chaque structure de modles. On obtient ainsi plusieurs modles de structures identiques, mais dont les coefficients, et les performances, diffrent. Nous avons test deux procdures diffrentes partir de cette ide : on garde, pour chaque structure, le jeu de paramtres du modle avec lequel lEQMA est minimale. La slection seffectue alors sur cet ensemble des 86 y1, y2, y3, u1 2 0

meilleurs modles. Le Tableau V.9 prsente les rsultats, peu satisfaisants, obtenus lorsque l'on effectue trois apprentissages de chaque structure. y1, y2, u1 MCU (1%) MCM (1%) AIC4 AIC8 8 5 9 10 y1, y2, u1, u2 1 1 0 0 Tableau V.9 on effectue plusieurs slections en changeant les conditions initiales. On slectionne ainsi plusieurs modles, et l'on conserve celui dont la complexit est la plus faible. Si plusieurs modles de complexit quivalente, mais dont les rgresseurs sont diffrents, sont slectionns, on choisit celui avec lequel l'EQMA est la plus faible. Nous avons utilis cette mthode en effectuant trois sries d'apprentissage. On peut constater que cette modification de la procdure conduit une amlioration sensible des rsultats (Tableau V.10). y1, y2, u1 MCU (1%) MCM (1%) AIC4 AIC8 9 9 10 10 Tableau V.10 V.3.2. Conclusion Les mthodes statistiques de slection que nous avons mises en uvre savrent performantes pour slectionner les rgresseurs dun modle neuronal dun processus dynamique non linaire, mme si elles ne conduisent pas systmatiquement la slection du meilleur modle. De plus, les rsultats obtenus peuvent tre amliors par quelques modifications simples de la procdure propose dans le chapitre IV, qui prennent en considration les problmes classiques dapprentissage des modles neuronaux. Nanmoins, elles ne permettent en aucun cas de saffranchir compltement de ces problmes : le choix dun ensemble dapprentissage, et, dautre part, la conception dalgorithmes dapprentissage qui permettent de converger, de faon systmatique et en u n temps limit, vers le minimum global, sont des problmes part entire. 87 y1, y2, y3, u1 1 1 0 0 y1, y2, y3, u1 0 3 1 0 y1, y2, y3, u1, u2 1 1 0 0

Il faut par ailleurs souligner que pour un processus rel, qui n'est jamais parfaitement dcrit par un modle mathmatique, il n'existe pas d'ensemble de rgresseurs "exacts", mais des variables qui, dans le domaine de fonctionnement auquel on s'intresse, ont une action importante et permettent de construire une reprsentation du processus satisfaisante. Ce sont ces variables importantes que lon cherche dterminer.

V.4. Troisime phase : slection du nombre de neurones du modle


La liste des rgresseurs du modle tant dtermine lors de la seconde phase, la troisime phase consiste chercher le nombre minimal de neurones permettant dobtenir une approximation satisfaisante de la fonction non linaire j. Remarquons quil nexiste pas de solution exacte en ce qui concerne le nombre de neurones que doit comporter le modle neuronal, puisque le modle neuronal ne ralise quune approximation de j, qui ne peut gnralement pas sexprimer de faon exacte laide dun rseau de neurones sigmodes. V.4.1. Rsultats obtenus avec le processus de rfrence P1 Nous supposerons que, lors de la seconde phase, on a slectionn les rgresseurs {yp(t1), yp(t2), u(t1)}. On utilise les mmes ensembles dapprentissage que prcdemment. Malgr la suppression de deux rgresseurs (soit 22 paramtres), la comparaison de lEQMA et lEQMV du modle obtenu la fin de la phase deux (3 rgresseurs et une entre constante, 10 neurones cachs), montre que celui-ci est suffisamment complexe pour tre conserv comme modle complet. Lensemble des modles sur lequel seffectue la slection lors de cette troisime phase est assez restreint, puisque le nombre de modles quil contient est gal au nombre de neurones du modle complet (soit nn=11 le nombre de neurones du modle complet, on considre les modles possdant les mmes rgresseurs et u n nombre de neurones variant entre nn1 et 1). Il est alors raisonnable de prendre en considration, ds le dbut de la procdure de slection, lensemble de ces modles. Quatre mthodes ont t utilise pour effectuer la slection dun modle : MCU (1%), MCM (1%), AIC4 et AIC8. Pour juger de leur efficacit, nous avons, construit un ensemble de donnes de trs grande taille (N=100000, var(w)) = 10-2). Cet ensemble nous permet destimer de faon assez prcise la variance de lerreur de prdiction obtenue avec un modle particulier, et ainsi de juger ses performances. Il ne doit pas tre confondu avec lensemble de validation, et nest

88

pas utilis dans la procdure de slection. On note EQME (EQM Estime) lestimation de la variance de lerreur calcule avec cet ensemble. MCU(1%) E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 7 10 10 8 9 10 8 10 8 8
EQME

MCM(1%) 7 10 10 7 9 10 8 10 8 8 Tableau V.11

EQME

Meilleur EQME

2,61 10-2 6,69 10-2 3,95 10-2 4,26 10-2 4,23 10-2 3,35 10-2 1,51 10-2 6,36 10-2 6,76 10-2 2,31 10-2

2,61 10-2 6,69 10-2 3,95 10-2 2,22 10-2 4,23 10-2 3,35 10-2 1,51 10-2 6,36 10-2 6,76 10-2 2,31 10-2

5 5 9 5 3 3 4 4 3 3

1,24 10-2 1,12 10-2 1,60 10-2 1,74 10-2 1,18 10-2 1,32 10-2 1,27 10-2 1,29 10-2 1,48 10-2 1,14 10-2

Les rsultats des slections de modles laide des mthodes MCU et MCM, (avec un test LDRT 1%), sont prsents dans le tableau V.11 pour 10 ensembles d'apprentissage diffrents. La premire colonne indique quel ensemble dapprentissage est utilis; la deuxime et la troisime colonnes, le nombre de neurones cachs et lEQME du modle slectionn par les mthodes MCU et MCM; la dernire colonne indique le nombre de neurones du modle pour lequel lEQME est la plus faible, et la valeur de cette EQME. Les rsultats obtenus avec les deux mthodes sont quasiment identiques, et assez peu satisfaisants : pour chaque ensemble dapprentissage, lEQME obtenue avec les modles slectionns est sensiblement suprieure la variance du bruit, et l'on constate surtout quil existe des modles de complexit moindre qui permettent dobtenir une EQME bien plus proche de la variance du bruit. Les rsultats obtenus avec un test LDRT 1 sont peu diffrents de ceux prsents dans le tableau V.11. On peut videmment optimiser la valeur du risque pour obtenir des rsultats plus satisfaisants, mais cette dmarche ne peut tre faite dans le cadre de ltude dun processus rel, o lon ne connat pas la variance du bruit.

89

AIC4 E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 5 5 4 5 3 3 4 4 4 3

EQMV/EQME

AIC8 5 5 4 5 3 3 4 4 3 3

EQMV/EQME

Meilleur EQME

2,85 10-2

/ 1,24 10-2

2,85 10-2

/ 1,24 10-2

5 5 9 5 3 3 4 4 3 3
1,60 10-2

1,22 10-2 / 1,12 10-2 9,07 10-1 / 1,92

1,22 10-2 / 1,12 10-2 9,07 10-1 / 1,92

5,34 10-2 / 1,76 10-2 1,41 10-2 / 1,18 10-2 1,58 10-2 / 1,32 10-2 1,15 10-2 / 1,27 10-2 1,43 10-2 / 1,29 10-2 1,53 10-2 / 1,48 10-2 1,44 10-2 / 1,14 10-2

5,34 10-2 / 1,76 10-2 1,41 10-2 / 1,18 10-2 1,58 10-2 / 1,32 10-2 1,15 10-2 / 1,27 10-2 1,43 10-2 / 1,29 10-2 1,06 10-2 / 1,05 10-2 1,44 10-2 / 1,14 10-2

Tableau V.12 Le tableau V.12 prsente les rsultats obtenus lorsque lon utilise les critres AIC4 et AIC8. Aux informations prsentes dans les colonnes 2 et 3 du tableau V.11 (nombre de neurones cachs et EQME du modle slectionn), nous avons ajout la valeur de lEQMV (lensemble de validation est le mme que dans la deuxime phase, figure V.7). Ces rsultats sont trs satisfaisants : lexception de la slection correspondant lensemble dapprentissage E3, les modles slectionns avec AIC8 sont ceux avec lesquels lEQME est minimale, et le plus souvent trs proche de la variance du bruit. Les rsultats obtenus avec le critre AIC4 sont identiques pour 9 des 10 ensembles dapprentissage (pour lensemble E9 cependant, le critre AIC4 conduit la slection du modle 4 neurones cachs, le critre AIC8 la slection du modle possdant 3 neurones cachs, qui est le meilleur des deux). Les valeurs des EQMV sont galement trs proches de la variance du bruit (qui varie, suivant les ensembles dapprentissages, de 9,6.10-3 1,02.10-2). En ce qui concerne le modle slectionn pour lensemble dapprentissage E3, lEQMV et lEQME sont environ 100 200 fois suprieures lEQMA : lapprentissage a visiblement converg vers un minimum local, et il a u n surajustement trs important. Dans un tel cas, le modle slectionn ne peut tre accept, et un nouvel apprentissage doit tre effectu. De plus, lorsque lon boucle ce modle et quon le commande avec la squence utilise pour construire lensemble de validation, on constate quil est instable. Lorsquon lon boucle les 90

modles slectionns pour les autres ensembles dapprentissage, lEQM sur lensemble de donnes de grande taille varie de 1.10-2 5.10-2 environ, ce qui est trs satisfaisant si lon considre que lapprentissage est fait avec les modles n o n boucls. Les mthodes de slection fondes sur les critres AIC4 et AIC8 sont des outils performants pour la recherche, dans un ensemble de modles, du modle qui ralise le meilleur compromis entre performance et parcimonie. Cependant, lobjectif de cette troisime phase est de trouver la structure la mieux adapte pour modliser le processus que lon tudie, dans un domaine de fonctionnement donn. Or, on constate dans le tableau V.12 que les structures choisies sont de complexit diffrentes (de 3 5 neurones cachs, soit respectivement 22 et 39 paramtres) suivant lensemble dapprentissage que lon considre. Deux facteurs entrent en jeu : - suivant la squence de commande que lon applique au processus et la ralisation particulire du bruit, tous les ensembles dapprentissage ne sont pas identiquement reprsentatifs du processus : certaines zones de fonctionnement peuvent tre explores plus que dautres, et la structure optimale nest pas de complexit identique suivant lensemble dapprentissage qui est utilis. Notons que la complexit dun modle varie galement en fonction de la variance du bruit qui perturbe le processus : plus elle est importante, plus le modle slectionn est simple. Dans le cas qui nous concerne, les variations de la variance du bruit dun ensemble dapprentissage lautre sont peu importantes, et ne semblent pas influer sur la complexit du modle choisi; - lapprentissage converge quelquefois vers un minimum local, ou est stopp prmaturment cause du critre darrt que l'on utilise. Comme lors de la seconde phase, plusieurs apprentissages de chaque structure concurrente sont effectus pour chaque ensemble dapprentissage. Lorsquun modle est instable, il est limin, et un nouvel apprentissage est effectu. Les mmes mthodes que dans la phase prcdente sont utilises pour choisir u n modle : - on construit un ensemble de modles en choisissant, pour chaque structure que lon considre, le modle pour lequel lEQMA est minimale; on slectionne alors un modle dans cet ensemble; - on effectue plusieurs slections, et lon conserve, parmi les modles slectionns, celui dont la structure est la moins complexe.

91

AIC4 E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 4 3 3 4 3 3 4 3 4 3

EQME

AIC8 4 3 3 4 3 3 4 3 3 3 Tableau V.13

EQME

Meilleur EQME

1,20 10-2 1,09 10-2 1,16 10-2 1,74 10-2 1,18 10-2 1,32 10-2 1,27 10-2 1,13 10-2 1,48 10-2 1,14 10-2

1,20 10-2 1,09 10-2 1,16 10-2 1,74 10-2 1,18 10-2 1,32 10-2 1,27 10-2 1,13 10-2 1,05 10-2 1,14 10-2

4 3 3 4 3 3 5 4 3 3
1,18 10-2 1,07 10-2

Pour la srie d'apprentissages que nous avons effectus, les rsultats sont identiques avec les deux mthodes (Tableau V.13). Dans la majorit des cas, les modles slectionns sont ceux pour lequel lEQME est minimale, et dans tous les cas, lEQME est trs proche de lEQMA, qui est par ailleurs une excellente estimation de la variance du bruit sur lensemble dapprentissage. De plus, il n'apparat plus que des modles contenant 3 ou 4 neurones cachs : e n multipliant les apprentissages, on minimise l'effet des minima locaux et des problmes de convergence, et l'on slectionne de moins en moins souvent des modles sur-dimensionns (pour un grand nombre d'apprentissages, on n e slectionne plus que des modles 3 neurones cachs). Lorsque la structure du modle est ainsi dtermine, on peut alors effectuer de nombreux apprentissages, sans restriction sur le nombre ditrations et sans critre darrt particulier, ceci afin de converger vers le minimum global, et de dterminer le meilleur jeu de coefficients. De plus, on peut encore chercher optimiser la structure du modle en supprimant les coefficients qui ne sont pas utiles, en utilisant par exemple la mthode OBD [Le Cun 90].

92

V.5. Conclusion
Dans ce chapitre, nous avons mis en uvre la procdure de slection de modles propose dans le chapitre IV sur diffrents processus simuls analytiquement. Nous nous sommes heurts certaines difficults lors de cette mise en uvre, qui tiennent essentiellement deux facteurs : lutilisation densembles dapprentissage de tailles limites, qui ne sont pas toujours suffisamment reprsentatifs du comportement du processus dans le domaine de fonctionnement que nous avons choisi dtudier, les problmes de convergence vers le minimum global, causs notamment par lexistence de minima locaux, et par les limitations intrinsques (ou imposes par l'utilisateur) des mthodes dapprentissage des rseaux de neurones. Nous avons propos des solutions pragmatiques et simples qui permettent damliorer les performances de la procdure de slection, sans toutefois saffranchir compltement de ces problmes. Ceci est illustr laide dexemples de simulations, qui ont permis de mettre en vidence lintrt des tests dhypothses statistiques pour la slection de modles. Cependant, la procdure que nous avons propose peut tre mise e n uvre de faon diffrente suivante les possibilits daction dont on dispose et les contraintes auxquelles on est soumis. Considrons deux configurations extrmes : dans le premier cas, lexprimentateur a la possibilit de faire de nombreuses expriences sur le processus quil tudie, et peut donc construire autant densembles dapprentissage et de validation quil lui semble ncessaire. Il peut alors effectuer la premire phase en construisant des ensembles dapprentissage correspondant des comportements locaux du processus, et en slectionnant les rgresseurs de modles locaux, linaires par rapport aux paramtres, laide de la procdure propose dans le chapitre IV. Les modles complets choisis lors de cette premire phase pourront tre de trs grande taille, linaires ou polynomiaux. Sils sont polynomiaux, il est alors ncessaire de dfinir une procdure qui limite le nombre de monmes intervenant dans la slection, et permette de slectionner de faon itrative des monmes de degr de plus en plus lev. Pour les deuxime et troisime phases, les mthodes de slection statistiques sont d'autant plus performantes que la taille des ensembles d'apprentissage est grande. De plus, des mthodes de validation croise peuvent tre utilises conjointement aux mthodes statistiques de slection, pour confirmer la 93

slection d'un modle ou, au contraire, l'infirmer. La procdure de slection ne repose alors plus uniquement sur les rsultats des mthodes statistiques. lexprimentateur dispose de peu de donnes, et ne peut en aucun cas procder des expriences correspondant des fonctionnements locaux, non reprsentatifs du comportement classique du processus. On peut supposer, par exemple, quil dispose de suffisamment de donnes pour construire deux ensembles de tailles limites, un ensemble dapprentissage et u n ensemble de validation. Deux dmarches sont alors envisageables. La premire consiste utiliser u n modle polynomial comme modle global du processus dans la premire phase, mais le nombre de paramtres du modle doit rester peu lev devant la taille de l'ensemble d'apprentissage. Il faut alors limiter le nombre des entres du modle et le degr maximum des monmes. La seconde possibilit est de restreindre plus ou moins arbitrairement le nombre des entres du modle, et, sans effectuer la premire phase, de slectionner l'architecture d'un modle neuronal. Les donnes dapprentissage tant peu nombreuses, les mthodes de slection statistiques sont alors des outils performants pour la slection d'un modle qui soit une trs bonne approximation du processus tout en ayant une structure aussi parcimonieuse que possible.

94

95

Conclusion
Le problme de la slection de modles neuronaux est important plusieurs titres : dune part, il est essentiel, pour faciliter limplantation matrielle de ces modles, que ceux-ci soient aussi compacts que possible, en termes de nombres dentres comme de neurones cachs ; dautre part, lobjectif dune modlisation est de trouver le modle qui allie parcimonie et performance (celle-ci refltant la capacit du modle reproduire le comportement du processus, aussi bien sur lensemble dapprentissage que sur des donnes non apprises). On se trouve donc dans une situation o les exigences de performance comme les exigences de facilit dimplantation dirigent le concepteur vers le mme objectif : lobtention de modles parcimonieux. Le problme de la slection de modles linaires constitue un chapitre important des statistiques ; pour les modles non linaires , et notamment pour les rseaux de neurones, ce problme tait encore ouvert : il convenait donc de chercher des mthodes applicables dans ce cadre. Dans ce travail, nous nous sommes attachs la modlisation de processus dynamiques, mais une grande partie des rsultats que nous prsentons peuvent tre appliqus des processus statiques. Nous avons consacr les trois premiers chapitres de ce mmoire la prsentation du problme de la slection de modles de processus dynamiques. Le problme de la modlisation de processus dynamiques est prsent dans le chapitre I, o nous montrons le lien qui existe entre les hypothses sur le comportement du processus, synthtises par le modle, et le systme dapprentissage quil est ncessaire de mettre en uvre. Dans le chapitre II, les mthodes classiques destimation des paramtres des modles linaires et non linaires ont t prsentes. La slection de modles a t aborde dans le chapitre III. Nous avons en particulier prsent plusieurs mthodes de slection classiques, et justifi leur utilisation en montrant leur lien avec la mthode statistique du maximum de vraisemblance. Dans le chapitre IV, une procdure de slection dune classe particulire de modles dynamiques non linaires, les modles NARX, a t propose. Elle a t mise en uvre dans le chapitre V sur des processus simuls. Certaines limitations ont t mises en vidence, et nous avons propos des

96

modifications pragmatiques qui nous permettent de surmonter les difficults rencontres. Le prsent travail entre dans le cadre gnral d'un effort, men au laboratoire depuis plusieurs annes, pour mettre les mthodes dites "neuronales" dans la perspective des mthodes classiques, et pour progresser vers une utilisation optimale des rseaux de neurones dans le cadre de la modlisation de processus dynamiques non linaires. En amont du prsent travail se trouvent : - la constitution de l'ensemble d'apprentissage (lorsque celui-ci n'est pas impos par les donnes disponibles) ; - le choix du type de modlisation : modlisation "bote noire" o u modlisation "bote grise" (modle neuronal de connaissances) ; dans le prsent travail, nous nous sommes placs dans le cadre d'une modlisation "bote noire" ; - le choix de la structure du prdicteur : prdicteur entre-sortie (NARX, NARMAX, Output Error, ...) ou prdicteur d'tat; nous avons trait le cas de modles NARX ; - la mise au point d'algorithmes d'optimisation performants. En aval de cette tude se trouve l'valuation des performances du modle dans le cadre de l'application pour laquelle il est conu, car les exigences de performances peuvent tre trs diffrentes selon que le modle doit tre utilis comme simulateur, comme modle interne dans un systme de commande, etc. Dans cette chane de choix, on voit que de nombreux problmes restent ouverts l'heure actuelle : - l'optimisation de l'ensemble d'apprentissage, - la systmatisation de la modlisation "bote grise", c'est--dire de l'introduction dans le modle des connaissances a priori, exprimes sous forme mathmatique, - l'extension des techniques prsentes dans ce travail d'autres modles que les modles NARX. Le prsent travail reprsente donc un pas important vers la conception d'un gnrateur automatique de modles non linaires - ou simplement vers u n outil d'aide la conception de modles non linaires - bien que de nombreux problmes restent encore ouverts.

97

Bibliographie

[Akaike 69] H. AKAIKE Fitting autoregressive models for prediction Ann. Inst. Stat. Math., vol. 21, pp. 243-347, 1969 [Akaike 74a] H. AKAIKE A new look at the statistical model identification IEEE Transactions on Automatic Control, vol. 19, pp. 716-723, 1974 [Akaike 74b] H. AKAIKE Stochastic theory of minimal realization IEEE Transactions on Automatic Control, vol. 19, pp. 667-674, 1974 [strm 65] K.J. STRM, T. BOHLIN Numerical identification of linear dynamic systems from normal operating records IFAC Symposium on Self-adaptive Systems, Teddington, Engalnd, 1965 [Balakrishnan 68] A.V. BALAKRISHNAN Stochastic system identification techniques dans M.F. KARREMAN (Ed.) Stochastic optimization and control John Wiley, New York, 1968 [Bhansali 77] R.J. BHANSALI, D.Y. DOWNHAM Biometrica, vol. 64, p. 547, 1977 [Billings 85] S.A.BILLINGS, M.B. FADZILL The practical identification of systems with nonlinearities IFAC Identification and System Parameter Estimation 1985, York, UK, 1985.

98

[Billings 88] S.A. BILLINGS, M.J. KORENBERG, S. CHEN Identification of non-linear output-affine systems using orthogonal least-squares algorithm International Journal of Systems Science, vol. 19, 1559-1568, 1988 [Billings 89] S.A. BILLINGS, S. CHEN, M.J. KORENBERG Identification of MIMO nonlinear systems using a forward-regression orthogonal estimator International Journal of Control, vol. 49, 2157-2189, 1989 [Bohlin 78] T. BOHLIN Maximum-power validation without higher order fitting Automatica, vol. 17, pp. 137-146, 1978 [Broyden 70] C.G. BROYDEN The convergence of a class of double-rank minization algorithms 2: the new algorithm Journal Institute of Mathematics and its Applications 6, pp. 222-231, 1970. [Caines 74] P.E. CAINES, J. RISSANEN Maximum likelihood estimation in multivariable gaussian stochastic processes IEEE Transactions on automatic control, vol. 21, pp. 500-505, 1974 [Chen 89a] S. CHEN, S.A. BILLINGS, W. LUO Orthogonal least squares methods and thier application to non-linear system identification International Journal of Control, 1989, vol. 50, no. 5, 1873-1896, 1989 [Cramer 46] H. CRAMER Mathematical method of statistics Princeton University Press, Princeton, N.J., 1946 [Draper 81] N.R. DRAPER, H. SMITH Applied Regression Analysis Wiley, New York, 1981.

99

[Fisher 1912] R.A. FISHER On an absolute criterion for fitting frequency curves Mess. of Math., n 41, p. 155, 1912. [Fisher 1921] R.A. FISHER On the mathematics foundations of theorical statistics Phil. Trans., A-222, 309, 1921 [Fletcher 70] R. FLETCHER A new approach to variable metric algorithms The Computer Journal, vol. 13, n3, pp. 317-322, 1970. [Goldfarb 70] D. GOLDFARB A family of variable metric methods derived by variational means Mathematics of Computation 24, pp. 23-26, 1970 [Goodwin 77] G.C. GOODWIN, R.L.PAYNE Dynamic System Identification : Experiment Design and Data Analysis Mathematics in Science and Engineering, Volume 136, Academic Press, 1977 [Haber 85] R. HABER Nonlinearity tests for dynamic processes IFAC Identification and System Parameter Estimation 1985, York, UK, 1985. [Hornik 89] K. HORNIK, M. STINCHCOMBE, H. WHITE Multilayer feedforward network are universal approximates Neural Networks, vol. 2, pp. 359-366, 1989 [Hornik 94] K. HORNIK, M. STINCHCOMBE, H. WHITE, P. AUER Degree of Approximation Results for Feedforward Networks Approximating Unknow Mappings and Their Derivates Neural Computation, vol. 6, p. 1262, 1994

100

[Korenberg 85] M.J. KORENBERG Orthogonal identification of nonlinear difference equation models Mid. West. Symposium on Circuits and Systems, Louisville, 1985 [Korenberg 85] M.J. KORENBERG, S.A. BILLINGS, Y.P. LIU, P.J. McILOY Orthogonal parameter estimation for non-linear stochastic systems International Journal of Control, vol. 48, 193-210, 1988 [Le Cun 90] Y. LE CUN, J.S. DENKER, S.A. SOLLA Optimal Brain Damage IEEE Advances on Neural Information Processing (Denver 89), D.S. TOURETZKY (Ed.), pp. 598-605, 1990 [Leontaritis 85] I.J. LEONTARITIS, S.A. BILLINGS Input-output parametric models for non-linear systemsPart 1: Deterministic non-linear systems; Part 2 : Stochastic non-linear systems International Journal of Control, 1985, vol. 41, 311-341, 1985 [Leontaritis 87] I.J. LEONTARITIS, S.A. BILLINGS Model selection and validation methods for non-linear systems Int. Journal of Control, vol. 45, n1, pp. 311-341, 1987 [Ljung 74] L. LJUNG On consistency for prediction error identification methods Report 7405, Div. Auto. Control, Lund Institute of Technology, 1974 [Ljung 76a] L. LJUNG On the consistency of a prediction error identification methods dans, R.H. MERHA, D.G. LAINIOTIS (Eds.), Systems identification advances and Case study, Academic Press, New York, 1976 [Ljung 76b] L. LJUNG On consistency and identifiability Mathematical programming study, n5, pp. 169-190, North-Holland, 1976

101

[Ljung 78] L. LJUNG Convergence analysis of parametric identification methods IEEE Transactions on Automatic Control, vol. 23, pp. 770-783, 1978 [Ljung 79] L. LJUNG, P.E. CAINES Asymptotic normality of prediction error estimators for approximate systems models Stochastics, n 3, pp. 29-46, 1979 [Ljung 87] L. LJUNG System identification : theory for the user Prentice Hall, Englewood Cliffs, New Jersey, 1987 [MacKay 92a] D.J.C. MACKAY Bayesian interpolation Neural Computation, 4(3), pp. 415-447, 1992 [MacKay 92b] D.J.C. MACKAY A practical Bayesian framework for backdrop networks Neural Computation, 4(3), pp. 448-472, 1992 [Minoux 83] M. MINOUX Programmation Mathmatique, Thorie et Algorithmes Tome 1, Ed. Dunod, 1983 [Moody 94] J. MOODY Prediction Risk and Architecture Selection for Neural Networks dans From Statistics to Neural Networks : Theory and Pattern Recognition Applications, Eds. V. Cherkassky, J.H. Friedmann, H. Wechsler, NATO ASI Series F, Springer-verlag, 1994. [Narendra 90] K.S. NARENDRA, K. PARTHASARATHY Identification and Control of Dynamicals Systems Using Neural Networks IEEE Transactions on Neural Networks, vol. 1, 4-27, 1990

102

[Nash 90] J.C. NASH Compact Numerical Methods for Computers: linear algebra and function minimization Ed. Adam Hilger, 1990 [Nerrand 92a] O. NERRAND Rseaux de neurones pour le filtrage adaptatif, lidentification et la commande de processus Thse de doctorat de lUniversit Pierre et Marie Curie-Paris VI, 1992 [Nerrand 92b] O. NERRAND, P. ROUSSEL-RAGOT, L. PERSONNAZ, G. DREYFUS, S. MARCOS Neural Network and non-linear adaptive filtering : unifying concepts and new algorithms Neural Computation, vol 5, no. 2, 1992 [Powell 76] M.J.D. POWELL Some global convergence properties of a variable metric algorithm for minimization without exact line searches dans, Nonlinear Programming, SIAM-AMS Proceedings 9, R. W. Cottel & C.E. Lemke, Eds., Providence R.I., 1976 [Press 92] W.H. PRESS, S.A. TEUKOLSKY, W.T. VETTERLING, B.P. FLANNERY Numerical Recipies in C : The Art of Computing Second Edition, Cambridge University Press, 1992 [Reed 93] R. REED Pruning algorithm - a survey IEEE Transactions on Neural Networks, vol. 4, n 5, september 1993 [Rivals 81] I. RIVALS Modlisation et commande de processus par rseaux de neurones : application au pilotage dun vhicule autonome Thse de doctorat de lUniversit Pierre et Marie Curie-Paris VI, 1995 [Rumelhart 86] D. RUMELHART, G. HINTON, R. WILLIAMS Learning Internal Representations by Error Propagation

103

Parallel Distributed Procesing, MIT Press, 1986 [Shanno 69] D.F. SHANNO Conditioning of quasi-newton methods for function minimization Mathematics of Computation 24, pp. 641-656, 1969 [Shibata 76] R. SHIBATA Selection of an autoregressive model by Akaikes Information Criteria Biometrica, vol. 63, pp. 117-126, 1976 [Sderstrm 77] T. SDERSTRM On model structure testing in system identification International Journal of Control, vol. 26, pp. 1-18, 1977 [Stone 77a] M. STONE An asymptotic equivalence of choice of model by cross-validation and Akaike Criterion Journal of Royal Statistics Society, ser. B, vol. 39, pp. 44-47, 1977 [Stone 77b] M. STONE Asymptotics for and against cross-validation Biometrika, vol. 64, pp. 29-35, 1977 [Wald 49] A. WALD Note on the consistency of the maximum likelihood estimate Ann. Math. Statis., vol. 20, pp. 595-601, 1949 [Williams 95] P.M. WILLIAMS Bayesian Regularization and Pruning Using a Laplace Prior Neural Computation, 7, pp. 117-145, 1995. [Wolfe 69] P. WOLFE Convergence conditions for ascent methods S.I.A.M. Review 11, pp. 226-235, 1969

104

105

ADAPTIVE TRAINING OF FEEDBACK NEURAL NETWORKS FOR NON-LINEAR FILTERING


G. Dreyfus*, O. Macchi**, S. Marcos**, O. Nerrand*, L. Personnaz*, P. Roussel-Ragot*, D. Urbani*, C. Vignat** *Ecole Suprieure de Physique et de Chimie Industrielles de la Ville de Paris 10, rue Vauquelin 75005 PARIS - FRANCE **Laboratoire des Signaux et Systmes Ecole Suprieure d'Electricit, Plateau de Moulon 91192 GIF SUR YVETTE - FRANCE

Abstract. The paper proposes a general framework which encompasses the training of neural networks and the adaptation of filters. It is shown that neural networks can be considered as general non-linear filters which can be trained adaptively, i.e. which can undergo continual training. A unified view of gradient-based training algorithms for feedback networks is proposed, which gives rise to new algorithms. The use of some of these algorithms is illustrated by examples of non-linear adaptive filtering and process identification.

INTRODUCTION In recent papers [1, 2], a general framework, which encompasses algorithms used for the training of neural networks and algorithms used for the adaptation of filters, has been proposed. Specifically, it was shown that neural networks can be used adaptively, i.e. can undergo continual training with a possibly infinite number of time-ordered examples - in contradistinction to the traditional training of neural networks with a finite number of examples presented in an arbitrary order; therefore, neural networks can be regarded as a class of non-linear adaptive filters, either transversal or recursive, which are quite general because of the ability of neural nets to approximate non-linear functions. It was further shown that algorithms which can be used for the adaptive training of feedback neural networks fall into three broad classes; these classes include, as special instances, the methods which have been proposed in the recent past for training neural networks adaptively, as well as algorithms which have been in current use in linear adaptive filtering and control. This framework will be summarized briefly in the first part of the paper.

In addition, this general approach leads to new algorithms. The second part of the paper shows illustrative examples of the application of the latter to problems in adaptive filtering and identification.

ADAPTIVE TRAINING OF FEEDBACK NEURAL NETS FOR NON-LINEAR FILTERING Network A neural network architecture of the type shown on Figure 1, featuring M external inputs, N feedback inputs and one output, can implement a fairly large class of non-linear functions; the most general form for the feedforward part is a fully-connected net. The basic building block of the network is a "neuron", which performs a weighted sum of its inputs and computes an "activation function" f - usually non linear - of the weighted sum: zi = fi vi with vi = C ij xj
j

where zi denotes the output of neuron i, and xj denotes the j-th input of neuron i; xj may be an external input, a state input, or the output of another neuron. Output y(n) at time n State variables S(n+1) at time n+1

Feedforward network

Unit delays

External inputs U(n) at time n

State variables S(n) at time n Figure 1.

If the external inputs consist of the values U(n)={u(n),u(n-1),....,u(n-M+1)} of a signal u at successive instants of time, the network may be viewed as a general non-linear recursive filter. The task of the network is determined by a (possibly infinite) set of inputs and corresponding desired outputs. At each sampling time n, an error e(n) is defined as the difference between the desired output d(n) and the actual output of the network y(n): e(n)=d(n)-y(n). The network adaptation algorithms aim at

finding the synaptic coefficients which minimize a given satisfaction criterion involving, usually, the squared error e(n)2 [3]. Thus, it is clear that adaptive filters and neural networks are formally equivalent, and that neural networks, which are potentially capable of realizing non-linear input-output relations, are simple generalizations of linear filters. In the next section, we put into perspective the training algorithms developed for discrete-time feedback neural networks and the algorithms used classically in adaptive filtering. General presentation of the algorithms The present paper focusses on gradient-based methods using a sliding window of length Nc, whereby the updating of the synaptic coefficients is given, at time n, by n Dcij(n) = - m 1 e(k)2 (1) cij 2 k=n-Nc+1 C(n-1) where m is the gradient step. The choice of Nc depends on several factors, including the typical time scale of the non-stationarity of the signals. For the computation of the gradient to be meaningful, the coefficients must be considered as being constant on a window of length NtNc. Thus, for the updating at time n, the Nc errors {e(k)} and their partial derivatives, appearing in relation (1), must be computed from Nt computational blocks, corresponding to the last Nt sampling times; the values of the coefficients used for all Nt blocks are the coefficients C(n-1) which were updated at time n-1. We denote by Sinm(n) the value of the state input of block m at time n and by Soutm(n) the state output. The choice of the state inputs and of their partial derivatives, as inputs of each block, gives rise to a variety of algorithms. These algorithms fall into three categories depending on the choice of the state inputs: (i) directed algorithms, in which the state inputs are taken equal to their desired values, for all blocks; (ii) semi-directed algorithms, in which the state inputs of the first block at time n are taken equal to their desired values, and in which the state inputs of the other blocks are taken equal to the state outputs of the previous block, (iii) undirected algorithms, in which the state inputs of the first block at time n are taken equal to the corresponding states computed at time n-1, and in which the state inputs of the other blocks are taken equal to the state outputs of the previous block. Directed and semi-directed algorithms can be used only if all state variables have desired values, as is the case for NARMAX models [4]. If some, but not all, state inputs do not have desired values, hybrid versions of the above algorithms can be used: those state inputs for which no desired values are available are taken equal to the corresponding computed state variables (as in an undirected algorithm), whereas the other state inputs may be taken equal to their desired values (as in a directed or semi-directed algorithm).

In each category, three algorithms are defined, depending on the choice of the partial derivatives of the state inputs. This is summarized in Table 1. S1 in(n) Des. val. Des. val. Des. val. Sm in(n) Des. val. Des. val. Des. val. S m-1 out (n) S m-1 out (n) S m-1 out (n) S m-1 out (n) S m-1 out (n) S m-1 out (n) S1 in (n) cij zero zero
1 Sout (n-1) cij

Algorithm Directed (D) D-SD D-UD

Sm in (n) cij zero m-1 Sout (n) cij m-1 Sout (n) cij
m-1 Sout (n) cij zero m-1 Sout (n) cij m-1 Sout (n) cij zero m-1 Sout (n) cij

Semi-Directed (SD) Des. val. SD-D SD-UD Undirected (UD) UD-D UD-SD Des. val. Des. val. S1 out(n-1) S1 out(n-1) S1 out(n-1)

zero zero S (n-1) cij


1 out 1 Sout (n-1) cij zero

zero

Table 1. Summary of algorithms. Des. val. = desired value

Relations with known algorithms for neural nets and for adaptive filtering Some of the above algorithms have been proposed independently in the field of neural nets and in the field of signal processing, under different names. Two approaches have been used in order to adapt linear recursive filters: the equation-error formulation and the output-error formulation. In the equationerror formulation (also termed series-parallel in the control literature), the recursive nature of the filter is not taken into account: thus, directed algorithms generalize the equation-error approach; they generate stable adaptation behaviours. The "Teacher Forcing" algorithm [5] is based on the same idea. On the other hand, the output-error formulation takes into account the recursive form of the filter during adaptation: thus, undirected algorithms generalize the output-error approach. The stability of these algorithms is not easy to predict. For instance, the "Recursive Prediction Error (RPE)" algorithm [6], used in linear adaptive filtering, is a UD algorithm with Nt=Nc=1. The "Real-Time

Recurrent Learning Algorithm" [7] is the generalization of RPE to non-linear filters. The "Truncated Backpropagation Through Time" algorithm [8] is a UD-SD algorithm with Nc=1 and Nt>1. The extended-LMS algorithm [9] is identical to the UD-D algorithm with Nt=Nc=1 and is used in linear adaptive filtering for its autostabilization property. The "A Posteriori Error Algorithm" is a UD-D algorithm with Nt =2, Nc =1 [10]. The choice of N t=N c=1 is economical in terms of computation time; it is justified if the coefficients change slowly, i.e. if the gradient step m is small enough. APPLICATION TO AN ADAPTIVE FILTERING PROBLEM The use of the new algorithms introduced above is illustrated in the case of the Adaptive Differential Pulse Code Modulation (ADPCM) system for bit rate reduction in speech transmission [11] (Figure 2). We show the influence of the training algorithm on the behaviour of the system, in the simple case of a predictor with a single adaptive coefficient b, and a two-level quantizer implemented as a neuron with transfer function f(x) = a tanh (px/a). The input signal is constant. QUANTIZER (non linear)

Speech signal s(n)

S
s(n)

Prediction error signal e(n)

Quantized error e(n)

PREDICTOR b s(n-1)

S
Unit delay

Predicted speech signal s(n)

s(n)

FIGURE 2 We first analyze the behaviour of the fixed, i.e. non adaptive, encoder. Fig.3 shows the prediction error e(n) versus b: for b<0.55, the error is a fixed point whose value decreases with b. For higher values of b, successive bifurcations generate limit cycles of lengths 2, 4 and 8. The dynamical behaviour of the adaptive system depends on the choice of the adaptation algorithm, as illustrated on Figure 4. For example, the cycle P1 (of length 2) which is an attractive cycle for the non-adaptive system, remains attractive when the system is adapted with the UD or UD-SD algorithms. However, this cycle becomes a repeller when the system is adapted with the

0.5 0.4 e 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 0 0.2 0.4 0.6
FIGURE 3 UD-D algorithm. Conversely, point P2 on Fig. 2 was found to be a repeller for the UD and UD-SD algorithms, while it is an attractor when the network is trained with a UD-D algorithm. The reported results were obtained with N c=1 and Nt=5. The parameter Nt was found to have no influence on the results in this case; this is a specific feature of the system under consideration [12]. The mean square error for point P1 is smaller than for point P2.
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 200 400 600 n 800 1000 1200 1400 1600 1800 2000 FIGURE 4 Nc = 1 , Nt = 5 UD-SD b

P1 P2

b 0.8 1 1.1

UD-D SD-SD UD-UD

We focus now on the SD or D algorithms. Since the system to be adapted is trained by these algorithms as if it were a feedforward net consisting of Nt identical blocks and initialized with the desired outputs, the curves of Fig. 3 are irrelevant. Fig. 4 shows that the system adapted with the SD algorithm

converges towards b0.63, which corresponds to a very small mean square error: this indicates that the feedforward structure consisting of 5 blocks, adapted with the SD algorithm, is appropriate for the problem under consideration. Conversely, when the feedback nature of the system must be preserved, SD- or D-type algorithms are inappropriate.

APPLICATION TO IDENTIFICATION PROBLEMS We show on the following example that semi-directed algorithms bridge the gap between the output-error approach (UD algorithms) and the equation-error approach (D algorithms). We first consider the process identification example described in [13], which illustrates the fact that, in the presence of additive noise, the equation-error formulation may lead to biased estimates of the coefficients, in contrast to the output-error formulation. The process to be modelled is simulated by the linear recursive equation y*(n) = a y*(n-1) + b x(n) and d(n) = y*(n) + v(n) with a=b=0.5, where x is the input, d the measured output and v an additive noise. The model used in the adaptive filter is described by y(n) = a y(n-1) + b x(n), and the desired value is d(n). If the input x(n) and the noise v(n) are uncorrelated, white sequences with zero mean value and a signal-to-noise ratio S = s x2/s v2, the equation-error (D algorithm) estimate a of the coefficient a is biased: (a-a) / a = (a2-1) / (1-a2+b2S). The equation-error estimate of b is unbiased (b = b). Conversely, both output-error estimates (UD algorithms) are unbiased. We computed analytically the expectation value of the squared error (Nc=1) in the case of a semi-directed algorithm, and determined the values of a and b which minimize it. Figure 5 shows the biases with respect to Nt for S = 10; the bias of a decreases from the above value (for Nt=1) to zero (Nt ), which is consistent with the fact that a SD algorithm with Nt =1 is a D algorithm, and that it is a UD algorithm if Nt . Furthermore, it is shown that the bias of b is zero in the two limiting cases (D and UD), and that it is small, but non-zero for Nt>1. To summarize, the use of SD algorithms provides, in this example, a tradeoff between the stability of D algorithms and the unbiased estimates which result from the use of a UD algorithm. Similarly, we consider the second process identification example described in [13] which illustrates the fact that, if the order of the model is smaller than the order of the process, the output-error formulation generates an error surface (MSOE) which may have local minima, whereas the equation-error formulation generates an error surface (MSEE) which has only a global minimum. The process to be modelled is simulated by:

d(n) = a1 d(n-1) + a2 d(n-2) + b0 x(n) + b1 x(n-1) , where x is the input and d the output of the process. The model used in the adaptive filter is described by: y(n) = a y(n-1) + b x(n), and the desired value is d(n). The MSE surface is a paraboloid when using the equation-error formulation (MSEE). In the case of the output-error formulation, the MSE surface (MSOE) exhibits one local minimum (which corresponds to a damped oscillatory behaviour, -1<a<0), and one global minimum (0<a<1) . We have computed analytically the MSE in the case of a semi-directed algorithm with N c=1 . As for the first example, the MSE surface changes from the MSEE surface to the MSOE surface when Nt increases from 1 to : for Nt=2, a second minimum appears, with -1<a<0, which shifts to the location of the local minimum of the MSOE surface when Nt grows; meanwhile, the other minimum shifts from the location of the minimum of the MSEE surface to the location of the global minimum of the MSOE surface. 2 20 (a- a) / a (%) bias of a (%) bias of b (%) (b - b) / b (%)

10

10 0

Nt
FIGURE 5 CONCLUSION We have shown that a large variety of algorithms are available for training recurrent neural networks to perform adaptive filtering, and that the algorithms used thus far are but a small fraction of the available possibilities. We have illustrated some features of the new algorithms on three examples. Neural networks, viewed as adaptive non-linear filters, have a considerable potential which needs be explored, and basic issues, such as the stability of the algorithms, are still open. Acknowledgements

The authors wish to thank L. CAPELY and D. MARSAN for computer simulations.

References [1] O. Nerrand , P. Roussel-Ragot, L. Personnaz, G. Dreyfus, S. Marcos, "Neural Networks and Non-linear Adaptive Filtering: Unifying Concepts and New Algorithms", Neural Computation, to be published. S. Marcos, P. Roussel-Ragot, L. Personnaz, O. Nerrand, G. Dreyfus, C. Vignat, "Rseaux de Neurones pour le Filtrage Non Linaire Adaptatif", Traitement du Signal, in press (1992). B. Widrow, S.D. Stearns, Adaptive Signal Processing (Prentice-Hall, 1985). S. Chen, S.A. Billings, "Representations of Non-Linear Systems: the NARMAX Model", Int. J. Control, vol. 49, pp. 1013-1032, 1989. M.I. Jordan, "Attractor Dynamics and Parallelism in a Connectionist Sequential Machine", in Proceedings of the Eighth Annual Conference of the Cognitive Science Society, 1986, pp. 531-546. L. Ljung, T. Sderstrm, Theory and Practice of Recursive Identification, M.I.T. Press, 1983. R.J. Williams, D. Zipser, "A Learning Algorithm for Continually Running Fully Recurrent Neural Networks", Neural Computation, vol. 1, pp. 270-280, 1989. R.J. Williams, J. Peng, "An Efficient Gradient-based Algorithm for On-Line Training of Recurrent Network Trajectories", Neural Computation, vol. 2, pp. 490-501, 1990. P.L. Feintuch, "An Adaptive Recursive LMS Filter", Proc. IEEE, pp. 1622-1624, 1976

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10] C.R. Johnson, I.D. Landau, "On Adaptive IIR Filters and Parallel Adaptive Identifiers with Adaptive Error Filtering", Proc. ICASSP, pp. 5387, 1981. [11] N.S. Jayant, P. Noll, Digital Coding of Waveforms. Principles and Applications to Speech and Video, Signal Processing Series, A. Oppenheim, ed., Prentice-Hall, 1984.

[12] C. Vignat, C. Uhl, S. Marcos, "Analysis of gradient-based adaptation algorithms for linear and nonlinear recursive filters", Proceedings of ICASSP-92, Vol. IV, pp. IV 189-IV 192, March 23-26, 1992, San Francisco. [13] J. J. Shynk, "Adaptive IIR Filtering", IEEE ASSP Magazine, pp. 4-21, 1989.

Training Recurrent Neural Networks: Why and How ? An Illustration in Dynamical Process Modeling.
O. NERRAND, P. ROUSSEL-RAGOT, D. URBANI, L. PERSONNAZ, G. DREYFUS, Senior Member, IEEE Ecole Suprieure de Physique et de Chimie Industrielles de la Ville de Paris, Laboratoire d'Electronique 10, rue Vauquelin 75005 PARIS, FRANCE

ABSTRACT The paper first summarizes a general approach to the training of recurrent neural networks by gradient-based algorithms, which leads to the introduction of four families of training algorithms. Because of the variety of possibilities thus available to the "neural network designer", the choice of the appropriate algorithm to solve a given problem becomes critical. We show that, in the case of process modeling, this choice depends on how noise interferes with the process to be modeled; this is evidenced by three examples of modeling of dynamical processes, where the detrimental effect of inappropriate training algorithms on the prediction error made by the network is clearly demonstrated.

1 INTRODUCTION During the past few years, there has been a growing interest in the training of recurrent neural networks, either for associative memory tasks, or for tasks related to grammatical inference, time series prediction, process modeling and process control. A general framework for the training of recurrent networks by gradient descent methods, which has been proposed recently [1, 2], is summarized in section 2; it encompasses algorithms which have been used classically in linear filtering, identification and control, and algorithms which have been established in the framework of neural network research; in addition, this general approach leads to original algorithms. The variety of algorithms thus available raises the question of the choice of an appropriate one in a given situation. In section 3, we show, in the framework of non-linear process identification (i.e., of the estimation

2 of the parameters of a model of a non-linear process), that the choice of an appropriate algorithm depends of how noise interferes with the process. The striking effect of using either an appropriate algorithm or an inappropriate one for modeling a non-linear process undergoing non-measurable, random perturbations, is shown on examples. 2 A GENERAL FRAMEWORK FOR THE TRAINING OF RECURRENT NETWORKS BY GRADIENT-BASED DESCENT ALGORITHMS In this section, we summarize a general approach described in more detail in [1]. We first define the terms which will be used in the paper. Some of this terminology is borrowed directly from the fields of filtering and automatic control; since many familiar concepts in the neural network area have been in use in other disciplines, we deem it unnecessary, and in most cases confusing, to coin new words for old concepts; conversely, we shall introduce a few new terms whenever required for clarity. In the second part of this section, we recall the ingredients of the algorithms whose use is illustrated in section 3. 2.1 Some definitions Because the terminologies used in adaptive filtering, in automatic control, and in the literature on neural networks, are sometimes conflicting, we first define the terms that we use in the paper. Adaptive vs. non-adaptive training The training of a network makes use of two sequences, the sequence of inputs and the sequence of corresponding desired outputs. If the network is first trained (with a training sequence of finite length), and subsequently used (with the fixed weights obtained from training), we shall refer to this mode of operation as "nonadaptive". Conversely, we term "adaptive" the mode of operation whereby the network is trained permanently while it is used (with a training sequence of infinite length). Performance criterion, cost function and training function The computation of the coefficients during training aims at finding a system whose operation is optimal with respect to some performance criterion which may be either quantitative, e.g., maximizing the signal to noise ratio for spatial filtering, or qualitative, e.g. the (subjective) quality of speech reconstruction. In the

3 following, we assume that we can define a positive training function which is such that a decrease of this function through modifications of the coefficients of the network leads to an improvement of the performance of the system. In the case of non-adaptive training, the training function is defined as a function of all the data of the training set (in such a case, it is usually termed cost function); the minimum of the function corresponds to the optimal performance of the system. Training is an optimization procedure, using gradient-based methods. In the case of adaptive training, it is impossible, in most instances, to define a time-independent cost function whose minimization leads to a system which is optimal with respect to the performance criterion. Therefore, the training function is time-dependent. The modification of the coefficients is computed continually from the gradient of the training function. The latter involves the data pertaining to a time window of finite length, which shifts in time (sliding window), and the coefficients are updated at each sampling time for instance. Recursive vs. non-recursive algorithms, iterative vs. non-iterative algorithms A non-recursive algorithm makes use of a cost function (i.e. a training function defined on a fixed window). A recursive algorithm makes use of a training function defined on a sliding window [3]. Therefore, an adaptive system must be trained by a recursive algorithm, whereas a non-adaptive system may be trained either by a non-recursive or by a recursive algorithm. An iterative algorithm performs coefficient modifications several times from a set of data pertaining to a given time window; a non-iterative algorithm does this only once. The popular LMS (Least Mean Squares) algorithm is thus a recursive, non-iterative algorithm operating on a sliding window of length 1. In the following, we focus on the computation of the coefficients by gradient-based descent; in the recursive, non-iterative case, the modification of the coefficients at time n can be written as D C(n) = m (n) D(n) where {m (n)} is a sequence of positive real numbers and D(n) is a linear transformation of the gradient of the training function; in the simple gradient method, D(n) is just the opposite of the gradient and m(n) is constant. 2.2 Training algorithms for recurrent networks Canonical form All the computational details on the material presented in this section can be found in reference [1].

4 It has been shown in [1] that any feedback network can be cast into a canonical form which consists of a feedforward (static) network - whose outputs are the outputs of the neurons which have desired values, and the values of the state variables, - whose inputs are the inputs of the network and the values of the state variables, the latter being delayed by one time unit (Figure 1a). The canonical form is thus expressed as S(k) = j1 S(k-1), I(k-1) ; z(k-1) = j2 S(k-1), I(k-1) , where S(k) is the state vector, whose dimension Nr is the order of the network, where z(k-1) is the output, and where I(k) is the vector of non-feedback inputs. The transformation of a non-canonical form to a canonical form is described in [1]. Note that this concept can be used with any type of discrete-time neuron, including for instance the high-order units used for grammatical inference [4] Training function The main difficulty in the recursive training of recurrent networks arises from the fact that the output of the network and its partial derivatives with respect to the coefficients depend on the values of the inputs since the beginning of the training process, and on the initial state of the network. Therefore, a rigorous computation of the gradient of the training function would imply taking into account all the past inputs, and related desired outputs. This is not practical for two reasons: first, it would require ever increasing computation times; second, in the case of the modeling or control of a non-stationary process, taking the whole past into account would not make sense, since a large part of the past might be irrelevant. Therefore, the estimation of the gradient of the training function is performed by truncating the computations to a fixed number of sampling periods Nt into the past. Thus, at time n, this estimation will involve Nt identical copies of the feedforward part of the canonical form of the network, with coefficients computed at time n-1 (Figure 1b). The training function at time n is defined on a sliding window of length Nc as a sum of Nc quadratic errors: J(C, n) = 1 2
m = N t-N c+1

Nt

em (n) 2 with em (n) = d(n-Nt+m) - ym (n) and 1Nc N t ,

where ym (n) is the output of copy m (1mNt). ym (n) is the value that the output of the network would have taken on, at time n-N t +m, had the vector of coefficients at that time been equal to C(n-1). In the case of non-recursive training, the training (or cost) function is defined on a fixed window of length Nc ; at iteration i:

5 J(C, i) = 1 2

m = N t-N c+1

Nt

em (i) 2 with em (i) = d(m) - ym (i) and 1Nc N t ,

is the output of copy m (1mNt), computed with the weights C(i-1) where obtained at iteration i-1. ym (i) Algorithms The computation of the above training function requires the computation of the outputs ym (n) (or ym (i)), which in turns require the computation of the state Sinm (.) of the network (Figure 1b); various algorithms arise from different choices of the values of the state inputs. In [1], four families of algorithms were introduced: undirected, semi-directed, directed, and hybrid. In the following, we restrict our discussion to the case where the desired values of the state variables are available; thus, the first three families only will be considered in the present paper. 3 APPLICATION: NON-LINEAR PROCESS IDENTIFICATION BY NEURAL NETWORKS 3.1 The problem Assume that a set of measurements can be carried out on a non-linear process. From this data, a predictor model must be derived, whose dynamical behaviour should be as close as possible to that of the process. The identification of the process is the estimation of the parameters of the predictor, based on the available data; if the predictor is implemented as a neural network, the identification is the training of the network. When identifying a non-linear, dynamical process, a recurrent network is a logical candidate. We show in the following how the choice of the appropriate training algorithm results from assumptions made on the role on random noise in the process. We use non-linear generalizations of three popular models corresponding to three different assumptions on the noise; we describe the predictor associated to each model, i.e. the predictor which is such that the prediction error is the unpredictable part of the process output. We show, in each case, which of the above algorithms is the most appropriate, if the predictor is implemented as a neural network. 3.2 Three black-box models Three approaches with black-box models will be considered, depending on the assumptions made on the process [3]: (i) the output error model, (ii) the NARMAX model, and (iii) the NARX (or equation error) model .

6 In the output error approach, it is assumed that the output yp (k) of the process (Figure 2a) obeys the following equations: x(k) = F X(k-1), U(k-1) , yp(k) = x(k) + w(k) , with X(k-1) = {x(k-1), x(k-2), ...x(k-N)} , and U(k-1) = {u(k-1), u(k-2), ...u(k-M} . {w(k)} is a white noise sequence. The output y(k) of the associated predictor (Figure 2b), such that yp(k)-y(k)=w(k), is given by: y(k) = F y(k-1), ... , y(k-N), U(k-1) . Therefore, the associated predictor of the output error process is recurrent of order N. If there exists a neural network which can approximate function F , this network can implement the predictor, and it must be trained by an undirected algorithm [1], since it is essential that the predictor be recurrent. A NARMAX (Non-linear Auto-Regressive Moving Average with eXogeneous inputs) model [5] (Figure 3a) obeys the following equation: xp(k) = F Xp(k-1), U(k-1), W(k-1) + w(k) , yp(k) = xp(k) . where Xp(k-1) = {xp(k-1), xp(k-2), ..., xp(k-N)} and W(k-1) = {w(k-1), w(k-2), ..., w(k-P)}. The output y(k) of the associated predictor (Figure 3b) is defined by: y(k) = F Yp(k-1), U(k-1), e(k-1), ..., e(k-P) where e(k) = yp(k)-y(k) and Yp(k-1) = {yp(k-1), yp(k-2), ..., yp(k-N)}. Therefore, the predictor of the NARMAX process is recurrent of order P, and, if it is implemented as a neural network, it must be trained by an undirected algorithm [1]. In the equation error approach (Non-linear Auto-Regressive with eXogeneous inputs, or NARX, model, Figure 4a), it is assumed that the process obeys the following equations: xp(k) = F Xp(k-1), U(k-1) + w(k) , yp(k) = xp(k) . The output y(k) of the associated predictor (Figure 4b) is given by y(k) = F Yp(k-1), U(k-1) with Yp(k-1) = yp(k-1), yp(k-2), ... , yp(k-N) . Therefore, the predictor of the equation error process is actually a non-recursive predictor, whose inputs are the external inputs of the process and the (measured) outputs of the process. If there exists a neural network which can approximate

7 function F , this network can implement the predictor, and a directed algorithm [1] is the only suitable choice, since the predictor is not recursive. To summarize, the algorithms derived for the training of discrete-time recurrent neural networks can readily be applied to the identification of dynamical nonlinear processes. Directed algorithms are best suited to the training of neural networks intended to predict the output of processes satisfying the perturbationfree hypothesis or the equation error hypothesis, whereas undirected algorithms are best suited to the NARMAX and output error hypotheses. It is intuitive, and it can be shown analytically in simple cases [6], that semi-directed algorithms bridge the gap between these approaches. 3.3 Illustration: identification of a first-order non-linear process In this section, we propose several illustrations of the above algorithms. We first train a neural network, both adaptively and non-adaptively, to model a deterministic, noise-free simulated process. In section 3.3.2, we add output noise to the same deterministic equation as above, and we train a network, non-adaptively, to model the resulting process. We pretend that we do not know how noise interferes with the process; we first make the assumption that the process is appropriately described by an output error model, and we train the network accordingly with an undirected algorithm; we subsequently make the assumption that the process is appropriately described by an equation error model, and we train the neural network accordingly with a directed algorithm; we compare the results obtained in these two cases. Finally, in section 3.3.3, we add state noise to the same deterministic equation as above, and we train a network, non-adaptively, to model the resulting process; we make the same two assumptions as above. The detrimental effect of using the wrong algorithm, i.e. of making the wrong assumption on the influence of the noise on the process, is shown clearly on all these examples. All results presented here were obtained by the Broyden-Fletcher-GoldfarbShanno (BFGS) algorithm [7], with step adaptation by the method of Wolfe and Powell [8]. 3.3.1 - Example 1: perturbation-free process 3.3.1.1 - Simulation equation A continuous-time process is simulated by the following discrete-time equation c+dyp(k-1) T yp(k) Y yp(k-1), u(k-1) = 1 yp(k-1) + T u(k-1) , a+byp(k-1) a+byp(k-1)

8 where yp (k) is the output of the process at time k, and u(k) is the external input at time k. In the following, the values of the parameters are: a=-0.139, b=1.2, c=5.633, d=-0.326, sampling period T= 0.1 sec. 3.3.1.2 - Adaptive identification of the noise-free process We first identify the process adaptively, making the assumption that it can be adequately described in the vicinity of an operating point by a linear first-order model; this approach is useful if the model is to be used, with small input and ouput signals, within an adaptive control system as an alternative to gain scheduling. It can be implemented by a "neural network" made of a single, linear neuron; in the absence of perturbations, the appropriate training algorithm is a directed algorithm. The behaviour of the adaptive predictor, and the prediction error, are illustrated on Figure 5. 3.3.1.3 - Non-adaptive identification of the noise-free process The process can also be identified non-adaptively. The predictor must then be valid in a suitable region of state space; it can be used in the case of large input and output signals. This can be achieved, in the present case, by a feedforward neural network with one hidden layer of five neurons. The training set is a sequence of 100 steps of random amplitude. Training has been performed by a non-recursive, iterative, directed algorithm with Nc(=N t)=2000. Figure 6 illustrates the behaviour of the non-adaptive predictor, and the prediction error. 3.3.2 - Example 2: process with additive output noise The simulated process that we consider now is described by the same equation as in the previous section, with additive noise on the output: xp(k) = Y xp(k-1), u(k-1) yp(k) = xp(k) + w(k) . w(k) is white noise with maximum amplitude 0.5. The goal of identification is to find a (neural network) predictor that implements a function as close as possible to Y in a bounded domain of state space; therefore, the prediction error should be as close as possible to the noise w(k) once training is completed. We first make the (correct) assumption that an output error model is appropriate. Thus, we use a recurrent predictor of the type shown on Figure 2b; the feedforward part of the neural network has the same architecture as in the perturbation-free case (since we know from the previous section that such a network can approximate function Y with satisfactory accuracy ) , and we train it with an

9 undirected algorithm (undirected, non recursive, iterative with Nt =N c =2000). Figure 7a show the response of the network at the end of training, and Figure 7b shows the prediction error. As expected, the latter is just white noise of amplitude 0.5, which shows that (i) the feedforward part of the predictor network is appropriate for the approximation of function Y , that (ii) the undirected training algorithm is the appropriate algorithm for training the predictor, or, in other words, that the assumption that the process can be described by an output error model is correct, and that (iii) the quasi-Newton gradient method (of constant use in recursive identification [3]) allows a very efficient optimization of the cost function; this may seem to be a side issue, but it is worth pointing out that the results presented in this paper would not have been obtained in any reasonable time otherwise. We now make the (wrong) assumption that the process can be described by a NARX model. Accordingly, we choose a neural network predictor of the type shown on Figure 4, which we train with a directed algorithm on the same data as before. Figure 8 shows the prediction error after training (directed, non recursive, iterative algorithm with Nc =2000), with the same inputs as shown on Figure 7a: the vairance of the prediction error is much larger than in the previous case, thereby showing that the training algorithm is inappropriate for extracting the model in the presence of the additive output noise. 3.3.3 - Example 3: process with additive state noise In this section, we consider again the same simulation equation as in section 3.3.1.1, but we add white noise, with amplitude 0.5, to its state: xp(k) = Y xp(k-1), u(k-1) + w(k) , yp(k) = xp(k) . We first make the (correct) assumption that a NARX model is appropriate. Thus, we use a predictor as shown on Figure 4, with five hidden neurons, trained by a directed algorithm (non recursive, iterative with N c =2000). The result after training is exactly as shown on Figure 7b: the prediction error is just white noise, which shows that the identification of the process by the neural network has been perfectly successful. If we now make the (wrong) assumption that the process can be represented by an output error model, we take a predictor as shown on Figure 2, we use five hidden neurons in the feedforward part of the network, and we train the model with an undirected algorithm; the resulting prediction error is as shown on Figure 9: the error is clearly not white noise, thereby showing that the use of an undirected algorithm with additive state noise prevents the network from correctly extracting

10 the model, although we know from the previous examples that the network has the appropriate number of hidden units for approximating function Y . 4 CONCLUSION We have shown the importance of choosing an appropriate training algorithm for the modeling of a dynamical system in the presence of noise. Directed (teacher forcing) algorithms are appropriate for the modeling of noiseless dynamical systems, or for systems in which random perturbations can be considered as white noise added to the state variables of the black-box model, whereas undirected algorithms are appropriate for predicting the output of systems in which random perturbations can be considered as white noise added to the output of the black-box model. Although the architecture of the feedforward part of the neural predictors is the same in all the above examples, and is known to be appropriate for describing the non-linearity of the process, very different results can be obtained, depending on the algorithm used. Within the appropriate family, other choices (recursive or non-recursive algorithm, iterative or non-iterative algorithm, values of Nc and Nt, ...) are important but less critical; they will be made on the basis of the stationarity time of the process, of the computer time available, etc... In the above examples, semi-directed algorithms have not been used because no stability problem was encountered with undirected algorithms: semi-directed algorithms are useful when an output error model describes the process appropriately, but when the corresponding predictor is unstable. Detailed stability analyses of undirected algorithms have been performed in simple cases [9].

11 REFERENCES [1] O. Nerrand, P. Roussel-Ragot, L. Personnaz, G. Dreyfus, S. Marcos, "Neural Networks and Non-linear Adaptive Filtering: Unifying Concepts and New Algorithms", Neural Computation, vol. 5, pp. 165-197 (1993). S. Marcos, P. Roussel-Ragot, L. Personnaz, O. Nerrand, G. Dreyfus, C. Vignat, "Rseaux de Neurones pour le Filtrage Non-linaire Adaptatif", Traitement du Signal, vol. 8, pp. 409-422 (1993). L. Ljung, T. Sderstrm, Theory and Practice of Recursive Identification, M I T Press (1983). C.L. Giles, G.Z. Sun, H.H. Chen, Y.C.Lee, D. Chen, "Higher Order Recurrent Networks and Grammatical Inference", Advances in Neural Information Processing Systems 2, D.S. Touretzky, ed., pp. 380-387 (1990). S. Chen, S.A. Billings, "Representations of Non-Linear Systems: the NARMAX Model". Int. J. Control, vol 49, pp. 1013-1032 (1989). G. Dreyfus, O. Macchi, S. Marcos, O. Nerrand, L. Personnaz, P. Roussel-Ragot, D. Urbani, C. Vignat, "Adaptive Training of Feedback Neural Networks for Non-linear Filtering", Neural Networks for Signal Processing II, S.Y. Kung, F. Fallside, J. Aa. Sorenson, C.A.Kamm, eds (1992). W.H. Press, B.P. Flannery, S.A. Teukolsky, W.T. Vetterling, Numerical Recipes: The Art of Scientific Computing, Cambridge University Press (1986). P. Wolfe, Convergence Conditions for Ascent Methods, S.I.A.M. Review vol. 11, pp. 226-235 (1969). C. Vignat, "Convergence des Approches Filtrage Adaptatif et Rseaux de Neurones Formels. Cas des Systmes Non-Linaires Boucls". Thse de l'Universit de Paris-Sud, Orsay (1993).

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

12 FIGURE CAPTIONS

Figure 1: a. The canonical form of a discrete-time recurrent network. b. Copy m at time n of the feedforward part of the canonical form. Figure 2: a. Structure of the model of the process under the output error hypothesis. b. Associated neural predictor. Figure 3: a. Structure of the model of the process under the NARMAX hypothesis. b. Associated neural predictor. Figure 4: a. Structure of the model of the process under the equation error hypothesis. b. Associated neural predictor. Figure 5: Example 1: adaptive identification of the perturbation-free process. Training with a directed recursive algorithm (Nc=20). a. Input and output of the adaptive predictor. b. Prediction error. Figure 6: Example 1: non-adaptive identification of the perturbation-free process. Training with a directed iterative algorithm (Nc=2000). a. Input and output of the non-adaptive predictor after training. b. Prediction error. Figure 7: Example 2: non-adaptive identification of the process with additive output noise . Training with an undirected iterative algorithm (Nt=N c=2000), corresponding to the correct hypothesis (output error model). a. Input and outputs of the simulated process and of the predictor. b. Prediction error.

13 Figure 8: Example 2: non-adaptive identification of the process with additive output noise. Prediction error after training with a directed iterative algorithm (Nc =2000), corresponding to a wrong hypothesis (equation error model). Figure 9: Example 3: non-adaptive identification of the process with additive state noise. Prediction error after training with an undirected iterative algorithm (Nt=Nc=2000), corresponding to a wrong hypothesis (output error model).

14

Output z(k-1)

S(k) .... ... Unit delays ...

FEEDFORWARD NETWORK .... Non feedback inputs: I(k-1) ....

State: S(k-1) FIGURE 1a

d Desired value

m(n)

em(n) + ym(n) Sm out(n) State output ....

FEEDFORWARD NETWORK .... Non feedback inputs Im(n) .... State input (feedback inputs) Sm in(n)

FIGURE 1b

15

yp (k)

x(k)

.....
1 1

....
Unit delays

F
.....
w(k) u(k-1) u(k-M) x(k-1)

.....
x(k-2) x(k-N)

....

FIGURE 2a

y(k)

Feedforward neural network

....
1 1

....
Unit delays

.....
u(k-1) u(k-M) y(k-1)

.....
y(k-2) y(k-N)

....

Non feedback inputs: I(k-1)

State: S(k-1)
FIGURE 2b

16

yp(k) = xp(k)

yp(k-N+1)

.....

....

F
..... .....
u(k-M) yp(k-1)

1 Unit delays

.....
yp(k-2) yp(k-N)

....

w(k) w(k-1) w(k-P) u(k-1)

FIGURE 3a e(k) yp(k) + y(k)

Feedforward neural network

....
1 1

....
Unit delays

.....
u(k-1)

.....
e(k-1)

.....
e(k-2) e(k-P)

....

u(k-M) yp (k-1) yp (k-N)

Non feedback inputs: I(k-1)

State: S(k-1)
FIGURE 3b

17

yp(k) = xp(k)

.....

....
1 Unit delays

F
.....
w(k) u(k-1) u(k-M) yp(k-1)

.....
yp(k-2) yp(k-N)

....

FIGURE 4a

y(k)

Feedforward neural network

.....
u(k-1) FIGURE 4b

.....
u(k-M) yp(k-1) yp(k-N)

18

8 7 6 Amplitudes 5 4 3 2 1 0 100 200 300 400 500 600 Time (0.1s) FIGURE 5a 700 800 900 1000 Input u Process output yp

Prediction error

0.10 0.05 0.00

-0.05 -0.10 100 200 300 400 500 600 Time (0.1s) 700 800 900 1000

FIGURE 5b

19

10 8 Amplitudes 6 Input u 4 2 0 0 200 400 600 800 Time (0.1s) FIGURE 6a 0.10 0.05 0.00 -0.05 -0.10 0 200 400 600 800 1000 Time (0.1 s) FIGURE 6b 1200 1400 1000 1200 1400 Process output yp

Prediction error

20

10 8 Amplitudes 6 4 2 0 0

yp y

100

200

300 400 Time (0.1s) FIGURE 7a

500

600

700

0.4 Prediction error 0.2 0.0 -0.2 -0.4 0 100 200 300 400 500 600 700

Time (0.1 s) FIGURE 7b

21

0.4 Prediction error 0.2 0.0 -0.2 -0.4 0 100 200 300 400 Time (0.1s) 500 600 700

FIGURE 8

22

1.5

1.0 Prediction error 0.5 0.0 -0.5 -1.0 -1.5 0 100 200 300 400 Time (0.1s) FIGURE 9 500 600 700

Neural Networks for Signal Processing IV, J. Vlontzos, J. Hwang, E. Wilson, eds, pp. 229-237 (IEEE , 1994).

THE SELECTION OF NEURAL MODELS OF NON-LINEAR DYNAMICAL SYSTEMS BY STATISTICAL TESTS


D. URBANI, P. ROUSSEL-RAGOT, L. PERSONNAZ, G. DREYFUS Ecole Suprieure de Physique et de Chimie Industrielles de la Ville de Paris Laboratoire d'Electronique 10, rue Vauquelin F - 75005 PARIS - FRANCE Phone: 33 1 40 79 45 41 ; Fax: 33 1 40 79 44 25 e-mail: dreyfus@neurones.espci.fr

Abstract - A procedure for the selection of neural models of dynamical processes is presented. It uses statistical tests at various levels of model reduction, in order to provide optimal tradeoffs between accuracy and parsimony. The efficiency of the method is illustrated by the modeling of a highly non-linear NARX process. INTRODUCTION The representation of the behaviour of dynamical processes is a conceptually straightforward application of neural networks, whether feedforward or recurrent, as non-linear regressors. In practice, however, the modeling of a process requires solving several problems: (i) the choice of the nature of the model (static model vs dynamic model, input-output representation vs state representation, ...) requires an analysis of the future use of the model (for instance, whether it will be used for predicting the future evolution of the process, or whether it will be used within a control system), and an analysis of the a priori knowledge on the phenomena involved in the process; (ii) the choice of the structure of the model, defined by the number of its inputs, by the number of its outputs, by the type of input-output relationship (linear, polynomial, radial-basis function, multi-layer neural network, etc.), and by its structural parameters (degree of the polynomial approximation, number of radial basis functions, number of neurons, etc.); (iii) the estimation of the optimal set of adjustable coefficients (synaptic weights in the case of neural net models) of the chosen structure ("identification" in automatic control, "training" in neural network parlance); The first problem is fully application-dependent: no general statement can be made. The third problem has been investigated in great depth in the case of

linear models [1]; in the case of neural network models, a variety of training algorithms is available [2], and it has been shown that the choice of a training algorithm, in the context of dynamical process modeling, is based on the nature of the noise present in the process to be modeled [3]. In the present paper, we investigate the second problem, namely, that of model selection, which is a key factor for a model to be successful [4]. We suggest a pragmatic model selection procedure for dynamical input-output non-linear models, which features three steps in succession: first, the inputs (external inputs and feedback inputs) of linear models of the process around operating points are selected; in a second step, the relevant inputs of the nonlinear model are selected, thereby determining the order of the model; finally, the structural parameter of the model is determined. An optimized model of a dynamical process is thus derived. We describe the selection procedure in the case of stable (within the range of operation for which a model is needed), single-input-single-output processes. We assume that the process is NARX: yp(t) = F [yp(t-1), ..., yp(t-n ), u(t-1), ..., u(t-m)] + w(t) where {w(t)} is a gaussian sequence of zero mean independent random variables, n is the order of the assumed model, and m is the memory span of the control sequence {u(t)}. The following predictor is used: y(t) = Y [yp(t-1), ..., yp(t-n), u(t-1), ..., u(t-m)]; We know from [3] that such a predictor (trained with a directed, or teacherforcing, algorithm) is optimal as a predictor for a NARX process. If n = n , if m = m, and if Y (.) is an accurate approximation of F(.), then the predictor is optimal for the process. In the following, we describe the three steps of the procedure, in the case of a neural network model.

THE PROCEDURE First step In the stability domain of the process, operating points (u i, yi ) are chosen. The process is subjected to time-dependent control sequences of length N in the ranges [ui + Dui , ui - Dui ], such that a linear model of the process can be considered valid in each of these ranges. For each operating point, we select, as described below, a linear model which is a satisfactory tradeoff between accuracy and parsimony. At the end of the first step, the set of all inputs which were selected is available for use in the second step of model selection.

For each operating point, we make the assumption that the process can be described as an ARX model : yp(t) = a i yp(t-i) +
i=1 n

a n+1 u(t-i) +w(t)


i=1

where n et m are unknow parameters. We consider a training set of size N, and a family of predictors of the form: y(t) = qi yp(t-i) +
i=1 n

qn+i u(t-i)
i=1

The aim of the procedure is to find a predictor such that n = n, m = m. We denote by y p , x 1 , x 2 , , x n , xn+1 , , xn+m , w , y the N-vectors, corresponding to the values yp(t), y p(t-1), ..., yp(t-m), u(t-1), ..., u(t-n), w(t), y(t), for t=1 to N; thus: y = [x 1, ... x M] q , where M = m + n. We have to find M regressors, corresponding to M independent vectors {x1, , xM} such that the subspace spanned by these vectors is the subspace of smallest dimension containing E[yp]. In order to find this subspace, we start with a complete model, whose parameters n' and m' are chosen to be larger than can be expected from the a priori knowledge available on the process. We thus make the assumption that the subspace H spanned by the M'=n'+m' vectors contains E[ yp], and we expect to extract the satisfactory subset of significant regressors from the initial set. This could be achieved by computing and comparing all possible regressions; however, this method becomes too expensive for large M'. In order to decrease the amount of computation, we build from the initial set {x1, , xM' } an ordered set of orthonormal vectors {p 1 , , p M' } such that the model defined by {p 1, , pk}, for all 1kM', gives a sum of squares of errors (SSE) which is smaller than the SSE given by all other models with k regressors [5]. We first choose, among the M' vectors {x1, , xM' }, the vector xj giving the largest square regression | p1T yp| 2, with p1 = xj / ||xj||. The (M'-1) remaining {xi} vectors are orthonormalized with respect to p 1. Consider the k th step of the ordering procedure, where p 1, , pk1 have been selected. We denote by SSE(k) the SSE obtained with the selected model having k regressors, thus : SSE(k-1) SSE(k) = | pkT yp| 2 , with : SSE(0) = || yp|| 2 . This contribution decreases as k increases. This procedure is iterated M'-1 times for p 2 , p 3, ... until completion of the list. Thus : ||yp|| 2 = p T k y p + SSE(M')
2 k=1 M'

where SSE(M') is the sum of squares of errors for the complete model.

Subsequently, the above list is scanned in the inverse order of its construction, and each model is compared with the complete model, using the Log Determinant Ratio Test (LDRT). The number of models we have to take into account is at most equal to M. Note that the comparison between these models by LDRT is easy (see Appendix for further details about this test), since the variable used to compare the k-regressor model and the complete model is : log SSE(k) XLDRT = N log SSE(M') . We select the smallest predictor model accepted by the test. In order to further decrease the number of tests, we introduce a simple stopping criterion during the formation of the subset {p 1, , pM} : at the kth 2 2 step, the procedure is terminated if p T k y p < r ||y p| | . The choice of r is not critical provided it is small (typically r<10 -8 ). In the present work, we use LDRT, but Fisher-Snedecor test, Akaike's Information Criterion (AIC) test are also available (for a review see [4]) and lead to similar results. Thus, for each chosen operating point, a linear model is available, which achieves a satisfactory tradeoff between accuracy and parsimony. Note that the techniques which are used in the linear context of this step are not computationally expensive, so that a large number of external inputs n and feedback inputs m can be used as a starting model for selection. At the end of the first step, each regressor which was selected for at least one operating point is available for consideration in the second step of model selection. Second step In this step, the process is subjected to large-amplitude control signals corresponding to the conditions of operation which the model is expected to account for. A non-linear model is defined (e.g. a neural network), whose inputs are the set of inputs which were determined during the previous step, and whose structural parameters are deemed to be appropriate for the nonlinear input-output function to be accurately approximated (e.g. a neural network with an appropriate, possibly too large, number of neurons, trained by an algorithm which allows an efficient minimization of the SSE). Such methods tend to be computationally expensive, so that the chosen number of neurons should not be excessively large. The best subset of inputs is selected by statistical tests (LDRT or AIC criterion (see appendix)) : we compare the complete non-linear model with all these sub-models with one input less. If all the models are rejected, this step of the procedure is terminated. Otherwise, the best submodel is chosen, and compared with all these submodels having one input less, and so on. At the end of this step, a non-linear model M1 is available, whose inputs have been selected.

Third step The final step aims at determining the structural parameter of the model: in the case of a neural network model, this parameter is the number of hidden neurons. Here, the accuracy/parsimony tradeoff is expressed by the fact that too large a number of hidden neurons leads to overtraining (small SSE on the training set, large SSE on the test set), whereas too small a number of neurons leads to poor approximation (large SSE on the training set itself). The model M 1 resulting from the previous two steps is considered as the complete model, and models with a smaller number of hidden neurons than M1 are considered for selection. As in the previous steps, statistical tests are used in order to find a satisfactory tradeoff. Note that most model reduction algorithms used for neural networks aim at eliminating connections [6], whereas this final step aims at eliminating neurons.

EXAMPLE The efficiency of the above procedure is illustrated by the modeling of a second-order, highly non-linear NARX process, which is simulated by the following equation: yp (t) = 50 tanh 2. 10-3 24 + yp(t-1) u t-1 2 yp (t-1) - 8 yp t-2 3 1 + u t-1 2 + 0.5 u t-1 + w t ,

where w(t) is white noise with variance ( sw)2 . The behaviour of this process is essentially that (i) of a linear first-order low-pass filter for amplitudes smaller than or on the order of 0.1, and (ii) of a second-order, oscillatory, linear (0.1 < |u| < 0.5), or non-linear (0.5 < |u| < 5) system for larger amplitudes; it becomes almost static for positive signals of very large amplitude; in addition, it is not symmetrical with respect to zero. Figure 1 shows the response of the process to steps of random amplitude in the region of interest, with ( sw)2 = 10-2 . First step The operating points were ui = {-10, -8, -5, -2, -1, -0.5, 0.1, 1, 2, 5, 8, 10}. At each of these points, a uniformly distributed random sequence was added to the control input, with maximum amplitude Du i=0.1 (su2 = 3.10 -3 ). The initial model was chosen to have n' = m' = 100. The training sequence was of length N = 1000. The orthonormalization procedure retained 15 inputs, and the subsequent LDRT tests (with 1% risk) led to the selection of n+m = 2 to 5 inputs, depending on the operating points. Second step

The training set was a sequence of large-amplitude steps, such as shown on Figure 1. M1 was a fully connected neural network, with the 5 inputs (n = 3, m = 2) selected in the first step, and with 10 hidden neurons. After training, the variance of the prediction error (as estimated by SSE/N) was on the same order of magnitude as sw , which shows that the network was sufficiently large, and had been trained efficiently. Subsequently, the networks obtained by suppressing 1 input, then 2 inputs, etc., were trained and submitted to the LDRT procedure, as illustrated on Table 1: the full model M1 is compared to M2 , M3 , ..., M6 . The test selected only M2 and M4 (the deletion of one input leads to the deletion of 11 connections; the corresponding value of the c2 variable for a 1% risk is 24.7). Since the SSE of M4 was smallest, it was selected for comparison with all models smaller than M 4 1 ; M 7 is the only three-input model which was selected. All models smaller than M 7 were rejected. Therefore, M7 was finally accepted. The success of the procedure is shown by the fact that M 7 is indeed the only model which has the same inputs as the simulated process. A similar result is obtained if the AIC test is used.

Amplitude

w(t)

u(t)
Time

yp(t)

FIGURE 1 Sequence of control input and process output.

Third step Model selection is performed on neural nets having the inputs of M 7 , and 0 to 10 hidden neurons, with the same training set for all nets. The result of the selection depends on s w . With s w = 10 -2 , a model with 9 neurons is selected. With sw = 10-1, the same inputs are selected by the first two steps and the third step leads to a neural network with 4 neurons. As should be
1 Actually, the SSE's of M and M are very close; if M is selected instead 2 4 2

of M4, the same result is obtained, since M7 is a sub-model of both M 2 and M4.

Model 1 2 3 4 5 6 7 8 9 10 11 12 13

yp(t1) yp(t2) yp(t3) u(t1) X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

u(t2) SSEx102 XLDRT X 19.1 19.6 11 X 13.0 832 X 19.5 10 X 31.6 218 X 31.8 221 19.6 1.2 X 97.7 697 X 11.8 980 X 39.4 1303 25.4 1114 18.7 978 18.2 968

TABLE1 Models labelled by boldface figures are those whose inputs include the inputs of the process.

expected, the procedure selects a smaller number of neurons if the noise level is high than if it is low. CONCLUSION A pragmatic three-step procedure for non-linear dynamical model selection has been proposed, which uses statistical tests at various levels of model reduction. It relies on the fact that efficient training procedures are available. It allows the selection of the delayed external inputs, of the feedback inputs (hence the determination of the order of the model) and of the structural parameters such as the number of hidden neurons. Its main shortcoming seems to be the fact that its application is subject to the availability of two types of data from the process, namely, small-signal responses around chosen operating points, and large-signal responses in "normal" operation. Its efficiency is shown on an illustrative example: the neural modeling of a highly non-linear NARX process.

APPENDIX The Logarithm Determinant Ratio Test (LDRT) [4] The problem of the selection of one model out of two can be formulated as a statistical testing problem. We suppose that an accurate model M 1, described by the vector of paramters q, is available to explain a set of N experimental data. The null hypothesis states that a part q 2 of the vector parameter q is

equal to zero; if this assumption is true, q =[ q1, q2] can be reduced to q1. If the alternative hypothesis is true, then q 2 cannot be taken equal to a zero vector. A very efficient test to solve such a problem is the Likelihood Ratio Test (LRT), but this test requires the expression of the likelihood function. In our case, with very large N, it reduces to the Log Determinant Ratio Test (LDRT) : under the null hypothesis q 2 =0, with a scalar output, the distribution of the statistics : XLDRT = N log SSE( q1) SSE( q) converges to a chi-square distribution with dim(q2) degrees of freedom. The Akaike's Information Criterion Tests (AIC) The AIC is an alternative way of selecting a model from a set of models, using statistical tests. For each model of the set, we compute the AIC value : AIC = 2 N log(SSE/N) + 2M where N is the number of data and M is the number of parameters of the model. The model corresponding to the smallest AIC value is thus selected as the best model of the set, with respect to this criterion. This procedure requires no assumptions on the models. There exist more efficient variants of the classical AIC [4], such as the AIC*, used in this work : AIC*= 2 N log(SSE/N) + 4 M . REFERENCES [1] See for instance: L. Ljung, System Identification: Theory for the User: Prentice Hall, 1987. G.C. Goodwin, R.L. Payne, Dynamic System Identification: Experiment Design and Data Analysis: Academic Press,1977. O. Nerrand, P. Roussel-Ragot, L. Personnaz, G. Dreyfus, "Neural Networks and Non-linear Adaptive Filtering: Unifying Concepts and New Algorithms", Neural Computation, vol. 5, pp.165-197, 1993.. O. Nerrand, P. Roussel-Ragot, D. Urbani, L. Personnaz, G. Dreyfus, "Training Recurrent Neural Networks: Why and How ? An Illustration in Dynamical Process Modeling", IEEE Transactions on Neural Networks, vol. 5, pp. 178-184, 1994. I.J. Leontaritis, S.A. Billings, "Model Selection and Validation for Non-Linear Systems", International Journal of Control, vol. 1, pp. 311-341, 1987. S. Chen, S.A. Billings, W. Luo, "Orthogonal Least Squares Methods and their Application to Non-Linear System Identification" International Journal of Control, vol. 50 , pp. 1873-1896, 1989.

[2]

[3]

[4]

[5]

[6]

R. Reed, "Pruning Algorithms - A Survey", IEEE Transactions on Neural Networks, vol. 4, pp. 740-747, 1993.