Vous êtes sur la page 1sur 22

CHAPITRE I Modlisation de processus et estimation des paramtres dun modle

Modlisation de processus et estimation des paramtres dun modle

I. INTRODUCTION. Dans la premire partie de ce chapitre, nous rappelons les notions de processus et de modle, ainsi que divers termes utiliss frquemment dans le cadre de la modlisation. Dans la seconde partie, nous aborderons le problme de lestimation des paramtres dun modle et nous prsenterons les algorithmes qui ont t utiliss dans notre travail. II. DFINITION DUN PROCESSUS ET DUN MODLE. II.1 Processus. Un processus est caractris par : une ou plusieurs grandeurs de sortie, mesurables, qui constituent le rsultat du processus, une ou plusieurs grandeurs d'entre (ou facteurs), qui peuvent tre de deux types : - des entres sur lesquelles il est possible d'agir (entres de commande), - des entres sur lesquelles il n'est pas possible d'agir (perturbations) ; ces dernires peuvent tre alatoires ou dterministes, mesurables ou n o n mesurables. Les processus peuvent tre de toutes natures : physique, chimique, biologique, cologique, financier, sociologique, etc. II.2 Modles. II.2.1 Quest ce quun modle ? Nous nous intressons ici aux modles mathmatiques, qui reprsentent les relations entre les entres et les sorties du processus par des quations. Si ces quations sont algbriques, le modle est dit statique . Si ces quations sont des quations diffrentielles ou des quations aux diffrences rcurrentes, le modle est dit dynamique , respectivement temps continu ou temps discret. Un modle est caractris par son domaine de validit, c'est--dire par le domaine de l'espace des entres dans lequel l'accord entre les valeurs des sorties du processus calcules par le modle, et leurs valeurs mesures, est considr comme satisfaisant compte tenu de l'utilisation que l'on fait du modle. II.2.2 Buts dune modlisation. Un modle peut tre utilis soit

Modlisation de processus et estimation des paramtres dun modle pour simuler un processus : des fins pdagogiques, de dtection d'anomalies de fonctionnement, de diagnostic de pannes, de conception assiste par ordinateur, etc., pour effectuer la synthse d'une loi de commande, ou pour tre incorpor dans un dispositif de commande. II.2.3 Classification des modles. II.2.3.1 Classification selon le mode de conception. On distingue trois sortes de modles en fonction des informations mises e n jeu pour leur conception : Les modles de connaissance : les modles de connaissance sont construits partir dune analyse physique, chimique, biologique (ou autre suivant le type du processus), en appliquant soit les lois gnrales, fondes sur des principes (lois de la mcanique, de l'lectromagntisme, de la thermodynamique, de la physique quantique, etc.), soit les lois empiriques (finance, conomie), qui rgissent les phnomnes intervenant au sein des processus tudis. Ces modles ne comportent gnralement pas de paramtres ajustables, ou des paramtres ajustables en trs petit nombre. Dans la pratique, il est toujours souhaitable d'tablir un modle de connaissance des processus que l'on tudie. Nanmoins, il arrive frquemment que le processus soit trop complexe, ou que les phnomnes qui le rgissent soient trop mal connus, pour qu'il soit possible d'tablir un modle de connaissance suffisamment prcis pour l'application considre. On est alors amen concevoir des modles purement empiriques, fonds exclusivement sur les rsultats de mesures effectues sur le processus. Les modles bote noire : les modles bote noire sont construits essentiellement sur la base de mesures effectues sur les entres et les sorties du processus modliser. La modlisation consiste alors utiliser, pour reprsenter les relations entre les entres et les sorties, des quations (algbriques, diffrentielles, ou rcurrentes) paramtres, et estimer les paramtres, partir des mesures disponibles, de manire obtenir la meilleure prcision possible avec le plus petit nombre possible de paramtres ajustables. Dans ce mmoire, nous dsignerons frquemment l'estimation des paramtres sous le terme d'apprentissage .

Modlisation de processus et estimation des paramtres dun modle Le domaine de validit d'un tel modle ne peut pas s'tendre au-del du domaine des entres qui est reprsent dans les mesures utilises pour l'apprentissage. Les modles bote grise : lorsque des connaissances, exprimables sous forme d'quations, sont disponibles, mais insuffisantes pour concevoir u n modle de connaissance satisfaisant, on peut avoir recours une modlisation "bote grise" (ou modlisation semi-physique) qui prend en considration la fois les connaissances et les mesures. Une telle dmarche peut concilier les avantages de l'intelligibilit d'un modle de connaissance avec la souplesse d'un modle comportant des paramtres ajustables. II.2.3.2 Classification selon lutilisation. Indpendamment de la classification prcdente, on peut distinguer deux types de modles en fonction de l'utilisation qui en est faite. Les modles de simulation (ou simulateurs) : un modle de simulation est utilis de manire indpendante du processus quil reprsente. Il doit donc possder un comportement aussi semblable que possible celui du processus. De tels modles sont utiliss pour valider la conception d'un systme avant sa fabrication (conception assiste par ordinateur en mcanique, en microlectronique, ...), pour la formation de personnels (simulateurs de vols), pour la prvision long terme, etc. Du point de vue de la structure du modle, les sorties passes, mesures sur l e processus modliser, ne peuvent constituer des entres du modle. L'estimation des paramtres et l'utilisation du modle constituent deux phases successives et distinctes (apprentissage non adaptatif). Les modles de prdiction (ou prdicteurs) : un modle de prdiction est utilis en parallle avec le processus dont il est le modle. Il prdit la sortie du processus une chelle de temps courte devant les constantes de temps du processus. Les prdicteurs sont utiliss pour la synthse de lois de commande, o u dans le systme de commande lui-mme (commande avec modle interne). Du point de vue de la structure du modle, les sorties passes, mesures sur le processus, peuvent constituer des entres du modle. L'estimation des paramtres et l'utilisation du modle peuvent tre effectues simultanment si ncessaire (apprentissage adaptatif , utile notamment si les caractristiques du processus drivent dans le temps).

Modlisation de processus et estimation des paramtres dun modle Ce mmoire prsente la mise en oeuvre de plusieurs types de rseaux de fonctions paramtres pour la modlisation dynamique de processus, et la comparaison de leurs performances respectives. Il s'agira donc exclusivement de modles de type bote noire qui peuvent tre utiliss indiffremment comme simulateurs ou comme prdicteurs. III. LES TAPES DE LA CONCEPTION DUN MODLE. Lors de la conception dun modle de connaissance, la relation entre les entres et la (ou les) sortie(s) du modle dcoulent directement de la mise e n quation des phnomnes physiques (chimiques, ou autres) qui rgissent le fonctionnement du processus. Une fois le modle obtenu sous forme analytique, des approximations peuvent tre faites pour simplifier son expression (par exemple "linariser" le modle pour passer d'un modle non linaire u n modle linaire) si une telle approximation est justifie. Dans le cas dune modlisation de type bote noire, la construction du modle ncessite les trois lements suivants : Une hypothse sur lexistence dune relation dterministe liant les entres la (ou aux) sortie(s). Cette relation est caractrise par une fonction appele fonction de rgression (ou plus simplement rgression) . L'expression formelle suppose adquate pour reprsenter cette relation est appele m o d l e hypothse. Une squence de mesures des entres et de la sortie du processus. Un algorithme dapprentissage. Dans la suite de ce paragraphe, nous prsentons les diffrents aspects qui doivent tre pris en considration lors du choix dun modle-hypothse. III.1 Choix dun modle-hypothse. Les connaissances dont on dispose a priori sur le processus doivent guider le concepteur dans le choix de la modlisation la plus approprie (statique o u dynamique, linaire ou non linaire, ...). Llaboration du modle-hypothse ncessite d'effectuer les choix suivants : Modle statique ou dynamique : lorsque l'on cherche modliser u n processus physico-chimique ou biologique, il est gnralement facile de savoir si l'application envisage ncessite de modliser la dynamique du processus (c'est-dire si l'on doit considrer une chelle de temps petite devant les constantes de temps du processus) ou si une modlisation statique suffit.

Modlisation de processus et estimation des paramtres dun modle Modle linaire ou non linaire : il n'est pas douteux que la plupart des processus que l'on peut rencontrer ncessiteraient des modles non linaires s'il fallait les dcrire de manire prcise dans la totalit de leur domaine de fonctionnement : la plupart des modles linaires constituent des approximations valables dans un domaine plus ou moins restreint. Il est donc important de pouvoir laborer un modle non linaire pour rendre compte du comportement d'un processus, non seulement autour de ses points de fonctionnement "habituels", mais galement lors des passages d'un point de fonctionnement u n autre. Modle entre-sortie ou modle d'tat : dans le cas o l'on opte pour une modlisation dynamique, deux reprsentations sont possibles pour le modle : il sagit de la reprsentation dtat ou de la reprsentation entresortie. Ltat dun processus est dfinit comme la quantit dinformation minimale ncessaire pour prdire son comportement, tant donnes les entres prsentes et venir. Il sagit gnralement dun vecteur de grandeur gale lordre du modle. La reprsentation entresortie est un cas particulier de la reprsentation dtat o le vecteur des tats est constitu par la sortie et ses valeurs retardes dans le temps. Si le but de la modlisation est de prdire le comportement entresortie du processus, il existe gnralement une infinit de reprsentations dtat (au sens dtats ayant des trajectoires diffrentes) solutions du problmes. En revanche, la reprsentation entresortie est unique. Prsence de perturbations dterministes : lorsque l'on cherche raliser un modle dynamique, les perturbations dterministes peuvent tre modlises par une entre supplmentaire (chelon, signal carr, sinusode). En particulier, si le modle est construit pour la synthse dune loi de commande, la prise e n considration de lexistence dune perturbation pendant la phase de modlisation peut amliorer les performances de la commande pour le rejet de cette perturbation. Par exemple, il est propos dans [Mukhopa93] une approche qui consiste considrer la perturbation comme la sortie dun processus. La modlisation de ce processus a pour effet d'introduire de nouvelles variables d'tat, donc d'augmenter l'ordre du modle. Prsence dun bruit : lorsque l'on cherche raliser un modle dynamique, une perturbation de type bruit est modlise par une squence de variables alatoires. Un bruit peut agir de diffrentes manires sur un processus. On distingue notamment le bruit de sortie (bruit additif qui affecte la mesure de la sortie du processus), et le bruit dtat (bruit additif qui affecte l'tat du processus). Comme, en gnral, on ne connat pas avec prcision la nature du bruit qui 10

Modlisation de processus et estimation des paramtres dun modle affecte le processus, on doit effectuer des hypothses sur celle-ci ; on dduit de celles-ci la structure du modle-hypothse, et l'algorithme utilis pour l'ajustement des paramtres. Une hypothse errone peut dgrader considrablement les performances du modle. Ces problmes ont t trs largement tudis dans le cas de la modlisation linaire [Ljung87]. Dans le cadre de la modlisation non linaire par rseaux de neurones, ces considrations sont dveloppes dans [Nerrand94]. III.2 Du modle-hypothse au prdicteur ou au simulateur. Un modle-hypothse ayant t choisi, ltape suivante consiste tablir l'expression du prdicteur thorique, c'est--dire l'expression de la prdiction de la sortie du processus l'instant n + d en fonction des donnes disponibles l'instant n (entres et sorties du processus et/ou du prdicteur l'instant n et aux instants antrieurs). Enfin, la dernire tape consiste tablir l'expression du prdicteur (ou du simulateur) proprement dit : dans le cas d'une modlisation "bote noire", ce prdicteur utilise une fonction paramtre, dont on estime les paramtres, partir de mesures effectues pralablement sur le processus, de telle manire qu'il constitue la meilleure approximation possible du prdicteur thorique. A l'issue de la procdure destimation des paramtres (apprentissage), il faut valuer la performance du prdicteur (ou du simulateur). Dans le cadre de ce mmoire nous nous intressons plus particulirement ltape dapprentissage et donc aux caractristiques du prdicteur (complexit, contraintes de mise en oeuvre) et aussi lalgorithme dapprentissage (efficacit, robustesse). La plupart des exemples tudies tant des processus simuls, le problme du choix du modle-hypothse ne se pose pas. En revanche, la modlisation dun processus rel (dans le dernier chapitre) sera loccasion d'examiner ce problme. III.3 Prsentation de quelques modles-hypothses et de leurs prdicteurs associs. Nous prsentons dans ce paragraphe quelques exemples de modleshypothses ainsi que les prdicteurs qui leurs sont associs, pour l'laboration d'un modle dynamique entre-sortie. Lun des principaux paramtres qui interviennent dans le choix dun modle-hypothse est la prsence dun bruit et la manire dont il agit sur le processus. Pour ceci, nous allons considrer deux classes de modles-hypothses : le modle-hypothse dterministe et des modles-hypothses non dterministe (faisant intervenir un bruit dans la modlisation du processus).

11

Modlisation de processus et estimation des paramtres dun modle III.3.1 Modle-hypothse dterministe. On considre quaucun bruit n'agit sur le processus. On propose u n modle-hypothse dterministe ayant lexpression suivante : (1) yp n = f yp n1 , ... , yp nNs , u n1 , ... , u nNe o yp(n) est la sortie mesure du processus linstant n , N s est lordre du modle et N e la mmoire sur lentre externe u . f est une fonction non linaire dont o n suppose qu'elle existe, et qu'elle constitue une reprsentation mathmatique du comportement du processus. La forme prdicteur thorique associe ce modle-hypothse est la suivante : (2) y n = f yp n1 , ... , yp nNs , u n1 , ... , u nNe o y(t) est la prdiction de la sortie du processus calcule par la forme prdicteur thorique. tant donn que nous considrons que le processus nest soumis aucun bruit, la forme prdicteur thorique doit calculer tout instant y(t) = yp(t). Le prdicteur dont on effectuera lapprentissage aura pour expression : y t = yp t1 , ... , yp tNs , u t1 , ... , u tNe (3)

o est une fonction paramtre, dont les paramtres doivent tre estims pour qu'elle approche au mieux la fonction f dans le domaine de fonctionnement considr. Cette optimisation sentend au sens de la minimisation de la fonction de cot empirique, que lon appellera dornavant fonction de cot et que lon notera par J. Cette minimisation est ralise l'aide d'un algorithme dapprentissage. Si lon est intress par la construction dun modle de simulation, u n autre prdicteur peut tre considr : (4) y n = y n1 , ... , y nNs , u n1 , ... , u nNe La seule diffrence avec la forme prdicteur de la relation (3) rside dans le fait que les entres dtat du modle sont les sorties retardes du modle, non celles du processus . III.3.2 Modles-hypothses non dterministes. On dsigne par modles-hypothses non dterministes des modleshypothses qui supposent lexistence dun bruit agissant sur le processus modliser. On peut envisager plusieurs hypothses concernant la manire dont le bruit agit sur le processus. Nous en prsentons deux, que nous considrerons lors de ltude dexemples dans ce mmoire.

12

Modlisation de processus et estimation des paramtres dun modle III.3.2.1 Lhypothse Bruit de sortie. Lhypothse Bruit de sortie (Output Error en anglais) consiste considrer quun bruit agit sur la sortie du processus. Lexpression du modlehypothse est : x(n) = f(x(n1), ... , x(nNs), u(n1), ... , u(nNe)) (5) yp(n) = x(n) + w(n) o {w (n )} est une squence de variables alatoires indpendantes de moyenne 2 nulle et de variance . La forme prdicteur thorique associe ce modlehypothse est donne par lexpression suivante : (6) y(n) = f y n1 , y n2 , ... , y nNs , u n1 , ... , u nNe Le prdicteur rel associ a pour expression : y(n) = y n1 , y n2 , ... , y nNs , u n1 , ... , u nNe (7)

o est une fonction ralise l'aide d'une fonction paramtre, par exemple u n rseau de neurones. Cest donc un modle dont les entres dtat sont ses propres sorties retardes, et non pas les sorties du processus. Si, aprs apprentissage, la fonction tait identique la fonction f, l'erreur de prdiction commise par ce prdicteur serait une squence alatoire de mmes caractristiques que w . Lorsque la fonction parmtre est ralise par un rseau de neurones, celui-ci est u n rseau boucl, que nous dcrirons au paragraphe II.4.2 du chapitre suivant. III.3.2.2 Lhypothse Bruit dtat. Lhypothse Bruit dtat (Equation Error en anglais) consiste considrer quun bruit agit sur l'tat du processus. Ce modle-hypothse a la forme suivante : (8) yp(n) = f yp n1 , yp n2 , ... , yp nNs , u n1 , ... , u nNe + w(n) o {w(n)} est une squence de variables alatoires indpendantes de moyenne 2 nulle et de variance . La forme prdicteur thorique associe ce modlehypothse est donne par lexpression suivante : (9) y(n) = f yp n1 , yp n2 , ... , yp nNs , u n1 , ... , u nNe Le prdicteur rel associ est de la forme : y(n) = yp n1 , yp n2 , ... , yp nNs , u n1 , ... , u nNe (10)

o est une fonction paramtre. Si tait identique f, l'erreur de prdiction effectue par ce prdicteur serait une squence de variables alatoires de mmes caractristiques que le bruit w. Lorsque la fonction parmtre est ralise par u n rseau de neurones, celui-ci est un rseau non boucl, que nous dcrirons au paragraphe II.4.1 du chapitre suivant.

13

Modlisation de processus et estimation des paramtres dun modle IV . FONCTIONS PARAMTRES POUR LA MODLISATION "BOTE NOIRE". Comme indiqu cidessus, une modlisation de type bote noire est mise en uvre dans le cas o l'on dispose de peu de connaissance sur le processus tudi, ou si le modle de connaissance tabli est trop compliqu pour tre exploit. Dans les deux cas (et particulirement dans le second) on a besoin dun outil fournissant un modle prcis, aussi simple que possible en termes de nombre de paramtres ajustables et de nombre de calculs effectuer, pour prdire la sortie du processus. En gnral, un modle bote noire statique est une combinaison paramtre de fonctions, qui peuvent tre elles-mmes paramtres. Un modle "bote noire" dynamique est, comme nous l'avons vu ci-dessus, un ensemble d'quations diffrentielles (ou d'quations aux diffrences pour un modle temps discret) non linaires, o la non-linarit est ralise, comme dans le cas d'un modle statique, par une combinaison paramtres de fonctions ventuellement paramtres. Des fonctions paramtres constituent une famille d'approximateurs universels s'il est possible (sous certaines conditions de rgularit) dapprocher toute fonction continue, avec la prcision voulue, dans un domaine de l'espace des entres, par une somme pondre d'un nombre fini de ces fonctions. Cette condition n'est nanmoins pas suffisante pour qu'une famille de fonctions soit utilisable de manire efficace pour la modlisation "bote noire" efficace. En effet, parmi tous les modles possibles, on recherche toujours celui qui possde le plus petit nombre de coefficients ajustables : c'est la proprit de parcimonie, dont nous verrons qu'elle n'est pas partage par tous les types de fonctions paramtres. A cet gard, il est important de distinguer les modles linaires par rapport aux paramtres des modles non linaires par rapport aux paramtres. IV.1 Les fonctions paramtres linaires par rapport aux paramtres. Une fonction paramtre est linaire par rapport aux paramtres si elle est de la forme :
N

X=

X
i i i=1

(11)

o les i(X) sont des fonctions non paramtres d'une ou plusieurs variables groupes dans le vecteur X, et o les i sont des paramtres. Les fonctions i(X) peuvent tre quelconques ; traditionnellement on utilise des monmes ; mais on peut galement utiliser dautres types de fonctions : fonctions splines, fonctions gaussiennes dont les centres et les cartstypes sont fixs, 14

Modlisation de processus et estimation des paramtres dun modle fonctions ondelettes dont les translations et dilatations sont fixes (ces dernires seront prsentes au chapitre IV de ce mmoire). IV.2 Les fonctions paramtres non linaires par rapport aux paramtres. Dans le prsent travail, nous utiliserons essentiellement des fonctions n o n linaires par rapport aux paramtres, qui sont de la forme
N

X=

X,
i i i=1

(12)

o i est un vecteur de paramtres de la fonction i. Ainsi, la fonction ralise est linaire par rapport aux i, mais non linaire par rapport aux paramtres constituant le vecteur i : c'est une combinaison linaire de fonctions paramtres. Les rseaux de neurones une couche cache (prsents au chapitre II), les rseaux de fonctions gaussiennes radiales dont les centres et les carts-types sont ajustables, les rseaux d'ondelettes (qui sont l'objet essentiel de ce travail) entrent dans cette catgorie de fonctions. Toutes ces fonctions sont des approximateurs universels [Hornik89] mais leur intrt, par rapport aux fonctions linaires par rapport aux paramtres, rside dans le caractre parcimonieux des modles quils permettent de raliser [Hornik94]. Comme nous le verrons au paragraphe V.2, le prix payer pour cela rside dans le fait que les mthodes habituelles d'estimation de paramtres (mthodes de moindres carrs) sont inutilisables, et que l'on doit avoir recours des mthodes itratives (mthodes de gradient) dont la mise e n uvre est plus lourde. Nous prsentons brivement ci-dessous ces trois types de rseaux, dont deux seront repris en dtail dans les chapitres suivants. IV .2.1 Les rseaux de neurones. Dans ce travail, nous rserverons le terme de rseau de neurones aux rseaux de la forme (12) , o au moins une des fonctions i(X) est une fonction croissante borne, notamment sigmode (tangente hyperbolique), d'une combinaison linaire des entres ; certaines de ces fonctions peuvent tre l'identit. Lexpression de ces rseaux est :
N

(X) = i i iTX
i=1

(13)

Issus de travaux connotation biologique dans les annes 1940, ces rseaux sont maintenant considrs comme des outils mathmatiques, indpendamment de toute rfrence la biologie. Ils sont utiliss pour la modlisation et la commande

15

Modlisation de processus et estimation des paramtres dun modle de processus non linaires, ainsi que comme outils de classification, notamment pour la reconnaissance de formes. Les principales tapes dans lvolution de la thorie et de la pratique des rseaux de neurones ont t la mise au point dun algorithme, conomique e n temps de calcul, pour l'valuation du gradient de la fonction de cot (dfinie au paragraphe V), appel algorithme de rtropropagation [Rumelhart86], et la preuve de ses proprits dapproximateur universel [Hornik89] et de parcimonie [Barron93, Hornik94]. Lune des premires applications dans le domaine de la modlisation non linaire de processus est prsente dans [Narendra90]. IV .2.2 Les rseaux de fonctions radiales (RBF pour Radial Basis Functions). Les fonctions radiales ont t introduites par [Powell85] dans le cadre de l'interpolation , c'est--dire de la recherche de fonctions passant exactement par un nombre fini de points (dits points de collocation). Dans ce contexte, la fonction recherche est une combinaison linaire de fonctions de base, en nombre gal au nombre de points de collocation ; une fonction de base n(x), relative au point de collocation xn, est dite radiale si elle ne dpend que de la distance du point courant x au point de collocation xn. On peut utiliser diverses fonctions radiales, notamment des fonctions localises (qui tendent vers zro dans toutes les directions de l'espace des variables) telles que des gaussiennes centres aux points de collocation. Bien entendu, la recherche d'une fonction passant exactement par les points n'a de sens que si ces points ne sont pas entachs de bruit. La rfrence [Broom88] semble tre parmi les premires proposer lide d'utiliser des rseaux de RBF pour l'approximation de fonctions non linaires. La fonction recherche est toujours une combinaison linaire de fonctions radiales, mais leur nombre est beaucoup plus petit que le nombre de points, et elles ne sont donc pas forcment centres en ces points. Son expression est de la forme :
N

(X) = i i X Mi , i2
i=1

(14)

o M est le vecteur des centres et i2 un scalaire (appel variance dans le cas dune RBF gaussienne). La proprit dapproximateurs universels pour ces rseaux na t que rcemment prouve pour des gaussiennes radiales [Hartman90] et plus gnralement pour des RBF [Park91]. Ces rseaux ont t utiliss comme outil de modlisation bote noire dans le domaine de lautomatique. On les trouve la base de modles entre sortie [Chen90] et aussi de modles dtat [Elanayar94]. Certaines spcificits de ces rseaux permettent de les utiliser pour la synthse de lois de commande adaptatives stables [Behera95, Sanner92, Sanner95]. Le fait que ces rseaux 16

Modlisation de processus et estimation des paramtres dun modle permettent de garantir la stabilit des correcteurs quils ralisent les rend plus intressants que les rseaux de neurones pour la rsolution des problmes de commande non linaire. En revanche, cette proprit se fait au dtriment de la parcimonie du rseau. IV .2.3 Les rseaux dondelettes. Les fonctions ondelettes trouvent leur origine dans des travaux de mathmaticiens ds les annes 1930. Lide de dpart tait de construire une transformation, pour ltude des signaux, plus commode que la transformation de Fourier, notamment pour des signaux de dure finie. Les fonctions ondelettes ont subi une volution au cours des annes : celles dont nous disposons aujourdhui sont plus complexes que leurs anes, et possdent des proprits intressantes pour lapproximation de fonctions. En particulier, elles possdent la proprit dapproximateurs universels, ce qui suggre leur utilisation pour la construction de modles bote noire. La notion de rseaux dondelettes existe depuis peu [Pati 93] et ltude de la proprit de parcimonie na pas t aborde. Lun des objectifs de ce mmoire est ltude de la mise en oeuvre de cette classe de rseaux pour la modlisation entresortie et dtat de processus, ainsi que la comparaison, sur des exemples, de la parcimonie et des performances de cette classe de rseaux par rapport celle des rseaux de neurones (voir les chapitres III, IV et V). V . ESTIMATION DES PARAMTRES DUN MODLE. V.1 Position du problme et notations. tant donnes les informations dont on dispose sur le processus (cest dire la squence dapprentissage) on dtermine, dans une famille donne de fonctions paramtres (x, ) (o x est le vecteur regroupant toutes les entres du modle et

le vecteur des paramtres inconnus de ) celle qui minimise une fonction de cot qui, le plus souvent, est la fonction de cot des moindres carrs. n Soit yp la sortie du processus linstant n (dans le cas dune modlisation me dynamique), ou la valeur mesure pour le n exemple de l'ensemble n dapprentissage (dans le cas dune modlisation statique). De mme, y est la sortie me calcule par le modle l'instant n, ou pour le n exemple de l'ensemble d'apprentissage. On dfinit la fonction de cot des moindres carrs J() par :
1 J = 2
N

n=1

n 2 n p y

(15)

17

Modlisation de processus et estimation des paramtres dun modle o N est le nombre de mesures (taille de la squence). J()dpend du vecteur des paramtres, ainsi que de la squence dapprentissage. Pour allger les notations, nous n'indiquerons pas explicitement cette dernire dpendance dans la suite. On dfinit lerreur quadratique moyenne dapprentissage (EQMA) comme une la moyenne de la fonction de cot calcule sur la squence dapprentissage. Elle est 2J . donne par : N Lors de son exploitation, le modle reoit des entres diffrentes de celles de la squence dapprentissage. On peut estimer ses performances en calculant diverses fonctions ; celle que l'on utilise le plus frquemment est l'erreur quadratique moyenne de performance EQMP dont la valeur est calcule sur une squence diffrente de celle utilise pour l'apprentissage. V.2 Les algorithmes de minimisation de la fonction de cot. Dans le cas o le modle est linaire par rapport aux paramtres ajuster, la minimisation de la fonction de cot, et donc lestimation du vecteur des paramtres , peut se faire laide la mthode des moindes carrs, qui ramne le problme la rsolution dun systme dquations linaires. Nous prsentons cette technique dans ce qui suit. V .2.1 Mthode des moindres carrs ordinaires. Cette mthode est applicable pour lapprentissage de modles statiques o u de prdicteurs non boucls dont la sortie est linaire par rapport aux paramtres inconnus. Si cette sortie est linaire par rapport aux entres, le prdicteur associ a pour expression :
Ni

yn =

x n
i i i= 1

(16)

Ce modle prdictif peut se tre mis sous forme dune quation matricielle. En effet, on peut lcrire Y = X avec :

Y=

y1 y2 yN

x1 1 ,X= x1 N

x2 1

xN 1
i

1
,=

2 N

(17)
i

xN N

Lestimation des paramtres est fonde sur la minimisation de la fonction de cot des moindres carrs (relation (15)). En utilisant la notation matricielle prsente cidessus, lexpression de la fonctionde cot J devient :

18

Modlisation de processus et estimation des paramtres dun modle

J =

1 T Y Y 2 TXTYp + TXTX 2 P P

(18)

La fonction de cot tant quadratique (par rapport au vecteur des paramtres estimer), il atteint son minimum pour la valeur du vecteur des paramtres annulant sa drive. Soit mc cette valeur du vecteur des paramtres. Elle vrifie :

=0
mc

(19)

Cette dernire quation fournit lquation normale : XTX mc = XTYp dont la solution mc donne par :

(20) (21)

mc = XTX

XTYp

est lestimation des moindres carrs du vecteur des paramtres p . Cette solution existe condition que la matrice XTX soit inversible. Cette condition est gnralement vrifie lorsque N (le nombres dexemples) est trs grand devant N i (le nombre dentres du modle). La mthode des moindres carrs peut tre utilise plus gnralement pour lestimation des paramtres de tout modle dont la sortie est linaire par rapport aux paramtres estimer ; c'est le cas, par exemple, pour lestimation des paramtres du modle suivant :
Ni

yn =

ii X
i= 1

(22)

o les i sont des fonctions non paramtres du vecteur des entres X. Plusieurs choix sont possibles pour les fonctions i (voir paragraphe IV.1). Les sorties des modles bote noire que nous utilisons dans ce mmoire ne sont pas linaires par rapport aux paramtres ajuster. Une rsolution directe du problme comme dans le cas de la solution des moindres carrs nest donc pas possible : on a donc recours des algorithmes dapprentissage qui recherchent une solution suivant une procdure itrative. Ces algorithmes sont gnralement applicables sauf dans le cas o des restrictions sur les valeurs possibles pour les paramtres du modle sont imposes par la nature des fonctions paramtres utilises (voir le paragraphe III.1 du chapitre IV). Dans ce qui suit, nous allons prsenter les algorithmes que nous utilisons dans ce mmoire pour la minimisation de la fonction de cot. V .2.2 Principe des algorithmes de gradient. Les algorithmes dapprentissage fonds sur l'valuation du gradient de la fonction de cot J() par rapport aux paramtres procdent la minimisation de 19

Modlisation de processus et estimation des paramtres dun modle manire itrative. J() est une fonction scalaire variable vectorielle (le vecteur des paramtres ajuster). Son gradient est donc un vecteur dfini par :
J 1 J = J M

(23)

o M est le nombre de paramtres inconnus. Le principe des algorithmes de gradient repose sur le fait quun minimum de la fonction de cot est atteint si sa drive (son gradient) est nul. Il existe plusieurs types dalgorithmes ; nous prsenterons ceux que nous utiliserons dans la suite. Leur droulement suit le schma suivant : A litration 0 : Initialiser le vecteur des paramtres . Cette initialisation de peut avoir une grande influence sur lissue de lapprentissage. Nous porterons une attention particulire cette tape. Nous proposons une technique dinitialisation pour rseaux dondelettes au chapitre IV.
0

A la kme itration : Calculer la fonction de cot et la norme du gradient avec le vecteur des paramtres courant (obtenu litration prcdente). Si J k-1 Jmax ou J ou k = k max (o Jmax est une valeur maximale recherche pour lEQMA, ou pour lEQMP si les performances sont values pendant l'apprentissage), Alors arrter lalgorithme ; le vecteur k1 est une solution, Sinon calculer k partir de k1 par la formule de mise jour des paramtres suivante : (24) k = k-1 + k dk o k est un scalaire positif appel pas du gradient et dk u n vecteur calcul partir du gradient, appel direction de descente. Les diffrences entre les mthodes de gradient rsident dans le choix de la direction de descente et dans le choix du pas.

20

Modlisation de processus et estimation des paramtres dun modle V .2.3 La mthode du gradient simple. V .2.3.1 Prsentation de la mthode. La mthode du gradient simple consiste la mise en uvre de la formule de mise jour des paramtres suivante : (25) k = k-1 k J k-1 La direction de descente est donc simplement loppose de celle du gradient ; c'est en effet la direction suivant laquelle la fonction de cot diminue le plus rapidement. En pratique, la mthode du gradient simple peut tre efficace lorsque lon est loin du minimum de J . Quand on sen approche, la norme du gradient diminue et donc lalgorithme progresse plus lentement. A ce moment, on peut utiliser une mthode de gradient plus efficace. Un "rglage" du pas de gradient k est ncessaire : en effet, une petite valeur de ce paramtre ralentit la progression de lalgorithme ; en revanche une grande valeur aboutit gnralement un phnomne doscillation autour de la solution. Diverses heuristiques, plus ou moins efficaces, ont t proposes. V .2.3.2 Techniques de rglage du pas. Technique du pas constant : elle consiste adopter un pas constant k = tout au long de lalgorithme. Elle est trs simple mais peu efficace puisqu'elle n e prend pas en considration la dcroissance de la norme du gradient. Technique du pas asservi : on peut asservir le pas laide de la norme du gradient de sorte que le pas volue en sens inverse de celleci. A chaque tape, le pas peut tre calcul par : k = (26) 1 + J o est un paramtre constant. Lors de lutilisation de cette technique, nous -3 avons adopt la valeur = 10 qui sest rvle trs souvent satisfaisante. Le numrateur est augment du nombre 1 afin dviter une instabilit numrique au moment de la division dans le cas o la norme du gradient devient trs proche du zro. Cette technique offre un bon compromis du point de vue de la simplicit et de lefficacit. Cest celle que nous avons utilise chaque fois que nous avons mis en uvre la mthode du gradient simple. V .2.4 Les mthodes de gradient du second ordre. Les mthodes que nous venons de dcrire sont simples mais en gnral trs inefficaces. On a donc systmatiquement recours lutilisation de mthodes plus 21

Modlisation de processus et estimation des paramtres dun modle performantes (pour une comparaison numrique entre ces mthodes, voir [Battiti92]). Elles sont dites du second ordre parce quelles prennent e n considration la drive seconde de la fonction de cot. Nous prsentons cidessous celles que nous avons mises en uvre dans notre travail, et dont nous comparons les performances lors de ltude de nos exemples. V .2.4.1 Lalgorithme de BFGS. Lalgorithme de BFGS (du nom de ses inventeurs : Broyden, Fletcher, Goldfarb et Shanno) [Minoux83] fait partie des mthodes doptimisation dites quasinewtoniennes. Ces mthodes sont une gnralisation de la mthode de Newton. La mthode de Newton consiste lapplication de la rgle suivante :

k = k-1 H k-1

J k-1

(27)

o H est le Hessien de la fonction J calcul avec le vecteur des paramtres disponible ltape courante. La direction de descente est dans ce cas :
dk = H k-1
1

J k-1

(28)

Le pas k est constant et gal 1. Pour que le dplacement soit en sens contraire du gradient, il est indispensable que la matrice du Hessien soit dfinie positive. Sous cette condition, et si la fonction de cot est quadratique par rapport aux paramtres, la mthode de Newton converge vers lunique solution en une seule itration. En gnral, et pour les problmes doptimisation auxquels nous sommes confronts dans ce mmoire, la fonction de cot nest gnralement pas quadratique. Elle peut nanmoins ltre localement, proximit d'un minimum de ses minima. Donc, la mthode de Newton ne peut converger en une seule itration. De plus, cette mthode ncessite linversion de la matrice du Hessien chaque itration (puisquil apparat que plusieurs sont ncessaires), ce qui conduit des calculs lourds. Lalgorithme de BFGS, ainsi que l'algorithme de Levenberg-Marquardt prsent dans le paragraphe suivant, sont des mthodes "quasi-newtoniennes" qui permettent de pallier ces inconvnients. Lalgorithme de BFGS est une rgle dajustement des paramtres qui a lexpression suivante : (29) k = k-1 k Mk J k-1 o M k est une approximation, calcule itrativement, de l'inverse de la matrice Hessienne. Lapproximation de linverse du Hessien est modifie chaque itration suivant la rgle suivante :

22

Modlisation de processus et estimation des paramtres dun modle


T T k -1Mk-1k-1 k-1k-1 T k -1k-1 T k -1k-1 T T k-1k -1Mk-1 + Mk-1k-1k-1 T k -1k-1

Mk = Mk1 + 1 +

(30)

avec k-1 = J k J k-1 et k-1 = k k-. Nous prenons pour valeur initiale de M la matrice identit. Si, une itration, la matrice calcule nest pas dfinie positive, elle est rinitialise la matrice identit. Reste la question du choix du pas k. A cet effet, nous avons opt pour une mthode conomique en calculs, la technique de Nash [Nash80]. Cette technique recherche un pas qui vrifie la condition de descente : T (31) J k-1 J k-1+k dk J k-1 + m1 k dk 3 o m 1 est un facteur choisi trs infrieur 1 (par exemple m 1 = 10 ). En pratique, la recherche du pas se fait de manire itrative. On initialise k une valeur positive arbitraire. On teste la condition (31). Si elle est vrifie, o n accepte lajustement des paramtres. Sinon, on multiplie le pas par un facteur infrieur 1 (par exemple 0.2) et on teste nouveau la condition de descente. On rpte cette procdure jusqu ce quune valeur satisfaisante du pas soit trouve. Au bout de 22 essais, le pas atteint une valeur de lordre de 10-16. On peut considrer alors quil nest pas possible de trouver un pas satisfaisant. Une mthode quasinewtonienne, nest efficace que si elle est applique au voisinage dun minimum. D'autre part, la rgle du gradient simple est efficace lorsquon est loin du minimum et sa convergence ralentit considrablement lorsque la norme du gradient diminue (cest dire lorsquon sapproche du minimum). Ces deux techniques sont donc complmentaires. De ce fait, loptimisation seffectue en deux tapes : utilisation de la rgle du gradient simple pour approcher un minimum, et de l'algorithme de BFGS pour l'atteindre. Le critre darrt est alors un des critres dcrits au paragraphe V.2.2. V .2.4.2 Lalgorithme de LevenbergMarquardt. Lalgorithme de LevenbergMarquardt [Levenberg44, Marquardt63] repose sur lapplication de la formule de mise jour des paramtres suivante :

k = k-1 H k-1 + k I
k- 1

J k-1

(32)

est le Hessien de la fonction de cot et k est le pas. Pour de petites o H valeurs du pas, la mthode de LevenbergMarquardt sapproche de celle de Newton. Inversement, pour de grandes valeurs de k, lalgorithme Levenberg Marquardt est quivalent lapplication de la rgle du gradient simple avec u n 1 pas de . k

23

Modlisation de processus et estimation des paramtres dun modle La premire question relative cet algorithme est celle de l'inversion de la matrice H k - 1 + k I . Lexpression exacte du Hessien de la fonction J est :
N n T k N

H =
n n n yp y .

n=1

n k


n=1 k

2 n

kT

(33)

avec e = Le second terme de lexpression tant proportionnel lerreur, il est permis de le ngliger en premire approximation, ce qui fournit une expression approche :
N

H =

n=1

e n k

e n k

n=1

yn k

y n k

(34)

Dans le cas dun modle linaire par rapport aux paramtres, cest dire si y est une fonction linaire de , le second terme de lexpression de H est nul est lapproximation devient exacte. Plusieurs techniques sont envisageables pour linversion de la matrice H + kI . Inversion indirecte. Un lemme dinversion permet de calculer la matrice inverse suivant une loi rcurrente. En effet, soient A, B, C et D quatre matrices. On a la relation suivante :
A+BCD
-1

=A A B C +DA B

-1

-1

-1

-1

-1

-1 DA .

Dautre part, en posant X n =

, lapproximation de la matrice H peut

tre calcule partir de la loi de rcurrence suivante :


H = H + X n X n avec n = 1, ... , N N De ce fait, on a H = H . Si l'on applique le lemme dinversion la relation
n n-1 T

choisissant A = H , B = X n , C = I et D = X
H
n -1

nT

prcdente

en

, on obtient la relation suivante :


T

= H

n-1 -1

n-1 -1

Xn Xn
nT

n-1 -1

1+ X

H
0

n-1 -1

(35)
n

En prenant, la premire tape ( n = 1), H = k I, on obtient, ltape N :


H
N -1

= H + k I

-1

Inversion directe. Plusieurs mthodes dinversion directes existent. tant donn que lalgorithme est itratif et que la procdure de recherche du pas ncessite souvent plusieurs inversions de matrice, on a intrt utiliser une mthode conomique en nombre de calculs. 24

Modlisation de processus et estimation des paramtres dun modle Le fait que lapproximation du Hessien augmente de k reste une matrice symtrique dfinie positive nous permet dutiliser la mthode de Cholesky. De la mme faon que dans le cas de lalgorithme de BFGS, une recherche unidimensionnelle doit tre applique pour la recherche dun pas de descente et ceci chaque itration de lalgorithme. Une stratgie communment utilise [Bishop95, Walter94] consiste appliquer la procdure suivante : soit r > 1 (gnralement gal 10) un facteur d'chelle pour k. Au dbut de lalgorithme, on initialise 0 une grande valeur ([Bishop95] propose 0.1). A ltape k de lalgorithme : Calculer J k avec k dtermin ltape prcdente. Si J k < J k-1 , alors accepter le changement de paramtres et diviser k par r. Sinon, rcuprer k-1 et multiplier k par r. Rpter cette dernire tape jusqu ce quune valeur de k correspondant une dcroissance de J soit trouve. Cet exemple de procdure prsente lavantage de ncessiter peu dinversions de matrice chaque itration de lalgorithme. En revanche, le choix du pas initial possde une influence sur la vitesse de convergence de lalgorithme. Ces observations nous mnent proposer la procdure suivante : Au dbut de lalgorithme, initialiser 0 une valeur positive quelconque. En effet ce choix na pas dinfluence sur le droulement de lalgorithme. A ltape k de lalgorithme : 1. Calculer J k avec le k disponible (le dernier calcul). 2. Si J k < J k-1 , alors rcuprer k-1, diviser k par r et aller ltape 1. 3. Sinon rcuprer k-1 et multiplier k par r. Rpter cette dernire tape jusqu ce quune valeur de k correspondant une dcroissance de J soit trouve. Cette procdure permet de sapprocher de la mthode de Newton plus rapidement que la mthode prcdente. En revanche, tant donn que plusieurs ajustements de paramtres sont tests, elle ncessite unn plus grand nombre dinversions de matrice.

25

Modlisation de processus et estimation des paramtres dun modle V.3 Commentaire. Nous avons prsent dans cette partie les algorithmes du second ordre que nous utilisons dans ce mmoire (cest dire lalgorithme de BFGS et celui de LevenbergMarquardt). La difficult essentielle lors de lapplication de lalgorithme de BFGS rside dans le choix de la condition de passage du gradient simple la mthode de BFGS. Ce problme ne se pose pas pour l'algorithme de LevenbergMarquardt, mais le volume de calculs ncessaires chaque itration de cet algorithme crot rapidement avec le nombre de paramtres. V I. CONCLUSION Dans ce chapitre, nous avons prsent les principes de la modlisation "bote noire", les tapes de la conception d'un tel modles, ainsi que les fonctions paramtres utilisables, et les algorithmes qu'il convient de mettre en uvre pour l'ajustement des paramtres. Les deux chapitres suivants seront consacrs la prsentation et la mise en uvre des deux catgories de fonctions paramtres que nous avons utilises : les rseaux de neurones et les rseaux d'ondelettes.

26