Vous êtes sur la page 1sur 471

Apprentissage

Sous la direction de Grard Dreyfus

statistique

Rseaux de neurones Cartes topologiques


Machines vecteurs supports
om

li v r e

CD-R

offe

r le

Su

Algorithmes

G. Dreyfus, J.-M. Martinez, M. Samuelides


M. B. Gordon, F. Badran, S. Thiria

Cinq exemples de modles,


avec donnes et code source t a
vec ce
Neuro One 6.10.7*, outil
de cration de modles neuronaux
Compilateur C pour Windows.
Bibliothque non linaire
MonaEx70.dll, niveau 0.
* Version dvaluation de 6 semaines
pour MS-Windows NT, 2000, 2003, XP

Prvision
Data mining
Bio-ingnierie
Reconnaissance de formes
Robotique et commande de processus

Apprentissage
statistique

CHEZ LE MME DITEUR


Dans la mme collection
P. Nam, P.-H. Wuillemin, P. Leray, O. Pourret, A. Becker. Rseaux baysiens.
N11972, 3e dition, 2007, 424 pages (collection Algorithmes).
G. Fleury, P. Lacomme et A. Tanguy. Simulation vnements discrets.
Modles dterministes et stochastiques Exemples dapplications implments en Delphi et en C++.
N11924, 2006, 444 pages avec CD-Rom.
J. Richalet et al. La commande prdictive.
Mise en uvre et applications industrielles.
N11553, 2004, 256 pages.
P. Lacomme, C. Prins, M. Sevaux Algorithmes de graphes.
N11385, 2003, 368 pages, avec CD-Rom.
J. Dro, A. Ptrowski, P. Siarry, E. Taillard Mtaheuristiques pour loptimisation difficile.
Recuit simul, recherche tabou, algorithmes volutionnaires et algorithmes gntiques, colonies de fourmis
N11368, 2003, 368 pages.
A. Cornujols, L. Miclet. Apprentissage artificiel.
Concepts et algorithmes.
N11020, 2002, 638 pages.
Y. Collette, P. Siarry Optimisation multiobjectif.
N11168, 2002, 316 pages.
C. Guret, C. Prins, M. Sevaux. Programmation linaire.
65 problmes doptimisation modliss et rsolus avec Visual XPress.
N9202, 2000, 365 pages, avec CD-ROM.
Autres ouvrages
I. Hurbain, avec la contribution dE. Dreyfus. Mmento Unix/Linux.
N11954, 2006, 14 pages.
C. Jacquet. Mmento LaTeX.
N12244, 2007, 14 pages.

Apprentissage
statistique
G. Dreyfus, J.-M. Martinez, M. Samuelides
M. B. Gordon, F. Badran, S. Thiria
Sous la direction de Grard Dreyfus

DITIONS EYROLLES
61, bd Saint-Germain
75240 Paris Cedex 05
www.editions-eyrolles.com

Cet ouvrage est la troisime dition, avec mise jour et nouveau titre,
de louvrage paru lorigine sous le titre
Rseaux de neurones Mthodologie et applications
(ISBN: 978-2-212-11464-5)

Le code de la proprit intellectuelle du 1er juillet 1992 interdit en effet expressment la


photocopie usage collectif sans autorisation des ayants droit. Or, cette pratique sest
gnralise notamment dans les tablissements denseignement, provoquant une baisse
brutale des achats de livres, au point que la possibilit mme pour les auteurs de crer des
uvres nouvelles et de les faire diter correctement est aujourdhui menace.
En application de la loi du 11 mars 1957, il est interdit de reproduire intgralement ou
partiellement le prsent ouvrage, sur quelque support que ce soit, sans autorisation de lditeur ou du Centre
Franais dExploitation du Droit de Copie, 20, rue des Grands-Augustins, 75006 Paris.
Groupe Eyrolles, 2002, 2004, 2008, ISBN : 978-2-212-12229-9

Remerciements
Je tiens exprimer ma chaleureuse gratitude la direction de lcole Suprieure de Physique et de Chimie
Industrielles (Jacques Prost, Directeur, et Claude Boccara, Directeur Scientifique) et leurs prdcesseurs
Pierre-Gilles de Gennes et Jacques Lewiner, qui, ds 1982, une poque o le sujet ntait gure populaire, ont apport un soutien continu aux recherches menes sur lapprentissage artificiel dans mon laboratoire.
Je remercie galement, de la manire la plus vive, mes collaborateurs, prsents ou passs, dont les travaux
ont contribu faire progresser ce sujet difficile.
Mes remerciements vont aussi aux managers, ingnieurs et chercheurs des socits franaises et trangres qui font ou ont fait confiance aux mthodes que nous avons dveloppes. Je tiens mentionner
spcialement Netral S.A., qui a accept de contribuer au contenu du CD-Rom qui accompagne cet
ouvrage.
Enfin, je suis heureux de remercier amicalement lditeur de ce livre, Muriel Shan Sei Fan, qui en a assur
la bonne fin avec une nergie et une bonne humeur inpuisables, ainsi que tous les auteurs : ils ont apport
leurs contributions avec enthousiasme et ponctualit, et ils ont accept de bonne grce les contraintes de
vocabulaire, de style et de notation quimposait notre volont commune de rdiger un ouvrage didactique,
accessible aux ingnieurs comme aux tudiants et aux chercheurs.
Grard Dreyfus
Je tiens remercier Jean-Baptiste Thomas et Patrick Raymond, responsables la Direction de lnergie
Nuclaire du CEA au Centre dtudes de Saclay, pour la confiance et le soutien quils mont accords sur
les activits rseaux de neurones artificiels. Je voudrais galement remercier chaleureusement mes
anciens thsards : Fabrice Gaudier, Manuel Dominguez, Lionel Montoliu et Vincent Vigneron qui ont
contribu largement aux travaux de recherche et dveloppement des rseaux de neurones dans mon laboratoire.
Jean-Marc Martinez
Je remercie la direction scientifique de lONERA et le chef de projet Jean-Louis Gobert pour le soutien
accord des recherches dordre gnral sur les rseaux de neurones notamment dans le cadre du projet
fdrateur de contrle actif des coulements.
Je tiens remercier parmi mes tudiants en thse actuels ou passs, ceux qui ont directement contribu
faire progresser notre comprhension collective du contrle neuronal savoir : Emmanuel Dauc
(Universit dAix-Marseille), Alain Dutech (INRIA, Nancy), Marc Lion (ingnieur informaticien),
Laurent Perrinet (ONERA-DTIM). Il faut aussi mentionner les tudiants de Suparo dont jai guid les
projets lan dernier et dont les ractions mont aides amliorer le contenu des chapitres 4 et 5.
Enfin, je voudrais ajouter mes remerciements personnels Grard Dreyfus pour le dialogue scientifique
qui sest instaur entre nous travers ces changes trs enrichissants pour moi. Bien conscient que les
justifications mathmatiques ne suffisent pas valuer lintrt dun algorithme, jai donc attach un
grand prix lexprience pratique que Grard ma transmise par ses observations.
Manuel Samuelides

II

Lapprentissage statistique

Je remercie mes tudiants du DEA de Sciences Cognitives de Grenoble. Au fil des annes, ils ont
contribu faire voluer mon cours par leurs remarques et leurs questions. Ils ont apport des corrections
mes notes, dont une partie a servi de base la rdaction du chapitre 6.
Le travail avec mes tudiants de thse : Juan Manuel Torres Moreno, Arnaud Buhot, Sebastian Risau
Gusman, Christelle Godin, ma apport la joie de la recherche partage, et a enrichi ma comprhension
du domaine de lapprentissage. Je les en remercie chaleureusement.
Enfin, je tiens remercier mon collgue Bernard Amy pour sa relecture critique, amicale et pleine de
remarques pertinentes.
Mirta B. Gordon
Le chapitre qui est prsent est le rsultat de nombreux efforts, il reprsente une collaboration fructueuse
entre informaticiens, physiciens et mathmaticiens. Nous tenons remercier amicalement tous les chercheurs qui, par leur travail ou lintrt quils lui ont port, ont permis la ralisation de ce travail et tout
particulirement : Mziane Yacoub, Carlos Mejia, Michel Crpon, Awa Niang, Ludvine Gross, F. Anouar,
Philippe Daigremont et Dominique Frayssinet.
Fouad Badran, Sylvie Thiria
Je tiens remercier tous les collaborateurs du CEA et les tudiants qui ont particip ces travaux de
recherche. Sans tre exhaustif, je tiens exprimer toute ma gratitude Caroline Privault, Dominique
Derou-Madeline, Muriel Pitiot, Jol Feraud, Jean-Marc Bollon, Georges Gonon, Claire Jausions, Pierre
Puget et enfin Jean-Jacques Niez, qui a initi les recherches en rseaux de neurones au CEA-LETI.
Laurent Hrault

Sommaire
Avant-propos et guide de lecture
Guide de lecture
Dtail des contributions

XI
XII
XIII

1 Lapprentissage statistique : pourquoi, comment ?

Introduction
Premier exemple : un problme lmentaire dapprentissage statistique
Point de vue algorithmique
Point de vue statistique
Quelques dfinitions concernant les modles
Modles statiques
Modles dynamiques
Deux exemples acadmiques dapprentissage supervis
Un exemple de modlisation pour la prdiction
Un exemple de classification
Conclusion
lments de thorie de lapprentissage
Fonction de perte, erreur de prdiction thorique
Dilemme biais-variance
De la thorie la pratique
Remplacer des intgrales par des sommes
Bornes sur lerreur de gnralisation
Minimisation du risque structurel
Conception de modles en pratique
Collecte et prtraitement des donnes
Les donnes sont prexistantes
Les donnes peuvent tre spcifies par le concepteur
Prtraitement des donnes
Slection des variables
Apprentissage des modles
Slection de modles
Slection de modles
Validation simple (hold-out)

1
2
3
4
5
5
6
7
7
11
16
16
17
22
25
26
27
30
30
30
30
30
31
31
32
32
32
32

IV

Lapprentissage statistique

Validation croise ( cross-validation )


Leave-one-out
Slection de variables
Cadre thorique
Mthode de la variable sonde
Rsum : stratgies de conception
Conception de modles linaires par rapport leurs paramtres (rgression linaire)
Slection de variables pour les modles linaires en leurs paramtres
Apprentissage de modles linaires en leurs paramtres : la mthode des moindres carrs
Proprits de la solution des moindres carrs
Estimation de la qualit de lapprentissage
Interprtation gomtrique
Dilemme biais-variance pour les modles linaires
Slection de modles linaires
Moindres carrs par orthogonalisation de Gram-Schmidt
lments de statistiques
Quest-ce quune variable alatoire ?
Esprance mathmatique dune variable alatoire
Estimateur non biais
Variance dune variable alatoire
Autres distributions utiles
Intervalles de confiance
Tests dhypothse
Conclusion
Bibliographie

2 Les rseaux de neurones


Introduction
Rseaux de neurones : dfinitions et proprits
Les neurones
Les rseaux de neurones
Proprit fondamentale des rseaux de neurones statiques (non boucls) :
lapproximation parcimonieuse
quoi servent les rseaux de neurones non boucls apprentissage supervis ?
Modlisation statique et discrimination (classification)
quoi servent les rseaux de neurones apprentissage
non supervis ? Analyse et visualisation de donnes

33
34
35
36
37
47
48
48
49
51
52
53
54
56
59
60
60
62
63
64
65
66
68
70
70
73
73
73
74
75
82
84
87

Sommaire

quoi servent les rseaux de neurones boucls apprentissage supervis ? Modlisation


dynamique bote noire
et semi-physique ; commande de processus
Quand et comment mettre en uvre des rseaux
de neurones apprentissage supervis ?
Quand utiliser les rseaux de neurones ?
Comment mettre en uvre les rseaux de neurones ?
Conclusion
Rseaux de neurones apprentissage supervis
et discrimination (classification)
Quand est-il opportun dutiliser un classifieur statistique ?
Classification statistique et formule de Bayes
Classification et rgression
Modlisation et classification de donnes structures :
les graph machines
Dfinitions
Apprentissage
Deux exemples acadmiques
Exemples dapplications
Introduction
Reconnaissance de formes :
la lecture automatique de codes postaux
Une application en contrle non destructif :
la dtection de dfauts dans des rails par courants de Foucault
Fouille de donnes : le filtrage de documents
Aide la dcouverte de mdicaments : prdiction de proprits chimiques et dactivits
thrapeutiques de molcules
Une application en formulation :
la prdiction de la temprature de liquidus de verres
Modlisation dun procd de fabrication : le soudage par points
Application en robotique :
modlisation de lactionneur hydraulique dun bras de robot
Modlisation semi-physique dun procd manufacturier
Contrle de lenvironnement : hydrologie urbaine
Une application en robotique mobile :
le pilotage automatique dun vhicule autonome
Techniques et mthodologie de conception de modles statiques (rseaux non boucls)
Slection des variables
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl

87
88
88
89
93
93
93
95
96
103
104
105
106
107
107
107
111
112
116
118
118
121
122
123
124
125
126
126

VI

Lapprentissage statistique

Slection de modles
Techniques et mthodologie de conception de modles dynamiques
(rseaux boucls ou rcurrents)
Reprsentations dtat et reprsentations entre-sortie
Les hypothses concernant le bruit et leurs consquences sur la structure, lapprentissage
et lutilisation du modle
Apprentissage non adaptatif des modles dynamiques sous forme canonique
Que faire en pratique ? Un exemple rel de modlisation bote noire
Mise sous forme canonique des modles dynamiques
Modlisation dynamique bote grise
Principe de la modlisation semi-physique
Conclusion : quels outils ?
Complments thoriques et algorithmiques
Quelques types de neurones usuels
Algorithme de Ho et Kashyap
Complment algorithmique : mthodes doptimisation de Levenberg-Marquardt
et de BFGS
Complment algorithmique : mthodes de recherche unidimensionnelle
pour le paramtre dapprentissage
Complment thorique : distance de Kullback-Leibler entre deux distributions gaussiennes
Complment algorithmique : calcul des leviers
Bibliographie

143
156
157
158
166
172
175
179
179
188
189
189
191
191
193
194
196
197

3 Complments de mthodologie pour la modlisation :


rduction de dimension et r-chantillonnage

203

Pr-traitements
Pr-traitements des entres
Pr-traitement des sorties pour la classification supervise
Pr-traitement des sorties pour la rgression
Rduction du nombre de composantes
Analyse en composantes principales
Principe de lACP
Analyse en composantes curvilignes
Formalisation de lanalyse en composantes curvilignes
Algorithme danalyse en composantes curvilignes
Mise en uvre de lanalyse en composantes curvilignes
Qualit de la projection
Difficults prsentes par lanalyse en composantes curvilignes

204
204
204
205
206
206
206
210
211
212
213
214
214

Sommaire

Application en spectromtrie
Le bootstrap et les rseaux de neurones
Principe du bootstrap
Algorithme du bootstrap pour calculer un cart-type
Lerreur de gnralisation estime par bootstrap
La mthode NeMo
Test de la mthode NeMo
Conclusions
Bibliographie

VII
215
216
217
218
218
219
221
223
224

4 Identification neuronale de systmes dynamiques


commands et rseaux boucls (rcurrents)

225

Formalisation et exemples de systmes dynamiques commands temps discret


Formalisation dun systme dynamique command par lquation dtat
Exemple dun systme dynamique espace dtat discret
Exemple dun oscillateur linaire
Exemple du pendule invers
Exemple dun oscillateur non linaire : loscillateur de Van der Pol
Introduction dun bruit dtat dans un systme dynamique espace dtat discret :
notion de chane de Markov
Introduction dun bruit dtat dans un systme dynamique tats continus :
modle linaire gaussien
Modles auto-rgressifs
Limites des modlisations des incertitudes sur le modle par un bruit dtat
Identification de systmes dynamiques commands par rgression
Identification dun systme dynamique command par rgression linaire
Identification dun systme dynamique non linaire par rseaux de neurones non boucls
Identification adaptative (en ligne) et mthode de lerreur de prdiction rcursive
Estimateur rcursif de la moyenne empirique
Estimateur rcursif de la rgression linaire
Identification rcursive dun modle AR
Mthode gnrale de lerreur de prdiction rcursive
Application lidentification neuronale dun systme dynamique command
Filtrage par innovation dans un modle dtat
Introduction dune quation de mesure et problme du filtrage
Filtrage de Kalman
Extension du filtre de Kalman

226
226
227
227
228
229
229
231
231
233
233
233
237
239
239
241
242
243
244
245
245
247
251

VIII

Lapprentissage statistique

Apprentissage adaptatif dun rseau de neurones par la mthode du filtrage de Kalman


Rseaux neuronaux rcurrents ou boucls
Simulateur neuronal dun systme dynamique command en boucle ouverte
Simulateur neuronal dun systme dynamique command en boucle ferme
Quelques rseaux boucls particuliers
Mise sous forme canonique des rseaux boucls
Apprentissage des rseaux de neurones rcurrents ou boucls
Apprentissage dirig (teacher forcing)
Dpliement de la forme canonique et rtropropagation travers le temps
Apprentissage en temps rel des rseaux boucls
Application des rseaux neuronaux boucls lidentification de systmes dynamiques
commands mesurs
Complments algorithmiques et thoriques
Calcul du gain de Kalman et propagation de la covariance
Importance de la distribution des retards dans un rseau rcurrent
Bibliographie

5 Apprentissage dune commande en boucle ferme


Gnralits sur la commande en boucle ferme des systmes non linaires
Principe de la commande en boucle ferme
Commandabilit
Stabilit des systmes dynamiques commands
Synthse dune commande neuronale par inversion du modle du processus
Inversion directe
Utilisation dun modle de rfrence
Commande avec modle interne
Commande prdictive et utilisation des rseaux rcurrents
Programmation dynamique et commande optimale
Exemple de problme dterministe espace dtats discret
Exemple de problme de dcision markovienne
Dfinition dun problme de dcision markovienne
Programmation dynamique horizon fini
Programmation dynamique horizon infini et cot actualis
Problmes de dcision markovienne partiellement observs
Apprentissage par renforcement et programmation neuro-dynamique
valuation dune politique par la mthode de Monte-Carlo et apprentissage
par renforcement

252
254
254
255
255
258
258
259
260
262
263
264
264
266
267
269
269
269
270
271
273
273
276
277
278
280
280
281
282
286
287
288
289
289

Sommaire

Prsentation de lalgorithme TD dvaluation dune politique


Apprentissage par renforcement : mthode du Q-learning
Apprentissage par renforcement et approximation neuronale
Bibliographie

6 La discrimination
Apprentissage de la discrimination
Erreurs dapprentissage et de gnralisation
Surfaces discriminantes
Sparation linaire : le perceptron
Gomtrie de la classification
Algorithmes dapprentissage pour le perceptron
Algorithme Minimerror
Exemple dapplication : la classification de signaux de sonar
Algorithmes dapprentissage adaptatifs ( en ligne )
Interprtation de lapprentissage en termes de forces
Au-del de la sparation linaire
Perceptron sphrique
Heuristiques constructives
Algorithme constructif NetLS
Machines vecteurs supports (Support Vector Machines)
SVM marge dure
Machines noyaux (Kernel machines)
SVM marge floue (Soft margin SVM)
SVM pratique
Problmes plusieurs classes
Questions thoriques
Formulation probabiliste de lapprentissage et infrence baysienne
Thorie statistique de lapprentissage
Prdiction du comportement typique des classifieurs
Complments
Bornes du nombre ditrations de lalgorithme du perceptron
Nombre de dichotomies linairement sparables
Bibliographie non commente

7 Cartes auto-organisatrices et classification automatique


Notations et dfinitions

IX
290
292
294
297
301
302
303
304
305
306
309
317
318
320
320
321
321
322
323
325
327
329
331
333
334
335
335
340
342
344
344
345
345
349
351

Lapprentissage statistique

Mthode des k-moyennes


Prsentation de lalgorithme
Version stochastique des k-moyennes
Interprtation probabiliste des k-moyennes
Carte topologique auto-organisatrice
Les cartes auto-organisatrices
Lalgorithme doptimisation non adaptative des cartes topologiques
Lalgorithme de Kohonen
Discussion
Architecture neuronale et carte topologique
Architecture et carte topologique volutive
Interprtation de lordre topologique
Carte topologique probabiliste
Classification et carte topologique
tiquetage de la carte par donnes expertises
Recherche dune partition adapte aux classes recherches
tiquetage et classification
Applications
Une application en tldtection satellitaire
Carte topologique et recherche documentaire
Extension des cartes topologiques aux donnes catgorielles
Codage et analyse des donnes catgorielles
Cartes topologiques et donnes binaires
Cartes topologiques probabilistes et donnes catgorielles (CTM)
Discussion
Exemples dapplication
Le modle BTM
Analyse des correspondances multiples
Le modle CTM
Bibliographie

352
352
354
357
360
360
363
369
370
371
372
373
375
378
378
379
381
382
383
407
409
409
410
413
416
417
417
418
419
424

Bibliographie commente

427

Outils pour les rseaux de neurones et contenu du CD-Rom

431

Installer Neuro One


Prsentation des exemples
Exemple 1

431
436
436

Sommaire

Exemple 2
Exemple 3
Exemple 4
Exemple 5
Installation des exemples
Compiler le code source
Excuter le code source
Excuter le code source Visual Basic
Visualiser les modles
La librairie NDK (Neuro Developer Kit)
Programme de dmonstration de la librairie
Les compilateurs C
Licence

Index

XI
436
437
437
437
437
438
438
439
440
440
440
441
442

443

Avant-propos et guide de lecture


En une vingtaine dannes, lapprentissage artificiel est devenu une branche majeure des mathmatiques
appliques, lintersection des statistiques et de lintelligence artificielle. Son objectif est de raliser des
modles qui apprennent par lexemple : il sappuie sur des donnes numriques (rsultats de mesures
ou de simulations), contrairement aux modles de connaissances qui sappuient sur des quations
issues des premiers principes de la physique, de la chimie, de la biologie, de lconomie, etc. Lapprentissage statistique est dune grande utilit lorsque lon cherche modliser des processus complexes,
souvent non linaires, pour lesquels les connaissances thoriques sont trop imprcises pour permettre des
prdictions prcises. Ses domaines dapplications sont multiples : fouille de donnes, bio-informatique,
gnie des procds, aide au diagnostic mdical, tlcommunications, interface cerveau-machines, et bien
dautres.
Cet ouvrage reflte en partie lvolution de cette discipline, depuis ses balbutiements au dbut des
annes 1980, jusqu sa situation actuelle ; il na pas du tout la prtention de faire un point, mme partiel,
sur lensemble des dveloppements passs et actuels, mais plutt dinsister sur les principes et sur les
mthodes prouvs, dont les bases scientifiques sont sres. Dans un domaine sans cesse parcouru de
modes multiples et phmres, il est utile, pour qui cherche acqurir les connaissances et principes de
base, dinsister sur les aspects prennes du domaine.
Cet ouvrage fait suite Rseaux de neurones, mthodologies et applications, des mmes auteurs, paru
en 2000, rdit en 2004, chez le mme diteur, puis publi en traduction anglaise chez Springer.
Consacr essentiellement aux rseaux de neurones et aux cartes auto-adaptatives, il a largement contribu
populariser ces techniques et convaincre leurs utilisateurs quil est possible dobtenir des rsultats
remarquables, condition de mettre en uvre une mthodologie de conception rigoureuse, scientifiquement fonde, dans un domaine o lempirisme a longtemps tenu lieu de mthode.
Tout en restant fidle lesprit de cet ouvrage, combinant fondements mathmatiques et mthodologie de
mise en uvre, les auteurs ont largi le champ de la prsentation, afin de permettre au lecteur daborder
dautres mthodes dapprentissage statistique que celles qui sont directement dcrites dans cet ouvrage.
En effet, les succs de lapprentissage dans un grand nombre de domaines ont pouss au dveloppement
de trs nombreuses variantes, souvent destines rpondre efficacement aux exigences de telle ou telle
classe dapplications. Toutes ces variantes ont nanmoins des bases thoriques et des aspects mthodologiques communs, quil est important davoir prsents lesprit.
Le terme dapprentissage, comme celui de rseau de neurones, voque videmment le fonctionnement du
cerveau. Il ne faut pourtant pas sattendre trouver ici dexplications sur les mcanismes de traitement des
informations dans les systmes nerveux ; ces derniers sont dune grande complexit, rsultant de
processus lectriques et chimiques subtils, encore mal compris en dpit de la grande quantit de donnes
exprimentales disponibles. Si les mthodes dapprentissage statistique peuvent tre dune grande utilit
pour crer des modles empiriques de telle ou telle fonction ralise par le systme nerveux, celles qui
sont dcrites dans cet ouvrage nont aucunement la prtention dimiter, mme vaguement, le fonctionnement du cerveau. Lapprentissage artificiel, notamment statistique, permettra-t-il un jour de donner aux
ordinateurs des capacits analogues celles des tres humains ? Se rapprochera-t-on de cet objectif en
perfectionnant les techniques actuelles dapprentissage, ou bien des approches radicalement nouvelles
sont-elles indispensables ? Faut-il sinspirer de ce que lon sait, ou croit savoir, sur le fonctionnement du
cerveau ? Ces questions font lobjet de dbats passionns, et passionnants, au sein de la communaut
scientifique : on nen trouvera pas les rponses ici.

XII

Lapprentissage statistique

Les objectifs de ce livre sont, plus modestement :


de convaincre les ingnieurs, chercheurs, et dcideurs, de lintrt et de la grande efficacit de lapprentissage statistique ;
de leur permettre de le mettre en uvre de manire simple et raisonne dans des applications.

Guide de lecture
La varit des motivations qui peuvent amener le lecteur aborder cet ouvrage justifie sans doute un guide
de lecture. En effet, les applications de lapprentissage statistique ne ncessitent pas toutes la mise en
uvre des mmes mthodes.
Le premier chapitre ( Lapprentissage statistique : pourquoi, comment ? ) constitue une prsentation
gnrale des principes de lapprentissage statistique et des problmes fondamentaux rsoudre. partir
dexemples acadmiques trs simples, le lecteur est amen dcouvrir les problmes que pose la conception de modles par apprentissage. Ces problmes sont ensuite formaliss par la prsentation de quelques
lments de la thorie de lapprentissage. La conception des modles les plus simples les modles
linaires en leurs paramtres est dcrite. Enfin, les diffrentes tapes de la conception dun modle par
apprentissage statistique sont dtailles : slection de variables, apprentissage, slection de modle, test
du modle slectionn.
Le chapitre 2 est entirement consacr aux rseaux de neurones, qui constituent une des familles de
modles les plus utiliss. Les lecteurs qui sintressent un problme de modlisation statique liront ce
chapitre jusqu la section Techniques et mthodologie de conception de modles statiques (rseaux
non boucls) incluse. Ils tireront galement profit de la lecture du chapitre 3 ( Complments de mthodologie pour la modlisation : rduction de dimension et validation de modle par r-chantillonnage ).
Les lecteurs qui se posent un problme de modlisation dynamique liront le chapitre 2 en entier, le
chapitre 3 et le chapitre 4 ( Identification neuronale de systmes dynamiques commands et rseaux
boucls (rcurrents) . Sils veulent utiliser ce modle au sein dun dispositif de commande de processus,
ils liront ensuite le chapitre 5 ( Apprentissage dune commande en boucle ferme ).
Les lecteurs qui sintressent un problme de classification supervise (ou discrimination) liront le
chapitre 1, la section Rseaux de neurones apprentissage supervis et discrimination du chapitre 2,
puis le chapitres 3 ( Complments de mthodologie pour la modlisation : rduction de dimension et
validation de modle par r-chantillonnage ) et surtout le chapitre 6 ( Discrimination ), qui introduit,
de manire originale, les machines vecteurs supports.
Enfin, les lecteurs qui cherchent rsoudre un problme qui relve de lapprentissage non supervis
passeront du chapitre 1 au chapitre 3, puis au chapitre 7 ( Cartes auto-organisatrices et classification
automatique ).

Avant-propos

Dtail des contributions


Chapitres 1 et 2

Chapitre 3

Grard Dreyfus est professeur lcole Suprieure de Physique et de Chimie Industrielles (ESPCI-Paristech), et directeur du Laboratoire dlectronique de cet tablissement. Il enseigne lapprentissage statistique lESPCI, ainsi que dans plusieurs
masters et mastres. Depuis 1988, il organise chaque anne deux sessions de formation continue pour ingnieurs, consacres lapprentissage statistique et ses applications industrielles et financires. Depuis 1982, les recherches de son laboratoire
sont entirement consacres la modlisation et lapprentissage, pour lingnierie
et la neurobiologie.
ESPCI, Laboratoire dlectronique, 10 rue Vauquelin, F 75005 Paris France
Jean-Marc Martinez, ingnieur au Centre dtudes de Saclay, effectue des recherches dans le domaine des mthodes adaptes la supervision de la simulation. Il
enseigne les mthodes dapprentissage statistique lINSTN de Saclay et vry en
collaboration avec le LSC, unit mixte CEA Universit.
DM2S/SFME Centre dtudes de Saclay, 91191 Gif sur Yvette France

XIII

XIV

Lapprentissage statistique

Chapitres 4 et 5

Chapitre 6

Chapitre 7

Manuel Samuelides, professeur lcole Nationale Suprieure de lAronautique et


de lEspace (Suparo), et chef du dpartement de Mathmatiques Appliques de cette
cole, enseigne les probabilits, loptimisation et les techniques probabilistes de
lapprentissage et de la reconnaissance des formes. Il effectue des recherches sur les
applications des rseaux de neurones au Dpartement de Traitement de lInformation
et Modlisation de lONERA.
cole Nationale Suprieure de lAronautique et de lEspace, dpartement Mathmatiques Appliques, 10 avenue douard Belin, BP 4032, 31055 Toulouse Cedex
France
Mirta B. Gordon, physicienne et directrice de recherches au CNRS, est responsable
de lquipe Apprentissage: Modles et Algorithmes (AMA) au sein du laboratoire
TIMC-IMAG (Grenoble). Elle effectue des recherches sur la modlisation des
systmes complexes adaptatifs, et sur la thorie et les algorithmes dapprentissage.
Elle enseigne ces sujets dans diffrentes coles doctorales.
Laboratoire TIMC IMAG, Domaine de la Merci Bt. Jean Roget, 38706 La Tranche
France
Fouad Badran, professeur au CNAM (CEDRIC), y enseigne les rseaux de
neurones.
Mustapha Lebbah est matre de confrences luniversit de Paris 13.
Laboratoire dInformatique Mdicale et Bio-Informatique (LIMBIO), 74, rue Marcel
Cachin 93017 Bobigny Cedex France
Sylvie Thiria est professeur luniversit de Versailles Saint-Quentin-en-Yvelynes,
chercheur au LODYC (Laboratoire dOcanographie DYnamique et de Climatologie). Elle effectue des recherches sur la modlisation neuronale et sur son application des domaines comme la gophysique.
Laboratoire dOcanographie Dynamique et de Climatologie (LODYC), case 100,
Universit Paris 6, 4 place Jussieu 75252 Paris cedex 05 France

1
Lapprentissage statistique :
pourquoi, comment ?
Introduction
Une des tches essentielles du cerveau consiste transformer des informations en connaissances : identifier les lettres qui constituent un texte, les assembler en mots et en phrases, en extraire un sens, sont des
activits qui nous paraissent naturelles une fois lapprentissage ncessaire accompli avec succs.
Lobjectif de lapprentissage statistique est dimiter, laide dalgorithmes excuts par des ordinateurs,
la capacit quont les tres vivants apprendre par lexemple. Ainsi, pour apprendre un enfant la lecture
des lettres ou des chiffres, on lui prsente des exemples de ceux-ci, crits dans des styles et avec des
polices diffrents. On ne fournit gnralement pas lenfant une description analytique et discursive de la
forme et de la topologie des caractres : on se contente de lui montrer des exemples. la fin de lapprentissage, on attend de lenfant quil soit capable de lire non seulement tous les chiffres et lettres qui lui ont
t prsents durant son apprentissage, mais galement tous les chiffres et lettres quil est susceptible de
rencontrer : en dautres termes, on attend de lui quil ait une capacit de gnralisation partir des exemples qui lui ont t prsents. De mme, lissue de lapprentissage dun modle statistique partir
dexemples, celui-ci doit tre capable de gnraliser, cest--dire de fournir un rsultat correct, dans des
situations quil na pas connues pendant lapprentissage.
Considrons deux exemples simples de tches qui peuvent tre accomplies par apprentissage artificiel :
Dans les centres de tri postal, la lecture automatique des codes postaux, et des autres lments de
ladresse des lettres et paquets, est frquemment effectue laide de modles obtenus par apprentissage
statistique, partir dexemples de chacune des classes de chiffres. Il sagit l dun problme de
classification : chaque chiffre inconnu doit tre attribu une classe parmi les 10 classes de chiffres
possibles (ou tre attribu une classe dite de rejet si le chiffre est trop mal crit pour tre reconnu
par la machine : lobjet postal doit alors tre trait manuellement).
Dans lindustrie pharmaceutique, on cherche prdire lactivit thrapeutique dune molcule partir
de sa structure, avant mme de synthtiser cette molcule, afin dviter quune synthse coteuse risque
de se rvler finalement inutile. Cette prdiction est frquemment effectue par des modles, construits
par apprentissage statistique, partir de bases de donnes de molcules dont les activits thrapeutiques
sont connues.
Ces deux problmes, quoique trs diffrents, ont une caractristique commune essentielle : ils ne peuvent
pas tre rsolus par lapplication de connaissances existant a priori. Il nexiste pas dquation mathmatique, issue des connaissances des chimistes et des pharmaciens, qui permette de prdire prcisment
lactivit dune molcule connaissant sa structure ; de mme, il nexiste pas dquation qui dcrive les
proprits topologiques des chiffres manuscrits. Cest dans de telles conditions que le recours lappren-

Lapprentissage statistique

tissage statistique partir dexemples se rvle trs fructueux. Nous prsenterons bien dautres exemples
dapplications dans ce chapitre et les suivants.
Cet ouvrage prsente trois grandes familles de modles statistiques obtenus par apprentissage artificiel
les rseaux de neurones, les machines vecteur supports et les cartes auto-adaptatives qui connaissent
un grand succs, depuis plusieurs annes ; ils font lobjet de trs nombreuses applications.
Lobjectif de ce chapitre est de prsenter les bases de la conception dun modle par apprentissage, de
manire aussi intuitive que possible, mais avec la rigueur ncessaire pour une mise en uvre raisonnable
et lobtention de rsultats fiables. On prsente tout dabord un exemple trs lmentaire de modlisation
par apprentissage, qui montre la dualit entre lapproche algorithmique, traditionnelle en apprentissage,
dune part, et lapproche statistique, qui en est devenue indissociable, dautre part. La notion fondamentale tant celle de modle, on prsente ensuite quelques dfinitions qui prcisent ce que lon entend par
modle dans cet ouvrage ; on introduit notamment la distinction entre modles linaires et modles non
linaires en les paramtres, ainsi que la distinction entre modles statiques et modles dynamiques. La
section suivante dcrit deux problmes acadmiques dapprentissage, lun dans le domaine de la classification, lautre dans celui de la prdiction ; ces exemples simples permettent de mettre en vidence le
dilemme biais-variance, qui constitue un problme central pour la pratique de lapprentissage statistique.
On prsente ensuite, de manire plus formelle, les lments de la thorie de lapprentissage : fonction de
perte, erreur de prdiction thorique, classifieur de Bayes, dilemme biais-variance. Il sagit l essentiellement de rsultats asymptotiques, valables dans lhypothse o le nombre dexemples est infini. La
cinquime section est plus proche de la pratique, en ce sens que les rsultats qui y sont prsents tiennent
compte du fait que les donnes sont en nombre fini : ce sont les bornes sur lerreur de prdiction, fournies
par la thorie de V. Vapnik. Les quatre sections suivantes sont de nature entirement pratique : elles exposent les diffrentes tches accomplir pour concevoir un modle par apprentissage collecte des donnes,
prtraitements, slection des variables, apprentissage, slection de modles. Ces deux dernires tches
font lobjet de deux sections suivies dun rsum de la stratgie de conception de modles. On prsente
ensuite a conception des modles les plus simples : les modles linaires en leurs paramtres. Enfin, la
dernire section du chapitre fournit les lments de statistiques ncessaires une bonne comprhension
de la mise en uvre des mthodes dcrites tout au long de louvrage.

Premier exemple : un problme lmentaire


dapprentissage statistique
Comme indiqu plus haut, lobjectif de lapprentissage statistique est de raliser, partir dexemples, un
modle prdictif dune grandeur numrique, de nature quelconque (physique, chimique, biologique,
financire, sociologique, etc.).
La dmarche de conception dun modle par apprentissage ncessite de postuler une fonction, dont les
variables (galement appeles facteurs) sont susceptibles davoir une influence sur la grandeur
modliser ; on choisit cette fonction parce que lon pense quelle est susceptible
dapprendre les donnes existantes, cest--dire de les reproduire le mieux possible,
de gnraliser, cest--dire de prdire le comportement de la grandeur modliser dans des circonstances qui ne font pas partie des donnes dapprentissage.
Cette fonction dpend de paramtres ajustables : lapprentissage artificiel consiste en lajustement de ces
paramtres de telle manire que le modle ainsi obtenu prsente les qualits requises dapprentissage et
de gnralisation.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

Dans cet ouvrage, toutes les variables seront regroupes en un vecteur not x, et tous les paramtres en un
vecteur not w. Un modle statique sera dsign par g(x, w) : aprs apprentissage, cest--dire estimation
des paramtres w, la valeur que prend la fonction, lorsque les variables prennent un ensemble de valeurs
x, constitue la prdiction effectue par le modle. Les modles dynamiques seront dfinis dans la section
suivante, intitule Quelques dfinitions concernant les modles .
titre dexemple trs simple de modle statique, supposons que lon ait effectu N mesures (p1, p2, ,
pN) du poids dun objet, avec des balances et dans des lieux diffrents. Nous cherchons estimer le poids
de cet objet. Nous observons que les rsultats des mesures sont tous peu prs identiques, des fluctuations prs qui peuvent tre dues limprcision des mesures, aux rglages diffrents des balances, ou
des variations locales de lacclration de la pesanteur. On peut donc supposer raisonnablement que la
masse de lobjet est constante ; en consquence, la premire tape de conception dun modle prdictif
consiste postuler un modle de la forme
g ( x, w ) = w ,
o w est un paramtre constant dont la valeur est lestimation du poids de lobjet. La deuxime tape consiste
estimer la valeur de w partir des mesures disponibles : cest ce qui constitue lapprentissage proprement
dit. Une fois lapprentissage termin, le modle fournit une estimation du poids de lobjet, donc une prdiction du rsultat de la mesure de celle-ci, quels que soient la balance utilise et le lieu de la mesure.
Cet exemple contient donc, sous une forme trs simplifie, les tapes que nous avons dcrites plus haut :
On sest fix un objectif : prdire la valeur dune grandeur ; dans cet exemple trs simple, cette valeur
est constante, mais, en gnral, la valeur prdite dpend de variables x.
On a postul un modle g(x, w), o x est le vecteur des variables du modle, et w est le vecteur des paramtres du modle ; dans cet exemple, il ny a pas de variable puisque la grandeur prdire est constante,
et il y a un seul paramtre w. Le modle postul est donc simplement la fonction constante g(x, w) = w.
Il reste alors estimer lunique paramtre du modle, cest--dire effectuer lapprentissage du modle
partir des donnes disponibles.
Cet apprentissage peut tre considr sous deux points de vue, qui suggrent deux mthodes destimation
diffrentes ; elles conduisent videmment au mme rsultat.

Point de vue algorithmique


Nous cherchons la valeur du paramtre w pour laquelle la prdiction du modle est aussi proche que
possible des mesures. Il faut donc dfinir une distance entre les prdictions et les mesures ; la distance
la plus frquemment utilise est la fonction de cot des moindres carrs
N

2
J ( w ) = pk g ( x k , w ) ,
k =1

cest--dire la somme des carrs des diffrences entre les prdictions g(xk, w) et les mesures pk. xk dsigne
le vecteur des valeurs que prennent les variables lors de la mesure k. Puisque nous avons postul un
modle constant, cette fonction de cot scrit
N

J ( w ) = ( pk w ) .
2

k =1

Pour trouver la valeur de w pour laquelle cette fonction est minimale, il suffit dcrire que sa drive est
nulle :

Lapprentissage statistique

dJ ( w )
= 0,
dw
ce qui donne :
w=

1 N
pk .
N k =1

Le meilleur modle prdictif, au sens de la distance des moindres carrs que nous avons choisie, et
compte tenu des donnes dont nous disposons, sous lhypothse que la masse de lobjet est constante, est
donc
g ( x, w ) =

1 N
pk .
N k =1

Le poids prdit est donc simplement la moyenne des poids mesurs.

Point de vue statistique


Prenons prsent le problme sous langle des statistiques. Puisque lon a de bonnes raisons de penser
que le poids p0 de cet objet est constant, il est naturel, dun point de vue statistique, de modliser les rsultats de ses mesures comme des ralisations dune variable alatoire P. Celle-ci est la somme dune
variable alatoire certaine P0, desprance mathmatique p0, et dune variable alatoire B, desprance
mathmatique nulle (le lecteur qui nest pas familier avec ces notions en trouvera les dfinitions dans la
dernire section de ce chapitre) :
P = P0 + B
de sorte que lon a :
EP = p0
o EP dsigne lesprance mathmatique de la variable alatoire P.
La variable alatoire B modlise lensemble des perturbations et bruits de mesure. Le vrai poids
(inconnu) de lobjet tant p0, lapprentissage a donc pour objectif de trouver une valeur du paramtre w
qui soit aussi proche que possible de p0. Dans cet exemple, lobjectif de lapprentissage est donc destimer
lesprance mathmatique de la variable alatoire P connaissant des ralisations pk (k = 1 N) de celle-ci.
Or la moyenne est un estimateur non biais de lesprance mathmatique, cest--dire quelle tend vers p0
lorsque le nombre de mesures tend vers linfini (ce rsultat est dmontr dans la dernire section de ce
chapitre, intitule lments de statistiques ). La meilleure estimation de p0 que nous puissions obtenir,
partir des donnes disponibles, est donc la moyenne des mesures :
1 N
pk .
N k =1
On retrouve donc le modle prdictif obtenu par lapproche algorithmique : g ( x, w ) =

1 N
pk .
N k =1

Ayant ainsi dtermin le modle par apprentissage, il est trs important destimer la confiance que lon
peut avoir en cette prdiction : pour cela, on calcule un intervalle de confiance sur la prdiction fournie.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

Le calcul de lintervalle de confiance sur la moyenne dobservations est dcrit dans la dernire section de
ce chapitre.
Ces deux points de vue, algorithmique et statistique, ont longtemps t spars. Les tout premiers dveloppements de la thorie de lapprentissage, apparus dans les annes 1980, taient essentiellement
inspirs par le point de vue algorithmique, ce qui nintressait gure les statisticiens. Ce nest que dans les
annes 1990 quune vritable synergie sest cre entre les deux approches, permettant le dveloppement
de mthodologies efficaces et fiables pour la conception de modles par apprentissage.

Quelques dfinitions concernant les modles


Dans tout cet ouvrage, on dsignera sous le terme de modle une quation paramtre (ou un ensemble
dquations paramtres) permettant de calculer la valeur de la grandeur (ou des grandeurs) modliser
partir des valeurs dautres grandeurs appeles variables ou facteurs. On distinguera les modles statiques
des modles dynamiques, et les modles linaires en leurs paramtres des modles non linaires en leurs
paramtres.

Modles statiques
Un modle statique est une fonction paramtre note g ( x, w ), o x est le vecteur dont les composantes
sont les valeurs des variables, et o w est le vecteur des paramtres du modle.

Modles statiques linaires en leurs paramtres


Un modle statique est linaire en ses paramtres sil est une combinaison linaire de fonctions non paramtres des variables ; il est de la forme
p

g ( x, w ) = wi fi ( x ),
i =1

o fi est une fonction connue, non paramtre, ou paramtres connus. Ce modle peut encore scrire
sous la forme dun produit scalaire :
g ( x, w ) = w f ( x ),
o f (x) est le vecteur dont les composantes sont les fonctions fi(x).
Les polynmes, par exemple, sont des modles linaires en leurs paramtres : les fonctions fi(x) sont les
monmes des variables x. Les polynmes sont nanmoins non linaires en leurs variables.
On appelle modle linaire un modle qui est linaire en ses paramtres et en ses variables. Les modles
linaires sont donc de la forme :
p

g ( x, w ) = wi xi = w x .
i =1

Un modle affine est un modle linaire qui contient une constante additive :
p 1

g ( x, w ) = w0 + wi xi .
i =1

Lapprentissage statistique

Remarque
Un modle afne peut donc tre considr comme un modle linaire dont une des variables est constante, gale 1. Il est donc inutile,
en gnral, de faire une distinction entre modles linaires et modles afnes.

Modles statiques non linaires en leurs paramtres


On peut imaginer une grande varit de modles non linaires en leurs paramtres. Nous tudierons particulirement dans cet ouvrage les modles non linaires en leurs paramtres qui sont de la forme
p

g ( x, w ) = wi fi ( x, w )
i =1

o les fonctions fi sont des fonctions non linaires, paramtres par les composantes du vecteur w. Le
vecteur w a donc pour composantes les paramtres wi (i = 1 p) et les composantes de w. Les rseaux de
neurones, qui sont largement tudis dans cet ouvrage, constituent un exemple de modles non linaires
en leurs paramtres et non linaires en leurs variables.

Modles dynamiques
Dans les modles dcrits dans la section prcdente, le temps ne joue aucun rle fonctionnel : si les variables x sont indpendantes du temps, la valeur fournie par le modle (ou sortie du modle) est indpendante du temps. Les modles dynamiques, en revanche, ont une forme de mmoire : la sortie du modle
un instant donn dpend de ses sorties passes. En consquence, elle peut voluer dans le temps, partir
dun tat initial, mme si les variables x sont constantes, voire nulles.
La trs grande majorit des applications des modles statistiques sont ralises laide dordinateurs, ou
de circuits lectroniques numriques. Dans les deux cas, les mesures des variables sont effectues intervalles rguliers, dont la dure est appele priode dchantillonnage. De mme, les prdictions du modle
ne sont pas fournies de manire continue, mais intervalles rguliers, gnralement caractriss par la
mme priode dchantillonnage que les mesures des variables. De tels systmes sont dits temps discret,
par opposition aux systmes physiques naturels, qui sont des systmes temps continu.
Ces derniers sont dcrits par des modles dynamiques temps continu, qui sont des quations (ou des
systmes dquations) diffrentielles du type :
dy
= g ( y, x, w )
dt
o t dsigne le temps, y la prdiction effectue par le modle, x et w les vecteurs des variables et des paramtres respectivement.
Pour les modles temps discret, le temps nest plus une variable continue :
t = kT
o T dsigne la priode dchantillonnage et k est un nombre entier positif. La prdiction de la valeur prise
par la grandeur modliser linstant kT, connaissant les prdictions effectues aux n instants prcdents,
et les valeurs des variables aux m instants prcdents, peut alors tre mise sous la forme :
y ( kT ) = g y (( k 1) T ) , y (( k 2 ) T ) ,...y (( k n ) T ) , x (( k 1) T ) , x (( k 2 ) T ) ,...x (( k n ') T ) , w

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

o n et n sont des entiers positifs ; n est appel ordre du modle. Cette forme de modle est assez naturelle, mais nous verrons, dans les sections du chapitre 2 consacres la modlisation dynamique bote
noire , et dans les chapitres 4 et 5, quil existe des formes plus gnrales de modles dynamiques.
Comme pour les modles statiques, la fonction g(y, x, w) peut tre soit linaire, soit non linaire, par
rapport ses variables et ses paramtres. Dans la suite de ce chapitre, nous ne considrerons que des
modles statiques ; les modles dynamiques seront abords dans les chapitres 2, 4 et 5.

Deux exemples acadmiques dapprentissage supervis


On considre prsent deux exemples acadmiques, qui permettent de mettre en vidence les problmes
fondamentaux qui se posent dans le domaine de lapprentissage statistique. Ces deux exemples entrent
dans la catgorie de lapprentissage supervis, dans lequel un professeur dtermine la rponse que devrait
fournir le modle : dans un problme de classification, le professeur fournit, pour chaque exemple, une
tiquette indiquant quelle classe appartient lobjet ; dans un problme de prdiction, le professeur
associe chaque exemple une mesure de la grandeur modliser. Lapprentissage supervis nest pas le
seul type dapprentissage ; le chapitre 7 de cet ouvrage sera consacr un outil trs important de
lapprentissage non supervis, les cartes topologiques.

Un exemple de modlisation pour la prdiction


Considrons une grandeur yp, engendre par un
processus de nature quelconque physique, chimique,
biologique, sociologique, conomique, , que lon
cherche modliser afin den prdire le
comportement ; elle dpend dune seule variable x.
Un ensemble dapprentissage est constitu de NA = 15
mesures ykp (k = 1 NA), effectues pour diverses
valeurs xk (k = 1 NA) de la variable x. Elles sont reprsentes par des croix sur la figure 1-1. Nous cherchons
tablir un modle g(x, w) qui permette de prdire la
valeur de la grandeur modliser pour une valeur quelconque de x dans le domaine considr (2 x +3).

yp

+10

Il sagit dun problme acadmique en ce sens que le


processus par lequel ont t cres ces donnes est
Figure 1-1. Un problme acadmique de modlisation
connu, ce qui nest jamais le cas pour un problme
raliste dapprentissage statistique : on sait que chaque
lment k de lensemble dapprentissage a t obtenu
en ajoutant la valeur de 10 sin(xk)/xk une ralisation dune variable alatoire obissant une loi normale
(gaussienne de moyenne nulle et dcart type gal 1).
-4
-2

+3

Comme indiqu plus haut, il faut dabord postuler une fonction g(x, w). Puisque la grandeur modliser
ne dpend que de la variable x, le vecteur x se rduit un scalaire x. En labsence de toute indication sur
la nature du processus gnrateur des donnes, une dmarche naturelle consiste postuler des fonctions
de complexit croissante, dans une famille de fonctions donnes. Choisissons la famille des polynmes ;
dans cette famille, le modle polynomial de degr d scrit :
g ( x, w ) = w 0 + w 1 x + w 2 x 2 + + w d x d

Lapprentissage statistique

Cest donc un modle d+1 paramtres w0, w1, , wd. Le modle le plus simple de cette famille est le
modle constant g(x, w) = w0, mis en uvre dans la section intitule Premier exemple .
Pour effectuer lapprentissage de ces modles, on peut utiliser la mthode des moindres carrs, dj
mentionne. Les dtails en seront dcrits plus loin, dans la section intitule Conception de modles
linaires par rapport leur paramtres ; pour linstant, il est intressant dobserver les rsultats de ces
apprentissages, reprsents sur la figure 1-2 pour d = 1 (fonction affine), d = 6 et d = 10 ; le mme
graphique comporte galement une reprsentation de la fonction 10 sin x / x.

20
d=1
d=6
Figure 1-2.
Trois modles
polynomiaux

d = 10
10 sinx / x

-5
-2

+3

Le modle affine (d = 1) ne rend pas du tout compte des observations car il na pas la souplesse souhaitable pour sadapter aux donnes ; dans le jargon de lapprentissage statistique, on dira que la complexit
du modle est insuffisante. linverse, le modle polynomial de degr 10 est suffisamment complexe
pour passer trs prcisment par tous les points dapprentissage ; on observe nanmoins que cette prcision sur lensemble dapprentissage est obtenue au dtriment des qualits de gnralisation du modle :
cest le phnomne de surajustement. En effet, au voisinage de x = 2 comme au voisinage de x = +3, ce
modle fournit des prdictions trs loignes de la ralit reprsente en trait plein. En revanche, le
modle polynomial de degr 6 prsente un bon compromis : la courbe ne passe pas exactement par tous
les points ce qui est normal puisque ces points rsultent en partie dun tirage alatoire mais elle est
assez proche de la vraie fonction 10 sinx / x.
Afin de rendre ces considrations plus quantitatives, on a constitu, outre lensemble dapprentissage, un
deuxime ensemble de donnes, dit ensemble de test, indpendant du prcdent, mais dont les NT

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

lments sont issus de la mme distribution de probabilit. On dfinit lerreur quadratique moyenne sur
lensemble dapprentissage (EQMA) et lerreur quadratique moyenne sur lensemble de test (EQMT) :
EQMA =

1 NA p
yk g ( x k , w )
N A k =1

EQMT =

1
NT

NT

( y

p
k

k =1

g ( xk , w )

Lensemble de test, comprenant NT = 1000 lments, est reprsent sur la figure 1-3. De plus, 100 ensembles dapprentissage de NA = 15 lments chacun ont t constitus.
+10

yp

Figure 1-3.
Ensemble de test

-4
-2

+3

100 modles ont t crs partir de ces ensembles dapprentissage, et, pour chacun de ces modles,
lEQMA et lEQMT ont t calcules. La figure 1-4 montre lvolution des moyennes des EQMA et
EQMT, en fonction de la complexit (degr) du modle polynomial postul.
Remarque 1
Le fait de prsenter des moyennes des EQMA et EQMT, sur 100 modles obtenus partir de 100 ensembles dapprentissage diffrents,
permet dviter lobservation de phnomnes lis une ralisation particulire du bruit prsent dans les observations dun ensemble
dapprentissage donn. Dans la pratique, on ne dispose videmment que dun seul ensemble dapprentissage.
Remarque 2
Dans la pratique, si lon disposait dun ensemble de 1 000 exemples, on utiliserait beaucoup plus que 15 exemples pour effectuer lapprentissage. Par exemple, on utiliserait 500 exemples pour lapprentissage et 500 pour tester le modle. Dans cette section, nous nous plaons
volontairement dans un cadre acadmique, pour mettre en vidence les phnomnes importants. La mthodologie adopter pour la
conception de modles est prsente dans la section de ce chapitre intitule La conception de modle en pratique , et elle est largement dveloppe dans le chapitre 2.

Lapprentissage statistique

10

6
EQMT

EQMA

5
Figure 1-4.
Erreurs
quadratiques
moyennes
sur lensemble
dapprentissage
et sur lensemble
de test

0
0

4
6
8
10
Degr du modle polynomial

12

14

On observe que lerreur dapprentissage (EQMA) diminue lorsque la complexit du modle augmente :
le modle apprend de mieux en mieux les donnes dapprentissage. En revanche, lerreur sur lensemble
de test (EQMT) passe par un optimum (d = 6) puis augmente : laugmentation de la complexit du modle
au-del de d = 6 se traduit par une dgradation de ses capacits de gnralisation.
Remarque
Les brusques variations de lEQMA et de lEQMT observes lorsque lon passe du degr 3 au degr 4 sont dues la nature particulire de
lexemple tudi : en effet, dans le domaine de variation de x considr, la fonction sin x / x prsente deux points dinexion (points o la
drive seconde de la fonction est nulle). Or un polynme de degr d a au plus d 2 points dinexion : pour que le modle polynomial
puisse reproduire les deux points dinexion de la fonction gnratrice des donnes, il faut donc quil soit au moins de degr 4.

On observe galement que lEQMT reste toujours suprieure lcart-type du bruit (qui vaut 1 dans cet
exemple), et que lEQMT du modle qui a la meilleure gnralisation est voisine de lcart-type du bruit.
Ainsi, le meilleur modle ralise un compromis entre la prcision de lapprentissage et la qualit de la gnralisation. Si le modle postul est trop peu complexe, lapprentissage et la gnralisation sont peu prcis ;
si le modle est trop complexe, lapprentissage est satisfaisant, mais la gnralisation ne lest pas. Ce
compromis entre la qualit de lapprentissage et celle de la gnralisation, gouvern par la complexit du
modle, est connu sous le terme de dilemme biais-variance : un modle qui a un biais faible apprend trs
bien les points dapprentissage, mais il peut avoir une variance leve car il peut tre fortement tributaire de
dtails de lensemble dapprentissage (modle surajust). En revanche, un modle peut avoir un biais lev

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

11

(il napprend pas parfaitement les lments de lensemble dapprentissage) mais une variance faible (il ne
dpend pas des dtails de lensemble dapprentissage). Le phnomne observ dans cet exemple est absolument gnral, comme nous le dmontrerons dans la section intitule Dilemme biais-variance .
Dans la section intitule lments de thorie de lapprentissage , on donnera une expression quantitative de la notion de complexit. On montrera notamment que, pour les modles polynomiaux, la
complexit nest rien dautre que le nombre de paramtres du modle, soit d + 1 pour un polynme de
degr d ; on montrera galement que le dilemme biais-variance est gouvern par le rapport du nombre de
paramtres au nombre dexemples disponibles.
Retrouvons prsent le mme phnomne sur un second exemple acadmique, qui est cette fois un
problme de classification.

Un exemple de classification
Rappelons quun problme de classification
consiste affecter un objet inconnu une classe
parmi plusieurs. Considrons un problme deux
2
classes A et B. On souhaite que soit attribue tout
lment de la classe A une tiquette yp = +1, et
tout
lment de B une tiquette yp = 1. On dispose
1
dun ensemble dapprentissage, constitu dexemples de chacune des classes, dont la classe est
0
connue : des tiquettes exactes leur ont t affectes. Dans le problme considr ici, chaque
objet est dcrit par un vecteur x deux
-1
composantes : on peut donc le reprsenter par un
point dans le plan des variables (x1, x2). La figure 1-5
reprsente un ensemble dapprentissage compre-2
nant 80 exemples par classe. Les exemples de la
classe A sont reprsents par des croix, ceux de la
-3
classe B par des cercles. On cherche la frontire
-3
-2
-1
0
1
2
3
entre ces classes, cest--dire une ligne, dans ce
x
plan, qui spare les exemples avec un nombre
Figure 1-5. Ensemble dapprentissage pour un problme
derreurs minimal : on souhaite que la plupart des
acadmique de classification
exemples dune classe (voire tous) soient dun ct
de la frontire, et que la plupart des exemples de
lautre classe (voire tous) soient de lautre ct ; on dit quil y a une erreur de classification lorsquun
exemple est situ du mauvais ct de la frontire.
x2

Comme dans lexemple de modlisation, on prsente ici un problme acadmique : le processus gnrateur des donnes est connu, ce qui nest pas le cas pour un problme rel. Les exemples de lensemble
dapprentissage ont t tirs de deux distributions gaussiennes isotropes dcart-type gal 1, dont les
centres sont respectivement le point (x1 = + 0,5 ; x2 = 0,5) pour la classe A, et (x1 = 0,5 ; x2 = + 0,5)
pour la classe B. On dmontrera, dans la section intitule Classifieur de Bayes , que la diagonale du
carr, qui est laxe de symtrie du problme, est la frontire pour laquelle le risque derreur de classification est minimal. On voit que cette frontire thorique idale ne spare pas parfaitement bien tous les
exemples dapprentissage : le taux derreur sur lensemble dapprentissage nest pas nul si lon choisit
cette frontire, mais nous montrerons que le taux derreur sur lensemble de tous les objets, engendrs par
le mme processus gnrateur, mais nappartenant pas lensemble dapprentissage, est minimal.

12

Lapprentissage statistique

Le classifieur de Bayes prsente donc une gnralisation optimale ; malheureusement, on ne peut le dterminer que si les distributions des exemples sont connues, ce qui nest gnralement pas le cas dans un
problme rel. On peut seulement sefforcer de trouver un classifieur qui en soit proche. Cest ce qui va
tre tent par les deux mthodes dcrites ci-dessous.

La mthode des k plus proches voisins


Une approche nave consiste considrer que des points voisins ont une grande chance dappartenir une
mme classe. Alors, tant donn un objet inconnu dcrit par le vecteur x, on peut dcider que cet objet
appartient la classe de lexemple dapprentissage qui est le plus proche de lextrmit de x. De manire
plus gnrale, on peut dcider de considrer les k plus proches voisins de lobjet inconnu, et daffecter
celui-ci la classe laquelle appartient la majorit des k exemples les plus proches (on prend de prfrence k impair). Cette approche, appele mthode des k plus proches voisins, revient postuler une fonc1 k
tion g ( x, k ) = yip, o la somme porte sur les k exemples les plus proches de x, et mettre en uvre
k i =1
la rgle suivante : lobjet dcrit par x est affect la classe A si sgn g x , k = +1, et il est affect la
classe B dans le cas contraire1. On construit ainsi un modle constant par morceaux, gal la moyenne
des tiquettes des k exemples les plus proches. Le seul paramtre du modle est donc k, le nombre de plus
proches voisins pris en considration dans la moyenne.

( ( ))

Pour visualiser les rsultats, le calcul est effectu pour 10 000 points disposs rgulirement sur une grille
de 100 100 points. La figure 1-6 montre les rsultats obtenus pour k = 1, k = 7, k = 21 et k = 159 (cette
dernire valeur est la valeur maximale de k puisque lensemble dapprentissage comporte en tout
160 exemples) ; les points affects la classe A par le classifieur sont reprsents en gris fonc, ceux qui
sont affects la classe B en gris clair.
Pour k = 1, on observe que la frontire est trs irrgulire, et dfinit des lots de lune des classes dans
lautre classe. Ce phnomne sexplique facilement : comme chaque point de lensemble dapprentissage
est son propre plus proche voisin, il est forcment bien class. La frontire dpend donc compltement de
lensemble dapprentissage choisi : un autre tirage alatoire de points dans les mmes distributions gaussiennes aurait produit une frontire trs diffrente. Cest un modle qui a un biais faible (tous les exemples
de lensemble dapprentissage tant bien appris, le taux derreur sur lensemble dapprentissage est nul)
et une variance leve (la frontire varie beaucoup si lon change lensemble dapprentissage). La capacit de gnralisation est donc certainement trs faible, le modle tant compltement surajust
lensemble dapprentissage disponible. La croix en traits pais (x1 = 2, x2 = 2,5), qui nappartient pas
lensemble dapprentissage, est mal classe.
Lorsque lon augmente k, la frontire devient plus rgulire, et plus proche de la frontire optimale (k = 7,
k = 21). La croix en traits pais est correctement classe dans lensemble des croix. Pour k = 159, on
observe en revanche que la frontire devient trs rgulire, mais quelle est trs loigne de la solution
optimale (la diagonale du carr). La croix en traits pais est nouveau mal classe.
On passe ainsi de modles de faible biais et grande variance (faibles valeurs de k) des modles de faible
variance mais de biais lev (grandes valeurs de k). Comme dans lexemple prcdent, on voit apparatre
la ncessit de trouver un compromis satisfaisant entre le biais et la variance ; ce compromis dpend la
valeur de 1 / k.
1. La fonction sgn(u) est dfinie de la manire suivante : sgn(u) = +1 si u > 0, sgn(u) = 1 si u 0

Lapprentissage statistique : pourquoi, comment ?

13

x2

x2

CHAPITRE 1

-1

-1

-2

-2

-3
-3

-2

-1

-3
-3

-2

-1

x1

-1

-2

-2

-1

-1

-2

k=7

x2

x2

k=1

-3
-3

0
x1

-3

-3

-2

-1

k = 21
Figure 1-6. Classification par la mthode des k plus proches voisins

0
x1

x1

k = 159

Lapprentissage statistique

30
Pour caractriser quantitativement ce phnomne,
on peut procder comme pour lexemple prc28
dent : on constitue un ensemble de test de 1000
Ensemble de test
points, et 100 ensembles dapprentissage de tailles
26
identiques (100 exemples par classe), tirs des
mmes distributions de probabilits. Pour diffLimite de Bayes
24
rentes valeurs de k, on construit un modle partir
22
de chaque ensemble dapprentissage par la
Ensemble dapprentissage
mthode des plus proches voisins, soit 100
20
modles pour chaque valeur de k. Pour chaque
modle, on calcule le taux derreur de classification
18
(rapport du nombre dexemples mal classs au
nombre total dexemples) sur lensemble dappren16
1/199
1/31
1/3
tissage et sur lensemble de test ; on calcule enfin la
1/k
moyenne de ces taux derreur sur les 100 ensemFigure 1-7. Erreurs dapprentissage et de test
bles dapprentissage considrs. La figure 1-7
pour la mthode des k plus proches voisins
prsente les taux moyens derreur de classification
sur lensemble dapprentissage (+), et lerreur sur
lensemble de test (x), pour k variant de 3 199. Pour les faibles complexits (k grand), le taux derreur
sur les ensembles dapprentissage et de test sont grands, et du mme ordre de grandeur ; pour les
complexits leves (k petit), le taux derreur sur lensemble dapprentissage tend vers zro, tandis que le
taux derreur sur lensemble de test crot. Ce comportement est donc tout fait analogue celui qui a t
observ pour la prdiction (figure 1-4). Le taux derreur sur lensemble de test passe par un minimum,
appel limite de Bayes , qui, dans le cas particulier de deux distributions gaussiennes, peut tre calcul
si lon connat les moyennes et carts-types de ces distributions (voir la section Classifieur de Bayes ) ;
avec les valeurs numriques considres ici, ce taux thorique est de 23,9 %, ce qui est bien le rsultat
observ dans cette exprience numrique (la valeur du taux derreur thorique est tablie dans la section
de ce chapitre intitule Classification : rgle de Bayes et classifieur de Bayes ).
Taux derreur de classification (%)

14

Ainsi, le dilemme biais-variance, illustr dans lexemple de modlisation, se retrouve ici sous une forme
diffrente : laugmentation du nombre de plus proches voisins, donc la diminution de la complexit ,
entrane une augmentation du nombre derreurs de classification dans lensemble dapprentissage, mais
une diminution du nombre derreurs en-dehors de lensemble dapprentissage, donc une meilleure gnralisation.
Le tableau 1-1 rsume les aspects du dilemme biais-variance, pour la classification par la mthode des
plus proches voisins dune part, et pour la prdiction dautre part.

Dilemme biais-variance gouvern par

Classification
(k plus proches voisins)

Prdiction
(modles linaires)

Nombre dexemples
-------------------------------------------------------------------------Nombre de plus proches voisins

Nombre de paramtres
-----------------------------------------------------Nombre dexemples

Limite de Bayes

Variance du bruit

Limite infrieure de lerreur de gnralisation

Tableau 1-1. Dilemme biais-variance pour la classification par la mthode des plus proches voisins et pour la prdiction par
des modles linaires ou polynomiaux

Classification linaire ou polynomiale


Rappelons que la mthode des k plus proches voisins consiste calculer, pour tout objet dcrit par x, la
fonction

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

g(x) =

1
ykp
k k plus proches
voisins de x

( ( )) = +1 lobjet dcrit par x est affect la classe A,

et utiliser la rgle de dcision suivante : si sgn g x


si sgn g x = 1 il est affect la classe B.

( ( ))

Cette approche peut tre gnralise de la manire suivante : on cherche estimer, par apprentissage,
les paramtres dune fonction g ( x, w ) telle que sgn ( g ( x, w )) = +1 pour tous les objets de la classe A et
1 + sgn g ( x, w )
, qui vaut
sgn g x , w = 1 pour tous les objets de la classe B. La fonction ( x, w ) =
2
+1 pour tous les lments de A et 0 pour tous les lments de B, est appele fonction indicatrice.

( ( ))

x2

-1

-2

-3
-3

Au lieu de postuler une fonction constante par


morceaux comme on le fait dans la mthode des k
plus proches voisins, postulons prsent une fonction polynomiale. La plus simple dentre elles est
la fonction affine g ( x, w ) = w0 + w1 x1 + w2 x2 , que
lon peut encore crire g ( x, w ) = x w , o le
symbole reprsente le produit scalaire ; x est le
vecteur de composantes {1, x1, x2} et w est le
vecteur de composantes {w0, w1, w2}. Pour chaque
exemple k de lensemble dapprentissage, on crit
que g x k , w = ykp , o ykp = +1 pour tous les exemples de la classe A et ykp = 1 pour tous les exemples de la classe B. On met alors en uvre la
mthode des moindres carrs, dcrite plus loin
dans la section Apprentissage de modles
linaires , pour estimer le vecteur des paramtres
w. Pour lensemble dapprentissage reprsent sur
la figure 1-5, le rsultat obtenu est reprsent sur la
figure 1-8. On observe que la frontire ainsi dfinie
est proche de la premire diagonale du carr,
laquelle garantit la meilleure gnralisation.

-2

-1

0
x1

Figure 1-8. Sparation linaire

Comme dans le cas de la modlisation que nous avons tudi plus haut, le dilemme biais-variance est
gouvern par le rapport du nombre de paramtres du modle (1 + degr du polynme) au nombre dexemples disponibles. La figure 1-9 montre lvolution du taux derreur de classification, sur lensemble
dapprentissage et sur lensemble de test, complexit donne (3 paramtres), en fonction du nombre
dexemples.
Lorsque le nombre dexemples est faible, le taux derreur sur lensemble dapprentissage est trs petit
(biais faible) et le taux derreur sur lensemble de test est trs grand (variance importante). En revanche,
lorsque le nombre dexemples augmente, les deux taux derreur convergent vers le taux derreur de Bayes
(qui, rappelons-le, peut tre calcul analytiquement dans ce cas, et vaut 23,9 %).

15

Lapprentissage statistique

16

40

Taux derreur de classification (%)

35
Figure 1-9.
Taux derreur
en fonction
du nombre
dexemples,
complexit fixe

Ensemble de test
30

25

Limite de Bayes

20

15
Ensemble dapprentissage
10

5
0

12

16

20

Nombre dexemples par classe

Conclusion
Dans cette section, deux problmes acadmiques simples dapprentissage supervis ont t prsents : un
exemple de prdiction et un exemple de classification. Ces deux exemples ont permis de mettre en
vidence un problme central de lapprentissage artificiel : le dilemme biais-variance, cest--dire la
ncessit de trouver le meilleur compromis possible entre la capacit du modle apprendre les exemples
dapprentissage et sa capacit gnraliser des situations non apprises. Ces observations empiriques
vont prsent tre justifies de manire plus rigoureuse.

lments de thorie de lapprentissage


Cette section prsente quelques rsultats thoriques fondamentaux concernant lapprentissage supervis,
pour la prdiction et la classification. On prsentera tout dabord un formalisme gnral pour la modlisation par apprentissage. On introduira ensuite le classifieur de Bayes, et lon en dmontrera les
proprits. Enfin, on prouvera que le dilemme biais-variance est un phnomne gnral.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

Fonction de perte, erreur de prdiction thorique


Puisque lapprentissage cherche reproduire les donnes, il faut dfinir une distance entre les prdictions du modle et les donnes : on dfinit donc une fonction dite fonction de perte

y p , g ( x, w ) 0,
o yp est la valeur souhaite et g(x, w) est la valeur prdite par le modle, dont les paramtres sont les
composantes du vecteur w, tant donn le vecteur de variables x. Pour une tche de prdiction, yp est la
valeur mesure de la grandeur prdire ; pour une tche de classification deux classes, yp vaut +1 pour
un objet dune classe et 1 (ou 0) pour un objet de lautre classe.
Exemples
Une distance naturelle, trs frquemment utilise, est lerreur quadratique de modlisation :

y p , g ( x ,w ) = y p g ( x ,w ) .
2

Il arrive aussi que lon utilise la valeur absolue de lerreur :

y p , g ( x ,w ) = y p g ( x ,w ) .

Comment dcrire mathmatiquement la qualit du modle ? Comme dans la premire section de ce


chapitre, on peut modliser les rsultats des mesures yp comme des ralisations dune variable alatoire
Yp, et les vecteurs des variables x comme des ralisations dun vecteur alatoire X. Alors les valeurs de la
fonction de perte deviennent elles-mmes des ralisations dune variable alatoire , fonction de Yp et
de X, et il est naturel de caractriser la performance du modle par lesprance mathmatique de , ou
erreur de prdiction thorique, que nous noterons P2 (cette quantit est toujours positive, daprs la dfinition de ) :
P 2 = E =

( y , g ( x, w )) p
p

Y p ,X

dy p dx

o pY p ,X est la probabilit conjointe de la variable alatoire Yp et du vecteur alatoire X ; les intgrales


portent sur toutes les valeurs possibles de la grandeur modliser et des variables qui la gouvernent. Cette
erreur de prdiction est bien une erreur thorique : en pratique, on ne dispose que dun ensemble de
donnes de taille finie, et les distributions de probabilits sont inconnues. On ne peut donc jamais calculer
cette erreur, mais seulement lestimer partir de lensemble de donnes dont on dispose.
Notons que, pour les modles dont les paramtres w sont dtermins par apprentissage, ces derniers
dpendent aussi des ralisations de YP prsentes dans lensemble dapprentissage : les paramtres du
modle peuvent donc aussi tre considrs comme des ralisations de variables alatoires. Nous utiliserons cette remarque dans la section intitule Dilemme biais-variance .
Lerreur de prdiction thorique peut alors scrire :
P 2 == E X EY p X ( )

o EY p X ( ) dsigne lesprance mathmatique de la variable alatoire Y p X , cest--dire lesprance mathmatique de la fonction de perte pour les prdictions effectues par le modle pour un vecteur
de variables x donn.
Dmonstration
La probabilit conjointe peut scrire pY p ,X = pY p y p x p X . Lerreur de prdiction thorique scrit donc

17

18

Lapprentissage statistique

P 2 = y p , g ( x ,w ) pY p y p x p X dy p d x

= y p , g ( x ,w ) pY p y p x dy p p X d x

= E X EY p X ( ) .

Considrons un exemple caractris par le vecteur de variables x. En ce point, le meilleur modle est le
modle pour lequel lerreur de prdiction thorique est minimum. Appliquons cette proprit successivement deux tches : la prdiction et la classification.

Prdiction
Comme indiqu plus haut, la fonction de perte la plus frquemment utilise pour la prdiction est

y p , g ( x, w ) = y p g ( x, w )

Alors le meilleur modle possible est la fonction de rgression de la grandeur modliser :


f ( x ) = EY p X
Dmonstration
Rappelons que lesprance mathmatique de la fonction de perte est donne par :

EY p X ( ) = y P g ( x ,w ) pY p y p x dy p .
2

Son minimum est obtenu pour le modle f(x) tel que


dEY p X
0=

dg ( x ,w )
g ( x ,w )= f ( x )

) (
( y x ) dy

d y P g ( x ,w ) 2 p p y p x dy p

dg ( x ,w )

g ( x ,w )=f ( x )

= 2 y P f ( x ) pY p y p x dy p
= 2 y pY p
P

2f ( x ) pY p y p x dy p .

La premire intgrale nest autre que lesprance mathmatique de Yp tant donn x ; la seconde est gale 1 par dnition de la densit
de probabilit. On obtient ainsi : EY p X = f ( x ).

La distribution de probabilit des observations tant inconnue, la fonction de rgression est inconnue.
Pour connatre sa valeur en x, il faudrait raliser une infinit de mesures de la grandeur yp pour une valeur
donne des variables x et faire la moyenne des rsultats de ces mesures, ce qui nest videmment pas
raliste.

Classification : rgle de Bayes et classifieur de Bayes


Considrons prsent un problme de classification deux classes A et B. Affectons ltiquette yp = +1
tous les exemples de la classe A et ltiquette yp = 1 tous les exemples de la classe B. Comme nous
lavons fait plus haut, nous cherchons une fonction g(x, w) qui permettra daffecter la classe A tous les
lments pour lesquels sgn[g(x, w)] = +1, et la classe B tous les lments pour lesquels sgn[g(x, w)] = 1.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

Cette fonction doit tre telle que lerreur de prdiction thorique soit minimale (on trouvera dans le
chapitre 6 un traitement beaucoup plus dtaill de ce problme).

Rgle de dcision de Bayes


Pour la prdiction, considre dans la section prcdente, on a mis en uvre, pour dfinir lerreur thorique, la fonction de perte des moindres carrs. Pour la classification, on ne cherche pas approcher les
valeurs des rsultats de mesures, mais classer correctement des objets. On utilise donc une autre fonction de perte, mieux adapte ce problme :

y p ,sgn ( g ( x, w )) = 0 si y p = sgn ( g ( x, w ))
y p , sgn ( g ( x, w )) = 1 si y p sgn ( g ( x, w ))

Ainsi, la fonction de perte vaut 1 si le classifieur commet une erreur de classement pour lobjet dcrit par
x, et 0 sinon. Contrairement au cas de la prdiction, cette fonction est valeurs discrtes. Lesprance
mathmatique de la variable alatoire discrte nest autre que la probabilit pour que le classifieur
considr commette une erreur de classification pour un objet dcrit par x ; en effet :
E ( x ) = 1 Pr (1 x ) + 0 Pr ( 0 x )
= Pr (1 x ) .

Cette quantit est inconnue : pour lestimer, il faudrait disposer dune infinit dobjets dcrits par x, dont
les classes sont connues, et compter la fraction de ces objets qui est mal classe par le classifieur considr.
La variable alatoire est fonction de Yp. Son esprance mathmatique peut donc scrire :

E ( x ) = +1,sgn ( g ( x, w )) PrY p ( +1 x ) + 1,sgn ( g ( x,w


w )) PrY p ( 1 x ) .
La probabilit dappartenance dun objet une classe C connaissant le vecteur de variables x qui dcrit
cet objet, note PrY p ( C x ), est appele probabilit a posteriori de la classe C pour lobjet dcrit par x.

On remarque que E ( x ) ne peut prendre que deux valeurs :


E ( x ) = PrY p ( +1 x ) si sgn ( g ( x, w )) = 1,

E ( x ) = PrY p ( 1 x ) si sgn ( g ( x, w )) = +1.


Supposons que la probabilit a posteriori de la classe A au point x soit suprieure celle de la classe B :
PrY p ( +1 x ) > PrY p ( 1 x ) .
Rappelons que lon cherche la fonction g ( x, w ) pour laquelle la probabilit derreur de classification au
point x, cest--dire E ( x ), soit minimum. La fonction g ( x, w ) pour laquelle E ( x ) est minimum est
donc telle que sgn ( g ( x, w )) = +1, puisque, dans ce cas, E ( x ) = PrY p ( 1 x ), qui est la plus petite des deux
valeurs possibles.
linverse, si PrY p ( 1 x ) > PrY p ( +1 x ), la fonction g ( x, w ) qui garantit le plus petit taux derreur en x est
telle que sgn ( g ( x, w )) = 1.

19

20

Lapprentissage statistique

En rsum, le meilleur classifieur possible est celui qui, pour tout x, affecte lobjet dcrit par x la classe
dont la probabilit a posteriori est la plus grande en ce point.
Cette rgle de dcision (dite rgle de Bayes) garantit que le nombre derreurs de classification est
minimal ; pour pouvoir la mettre en uvre, il faut calculer (ou estimer) les probabilits a posteriori des
classes.

Classifieur de Bayes
Le classifieur de Bayes utilise, pour le calcul des probabilits a posteriori, la formule de Bayes : tant
donn un problme c classes Ci (i = 1 c), la probabilit a posteriori de la classe Ci est donne par la
relation
Pr ( Ci x ) =

pX ( x Ci ) PrCi
c

p
j =1

( x C ) Pr
j

Cj

o pX x C j est la densit de probabilit du vecteur x des variables observes pour les objets de la classe
Cj (ou vraisemblance du vecteur x dans la classe Cj), et PrC j est la probabilit a priori de la classe Cj,
cest--dire la probabilit pour quun objet tir au hasard appartienne la classe Cj.
Si toutes les classes ont la mme probabilit a priori 1/c, la rgle de Bayes revient classer lobjet inconnu
x dans la classe pour laquelle x a la plus grande vraisemblance : cest une application de la mthode du
maximum de vraisemblance.
Ainsi, si lon connat analytiquement les vraisemblances, et si lon connat les probabilits a priori des
classes, on peut calculer exactement les probabilits a posteriori.
Exemple : cas de deux classes gaussiennes de mmes variances

Reprenons le cas considr plus haut, dans la section intitule un exemple de classification : deux
classes A et B dans un espace deux dimensions, telles que les vraisemblances des variables sont gaussiennes, de mme variance , de centres xA (x1A, x2A) et xB (x1B, x2B) :
pX ( x A ) =

( x x )2
( x x )2
1
exp 1 21A exp 2 22 A
2
2
2

pX ( x B ) =

( x x )2
( x x )2
1
exp 1 21B exp 2 22 B .
2
2
2

Supposons que les probabilits a priori des classes soient les mmes, gales 0,5.
Dans lexemple considr plus haut, chaque classe tait reprsente par le mme nombre dexemples. Si la probabilit a priori des classes
est estime par la frquence des exemples, cest--dire le rapport du nombre dexemples dune classe au nombre total dexemples, on est
dans le cas o les deux probabilits a priori sont gales 0,5.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

21

Alors la formule de Bayes permet de calculer les probabilits a posteriori :


( x x )2
( x x )2
1
exp 1 21A exp 2 22 A
2
2
2

Pr ( A x ) =
2
2
(x x )
(x x )
( x x )2
( x x )2
1
1
exp 1 21B exp 2 22 B
0, 5
exp 1 21A exp 2 22 A + 0, 5
2
2
2
2
2
2

0, 5

( x1 x1B )2
( x 2 x 2 B )2
1
0, 5
exp
exp

2 2
2 2
2

.
Pr ( B x ) =
2
2
2

( x 2 x 2 B )2
x2 x2 A )
x1 x1B )
x1 x1A )
(
(
(
1
1
exp
0, 5
exp
exp
+ 0, 5
exp

2 2
2 2
2 2
2 2
2
2

La rgle de classification de Bayes affecte lobjet dcrit par x la classe dont la probabilit a posteriori est
la plus grande (ou, puisque les probabilits a priori sont gales, la classe pour laquelle la vraisemblance
de x est la plus grande).
La frontire entre les classes est donc le lieu des points, dans lespace des vecteurs x, o les vraisemblances sont gales : cest le lieu des points tels que
( x x )2
( x x )2
( x x )2
( x x )2
exp 1 21A exp 2 22 A = exp 1 21B exp 2 22 B .
2
2
2
2

soit encore

( x1 x1A )2 + ( x2 x2 A )2 = ( x1 x1B )2 + ( x2 x2 B )2 .
La frontire optimale entre les classes est donc le lieu des points quidistants des centres des
distributions : cest la mdiatrice du segment de droite qui joint ces centres.
Dans lexemple considr plus haut, les centres des gaussiennes taient symtriques par rapport la
diagonale du carr reprsent sur la figure 1-6 et la figure 1-8, donc la meilleure frontire possible entre
les classes tait la diagonale de ce carr. Le rsultat le plus proche du rsultat thorique tait le sparateur
linaire de la figure 1-8 ; en effet, on avait postul un modle linaire, et celui-ci tait vrai au sens
statistique du terme, cest--dire que la solution optimale du problme appartenait la famille des fonctions dans laquelle nous cherchions une solution par apprentissage. On tait donc dans les meilleures
conditions possibles pour trouver une bonne solution par apprentissage.
Connaissant la surface de sparation fournie par le classifieur de Bayes, et sachant que les classes ont le
mme nombre dlments, il est facile de trouver le taux derreur de ce classifieur : cest la probabilit de
trouver un lment de la classe A (classe des +) dans le demi-plan suprieur gauche (ou, par symtrie, la
probabilit de trouver un lment de B (classe des o) dans le demi-plan complmentaire) :
+

( x x )2
( x x )2
1
exp 1 21A
exp 2 22 A dx1dx2,
2
2
2

x2 > x1

22

Lapprentissage statistique

avec = 1 dans lexemple considr.


Cette expression se calcule trs simplement en effectuant une rotation des axes de 45 dans le sens trigonomtrique, suivie dune translation, de manire que la frontire entre les classes devienne verticale et que le centre de la classe A soit lorigine (gure 1-10). Le taux
derreur est alors la probabilit cumule dune variable normale entre et 2 2 . On trouve facilement cette dernire valeur laide
dun logiciel de statistiques, ou sur le Web (par exemple http://www.danielsoper.com/statcalc/calc02_do.aspx) : elle vaut environ 24 %,
comme indiqu plus haut.

Frontire de Bayes
entre classes
Centre de
la distribution
de probabilit
des exemples
de la classe B

+
-0,5

0,5

Centre de
la distribution
de probabilit
des exemples
de la classe B

+0

0,5
Centre de
la distribution
de probabilit
des exemples
de la classe A

-0,5

2
2

Centre de
la distribution
de probabilit
des exemples
de la classe A

Figure 1-10.
Rotation
et translation
des axes

Frontire de Bayes
entre classes

Dilemme biais-variance
Les deux exemples acadmiques considrs en dbut de chapitre ont permis de mettre en vidence le
dilemme biais-variance. Muni des lments thoriques de la section prcdente, on peut prsent formaliser ce problme.
Considrons le cas de la prdiction par un modle dont les paramtres sont dtermins par apprentissage ;
comme indiqu plus haut, la fonction de perte la plus frquemment utilise dans ce cas est le carr de
lerreur de modlisation :

y p , g ( x, w ) = y p g ( x, w )

et lerreur de prdiction thorique est


2
P 2 = E X EY p X y p g ( x, w ) .

Cherchons lerreur de prdiction en un point x de lespace des variables


2
P 2 ( x ) = EY p X y p g ( x, w ) ,

en supposant que les observations yp effectues en ce point x sont des ralisations de la variable alatoire
Y p = f (x) +
o est une variable alatoire desprance mathmatique nulle et de variance 2, et o f(x) est une fonction certaine ; lesprance mathmatique de Yp est donc f(x), la fonction de rgression de yp, dont on a vu
plus haut que cest le meilleur modle possible au sens de la fonction de perte choisie.
Supposons enfin que le modle soit obtenu par apprentissage : les paramtres w du modle doivent donc
tre considrs comme des ralisations dun vecteur alatoire W qui dpend des ralisations de Yp

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

23

prsentes dans lensemble dapprentissage ; de mme, les prdictions g(x, w) peuvent tre considres
comme des ralisations dune variable alatoire G(x, W) qui dpendent de Yp. Pour rendre les quations
plus lisibles, on remplace ici la notation varX par var (X) et EX par E(X).
Lerreur de prdiction thorique au point x est alors donne par :
P 2 ( x ) = 2 + var G ( x, W ) + E f ( x ) G ( x, W ) ,
2

o le phnomne alatoire est la constitution de lensemble dapprentissage.


Dmonstration
Rappelons que, pour une variable alatoire Z, on a la relation
E Z 2 = varZ + [E Z ] .
2

Le modle tant construit par apprentissage, ses paramtres, donc les prdictions du modle, sont eux-mmes des ralisations de variables alatoires W et G(x, W) par lintermdiaire de Yp. On peut donc crire :
2
2
P 2 ( x ) == E Y p G ( x ,W ) = var Y p G ( x ,w ) + E Y p G ( x ,W )

= var Y p f ( x ) + f ( x ) G ( x ,W ) + E Y p f ( x ) + f ( x ) G ( x ,W )

= var + f ( x ) G ( x ,W ) + E + f ( x ) G ( x ,W ) .
2

La fonction f(x) tant certaine (elle ne dpend pas de W, donc de lensemble dapprentissage), sa variance est nulle. Dautre part, lesprance mathmatique de est nulle : on a donc nalement :
P 2 ( x ) = 2 + var G ( x ,W ) + E f ( x ) G ( x ,W ) .
2

Le premier terme de la somme est la variance du bruit de mesure. Le deuxime est la variance de la prdiction du modle au point x, qui reprsente la sensibilit du modle lensemble dapprentissage. Le troisime est le biais du modle, cest--dire le carr de lesprance mathmatique de lcart entre les prdictions fournies par le modle et celles qui sont fournies par le meilleur modle possible (la fonction de
rgression f(x)).
Cette relation trs importante appelle plusieurs commentaires :
La qualit dun modle ne peut tre value que par comparaison entre son erreur de prdiction et la
variance du bruit sur les mesures. Un modle qui fournit des prdictions en dsaccord de 10 % avec les
mesures est un excellent modle si les mesures ont elles-mmes une prcision de 10 % ; mais si la prcision sur les mesures est de 1 %, le modle est trs mauvais : il faut chercher lamliorer. Si la prcision
sur les mesures est de 20 %, la performance de 10% annonce pour le modle est trs suspecte : son estimation doit tre remise en cause. Les trois termes de la somme tant positifs, lerreur de prdiction thorique ne peut tre infrieure la variance des observations en x, cest--dire la variance du bruit qui
affecte les mesures ; en dautres termes, on ne peut pas esprer quun modle, conu par apprentissage,
fournisse des prdictions plus prcises que les mesures partir desquelles il a t construit. Cest ce qui
a t observ sur la figure 1-4, o le minimum de la racine carre de lerreur de prdiction thorique,
estime par lEQMT, tait de lordre de lcart-type du bruit.
On retrouve par cette relation le fait que le meilleur modle est la fonction de rgression : en effet, si
g(x, w) = f(x), la variance est nulle puisque le modle ne dpend pas de w, et le biais est nul ; lerreur de
prdiction est donc la plus petite possible, gale la variance du bruit.

24

Lapprentissage statistique

Si le modle ne dpend pas de paramtres ajustables, la variance est nulle, mais le biais peut tre trs
grand puisque le modle ne dpend pas des donnes. Par exemple, si g(x, w) = 0, la variance est nulle et
2
le biais vaut f ( x ) .
Dans les exemples acadmiques de prdiction et de classification que nous avons prsents, nous avons
observ que le biais et la variance varient en sens inverse en fonction de la complexit du modle : un
modle trop complexe par rapport aux donnes dont on dispose possde une variance leve et un biais
faible, alors quun modle de complexit insuffisante a une variance faible mais un biais lev. Comme
lerreur de gnralisation fait intervenir la somme de ces deux termes, elle passe par un optimum qui est
au moins gal la variance du bruit. Cest exactement ce que nous avons observ sur la figure 1-4 :
lerreur quadratique moyenne sur lensemble de test, qui est une estimation de lerreur de gnralisation,
passe par un minimum pour un polynme de degr 6, qui prsente donc la complexit optimale compte
tenu des donnes dapprentissage dont on dispose.
La relation qui vient dtre tablie fournit lerreur de prdiction thorique en un point x. Lerreur de
prdiction thorique est
P 2 = E X P 2 ( x ) = P 2 ( x ) pX dx
= 2 + E X var G ( x, W ) + E X E f ( x ) G ( x, W ) .
2

Remarque
Lesprance mathmatique EX na pas le mme sens que lesprance mathmatique E : la premire porte sur toutes les conditions exprimentales possibles, tandis que la seconde porte sur toutes les ralisations possibles de lensemble dapprentissage.

Pour vrifier numriquement cette relation, reprenons lexemple de la modlisation par apprentissage
partir de donnes qui ont t cres artificiellement en ajoutant la fonction 10 sin(x)/x un bruit pseudoalatoire de variance gale 1, en NA = 15 points xk. Pour estimer le biais et la variance en un point x, 100
ensembles dapprentissage diffrents ont t crs, en tirant au hasard, dans une distribution normale
centre, 100 valeurs de yp pour chaque valeur de xk ; on a fait lapprentissage de 100 modles diffrents
g(x, wi), i = 1 100, cest--dire que 100 vecteurs de paramtres ont t estims par la mthode des moindres carrs (qui sera dcrite plus loin). Un ensemble de test de 1 000 points a t cr, et, en chaque point
de cet ensemble, le biais et la variance du modle de paramtres wi ont t estims :
estimation du biais du modle g(x, wi) au point x

test
k

1 100 sin xktest


10 test g xktest , wi
:

100 i =1
xk

estimation de la variance du modle g(x, wi) au point xktest :


2

1 100
1 100
g xktest , w i
g xktest , w j .

99 i =1
100 j =1

( )

Lerreur de prdiction P 2 xktest est estime par :


100

1
yktest g xktest ,wi
100 i =1

)) .
2

Finalement, les esprances mathmatiques de ces trois quantits sont estimes par la moyenne de chacune
delles sur les 1 000 points de test.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

La figure 1-11 montre, en fonction de la complexit


du modle, les estimations du biais du modle, de
la variance du modle, ainsi que la valeur de la
variance du bruit. La somme de ces trois quantits
(reprsente par des cercles) est en excellent
accord avec lestimation de lerreur de prdiction
(courbe en trait plein). On observe clairement que
le biais et la variance varient en sens opposs, et
que la somme passe par un minimum pour les polynmes de degr 6.

9
8
7
6
5
4
3
2
1
0
0

10

12

Complexit du modle (degr du polynme)

Meilleur modle
compte tenu des donnes disponibles

Erreur de prdiction

Figure 1-11. Dilemme biais-variance pour la rgression


x : estimation de lesprance mathmatique de la
variance ;
+ : estimation de lesprance mathmatique du biais
o : variance du bruit + variance de la prdiction + biais
de la prdiction ;
trait plein : estimation de lesprance mathmatique
de lerreur de prdiction;
tirets : variance du bruit

Les rsultats ci-dessus ont t tablis pour la


prdiction. Pour la classification, ils prennent une
forme analogue, comme illustr numriquement
sur la figure 1-7. De manire gnrale, on peut
rsumer la problmatique du dilemme biaisvariance comme reprsent sur la figure 1-12 : le
meilleur modle, au sens statistique du terme,
constitue un compromis entre lignorance
(modles incapables dapprendre) et la stupidit
(modles surajusts, qui apprennent trs bien et
sont incapables de gnraliser).

sur un ensemble
de donnes indpendant
de lensemble dapprentissage

sur lensemble
dapprentissage

Complexit du modle
Figure 1-12. Reprsentation symbolique
du dilemme biais-variance

Modles ignorants

Modles stupides
(surajusts)

De la thorie la pratique
Les rsultats qui ont t prsents dans la section prcdente sont des rsultats asymptotiques, cest--dire
quils sont exacts si lon dispose dune quantit infinie de donnes. Ils sont trs utiles, car ils expliquent
les grandes lignes des phnomnes que lon observe, et mettent en vidence les problmes quil faut
rsoudre. Nanmoins, dans une situation relle de mise en uvre des mthodes dapprentissage artificiel,
on dispose toujours dune quantit finie de donnes, insuffisante pour estimer de manire trs prcise les

25

26

Lapprentissage statistique

intgrales ncessaires au calcul des esprances mathmatiques ou des variances ; de plus, les distributions
de probabilits auxquelles obissent les donnes sont galement inconnues. Dans cette section, on
prsente des rsultats thoriques sur lesquels il est possible de sappuyer pour trouver des mthodes pratiques de conception de modles par apprentissage. Le lecteur qui ne cherche pas approfondir la thorie
de lapprentissage peut sans dommage omettre de lire cette section et passer directement la section intitule La conception de modles en pratique .

Remplacer des intgrales par des sommes


Rappelons que lobjectif de la modlisation par apprentissage est de trouver des fonctions paramtres qui
sont susceptibles de rendre compte des donnes disponibles, et de fournir des prdictions aussi prcises
que possible concernant des donnes dont on ne dispose pas lors de lapprentissage. Lobjectif thorique
est donc de trouver le vecteur de paramtres w pour lequel lerreur de prdiction thorique
P 2 = E =

( y , g ( x, w )) p
p

Y p ,X

dy p dx

est minimale. Lintgrale ntant pas calculable, il convient donc de lestimer laide des donnes disponibles. On estime donc lerreur de prdiction thorique par lerreur de prdiction empirique (galement
appele risque empirique)
P *2 =

1 N
ykp , g ( xk , w )
N k =1

o ykp , g ( xk , w ) est la fonction de perte choisie.


Lapport fondamental de la thorie de lapprentissage, par rapport aux statistiques classiques, rside dans
ltude de la manire dont lerreur empirique converge (ou ne converge pas) vers lerreur thorique. Ainsi,
en statistique, on montre que la moyenne est un estimateur non biais de lesprance mathmatique ; la
thorie de lapprentissage, pour sa part, sintresse la faon dont la moyenne converge vers lesprance
mathmatique lorsque le nombre dexemples augmente. Ainsi on peut valuer le nombre dexemples
ncessaires pour estimer lesprance mathmatique avec une prcision donne, ou bien valuer lerreur
que lon commet en estimant lesprance mathmatique par la moyenne, pour un nombre dexemples
donn.
Comme indiqu plus haut, la fonction de perte la plus utilise dans le cas de la prdiction est le carr de
lerreur, et lerreur de prdiction empirique est donne par
P *2 =

1 N p
yk g ( xk , w )
N k =1

o la somme porte sur un ensemble de donnes convenablement choisies parmi les donnes disponibles.
La premire tche consiste estimer les paramtres w, cest--dire effectuer lapprentissage proprement
dit. Pour cela, on choisit, parmi les donnes disponibles, un ensemble dapprentissage, de cardinal NA, et
lon cherche, laide dalgorithmes appropris, le vecteur w pour lequel la fonction de cot
NA

J = ykp g ( xk , w )
k =1

est minimale. Rappelons que, dans le cas o est le carr de lerreur, la fonction

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

NA

J = ykp g ( xk , w )
k =1

27

est appele fonction de cot des moindres carrs.


Supposons donc que lon ait trouv le minimum de la fonction de cot choisie ; la valeur de ce minimum
est-elle reprsentative de la qualit des prdictions que fournira le modle, muni des paramtres ainsi
dtermins, pour des valeurs de x qui ne font pas partie de lensemble dapprentissage ? Les exemples
prcdents montrent que la rponse est gnralement ngative. Ainsi, la figure 1-4 montre que lerreur
quadratique moyenne sur lensemble dapprentissage (EQMA), qui vaut J , est trs infrieure lerreur
quadratique moyenne sur lensemble de test pour des modles trop complexes (de degr suprieur ou gal
7). De mme, la figure 1-9 montre que lerreur sur lensemble dapprentissage est trs optimiste, cest-dire trs infrieure lerreur sur lensemble de test, lorsque le nombre dexemples est petit. Dautre part,
lerreur sur lensemble de test elle-mme nest quune estimation, laide dun nombre fini dexemples,
de lerreur de prdiction thorique. On peut donc en tirer deux enseignements :
dune part, il ne faut gnralement pas estimer la performance dun modle partir des rsultats de
lapprentissage ;
dautre part, il faut estimer le mieux possible lerreur de prdiction.
Les deux sections suivantes dcrivent, dune part, des lments thoriques qui permettent de borner
lerreur que lon commet en estimant les capacits de gnralisation partir des estimations obtenues
laide de donnes en nombre fini, et, dautre part, des lments mthodologiques qui permettent de dfinir
les bonnes pratiques pour la conception de modles par apprentissage.

Bornes sur lerreur de gnralisation


Les rsultats thoriques prsents dans la section Dilemme biais-variance sont des rsultats asymptotiques, qui sont exacts dans la limite o les exemples sont en nombre infini. Dans le cas, plus raliste, o
les exemples sont en nombre fini, on ne peut plus tablir de rsultats exacts ; en revanche, on peut obtenir
des rsultats en probabilit. Le cadre thorique le plus frquemment utilis est celui de la thorie de
lapprentissage tablie par V. Vapnik [VAPNIK 1998].
Le rsultat le plus remarquable de cette thorie consiste en une expression quantitative de la notion de
complexit du modle : tant donne une famille de fonction g(x, w), la complexit de cette famille peut
tre caractrise par une grandeur, appele dimension de Vapnik-Chervonenkis. Le fait quil suffise dune
seule grandeur pour dfinir la complexit dune famille de fonctions quelconque est trs remarquable ; il
faut nanmoins admettre que le calcul de la dimension de Vapnik-Chervonenkis pour une famille de fonctions nest pas toujours simple.
Pour la famille des polynmes de degr d, la dimension de Vapnik-Chervonenkis est gale au nombre de
paramtres du modle, soit d+1.
En classification, la dimension de Vapnik-Chervonenkis admet une interprtation gomtrique simple :
cest le nombre maximal de points qui peuvent tre spars sans erreur par une fonction indicatrice appartenant la famille considre. On trouvera dans le chapitre 6 une justification originale et bien dveloppe
de la dimension de Vapnik-Chervonenkis, dans le cadre de la classification.

Lapprentissage statistique

28

Exemple
Considrons la famille des fonctions afnes deux variables x1 et x2. Il est facile de prouver que la dimension de
Vapnik-Chervonenkis de cette famille de fonctions est
gale 3 : la gure 1-13 montre que les points appartenant
toutes les congurations possibles de 3 points appartenant deux classes, en dimension 2, peuvent tre spars
par une fonction afne. En revanche, la gure 1-14 montre
une conguration de 4 points qui ne sont pas sparables
par une fonction de cette famille. Cette conguration admet
nanmoins un sparateur quadratique (une hyperbole), ce
qui prouve que la dimension de Vapnik-Chervonenkis des
fonctions afnes de deux variables est gale 3, et que
celle des fonctions quadratiques de deux variables est
suprieure 3 ; comme indiqu plus haut, elle est gale au
nombre de paramtres, soit 6 pour les polynmes du
second degr deux variables.

Figure 1-13. Toute configuration de 3 points dans le plan,


appartenant deux classes, admet un sparateur affine.

Figure 1-14. Une configuration de 4 points qui nadmet


La dimension de Vapnik-Chervonenkis est
pas de sparateur affine, mais qui admet un sparateur
gnralement une fonction croissante du
quadratique.
nombre de paramtres. Mais ce nest pas
toujours le cas. Ainsi, la fonction sgn sin wx
a un seul paramtre, mais peut sparer un nombre quelconque de points : il suffit de choisir une longueur
donde 2/w suffisamment petite. Sa dimension de Vapnik-Chervonenkis est infinie (figure 1-15).

sin(wx)

ox

oo x

o xx o x

xo

x o

xx

Figure 1-15. La dimension


de Vapnik-Chervonenkis
de la fonction sin(wx) est infinie.

Cette dfinition de la complexit permet dtablir des bornes sur lerreur commise en remplaant lerreur
de prdiction thorique P2 par une erreur empirique P*2 estime sur lensemble dapprentissage. Ainsi,
supposons que lon effectue lapprentissage dun classifieur en cherchant la fonction indicatrice

( x, w ) =

1 + sgn g ( x, w )

(de valeur 0 ou 1, comme indiqu plus haut) qui minimise une erreur empi2
rique P*2(w) sur un ensemble dapprentissage de cardinal NA. Soit h la dimension de Vapnik-

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

Chervonenkis de g(x, w). On a le rsultat suivant : si NA > h, alors, avec une probabilit au moins gale
1 , pour toute fonction de cette famille, la diffrence entre lerreur de gnralisation (inconnue) P2(w)
commise par cette fonction et lerreur empirique P*2(w) calcule sur les donnes dapprentissage est
borne suprieurement par la quantit
B ( N A , h, ) =

E ( N A , h, )
4 P *2 ( w )
1 + 1 +
,
2
E ( N A , h, )


h ln 2 A + 1 ln
4

o E ( N A , h, ) = 4
.
NA

De plus, pour la fonction g x , w * pour laquelle lerreur empirique est minimale (cest--dire pour le
modle de la famille considre qui est trouv par apprentissage), avec une probabilit au moins gale
1-2, la diffrence entre lerreur de gnralisation P2(w*) commise par cette fonction et la plus petite
erreur de gnralisation qui puisse tre commise par un modle de cette famille est borne suprieurement par :
B * ( N A , h, ) =

4
-ln E ( N A , h, )
+
1 + 1 +
.
2NA
2
E ( N A , h, )

40
35

25
20

B * NA ,h,

30

15
10
5

10

0
10
Nomb

6
4

20

re de

xemp

les

30

2
ion
40 0 imens
D

pn
Va
de

ik-C

o
erv

nen

kis

La figure 1-16 montre


lvolution de B*(NA, h,
) en fonction du nombre
dexemples et de la
dimension de VapnikChervonenkis ( = 10-2).
On observe que cette
borne crot lorsque le
nombre
dexemples
diminue, ce qui confirme
le fait, mis en vidence
dans
les
exemples
prsents plus haut, que
la qualit du modle est
dautant meilleure que le
nombre dexemples est
grand
devant
la
complexit du modle.

Figure 1-16. Exemple


de borne thorique

Dans la pratique, la mise en uvre de ces bornes est peu utile, car elles sont gnralement trs
pessimistes ; elles peuvent ventuellement tre utilises pour comparer des modles entre eux. Nanmoins, lapproche possde le trs grand mrite de mettre en vidence des comportements universels de
familles de fonctions, indpendamment de la distribution des exemples, pour des nombres dexemples

29

30

Lapprentissage statistique

finis, et de fournir des guides pour la conception de modles utiles dans des applications difficiles. Ainsi,
les machines vecteurs supports, dcrites dans le chapitre 6, permettent un contrle sur la dimension de
Vapnik-Chervonenkis.

Minimisation du risque structurel


Les considrations dveloppes dans les sections prcdentes conduisent naturellement un lment
important de la mthodologie de conception de modle, dite mthode de minimisation du risque structurel. Elle consiste :
postuler des modles de complexit croissante, par exemple des polynmes de degr croissant ;
trouver le ou les modles pour lesquels lerreur de prdiction empirique est minimale pour chaque
complexit, ventuellement en pnalisant la variance par des mthodes de rgularisation qui seront
dcrites dans le chapitre 2 ;
choisir le meilleur modle.
Les mthodes de conception de modle qui seront dcrites dans cet ouvrage entrent dans ce cadre.

Conception de modles en pratique


Les exemples qui ont t exposs, et les considrations thoriques qui ont t dcrites, illustrent les
grandes lignes de la mthodologie de conception de modles quil convient de suivre de manire rigoureuse pour obtenir, par apprentissage, des modles prcis et fiables, donc utiles. Dans cette section, nous
rcapitulons les tapes de conception dun tel modle.

Collecte et prtraitement des donnes


La premire tape est videmment la collecte des donnes. Deux situations peuvent se prsenter :
le modle doit tre conu partir dune base de donnes prexistante, que lon ne peut pas enrichir ;
le concepteur du modle peut spcifier les expriences qui doivent tre effectues pour amliorer le
modle.
Une fois les donnes disponibles, il convient de les traiter de manire rendre la modlisation aussi efficace que possible.

Les donnes sont prexistantes


L encore, il faut distinguer deux cas :
les donnes sont peu nombreuses ; il faut alors sefforcer de tirer le meilleur parti de ces donnes, en
construisant des modles aussi parcimonieux que possible en nombre de paramtres ;
les donnes sont trs nombreuses : on peut alors mettre en uvre des mthodes dites de planification
exprimentale ou dapprentissage actif, afin de ne retenir que les exemples qui apportent une relle
information au modle. La description dtaille de ces mthodes sort du cadre de cet ouvrage, mais des
lments en seront dcrits dans les chapitres qui suivent.

Les donnes peuvent tre spcifies par le concepteur


Dans un tel cas, il est trs souhaitable de mettre en uvre des mthodes de planification exprimentale,
surtout si les expriences sont longues ou coteuses. Les plans dexprience permettent en effet de limiter

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

le nombre dexpriences, en neffectuant que celles qui sont rellement utiles pour la conception du
modle.

Prtraitement des donnes


Une fois les donnes disponibles, il faut effectuer un prtraitement qui permette de rendre la modlisation
aussi efficace que possible. Ces prtraitements dpendent de la tche effectuer et des particularits des
donnes que lon manipule. Dans tous les cas, le prtraitement minimal consiste normaliser et centrer
les donnes, de manire viter, par exemple, que certaines variables aient de trs grandes valeurs numriques par rapport dautres, ce qui rendrait les algorithmes dapprentissage inefficaces. Le prtraitement
le plus simple consiste donc effectuer le changement de variables suivant, pour les variables x comme
pour la grandeur modliser yp :
u' =

u u
,
su

o u dsigne la moyenne de la grandeur u considre


u =

1 N
uk ,
N k =1

et su est lestimateur de lcart-type de u :


su =

1 N
(u u
N 1 k =1

Ainsi, toutes les grandeurs sont de moyenne nulle et dcart-type unit.


Dans toute la suite, on supposera toujours que les grandeurs considres ont t pralablement normalises et centres.

Slection des variables


Lorsquon modlise un processus physique ou chimique bien connu, on dtermine gnralement, par une
analyse pralable du problme, les variables qui ont une influence sur le phnomne tudi ; dans ce cas,
une tape de slection des variables nest pas toujours ncessaire. En revanche, ce nest pas le cas
lorsquon cherche modliser un processus conomique, social ou financier, ou encore un processus
physico-chimique complexe ou mal connu : les experts du domaine peuvent donner des indications sur les
facteurs quils estiment pertinents, mais il sagit souvent de jugements subjectifs quil faut mettre
lpreuve des faits. On est alors conduit retenir un grand nombre de variables candidates (appeles
galement facteurs ou descripteurs), potentiellement pertinentes. Nanmoins, la complexit du modle
crot avec le nombre de variables : par exemple, la dimension de Vapnik-Chervonenkis de polynmes de
degr d vaut ( n + d )!, o n est le nombre de variables ; elle crot donc trs rapidement avec n. Conserver
n! d !
un contrle sur le nombre de variables est donc un lment important dans une stratgie de modlisation
qui cherche matriser la complexit des modles. Nous dcrirons plus en dtail, dans ce chapitre, le
problme de la slection de variables et nous proposerons une mthode efficace pour le rsoudre.

31

32

Lapprentissage statistique

Les rsultats de la slection de variables sont susceptibles de remettre en cause des ides reues concernant le phnomne modliser, ou, au contraire, de conforter des conjectures ou des intuitions concernant
linfluence des variables candidates sur la grandeur modliser.
On peut galement souhaiter diminuer le nombre de variables en rduisant la dimension de lespace de
reprsentation de la grandeur que lon cherche modliser. Les principales mthodes utilises dans ce but
sont lAnalyse en Composantes Principales (ACP), lAnalyse en Composantes Indpendantes (ACI, ou
ICA pour Independent Component Analysis) ou encore lAnalyse en Composantes Curvilignes (ACC).
LACP et lACC sont dcrites dans le chapitre 3 de cet ouvrage.

Apprentissage des modles


Les mthodes dapprentissage de diffrentes familles de modles seront dcrites en dtail dans les diffrents chapitres de cet ouvrage. Comme nous lavons dj vu, elles consistent toutes optimiser des fonctions bien choisies par des mthodes appropries. Lapprentissage des modles linaires en leurs paramtres est dcrit dans ce chapitre, dans la section Conception de modles linaires par rapport leurs
paramtres (rgression linaire) .

Slection de modles
Comme indiqu plus haut, la mthode de minimisation du risque structurel conduit concevoir des
modles de complexits diffrentes et choisir celui qui est susceptible davoir les meilleures proprits
de gnralisation.
Nous avons vu quil est impossible, en gnral, destimer la capacit de gnralisation dun modle
partir des rsultats de lapprentissage ; une telle procdure conduirait systmatiquement slectionner un
modle de biais faible et de variance leve, donc surajust. Pour slectionner le meilleur modle parmi
des modles de complexits diffrentes, il convient donc de les comparer sur la base des prdictions quils
effectuent sur des donnes qui nont pas servi lapprentissage. Nous dcrivons ci-dessous, dans la
section intitule Slection de modles , les mthodes les plus couramment utilises.

Slection de modles
Comme indiqu plus haut, la slection de modles est une tape cruciale dans la conception dun modle
par apprentissage. Nous dcrivons ici les trois mthodes les plus frquemment mises en uvre.

Validation simple (hold-out)


Lorsque lon dispose dun grand nombre de donnes, la mthode la plus simple consiste diviser les
donnes en trois ensembles (figure 1-17) :
Un ensemble dapprentissage, de taille NA, utilis pour lapprentissage du modle ; lissue de lapprentissage, on calcule lEQMA du modle obtenu
EQMA =

1 NA p
yk g ( x k , w )
N A k =1

o la somme porte sur les lments de lensemble dapprentissage.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

Un ensemble de validation de taille NV, disjoint de lensemble dapprentissage, mais issu de la mme
distribution de probabilit, qui est utilis pour comparer les performances des modles du point de vue
de leur aptitude gnraliser. On calcule, pour chaque modle, son Erreur Quadratique Moyenne de
Validation (EQMV)
EQMV =

1
NV

NV

( y

p
k

k =1

g ( xk , w )

o la somme porte sur les lments de la base de validation.


Un ensemble de test de taille NT, disjoint des deux prcdents, qui sert valuer la performance du
modle slectionn en calculant lErreur Quadratique Moyenne de Test (EQMT)
EQMT =

1
NT

NT

( y

p
k

k =1

g ( xk , w )

o la somme porte sur les lments de la base de test ; ces donnes ne doivent videmment pas tre utilises pendant toute la phase de slection de modle.

Apprentissage

Validation

Test

Ensemble des donnes disponibles


Figure 1-17. Validation simple

Parmi lensemble des modles dont on a effectu lapprentissage, on choisit videmment celui dont
lEQMV est la plus petite ; si plusieurs modles de complexits diffrentes peuvent prtendre tre
choisis car leurs EQMV sont petites, et du mme ordre de grandeur, on choisit celui dont la complexit
est la plus faible.
Une fois dtermine la famille de fonctions de complexit optimale, on effectue un dernier apprentissage
avec lensemble des donnes utilises pralablement pour lapprentissage et la validation ; la performance
du modle ainsi obtenu est estime sur les donnes rserves pour le test.

Validation croise ( cross-validation )


Si lon ne dispose pas de donnes abondantes, la validation simple risque de conduire choisir des
modles surajusts lensemble de validation. On utilise alors la validation croise. Pour une famille de
fonctions :
sparer les donnes disponibles en un ensemble dapprentissage-validation et un ensemble de test ;
subdiviser le premier ensemble en D sous-ensembles disjoints (typiquement D = 5) ;
itrer D fois, de telle manire que chaque exemple soit prsent une et une seule fois dans un sousensemble de validation (figure 1-18) ;
effectuer lapprentissage sur D-1 sous-ensembles ; calculer la somme des carrs des erreurs sur le sousensemble des donnes restantes ;

33

Lapprentissage statistique

34

Si =

k sous-ensemble
de validaation i

(y

p
k

g ( x k , wi )

Apprentissage
Validation

Test
Figure 1-18. Validation croise

calculer le score de validation croise


1 D
Si ;
N i =1
slectionner le modle dont le score de validation croise est le plus faible ; si plusieurs modles de
complexits diffrentes peuvent prtendre tre choisis car leurs EQMV sont petites, et du mme ordre
de grandeur, choisir celui dont la complexit est la plus faible.
Une fois dtermine la famille de fonctions de complexit optimale, on effectue lapprentissage sur
lensemble des donnes utilises pralablement pour la validation croise, et la performance du modle
ainsi obtenu est estime sur les donnes rserves pour le test.

Leave-one-out
Le leave-one-out (galement appel jackknife) est la limite de la validation croise, dans laquelle le
nombre de partitions D de lensemble dapprentissage-validation est gal au nombre de ses lments N.
Chaque sous-ensemble de validation est donc constitu dun seul exemple. Pour une famille de fonctions
de complexit donne, il faut donc raliser autant dapprentissages quil y a dexemples dans la base
dapprentissage-validation. Pour chaque exemple k exclu de lensemble dapprentissage, on calcule
lerreur de prdiction
rk k = ykp g( x, w k )
o g(x, w-k) dsigne le modle, de paramtres w-k, obtenu lorsque lexemple k est exclu de lensemble
dapprentissage.
Une fois la procdure effectue, on calcule le score de leave-one-out
Et =

1 N k
rk
N k =1

( )

Comme dans les cas prcdents, on choisit le modle qui a le plus petit score de leave-one-out ; si
plusieurs modles de complexits diffrentes peuvent prtendre tre choisis car leurs scores de leave-

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

one-out sont petits, et du mme ordre de grandeur, on choisit celui dont la complexit est la plus faible.
Lapprentissage final est effectu avec lensemble des donnes disponibles.
3
Score de leave-one-out
EQMA
cart-type du bruit

2,5

1,5

0,5
0

10

12

Degr du modle polynomial

La figure 1-19 montre le score de leave-one-out et


lEQMA en fonction du degr du modle polynomial, pour lexemple tudi plus haut dans la
section intitule Un exemple de modlisation
pour la prdiction . Les rsultats sont remarquablement voisins de ceux qui sont reprsents sur la
figure 1-4 ; mais, la diffrence de ces derniers,
lerreur de gnralisation nest pas estime sur un
ensemble de test de 1 000 exemples (il est tout
fait exceptionnel de disposer de donnes de test
aussi abondantes), mais avec les seuls 30 points
disponibles. La procdure conduit la slection
dun polynme de degr 6 ; il faut noter que les
rsultats prsents ici sont une moyenne sur
100 ensembles dapprentissage.

Figure 1-19. EQMA et score de leave-one-out moyens


sur 100 bases dapprentissage comprenant chacune
30 exemples

Dans la pratique, on ne dispose que dun ensemble


dapprentissage, ce qui introduit une plus grande
variabilit dans les rsultats ; ainsi, dans le cas
reprsent sur la figure 1-20, les modles de degr
6 et 8 peuvent prtendre tre choisis ; compte
tenu du fait que les scores de leave-one-out sont
trs voisins, on choisit le modle de degr 6.

6
Score de leave-one-out
EQMA

cart-type du bruit
4

0
0

Degr du modle polynomial

10

12

Cette technique est donc gourmande en temps de


calcul, en raison du grand nombre dapprentissages
ncessaires. Le calcul du PRESS, dcrit dans la
section Conception de modles linaires de ce
chapitre, et la mthode du leave-one-out virtuel,
qui sera dcrite dans le chapitre 2, constituent des
alternatives beaucoup plus conomiques en temps
de calcul.

Figure 1-20. EQMA et score de leave-one-out


pour un seul ensemble dapprentissage

Slection de variables
Comme soulign plus haut, la slection de variables constitue un lment important dans une stratgie de
conception dun modle par apprentissage ; elle contribue en effet la diminution de la complexit dun
modle. Louvrage [GUYON 2006] fournit une excellente vue densemble des approches modernes de la
slection de variables.

35

Lapprentissage statistique

36

La slection de variables ncessite toujours :


de dfinir un critre de pertinence des variables pour la prdiction de la grandeur modliser ;
de ranger les variables candidates par ordre de pertinence ;
de dfinir un seuil qui permette de dcider que lon conserve ou que lon rejette une variable ou un
groupe de variables.
Dans cette section, nous poserons dabord le problme de la dfinition dun critre de pertinence sous son
angle statistique, puis nous dcrirons une mthode efficace de slection de variables. Enfin, nous dcrirons une stratgie gnrale appliquer pour la slection de variables.

Cadre thorique
Cette section pose les bases thoriques ncessaires une apprhension gnrale du problme de slection
de variables. Le lecteur peu soucieux de ce cadre thorique peut sans dommage omettre la lecture de cette
section et passer directement la section intitule Mthode de la variable sonde .
La prsentation qui suit est inspire de lintroduction de [GUYON 2006].
Lobjectif de la slection de variables est de discerner, dans un ensemble de variables candidates {x1, x2,
xn}, qui constituent le vecteur de variables que nous avons not x dans les sections prcdentes, celles
qui sont pertinentes pour la modlisation de la grandeur yp. Comme prcdemment, ces variables peuvent
tre modlises comme des ralisations des composantes X1, X2, , Xn dun vecteur alatoire X. On
dsigne par Xi le vecteur dont les composantes sont celles de X lexception de la variable xi. Enfin, on
dsigne par Si un vecteur alatoire dont les composantes sont un sous-ensemble des composantes de Xi
(Si peut tre identique Xi). En rsum, le vecteur X modlise toutes les variables candidates, le vecteur
Xi modlise le vecteur des variables candidates dont on a supprim la variable i, et le vecteur Si modlise
le vecteur des variables candidates dont on a supprim au moins la variable i, et ventuellement dautres
variables.
Il va de soi que la variable i est certainement non pertinente pour prdire la grandeur yp si et seulement si
les variables xi et yp varient indpendamment lune de lautre lorsque toutes les autres variables sont
fixes, ce qui peut scrire :

) (

pX ,Y p Xi , Y p S i = p Xi Xi S i pY p Y p S i .
i
Une variable qui est pertinente nobit donc pas cette relation. Pour savoir si une variable est peu pertinente ou trs pertinente, il est donc naturel de chercher savoir si le membre de gauche de cette galit
est peu diffrent, ou trs diffrent, du membre de droite. Sagissant de distributions de probabilits, une
diffrence sexprime gnralement par la distance de Kullback-Leibler entre les distributions. La
distance de Kullback-Leibler entre deux distributions de probabilits pU et pV est dfinie par la
relation [KULLBACK 1959] :
+

pU

pV ln p du dv.

V
Elle scrit donc ici :
+

I Xi , Y S

p X ,Y p Xi , Y p S i
i
= pX ,Y p Xi , Y p S i ln
i

pXi Xi S i pY p Y p S i

) (

dxi dy p .

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

37

Cette quantit nest autre que linformation mutuelle entre Xi et Yp, tant donnes toutes les autres variables. Plus elle est grande, plus la variable xi est pertinente pour la prdiction de yp, toutes les autres variables tant connues.
Puisque lon cherche un indice de pertinence qui soit indpendant des autres variables candidates, il est
naturel de proposer comme indice de pertinence, pour la variable i, la moyenne de linformation
mutuelle :

( )(

r ( i ) = Pr S i I Xi , Y p S i .
S i

On peut alors fixer un seuil et dcider de rejeter toutes les variables telles que
r ( i ) < .
Il faut nanmoins remarquer que les intgrales qui interviennent dans lexpression de lindice de pertinence ne sont pas calculables, puisque lon ne dispose que dun nombre fini N de ralisations de xi et de
yp. Ce critre de slection nest donc pas applicable en pratique ; en revanche, on peut, au moins en principe, estimer la probabilit pour que lindice de pertinence soit suprieur un seuil , et dcider que la
variable candidate doit tre rejete si la probabilit pour que son indice de pertinence soit suprieur au
seuil est infrieure une quantit :
Pr ( r ( i, N ) > ) <
o r(i, N) dsigne lindice de pertinence estim pour la variable i partir dun chantillon de N exemples.
Les mthodes qui ncessitent lestimation de densits de probabilit sont gnralement de mise en uvre
dlicate, notamment lorsque les exemples sont en nombre limit. Nous dcrivons ci-dessous une mthode
simple et robuste qui est fonde sur lestimation de corrlations.

Mthode de la variable sonde


Rappelons lobjectif de toute procdure de slection de variables : classer les variables candidates en deux
groupes, les variables que lon conserve car on les considre pertinentes, et celles que lon rejette. Supposons que lon ait dfini un indice de pertinence r(i, N) pour la variable i, partir dun chantillon de N
observations. La variable i tant modlise comme une variable alatoire, son indice de pertinence est luimme une variable alatoire. La figure 1-21 reprsente symboliquement les distributions de probabilit de
lindice de pertinence pour les variables pertinentes et pour les variables non pertinentes ; ces distributions
sont videmment inconnues, puisque lon ne sait pas quelles variables sont pertinentes. Nanmoins, on
peut penser que, si lindice de pertinence est bien choisi, sa distribution, pour les variables pertinentes,
possde un pic situ des valeurs plus leves que le pic de sa distribution pour les variables non pertinentes. Dans la pratique, les deux distributions ne sont pas parfaitement spares : si lon choisit un seuil
comme indiqu sur la figure, il existe une probabilit non nulle de faux positif (probabilit de
conserver une variable alors quelle nest pas pertinente), et une probabilit non nulle de faux ngatif
(probabilit de rejeter une variable alors quelle est pertinente). Il faut donc choisir judicieusement ce
seuil compte tenu des donnes dont on dispose.
la fin de la section prcdente, un critre de rejet a t propos : rejeter la variable i si
Pr ( r ( i, N ) > ) < .

Lapprentissage statistique

Distribution de probabilit
de lindice de pertinence

38

Cette condition se traduit


sur la figure 1-21 par le
fait que lon choisit de
telle manire que laire
hachure en traits gras
soit infrieure la probabilit que lon sest
fixe.
Variables non pertinentes

Variables pertinentes

Si lon connaissait la
distribution de lindice de
pertinence pour les variables non pertinentes, le
seul paramtre que le
concepteur du modle
aurait choisir serait
probabilit
probabilit
donc cette probabilit .
de faux positif ()
de faux ngatif
Lintrt de la mthode
de la variable sonde est
quelle permet destimer

la densit de probabilit
de lindice de pertinence
Indice de pertinence
des variables non pertiFigure 1-21. Distributions de probabilit de lindice de pertinence
nentes. Muni de cette
pour des variables pertinentes et pour des variables non pertinentes
connaissance, on procde
de la manire suivante : si
les donnes sont peu nombreuses, on choisit petit , donc grand , car il convient dtre trs
slectif afin de limiter le nombre de faux positifs. En revanche, si les donnes sont nombreuses, on peut
se permettre de diminuer le seuil , donc de slectionner un plus grand nombre de variables, au risque de
conserver des variables non pertinentes.

Dfinition de lindice de pertinence


Comme indiqu dans la section prcdente ( cadre thorique ), un indice de pertinence peut naturellement tre dfini partir de la notion dinformation mutuelle, mais il est trs difficile estimer pratiquement, notamment dans le cas o de nombreuses variables sont candidates. Il est plus simple de dfinir un
indice de pertinence partir du coefficient de corrlation entre les variables candidates et la grandeur
modliser, que celle-ci soit binaire (classification) ou relle (rgression).
Dans ce but, on se place dans le cadre de modles linaires en leurs paramtres
p

g ( x, w ) = wi fi ( x ).
i =1

Dans cette expression, fi(x) peut tre soit la variable xi elle-mme, qui est alors appele variable
primaire , soit une fonction non paramtre des variables, alors appele variable secondaire . Pour
simplifier, on dsignera dans la suite par zi la variable candidate de numro i, quil sagisse dune variable
primaire ou dune variable secondaire :
p

g ( x, w ) = wi zi .
i =1

Lapprentissage statistique : pourquoi, comment ?

39

CHAPITRE 1

La figure 1-22 illustre la notion de variables primaire et secondaire, laide dun graphisme qui sera largement utilis dans la suite de louvrage. Les cercles reprsentent des fonctions ; le cercle contenant un
signe reprsente une fonction sommation. Les carrs ne ralisent aucune fonction : ils symbolisent
simplement les variables du modle. Le modle reprsent gauche est un modle linaire en ses paramtres et en ses variables : les variables primaires et secondaires sont identiques. Le modle de droite est
un modle linaire en ses paramtres mais non linaire en ses variables ; les variables secondaires sont
obtenues partir des variables primaires par des transformations non linaires non paramtres. Ainsi, le
modle de droite pourrait reprsenter un polynme, les fonctions i tant des monmes des variables
primaires.

g(x, w)

g(x, w)
w1

w1

w2

w2

z1

z2

wp

Variables secondaires

zp

wp

z1

z2

Variables secondaires

zp

x2

Variables primaires

xp

.......

...
1

x2

xm

Variables primaires
Figure 1-22. Modles linaires en leurs paramtres

Le carr du coefficient de corrlation entre deux variables alatoires U et V centres (de moyenne nulle),
dont on connat N ralisations, est estim par la quantit
N

(u v )

k k

2
U ,V

k =1
N

k =1

k =1

uk2 vk2

Cette quantit a une interprtation gomtrique simple. Considrons lespace des observations, de dimension N. Dans cet espace, la grandeur u est reprsente par un vecteur u, dont chaque composante est une
observation uk de u. Le carr du coefficient de corrlation est alors le carr du cosinus de langle uv entre
les vecteurs u et v dans cet espace :
2
U ,V

= cos uv
2

2
u v)
(
=
(u u )(v v )

Lapprentissage statistique

40

o le symbole reprsente le produit scalaire dans lespace des observations. Le coefficient de corrlation
est donc compris entre zro (observations non corrles, vecteurs reprsentatifs orthogonaux dans
lespace des observations) et 1 (observations compltement corrles, vecteurs reprsentatifs colinaires).
Ainsi, le coefficient de corrlation entre la grandeur modliser yp et la variable candidate zi est donn
par :
2
Y p , Zi

(y

(y
p
k

p
k

zi

ykp ( zi zi )

o yk et zi sont les vecteurs reprsentatifs, dans lespace des observations, de la grandeur modliser et
de la variable candidate de numro i (primaire ou secondaire) respectivement.
Attention
Ne pas confondre z et zi. Le vecteur z, qui intervient par exemple dans la notation du modle g(z, w), dsigne le vecteur des variables du
modle : il est de dimension p. En revanche, le vecteur zi reprsente la variable numro i du modle dans lespace des observations : il est
de dimension N, o N dsigne le nombre dobservations.

partir de ce coefficient de corrlation, lindice de pertinence des variables candidates est dfini comme
le rang de la variable candidate dans un classement tabli par orthogonalisation de Gram-Schmidt
[CHEN 1989]. La procdure est la suivante :
calculer les coefficients de corrlation entre ykp et les p variables candidates, et choisir la variable candidate zi la plus corrle ykp ;
projeter le vecteur ykp et toutes les variables non slectionnes sur le sous-espace orthogonal la variable
zi ;
itrer dans ce sous-espace.
Les variables sont donc slectionnes les unes aprs les autres. chaque orthogonalisation, la contribup
tion de la dernire variable slectionne au vecteur yk est supprime ; on obtient donc bien un classement des variables par ordre de pertinence dcroissante. Il est alors naturel de considrer que le rang dune
variable dans ce classement est le reflet de la pertinence de cette variable par rapport la modlisation que
lon cherche effectuer.
La figure 1-23 illustre le processus dans un cas trs
simple o lon aurait trois exemples (N = 3) et deux
variables primaires ou secondaires candidates (p =
2), reprsentes par les vecteurs z1 et z2 dans lespace
des observations. La premire tape a pour effet de
slectionner la variable z1, car langle entre z1 et yP
est plus petit que langle entre z2 et yp. La deuxime
tape consiste projeter orthogonalement yP et la
variable non slectionne z2 sur le sous-espace orthogonal z1. Toutes les variables candidates tant classes, le processus sarrte alors. Sil y avait plus de
deux variables candidates, le mme processus serait
itr dans le sous-espace orthogonal z1.
Remarque 1
En pratique, il est prfrable dutiliser une variante de lalgorithme de
Gram-Schmidt, appele algorithme de Gram-Schmidt modi, qui
est plus stable numriquement [BJRCK 1967].

yp
z1

z21

yp1

z2
Figure 1-23. Orthogonalisation de Gram-Schmidt pour
le classement de deux variables candidates dans un
espace des observations de dimension trois

Lapprentissage statistique : pourquoi, comment ?

41

CHAPITRE 1
Remarque 2
Lalgorithme dorthogonalisation de Gram-Schmidt dcrit ci-dessus est un cas particulier dun algorithme dapprentissage de modles
linaires, dcrit plus loin dans la section Moindres carrs par orthogonalisation de Gram-Schmidt
Exemple important
Pour illustrer limportance de considrer les variables secondaires, et de ne pas se limiter aux variables primaires, considrons un problme simple de classication, illustr sur la gure 1-24.
On dispose de quatre exemples, appartenant deux classes : la classe A, reprsente par des croix,
laquelle on affecte ltiquette yp = +1, et la classe B, reprsente par des cercles, laquelle on
affecte ltiquette yp = 1. Considrons comme variables candidates les variables primaires z1 = x1, z2
= x2, ainsi que la variable secondaire z3 = x1 x2. Dans lespace des observations, de dimension 4, les
vecteurs reprsentatifs des variables candidates sont (les numros des observations sont indiqus
sur la gure 1-24)
1
+1
1
+1
+1
+1
z1 = ; z 2 = ; z 3 =
1
1
+1



+1
1
1

x2
1

x1

Figure 1-24.
Exemple illustrant
limportance des variables
secondaires

et le vecteur reprsentatif de la grandeur modliser est


1
+1
y = .
+1

1
2
2
Aucune des deux variables primaires, prise sparment, nest pertinente pour la prdiction de yp, puisque z 1 y p = 0 et z 2 y p = 0.
En revanche, le coefcient de corrlation entre z3 et yp vaut 1. Par consquent, la variable secondaire x1x2 dtermine entirement le
modle, alors que les variables primaires sont compltement inoprantes pour rsoudre ce problme de classication (connu sous le nom
de problme du OU exclusif ou problme du XOR ) avec des modles linaires en leurs paramtres. Le modle g(x, w) = x1x2
spare compltement les exemples disponibles puisque sgn(g(x, w)) = +1 pour les exemples de la classe A et sgn(g(x, w)) = 1 pour ceux
de la classe B. Il faut nanmoins remarquer que le problme peut tre rsolu avec comme variables x1 et x2 si lon met en uvre des modles non linaires en leurs paramtres, des rseaux de neurones par exemple.
p

Dtermination du seuil de slection des variables


Disposant dune mthode de classement des variables candidates, il reste donc dterminer le rang audel duquel les variables candidates doivent tre rejetes. Comme indiqu dans la section Cadre
thorique , le problme serait simple si les distributions du rang des variables pertinentes et du rang des
variables non pertinentes taient connues. Ce nest videmment pas le cas, mais il est nanmoins possible
destimer la distribution du rang des variables non pertinentes en crant artificiellement des variables non
pertinentes ou variables sondes .

Prsentation intuitive
Intuitivement, on pourrait envisager la procdure suivante :
crer une variable sonde dont les valeurs observes seraient alatoires, sans relation avec la grandeur
modliser : cette variable est donc, par construction, non pertinente ;
lors du classement par orthogonalisation de Gram-Schmidt, faire participer cette variable au mme titre
que les autres variables ;
arrter le classement des variables lorsque la variable sonde apparat dans la procdure de classement :
toutes les variables non encore classes sont alors rejetes, puisquelles sont moins pertinentes que la
variable sonde qui, par construction, nest pas pertinente.

Lapprentissage statistique

Cette procdure est risque : en effet, la dcision de rejet est fonde sur le classement dun seul vecteur
reprsentatif de la variable sonde, donc dune seule ralisation de ce vecteur alatoire. Si lon procdait
un autre tirage des valeurs de la variable sonde, on obtiendrait trs probablement un autre rang, dans le
classement, pour cette variable : on prendrait donc une autre dcision de rejet. En dautres termes, le rang
de la variable sonde est lui-mme une variable alatoire, dont la distribution de probabilit est une estimation de la distribution de probabilit du rang des variables non pertinentes.

Prsentation rigoureuse
Cette dernire remarque renvoie la condition de rejet tablie dans la section Cadre thorique : une
variable candidate i est rejete si
Pr ( r ( i, N ) > ) <
o r(i, N) est lindice de pertinence de la variable i, estim partir de N observations. Dans le cadre de la
mthode de la variable sonde, lindice de pertinence est le rang (i, N) de la variable candidate i ; la
variable i est donc dautant plus pertinente que son rang est petit. Lquation prcdente scrit alors :
Pr ( ( i, N ) < 0 ) <
o 0 est le rang au-del duquel les variables candidates doivent tre rejetes. Or on souhaite que toutes
les ralisations de la variable sonde soient rejetes ; lapplication de la relation prcdente aux variables
sondes scrit donc :
Pr ( S < 0 ) <
0,14

Distribution de probabilit
du rang des variables

o S dsigne le rang dune ralisation de


la variable sonde. Ainsi, tant donne une
valeur de fixe, le seuil de rejet 0 est le
rang tel quune ralisation de la variable
sonde soit classe au-dessus de ce rang
avec une probabilit infrieure , ou
encore quune ralisation de la variable
sonde ait une probabilit 1 dtre
classe dans un rang au-del de 0. Cette
situation est rsume sur la figure 1-25,
o sont prsentes la distribution hypothtique (puisque inconnue) du rang des
variables pertinentes, et la distribution du
rang de la variable sonde, qui constitue
une estimation du rang des variables non
pertinentes. Si lon est prt admettre un
risque de 10 % ( = 0,1) pour quune
variable soit conserve alors quelle est
aussi bien ou moins bien classe quune
ralisation de la variable sonde ( risque
de premire espce ), on lit, sur le
graphe de la probabilit cumule, quil
faut rejeter toute variable de rang suprieur 15. On peut noter que cette proc-

Variables pertinentes
(distribution inconnue)

0,12
0,1
0,08

Variables non pertinentes


(distribution estime par celle des variables sondes)

0,06
0,04
0,02
0
0

10

15

20

25

30

35

40

45

50

35

40

45

50

Rang des variables

1
0,9

Probabilit cumule
du rang des variables

42

0,8
0,7
0,6
0,5
0,4
0,3
0,2
= 0,1

0,1
0
0

10

15

20

25

30

Rang des variables

Figure 1-25. Choix du seuil de rejet des variables candidates

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

43

dure ne contrle pas le risque de rejeter dventuelles variables pertinentes qui seraient classes au-del
du rang 15 ( risque de deuxime espce ) ; on verra, dans la section intitule Limitations de la
mthode , quil est nanmoins possible destimer ce risque, sans toutefois le contrler.
En pratique, deux techniques sont utilisables pour engendrer les ralisations de la variable sonde :
mlanger alatoirement les observations des variables candidates ;
tirer des nombres alatoires dans une distribution de moyenne nulle et de variance 1, puisque les variables candidates ont t pralablement normalises et centres, comme indiqu plus haut dans la section
Prtraitement des donnes .
Si les variables candidates obissent une distribution gaussienne, on peut lgitimement considrer que
la variable sonde est gaussienne. Alors, la probabilit cumule du rang de la variable sonde peut tre
calcule analytiquement [STOPPIGLIA 2003], de sorte quil est inutile dengendrer des ralisations de la
variable sonde. On procde de la manire suivante : chaque tape du classement par la mthode de
Gram-Schmidt, on calcule la probabilit cumule du rang de la variable sonde, et, lorsque celle-ci atteint
la valeur choisie, on arrte le processus.
Si les variables nobissent pas une distribution gaussienne, on estime la probabilit cumule du rang de
la variable sonde. Pour cela, on engendre un grand nombre de ralisations de la variable sonde, et lon
procde lorthogonalisation de Gram-Schmidt. Chaque fois quune ralisation de la variable sonde est
rencontre, on en prend note et lon enlve cette variable du classement : on obtient ainsi une estimation
empirique de la probabilit cumule du rang de la variable sonde. Comme dans le cas prcdent, on arrte
le processus lorsque lestimation de la probabilit cumule atteint la valeur fixe lavance.
Probabilit cumule
du rang de la variable sonde

1
La figure 1-26 illustre cette approche laide dun
X
X
exemple acadmique propos dans [LAGARDE DE
X
0,8
1983] et repris dans [STOPPIGLIA 2003]. partir
Calcule
X
X
dun ensemble de 15 observations, on cherche
0,6
X
tablir un modle linaire (en ses paramtres et en
0,4
ses variables) avec 10 variables candidates, dont 5
Estime laide
X
X de 100 ralisations
seulement sont pertinentes : les coefficients des
0,2
de la variable sonde
autres variables, dans la fonction linaire gnraX
X
X
X
X
X
X
X
X
X
trice des donnes, sont nuls. Sagissant dun
0
0
2
4
6
8
10
problme acadmique, les exemples ont t engenRang de la variable sonde
drs en ajoutant une fonction linaire un bruit
Figure 1-26. Probabilits cumules, calcules et estimes
gaussien centr ; les variables obissent une loi
normale. Lobjectif est de slectionner les variables
pertinentes. La figure 1-26 prsente deux courbes : la probabilit cumule du rang de la variable sonde
calcule en supposant que la variable sonde obit une loi gaussienne, et la probabilit cumule estime,
par la procdure dcrite plus haut, partir de 100 ralisations de la variable sonde, tires dune distribution gaussienne. On observe que, dans les deux cas, le choix dun risque = 0,1 conduit slectionner les
5 variables candidates les mieux classes, qui sont effectivement les 5 variables pertinentes partir
desquelles les donnes ont t engendres.

Limitations de la mthode
La principale limitation de la mthode de la variable sonde rsulte de lutilisation de lalgorithme de
Gram-Schmidt, qui exige que le nombre de variables slectionnes soit suprieur au nombre dexemples.
Il convient de noter que cette limitation porte sur le nombre de variables slectionnes, et non sur le
nombre de variables candidates : laide de la mthode de la variable sonde, on peut traiter des problmes
o le nombre de variables candidates est trs suprieur au nombre dexemples.

44

Lapprentissage statistique

Dautre part, la mthode contrle directement le risque de faux positif, cest--dire le risque de conserver
une variable alors quelle nest pas pertinente. Elle ne contrle pas directement le risque de faux ngatif,
cest--dire le risque de rejeter une variable alors quelle est pertinente. Nanmoins, il est possible de
conserver galement un contrle sur ce phnomne en estimant le taux de fausse dcouverte (false
discovery rate ou FDR), comme dcrit dans [DREYFUS 2006].

Exemples acadmiques (classification)


Exemple 1
100 bases de donnes ont t construites de la manire suivante : pour chaque base, une fonction g(x, w)
de deux variables a t choisie alatoirement, 1 200 exemples ont t crs alatoirement partir de cette
fonction en affectant la classe A les exemples pour lesquels sgn(g(x, w)) = +1. 10 % de ces exemples ont
t affects de manire errone, de sorte quil y a 10 % derreur sur la base dapprentissage. 800 exemples
ont t utiliss pour lapprentissage et 400 pour le test. Enfin, 238 variables non pertinentes ont t ajoutes lensemble des variables, de sorte quil y a en tout 240 variables candidates, parmi lesquelles deux
seulement sont pertinentes. La mthode dcrite ci-dessus a t applique aux 240 variables candidates, et
un classifieur a t ralis laide des deux premires variables slectionnes. titre de comparaison, un
classifieur a t ralis avec les deux vraies variables. Pour les 100 bases de donnes, la procdure a
toujours trouv au moins une des deux vraies variables, et a trouv les deux vraies variables dans 74% des
cas. Le tableau 1-2 rsume les rsultats moyens obtenus sur les 100 bases dapprentissage.
Taux moyen derreurs
de classification avec les variables
slectionnes

Taux moyen derreurs


de classification avec les vraies
variables

Hypothse nulle : diffrence


entre les taux derreurs moyens
< 0,125

10,4%
(cart-type 1,1%)

10,1%
(cart-type 0,7%)

Accepte

Tableau 1-2

On observe que le taux derreur de classification moyen (en moyenne sur les 100 bases de donnes),
obtenu par un classifieur construit avec les descripteurs slectionns, est trs voisin du taux derreur de
classification obtenu par un classifieur tabli avec les vraies variables. Un test dhypothse (voir la
dernire section de ce chapitre) accepte lhypothse que la diffrence entre les taux derreurs moyens est
infrieur 0,125, cest dire une erreur sur 800 ; en dautres termes, la diffrence observe entre les taux
derreurs des deux classifieurs nest pas significative, puisque chaque base de donnes comprend
800 exemples dapprentissage. Cela signifie que, lorsque la mthode na trouv quune des deux vraies
variables, lautre variable slectionne permettait de discriminer les exemples de manire aussi prcise
que la vraie variable qui na pas t dcouverte. Les rsultats sont semblables sur les bases de test.
titre de comparaison, les taux derreurs sont denviron 45 % si les deux variables sont choisies alatoirement, et de 30 % si une des vraies variables est utilise, lautre variable tant choisie alatoirement. Si
lon utilise un risque de 1% ( = 0,1), les trois premires variables du classement sont slectionnes, ce
qui ne dgrade pas les rsultats de manire significative [STOPPIGLIA 2003].

Exemple 2
On construit 100 bases de donnes de 100 exemples tirs de distributions gaussiennes deux variables x1
et x2, les centres tant dans les positions du problme du XOR (figure 1-24) ; 50 variables alatoires non
pertinentes sont ajoutes lensemble des variables candidates. On utilise cette fois, outre les variables
primaires, les monmes du second degr de celles-ci, ce qui produit en tout 1 326 variables candidates
dont 52 variables indpendantes. Comme indiqu plus haut, la seule variable pertinente pour rsoudre ce
problme est le produit x1x2 ; avec un risque de 1%, cest effectivement la seule variable slectionne.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

Variable sonde et test de Fisher


La mthode de la variable sonde est apparente lutilisation de tests dhypothse pour la slection de
variables. Le lecteur qui nest pas familier avec les tests dhypothses trouvera les concepts et dfinitions
ncessaires dans la dernire section de ce chapitre.

Test de Fisher pour la slection de variables


Comme prcdemment, nous nous plaons dans le cadre des modles linaires par rapport leurs paramtres
p

g ( x, w ) = wi zi = w z
i =1

o les zi sont les variables primaires ou secondaires.


On suppose que les mesures de la grandeur modliser peuvent tre considres comme les ralisations
dune variable alatoire Yp telle que Y p = w p z + , o z est le vecteur des variables du modle (de
dimension inconnue), o wp est le vecteur (non alatoire mais inconnu) des paramtres du modle, et o
est une variable alatoire gaussienne inconnue desprance mathmatique nulle. On a donc :
EY p = w p z .
Nous cherchons construire un modle g, partir dun ensemble de N mesures { ykp, k = 1 N} qui constituent un ensemble de ralisations de la variable alatoire Yp ; nous dsignons par yp le vecteur, de dimension N, dont les composantes sont les ykp. Ce modle dpend de lensemble des mesures utilises pour sa
construction : il est donc lui-mme une ralisation dune variable alatoire G.
Supposons que lon ait dtermin un ensemble de Q variables qui contient certainement les variables
mesurables pertinentes pour la grandeur modliser. Un modle contenant toutes les variables mesurables
pertinentes est appel modle complet. On cherche alors un modle de la forme
GQ = W Q z Q
o zQ est le vecteur des variables du modle (de dimension Q+1 puisque, outre les variables pertinentes,
le vecteur des variables contient une composante constante gale 1) et o W est un vecteur alatoire qui
dpend de la ralisation du vecteur Yp utilise pour la construction du modle. Rappelons que lon dit que
ce modle complet est vrai, pour indiquer quil existe certainement une ralisation wp du vecteur alatoire
W telle que gQ = EY p .
Supposons que lapprentissage soit effectu par minimisation de la fonction de cot des moindres carrs
N

J ( w ) = ykp gQ ( z k , w )
k =1

(y

gQ ( z, w ) ,
2

o w dsigne une ralisation du vecteur des paramtres W, zk est le vecteur des Q+1 variables pour
lexemple k, et o gQ(z, w) est le vecteur des valeurs des ralisations de GQ pour les N mesures effectues.
Q
Soit wmc
le vecteur des paramtres pour lequel la fonction de cot J est minimum. Le modle obtenu est
Q
Q
donc de la forme gQ = wmc
, o :
z , et lon peut dfinir le vecteur gQ = Zwmc
gQ est le vecteur dont les N composantes sont les prdictions du modle pour chacune des N mesures
effectues ;

45

46

Lapprentissage statistique

Z est une matrice (dite matrice des observations) dont la colonne i (i = 1 Q+1) est le vecteur zi dont les
composantes sont les N mesures de la variable numro i : la matrice Z a donc N lignes et Q+1 colonnes :

z 11

Z = z 21
M

z N, 1

z 1, Q + 1
O z 2, Q + 1

O
M

z N, Q + 1

o zij dsigne la mesure numro i de la variable candidate numro j.


On se pose la question suivante : les Q variables du modle complet sont-elles toutes pertinentes ? Pour
rpondre cette question, on remarque que, si une variable nest pas pertinente, le paramtre correspondant du modle complet doit tre gal zro. On appelle sous-modle du modle complet un modle
obtenu en mettant zro un ou plusieurs paramtres du modle complet. Pour rpondre la question
pose, il faut donc comparer le modle complet tous ses sous-modles. Considrons un de ceux-ci, par
exemple le modle dont le vecteur w a ses q dernires composantes (numrotes de Q-q+2 Q+1) gales
Qq
Qq
zro : gQ q = Zwmc
, o wmc
est le vecteur de paramtres obtenus en minimisant la fonction de cot des

moindres carrs J ( w ) = y p gQ q ( z, w ) sous la contrainte que les q dernires composantes du vecteur


des paramtres soient nulles. On veut tester lhypothse nulle H0 : les q derniers paramtres du vecteur
alatoire W sont nuls. Si cette hypothse est vraie, la variable alatoire
2

p
p
N Q 1 Y GQ q Y GQ
U=
2
q
Y p GQ

N Q 1 GQ GQ-q
=
2
q
Y p GQ

est une variable de Fisher q et N-Q-1 degrs de libert.


2

En effet, la quantit Y p GQ est la somme des carrs des composantes du vecteur Y p GQ , dont on verra, dans la section consacre
lapprentissage des modles linaires par rapport leurs paramtres, quil est orthogonal au sous-espace dtermin par les Q + 1 colonnes de la matrice Z. Cest donc la somme de N (Q + 1) carrs de variables alatoires indpendantes gaussiennes : elle suit une distribution de Pearson N Q 1 degrs de libert. De mme, le vecteur GQ GQ q est dans un espace q dimensions, donc le carr de sa
2
norme est une somme des carrs de q variables alatoires indpendantes : GQ GQ q est donc une variable de Pearson q degrs de
libert. Le rapport U de ces deux variables est donc une variable de Fisher, comme indiqu dans la section lments de statistiques .

Supposons que lon dispose dune trs grande quantit de mesures ; si lhypothse nulle est vraie, le
numrateur de U est trs petit car le procd de minimisation de la fonction de cot donne des valeurs
nulles aux q paramtres inutiles du modle complet, donc gQ et gQ-q sont trs voisins. Si lhypothse
nulle est fausse, les deux modles ne peuvent pas tre trs voisins, mme si le nombre de mesures est trs
grand, puisque le sous-modle est trop pauvre pour rendre compte des donnes exprimentales. On
comprend ainsi que la valeur de la ralisation de U doit tre petite si lhypothse nulle est vraie.
Le test de Fisher consiste donc choisir un risque , et trouver, en inversant la distribution de probabilit
cumule de Fisher, la valeur u telle que Pr(u < u ) = . On calcule alors la quantit u (ralisation de la
variable U avec les mesures disponibles) :

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

p
Qq
Q
y p gQ z , wmc
N Q 1 y gQ q z , wmc
u=
2
q
Q
y p gQ z , wmc

et lon accepte lhypothse nulle si et seulement si u < u .

Test de Fisher et mthode de la variable sonde


On trouvera dans [STOPPIGLIA 2003] la dmonstration du rsultat suivant : si le modle examin litration k du procd dorthogonalisation de Gram-Schmidt est un modle complet, cest--dire sil contient
toutes les variables pertinentes, et si le modle complet est vrai, cest--dire si la fonction de rgression
appartient la famille des fonctions dans laquelle on recherche le modle, alors lopration de slection
effectue litration k est quivalente un test de Fisher entre les modles obtenus aux itrations k et k1.
La mthode de la variable sonde prsente donc deux avantages par rapport au test de Fisher : dune part,
elle donne une interprtation claire et intuitive du critre de slection ; dautre part, elle est applicable, que
lon dispose ou non dun modle complet, et que ce modle soit vrai ou ne le soit pas.

Rsum : stratgies de conception


Dans cette section, nous montrons comment les diffrentes tches accomplir doivent tre articules entre
elles pour concevoir un modle par apprentissage (slection de variables, apprentissage, slection de
modles). On suppose que les tapes de collecte des donnes et de prtraitement de celles-ci ont t effectues.
Une premire stratgie peut tre rsume de la faon suivante :
Effectuer la slection de variables sur lensemble des donnes disponibles.
Effectuer lapprentissage et la slection de modles de complexits diffrentes par validation croise ou
leave-one-out.
Effectuer lapprentissage du meilleur modle avec toutes les donnes dapprentissage et de validation.
Tester le modle sur un ensemble de tests.
Cette stratgie est simple et relativement peu coteuse, mais elle nest pas compltement rigoureuse dans
la mesure o toutes les donnes disponibles sont utilises pour la slection de variables.
Pour tre plus rigoureux, il convient de procder de la faon suivante :
Sparer les donnes en sous-ensembles dapprentissage et de validation.
Pour chaque sous-ensemble dapprentissage
effectuer la slection de variables, noter le nombre de variables slectionnes,
effectuer lapprentissage de modles de complexits diffrentes et calculer les erreurs de validation.
Calculer les scores de validation croise et choisir le meilleur modle ; soit n0 le nombre de variables de
ce modle.
Avec toutes les donnes utilises pour lapprentissage et la validation
effectuer le classement de variables par la mthode de Gram-Schmidt et choisir les n0 variables les
mieux classes,
avec ces variables, effectuer lapprentissage du modle qui a la meilleure complexit.
Tester le modle sur lensemble de test.

47

48

Lapprentissage statistique

Si lon nest pas sr que la valeur de choisie pour effectuer cette procdure est optimale, on peut ajouter
une boucle extrieure portant sur diffrentes valeurs de .
Cette stratgie est applicable toute mthode de slection de variables fonde sur un classement des variables par ordre de pertinence.
Rappelons quil existe un grand nombre de mthodes de slection de variables. La mthode de la variable
sonde, dcrite ici, a t prsente car elle est simple et robuste ; elle a t valide sur une grande varit
dapplications ; nanmoins, il ny a pas de mthode miracle, et dans certains cas, dautres mthodes
peuvent se rvler plus efficaces. Une synthse trs complte des mthodes modernes de slection de
variables est prsente dans louvrage [GUYON 2006].

Conception de modles linaires par rapport


leurs paramtres (rgression linaire)
On a rappel au dbut de ce chapitre le lien troit qui existe entre apprentissage artificiel et statistiques.
Avant mme lintroduction du terme dapprentissage, les statisticiens avaient largement dvelopp la
conception de modles linaires en leurs paramtres, ou rgression linaire. Il est donc important, ds ce
chapitre introductif, de rappeler les mthodes de conception de modles linaires. De nombreux ouvrages
sont entirement consacrs ce sujet (par exemple [SEBER 1977], [DRAPER 1998])
Rappelons quun modle est dit linaire en ses paramtres , ou simplement linaire sil est de la
forme :
p

g ( x, w ) = wi fi ( x )
i =1

o les fonctions fi(x) sont des fonctions non paramtres des variables (composantes du vecteur x), dites
variables primaires. Ces fonctions peuvent tre considres comme des variables secondaires zi, de sorte
que lon crira de manire gnrale un modle linaire en ses paramtres sous la forme
p

g ( z, w ) = wi zi
i =1

o les variables zi peuvent tre soit les variables primaires elles-mmes, soit des variables secondaires
dduites des variables primaires par une transformation non paramtre (ou paramtres fixs). On crira
aussi un tel modle sous la forme
g ( z, w ) = w z
o w et z sont des vecteurs de dimension p.

Slection de variables pour les modles linaires


en leurs paramtres
Ce problme a t abord plus haut, dans la section consacre la slection de modles. Les mthodes
dcrites dans cette section sont directement applicables la conception de modles linaires en leurs paramtres.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

49

Apprentissage de modles linaires en leurs paramtres :


la mthode des moindres carrs
Pour lapprentissage des modles linaires en leurs paramtres, on choisit gnralement comme fonction
de perte le carr de lerreur de modlisation

y p , g ( z, w ) = y p g ( z, w )

de sorte que lon cherche les paramtres pour lesquels la fonction de cot des moindres carrs J(w) est
minimum :
NA

J ( w ) = ykp g ( z k , w )
k =1

o NA est le nombre dexemples de lensemble dapprentissage, zk est le vecteur des variables pour
lexemple k, et ykp est la valeur de la grandeur modliser pour lexemple k.
Dans la section intitule Variable sonde et test de Fisher , on a dfini la matrice des observations Z, qui
est une matrice N lignes et p colonnes, dont llment zij est la valeur prise par la variable numro j du
modle pour lexemple i de lensemble dapprentissage :

z 11

Z = z 21
M

z N, 1

z 1, p
O z 2, p .

O M

z N, p

La fonction de cot peut alors se mettre sous la forme :


J ( w ) = y p g ( z, w )

o yp est le vecteur dont les N composantes sont les valeurs de la grandeur mesurer pour chacun des N
exemples, et g(z, w) est le vecteur dont les N composantes sont les prdictions du modle pour chacun des
exemples. Le vecteur wmc est le vecteur pour lequel la fonction de cot est minimum :
dJ ( w )
w J =
= 0,
dw w=wmc
qui reprsente un ensemble de p quations, dont les p inconnues sont les paramtres wi, i = 1 p. Comme
la fonction J(w) est quadratique en fonction des wi, sa drive par rapport wi est linaire : il sagit donc
dun systme linaire de p quations p inconnues, appeles quations canoniques.
On montre facilement que cette quation scrit

w J = 2 ZT y p Zwmc = 0
o ZT dsigne la transpose de la matrice Z, soit encore

wmc = ZT Z

ZT y p .

Lapprentissage statistique

Exemple
Considrons un modle afne une variable (p = 2) comme
reprsent sur la gure 1-27 :

70

g ( x ,w ) = w 1 + w 2 x .

50

60

Modle g(x, wmc1, wmc2)


40

Dans cet exemple, les points exprimentaux ont t obtenus


en ajoutant la fonction de rgression f(x) = 2 + 5 x des ralisations dune variable alatoire gaussienne de moyenne nulle et
dcart-type gal 3. Rappelons que, dans un problme raliste,
la fonction de rgression est inconnue : lobjectif de lapprentissage est de trouver un modle qui soit aussi proche que possible
de cette fonction inconnue.

La matrice des observations vaut X =

1
1
M
1

x1
x2
M
xN

, o x dsigne
i

la valeur prise par pour lobservation i de la variable x. On a alors :

N
XT X = N

xk
k =1

k =1
.
N
2
( x k )
k =1
N

w mc 1 =

30

20

Fonction de rgression
y=2+5x

10

-10

-20
-2

10

Figure 1-27. Points exprimentaux et modle obtenu par


la mthode des moindres carrs ; la somme des carrs des
longueurs des segments en pointills est minimale ;
le coefficient de corrlation r2 est dfini ci-dessous, dans
la section Estimation de la qualit de lapprentissage .

Par application de la relation w mc = X T X

w mc 2 =

r2 = 0,89
wmc1 = - 0,3
wmc2 = 5,9

yp

50

k =1

k =1

k =1

N x k y kp x k y kp
N
N
2
N (xk ) xk
k =1
k =1

X T y p , on trouve les paramtres du modle afne :

xy p x y p
x2 x

1 N p
1 N
y w mc 2 N x k = y p w mc 2 x
N k =1 k
k =1

o u dsigne la valeur moyenne de la grandeur u.

Remarque 1
La droite des moindres carrs passe par le centre de gravit des mesures.
En effet : g ( x ,w ) = w mc 1 + w mc 2 x = y p w mc 2 x + w mc 2 x = y p .
Remarque 2
Si les donnes sont centres ( x = y p = 0), la droite des moindres carrs passe par lorigine car wmc1 = 0. De plus : w mc 2 =

Si, de plus, les donnes sont normalises, on a en outre

1 N
(x x
N k =1

p
= 1 = x 2 , par consquent w mc 2 = xy .

xy p
x2

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

51

Proprits de la solution des moindres carrs


Un modle obtenu par la mthode des moindres carrs possde des proprits statistiques intressantes
qui justifient lutilisation de la fonction de perte derreur quadratique, de prfrence dautres fonctions
de pertes envisageables telles que la valeur absolue de lerreur.

Cas o le modle est vrai


Supposons que le modle linaire postul soit vrai , cest--dire que la fonction de rgression inconnue
appartienne effectivement la famille des fonctions linaires. Ce cas a dj t rencontr plus haut (classification de deux ensembles dobservations issues de deux distributions gaussiennes de mmes
variances) ; le cas inverse a galement t rencontr (modlisation de la fonction 10 sinx / x par des polynmes). Les observations sont donc des ralisations de la variable alatoire Y p = w p z + , avec E = 0.
En consquence, EY p = w p z. Dsignant par Yp le vecteur des N observations, on a donc EY p = ZW p .
Proprit

Le vecteur des paramtres wmc trouvs par la mthode des moindres carrs est un estimateur non
biais des paramtres wp de la fonction de rgression.
Dmonstration
On a vu plus haut que w mc = Z T Z
proprit.

Z T y p. Par consquent : E w mc = Z T Z

Z T EY p = Z T Z

Z T ZW p = W p, ce qui prouve la

Thorme de Gauss-Markov
Thorme

Les paramtres des modles obtenus par minimisation de la fonction de cot des moindres carrs sont
les paramtres de variance minimum.
Ainsi, dans la mesure o cest laugmentation de la variance qui produit le surajustement, la minimisation
de la fonction de cot des moindres carrs permet de limiter le phnomne (sans toutefois le supprimer,
bien entendu). Lexpression de la variance des paramtres est tablie plus loin, dans la section Variance
des paramtres dun modle linaire .

Cas o le bruit est gaussien


Si le bruit est gaussien, de variance 2, les estimations des paramtres obissent une loi gaussienne.
De plus, on dmontrera, dans la section Variance des paramtres dun modle linaire , que la variance

des paramtres vaut ZT Z

2 (quelle que soit la distribution de ).

La figure 1-28 prsente les histogrammes des paramtres wmc1 et wmc2 pour lexemple considr sur la
figure 1-27. Ces histogrammes ont t obtenus en engendrant 100 ensembles dapprentissage correspondant 100 ralisations diffrentes du bruit, et en effectuant lapprentissage de 100 modles par la mthode
des moindres carrs. On observe bien des distributions gaussiennes, centres sur les valeurs des paramtres de la fonction de rgression (w1p = 2, w2p = 5).

Lapprentissage statistique

0,14

0,14

0,12

0,12

0,10

0,10
Frquence de wmc2

Frquence de wmc1

52

0,08

0,06

0,08

0,06

0,04

0,04

0,02

0,02

0
1,5

2,5

4,5

wmc1

5
wmc2

5,5

Figure 1-28. Distributions des paramtres dun modle linaire avec bruit gaussien

Estimation de la qualit de lapprentissage


La qualit dun modle linaire est estime par le coefficient de corrlation multiple r2 entre les donnes
et les prdictions.
Si U et V sont deux variables alatoires, leur coefficient de corrlation RU ,V est dfini par
cov U, V
E UV E U E V
R U, V = --------------- = -------------------------------------------------2
2
U V
EU2 EU EV 2 EV
o covU,V dsigne la covariance de U et V (voir la dfinition de la covariance de deux variables dans
lannexe lments de statistiques la fin de ce chapitre).
Si U et V sont identiques, le coefficient de corrlation est une variable certaine qui vaut 1 ; si, au contraire,
ces deux variables alatoires sont indpendantes, le coefficient de corrlation vaut 0.
Comme cela a t fait plusieurs reprises dans ce chapitre, considrons les donnes yp et les prdictions
du modle comme des ralisations de variables alatoires. On peut alors calculer une ralisation r de la
variable R :

( g ( x, w ) g ( x, w ) ) ( y
N

mc

r=

mc

k =1

(
N

k =1

g ( x, wmc ) g ( x, wmc )

) (
2

k =1

yp

yp yp

(N >> 1).
2

Pour juger de la qualit du modle, on utilise le coefficient de dtermination, dont on dmontre quil est
une ralisation du carr du coefficient de corrlation entre les prdictions du modle et les observations :
N

( g ( xk, wmc ) y )
p

=1
r = k--------------------------------------------------------.
N

( yk y )
p

k=1

Lapprentissage statistique : pourquoi, comment ?

53

CHAPITRE 1

Si les variables sont centres, cette expression se rduit :

( xy )
p

r =
2

x2

(y )

p 2

Remarque
On retrouve ici la formule du carr du coefcient de corrlation introduit comme critre de pertinence dans la section Slection de
variables ; on trouve galement dans cette section linterprtation gomtrique de ce coefcient.

Pour juger visuellement de la qualit dun modle, il est trs commode dutiliser son diagramme de
dispersion, qui prsente les valeurs prdites par le modle en fonction des valeurs exprimentales
correspondantes : les points de ce diagramme sont dautant plus proches de la premire bissectrice que la
qualit de lapprentissage est meilleure.
Remarque trs importante
Rappelons quun apprentissage de trs bonne qualit ne signie pas que le modle obtenu soit capable de gnraliser correctement : un
modle qui a parfaitement appris les donnes dapprentissage peut tre surajust, donc gnraliser trs mal. Il faut ainsi considrer le
diagramme de dispersion sur les donnes dapprentissage pour juger de la qualit de lapprentissage, mais galement le diagramme de
dispersion sur des donnes non utilises pour lapprentissage, an destimer la capacit de gnralisation du modle.

La figure 1-29 montre le diagramme de dispersion


pour le modle linaire ralis partir des donnes
dapprentissage reprsentes sur la figure 1-27.

80
70

Interprtation gomtrique
La rgression linaire par la mthode des moindres
carrs a une interprtation gomtrique simple.
Rappelons que le vecteur wmc des paramtres du
modle

Prdictions du modle

60
50
40
30
20

g ( z, w ) = wi zi = w z

10

i =1

est obtenu par la relation

-10

wmc = ZT Z

-20
-20

ZT y p

20

40

60

80

Mesures

o Z est la matrice des observations. Par consquent,


le vecteur g(z, wmc) des prdictions du modle sur
lensemble dapprentissage est donn par

(
Or la matrice Z ( Z Z )

g ( z, wmc ) = Zwmc = Z ZT Z
T

Figure 1-29. Diagramme de dispersion pour les donnes


reprsentes sur la Figure 1-27.

ZT y p

ZT (de dimensions N, N) nest autre que la matrice de projection orthogonale sur


les vecteurs colonnes de la matrice Z. Le vecteur des prdictions du modle sur lensemble dapprentissage est donc la projection orthogonale du vecteur yp sur le sous-espace de lespace des observations
dfini par les vecteurs colonnes de la matrice des observations Z. Ce dernier sous-espace est appel
espace des estimations .

54

Lapprentissage statistique

Remarque
1
La matrice Z Z T Z Z T est souvent appele matrice chapeau et note H. En effet, le vecteur des estimations effectues par le
modle partir des observations y est souvent not y , donc y = Hy : la matrice H est la matrice qui met un chapeau sur y.

Linterprtation gomtrique de la mthode


des moindres carrs est illustre sur la figure
1-30, pour un modle affine, dans le cas o
lespace des observations est de dimension
3. Dans cet espace, la matrice des observations a pour expression :

1

u = 1

1

Vecteur des observations

1 z1
Z = 1 z2 .

1 z
3

Espace des observations


Vecteur des rsidus

Hyp
Espace des estimations
Vecteur des estimations
du modle
z1


Lespace des estimations est donc le sousv = z
espace dfini par les vecteurs colonnes de Z,

z
nots u et v respectivement. Le vecteur des
Figure
1-30.
Mthode
des
moindres
carrs
: interprtation
prdictions du modle pour lensemble
gomtrique
dapprentissage, ou vecteur des estimations,
est la projection orthogonale du vecteur des
observations yp sur le sous-espace des estimations. Le vecteur des diffrences entre les mesures et les prdictions sur lensemble dapprentissage est appel vecteur des rsidus. Le carr de son module est donc la somme
des carrs des erreurs sur les lments de lensemble dapprentissage. De tous les vecteurs qui joignent lextrmit de yp un point du sous-espace des estimations, cest celui qui a le plus petit module.
2

Dilemme biais-variance pour les modles linaires


Dans les sections Deux exemples acadmiques dapprentissage supervis et Dilemme biaisvariance , on a constat sur plusieurs exemples que, pour les modles linaires, ce dilemme est gouvern
par le rapport du nombre de paramtres au nombre dexemples. Ce rsultat va maintenant tre dmontr
de manire gnrale pour les modles linaires.

Variance des paramtres dun modle linaire


Les paramtres dun modle linaire obtenu par la mthode des moindres carrs sont donns par la relation

wmc = ZT Z

ZT y p

o Z est la matrice des observations. Si lon considre que les observations sont des ralisations de variables alatoires, le vecteur des paramtres est lui-mme une ralisation dun vecteur alatoire

Wmc = ZT Z ZT Y p. Si les mesures de yp sont indpendantes et de mme variance 2, la variance du


vecteur alatoire Yp est la matrice
varY p = I NN 2.
o INN est la matrice identit de dimension N. La variance du vecteur des paramtres dun modle linaire
obtenu par la mthode des moindres carrs est donc :

varWmc = ZT Z

2.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1
Dmonstration
Daprs la proprit rappele ci-dessous dans la section variance dun vecteur alatoire , on a :

( )
= (Z Z )

varWmc = Z T Z
T

Z T varY p

(( Z Z ) Z ) = ( Z Z ) Z (( Z Z ) Z )
T

ZT Z ZT Z

2 = ZT Z

Variance de la prdiction dun modle linaire


On a vu, dans la section Dilemme biais-variance , que lerreur de prdiction thorique est donne par
la relation
P 2 = 2 + E z var G ( z, W ) + Ez E f ( z ) G ( z, W ) .
2

o Ez(U) dsigne lesprance mathmatique de la variable alatoire U, considre comme fonction du


vecteur alatoire z.
La prdiction du modle au point z est ici G ( z, Wmc ) = z Wmc , qui peut scrire, sous forme matricielle :
G ( z, Wmc ) = z T Wmc . Par consquent :

var G ( z, Wmc ) = z T varWmc z = z T ZT Z

z 2 .

Si les variables sont normalises et centres comme recommand dans la section Prtraitement des

donnes , ZT Z

1
1
I NN si p << N, de sorte que var G ( z, Wmc ) z T z .
N
N

p
p
p
2
p
Dautre part : E z z T z = E z zk2 = E z zk2 = E z zk
+ varzk . Les donnes tant supposes
k =1 k =1
k =1
k =1
normalises et centres, le premier terme de la somme est nul, et le second est gal p. Il reste donc :
p
E z var G ( z, W ) = .
N

( )

( )

( ( ))

Estimation de la variance du modle

0,22
Ainsi, on retrouve le fait que, lorsque lon
augmente le nombre de paramtres du modle (par
0,2
exemple en augmentant le degr du polynme dans
0,18
le cas dun modle polynomial) le terme de
0,16
variance augmente. La figure 1-31 montre lvoluPente 1/100
0,14
tion de la variance en fonction du nombre de para0,12
mtres, pour lexemple dcrit dans la section Un
exemple de modlisation pour la prdiction , avec
0,1
N = 100 exemples pour lapprentissage, et des
0,08
polynmes de degr 1 20. Comme pour les rsul0,06
tats prsents sur la figure 1-11, les esprances
0,04
p
mathmatiques portant sur Y sont estimes par les
0,02
moyennes sur 100 ensembles dapprentissage, et
2
4
6
8
10
12
14
16
18
20
22
lesprance mathmatique portant sur z est estime
Nombre de paramtres du modle polynomial
par une moyenne sur 1 000 points de test. On
Figure 1-31. Variance dun modle polynomial
en fonction du degr du polynme (N = 100, p = 2 21)
observe que la variance augmente linairement
avec le nombre de paramtres, la pente de la droite
valant 1/N, conformment la relation dmontre ci-dessus.

55

Lapprentissage statistique

56

Remarque
Dans lexemple dcrit par la gure 1-11, la variance (reprsente par le symbole x) ne varie pas linairement avec le degr du polynme. Ceci
est d au fait que lexpression de la variance que lon vient dtablir est vraie dans la limite des trs grands ensembles dapprentissage (N inni) ;
pour N = 100 cette relation est raisonnablement bien vrie (gure 1-31) mais ce nest pas le cas si N vaut seulement 15 (gure 1-11).

Slection de modles linaires


La slection de modles linaires peut tre effectue par les mthodes dcrites dans la section intitule
Slection de modles : validation simple, validation croise, leave-one-out. Cette dernire mthode
est efficace mais gourmande en temps de calcul. On dcrit ci-dessous une alternative intressante au
leave-one-out, qui est conome en temps de calcul : lestimation du PRESS (Predicted REsidual Sum of
Squares) pour les modles linaires, et le leave-one-out virtuel pour les modles non linaires.
Rappelons que le leave-one-out consiste retirer un exemple k de lensemble des donnes disponibles,
effectuer lapprentissage du modle g(z, w-k) avec toutes les autres donnes, et calculer lerreur de modlisation (ou rsidu) sur lexemple retir des donnes :
rk k = ykp g( x, w k ).
La procdure est itre pour chaque exemple disponible, et le score de leave-one-out est calcul :
1 N k
rk
N k =1

( )

Et =

Dans le cas de modles linaires, il est possible de calculer ce score de manire exacte, en effectuant un
seul apprentissage avec toutes les donnes disponibles.

PRESS (Predicted REsidual Sum of Squares)


Montrons cette proprit dans le cas simple dun modle linaire un seul paramtre w. Dans ce cas, la
matrice Z se rduit un vecteur dont les composantes sont les N mesures zi de la variable z, et la matrice
ZTZ se rduit un scalaire :
1
1
ZT Z = N
.
2
( zk )

k =1

Si lon effectue lapprentissage avec les N exemples disponibles, le paramtre wmc vaut alors :
N

wmc = Z Z
T

z y

p
k k

Z y =
T

k =1
N

zk2

k =1

Supposons que lon retire lexemple i de lensemble des donnes disponibles, et que lon effectue
lapprentissage avec tous les autres exemples. Le paramtre du modle devient :
N

z y

p
k k

i
mc

k =1
k i
N

zk2
k =1
k i

z y

p
k k

zi yip

k =1

zk2
k =1
k i

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

Linfluence du retrait de lexemple i sur le modle se traduit donc par la variation de son unique
paramtre :
N

i
mc

z y

p
k k

wmc =

zi yip

k =1

p
k k

z y
k =1
N

2
k

= zi

2
k

k =1

k =1
k i

ri
N

2
k

k =1
k i

o ri est le rsidu (erreur de modlisation) sur lexemple i lorsque celui-ci est dans lensemble
dapprentissage :
N

z y

p
k k

ri = y wmc zi = y
p
i

p
i

k=1
N

zk2

zi .

k =1

Montrons prsent que lon peut calculer lerreur rii commise lorsque lexemple i a t retir de
lensemble dapprentissage en fonction de ri :

i
ri i ri = wmc
wmc zi = zi2

ri

= zi2

z
k =1
k i

2
k

ri
N

2
k

,
z

2
i

k =1

et par consquent :
ri i =

ri
z2
avec hii = N i .
1 hii
zk2
k =1

Cette relation rend donc inutile la ralisation de N apprentissages successifs, puisque lon peut calculer
exactement lerreur de modlisation qui aurait t commise sur lexemple i si celui-ci avait t retir de
lensemble dapprentissage.
La quantit hii est appele levier de lexemple i, compris entre 0 et 1. Elle est prsente de manire plus
dtaille dans la section suivante.
partir de cette relation, on peut dfinir le PRESS (Predicted REsidual Sum of Squares) Ep, par analogie
avec le score de leave-one-out Et :
2

Ep =

1 N ri .

N k =1 1 hii

Dans le chapitre 2, une extension de ces rsultats aux modles non linaires sera prsente sous le nom de
leave-one-out virtuel .

57

Lapprentissage statistique

58

Les leviers
Ce rsultat peut tre tendu au cas o le modle possde p paramtres. Le levier de lexemple i est alors
llment diagonal i de la matrice chapeau

H = Z ZT Z

Z T.

Cette matrice tant une matrice de projection orthogonale, les leviers possdent les proprits suivantes
(aisment vrifies sur lexpression des leviers dans le cas dun modle un seul paramtre, prsent dans
la section prcdente) :
N

0 < hii < 1 ; hii = p .


i =1

Cette dernire relation fournit une interprtation intressante des leviers : le levier de lexemple i est la
proportion des paramtres qui est utilise pour modliser lexemple i. Ainsi, un exemple qui possde un
grand levier a une grande importance pour le modle : en dautres termes, le modle est trs sensible au
bruit prsent sur la mesure de yp pour lexemple i. Il y a un risque de surajustement lexemple i.
Cet effet est illustr sur la figure 1-32.

(a)

(b)

0,6

0,6

0,2
- 0,2
- 0,6

+ +

0,2
- 0,2

+
+

- 0,6
-1

-1
-1

- 0,6

- 0,2 x

0,2

0,6

-1

- 0,6

- 0,2 x

1
(c)
Leviers = 0,495

0,6

0,2

+
- 0,2

Leviers = 0,005

- 0,6
-1
-1
Figure 1-32. Interprtation des leviers

- 0,6

- 0,2 x

0,2

0,6

0,2

0,6

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

59

On dispose de 4 points exprimentaux, et lon postule un modle un paramtre. La figure (a) montre le
modle linaire ainsi obtenu. Supposons quune autre mesure effectue en x = 0,1 donne un rsultat
diffrent, comme indiqu sur la figure (b) ; on obtient alors le modle reprsent en trait plein, trs peu
diffrent du modle prcdent, reprsent en pointill. Supposons en revanche que ce soit le point en
x = 1 qui soit affect (figure (c)). On obtient alors le modle reprsent en trait plein, trs diffrent du
modle initial. On observe ainsi que le point situ en x = 1 a beaucoup plus dinfluence sur le modle
que le point situ en x = 0,1. Ceci se traduit par des leviers de valeurs trs diffrentes, dans un facteur
peu prs gal 100 : les points situs en x = 1 et x = 1 sont 100 fois plus importants pour le modle que
les points situs en x = 0,1 et x = + 0,1. Les expriences qui ont t effectues pour obtenir ces deux
rsultats taient donc peu prs inutiles : il aurait t plus profitable de rpter les mesures en x = 1 et x = +
1, afin de moyenner le bruit en ces points. On note que, conformment ce qui a t indiqu plus haut,
la somme des leviers est gale 1, qui est le nombre de paramtres du modle postul.
Cette illustration numrique met en lumire lintrt des plans dexpriences, qui permettent de choisir
les mesures les plus judicieuses pour tablir un modle prdictif prcis.

Moindres carrs par orthogonalisation de Gram-Schmidt


Dans la section Apprentissage de modles linaires en leurs paramtres , on a prsent une dtermination algbrique du vecteur des paramtres pour lesquels la fonction de cot des moindres carrs est minimale, ainsi quune interprtation gomtrique de ce rsultat. La solution algbrique ncessite le calcul de
linverse dune matrice. La mthode dorthogonalisation de Gram-Schmidt permet dobtenir le mme
rsultat de manire itrative, paramtre par paramtre ; elle est simple comprendre dans le cadre de
linterprtation gomtrique de la mthode des moindres carrs. Elle a dj t rencontre dans le cadre
de la slection de modle, dans la section Mthode de la variable sonde .
On considre lespace des observations, de dimension N, dans lequel la grandeur modliser est reprsente par un vecteur yp, et chacune des variables est reprsente par un vecteur zi, i = 1 p ; rappelons
que p est le nombre de paramtres du modle et que N est le nombre dobservations de lensemble
dapprentissage. Lalgorithme est une application simple du thorme des trois perpendiculaires :
choisir une variable i reprsente par le vecteur zi ;
projeter yp sur la direction de zi, ce qui fournit le paramtre wmci de la variable i : wmci =

y p zi
;
zi

projeter le vecteur des rsidus ri = y p wmci zi , le vecteur yp, et tous les vecteurs zji sur le sous-espace
orthogonal zi ;
projeter la projection de yp sur la projection dun deuxime vecteur zj, ce qui fournit un deuxime paramtre du modle ;
itrer jusqu puisement des variables du modle.
La figure 1-33 prsente lalgorithme dans le cas N = 3, p = 2. Les prdictions du modle pour lensemble
dapprentissage sont reprsentes par g(z, w), projection orthogonale de yp sur lespace des estimations,
qui est donc une combinaison linaire de z1 et z2. On peut obtenir ce vecteur en projetant dabord sur un
des vecteurs des variables (ici z1), puis en projetant orthogonalement r1 et z2 sur le sous-espace orthogonal
z1. Ce rsultat sobtient par application rpte du thorme des trois perpendiculaires.

60

Lapprentissage statistique

Cet algorithme est celui qui est utilis pour tablir


le classement des variables candidates en vue de la
slection de variables. La seule diffrence rside
dans le fait que les projections ne se font pas dans
nimporte quel ordre, mais en tenant compte des
corrlations entre les vecteurs, comme indiqu
dans la section mthode de la variable sonde .

yp

r1

Espace des
observations
z1

lments de statistiques
Cette introduction aux statistiques, lusage du
lecteur peu familier avec celles-ci, termine ce
chapitre introductif. Il existe de trs nombreux
ouvrages classiques (par exemple, [MOOD 1974],
[WONNACOTT 1990]) auxquels le lecteur peut se
rfrer pour plus de dtails, notamment pour la
dmonstration de certains rsultats.

Espace des
estimations
g(z, w)

z2

Sous-espace
orthogonal
z1

Figure 1-33. Moindres carrs par Gram-Schmidt

Quest-ce quune variable


alatoire ?
Une variable alatoire est une abstraction commode pour reprsenter une grandeur (par exemple, le
rsultat dune mesure) lorsque sa valeur nest pas certaine. On considre alors que la valeur de cette
variable est la ralisation dune variable alatoire ; cette dernire est entirement dtermine par sa
densit de probabilit (ou simplement densit , ou encore distribution ou loi ).
Dfinition

Soit pY(y) la densit de probabilit dune variable alatoire Y : la probabilit pour que la valeur dune
ralisation de Y soit comprise entre y et y+dy vaut pY(y)dy.
Ainsi, si lon traite une grandeur mesurable comme une variable alatoire, on fait comme si le rsultat de
la mesure de cette grandeur tait le rsultat dun tirage au sort dans un ensemble de valeurs possibles de
y, avec la distribution (gnralement inconnue) pY(y). Utiliser une variable alatoire pour modliser le
rsultat dune mesure ne signifie pas du tout que lon considre la grandeur mesure comme rgie par des
lois non dterministes : la variable alatoire est un outil mathmatique, dont lutilisation est trs commode
lorsque les facteurs qui dterminent le rsultat de la mesure ne sont pas connus, ou sont connus mais non
matriss ni mesurs.
Ainsi, le lancer dun d est un phnomne parfaitement dterministe, qui obit toutes les lois de la
physique : si lon connaissait la position initiale de la main du joueur, si lon pouvait mesurer la vitesse
initiale du d, et si lon connaissait les caractristiques mcaniques de la matire dont sont constitus le
d et la table sur laquelle on le lance, on pourrait prdire exactement le rsultat du lancer. Dans la pratique,
comme toutes ces grandeurs ne sont pas connues et pas mesures, il est commode de modliser ce rsultat
comme la ralisation dune variable alatoire. Dans ce cas particulier, cette variable Y est une variable
discrte, qui ne peut prendre que 6 valeurs, et, pour un d non pip, la probabilit de ralisation de
chacune de ces valeurs est gale 1/6.

Lapprentissage statistique : pourquoi, comment ?

61

CHAPITRE 1

De mme, les mthodes statistiques sont susceptibles de prvoir les rsultats dune lection, alors que
chaque citoyen ne vote pas au hasard, mais en fonction de ses convictions.
Proprit

La densit de probabilit pY(y) est la drive premire de la fonction de rpartition ou probabilit


dF ( y )
avec FY ( y ) = Probabilit (Y y ).
cumule : pY ( y ) = Y
dy
Remarque
Toute ralisation y de la variable alatoire Y tant comprise entre et + , on a videmment
+
FY ( ) = 0, FY ( + ) = 1 et pY ( y ) dy = 1.
-

Variable certaine

Une variable certaine de valeur y0 est une variable alatoire dont la densit de probabilit est une
distribution de Dirac ( y y0 ).

Exemples de densits de probabilits (ou lois)


Densit de probabilit uniforme

Une variable alatoire Y a une distribution uniforme si sa densit de probabilit vaut pY ( y ) = 1 ( b a )


sur un intervalle [a, b], et est nulle partout ailleurs.

Densit de probabilit gaussienne

( y )2
exp
est trs frquemment utilise. est la
2 2

2 2
0,4
moyenne de la gaussienne et (>0) est son carttype. La figure 1-34 reprsente une distribution
0,35
normale centre rduite (ou simplement loi
0,3
normale), qui est une distribution gaussienne avec
= 0 et = 1. Les aires hachures indiquent que la
0,25
probabilit pour quune ralisation dune variable
0,2
suivant une loi normale soit comprise entre 1 et
+1 vaut environ 0,68, et que la probabilit pour
0,15
quelle soit entre 2 et +2 vaut environ 0,96.
1

pY(y)

La distribution gaussienne pY ( y ) =

Autres densits de probabilit


Les distributions de Pearson (ou du 2), de Student
et de Fisher sont prsentes plus loin.

0,1
0,05
0
-5

-4

-3

-2

-1

0
y

Figure 1-34. Loi normale

62

Lapprentissage statistique

Densits de probabilits conjointes


Soit pX ,Y ( x, y ) la densit de probabilit conjointe de deux variables alatoires X et Y : la probabilit pour
quune ralisation de X soit comprise entre x et x+dx et quune ralisation de Y soit comprise entre y et
y+dy vaut pX ,Y ( x, y ) dx dy.
Variables alatoires indpendantes

Deux variables alatoires X et Y sont indpendantes si la probabilit de ralisation dune des variables
est indpendante de la probabilit de ralisation de lautre. On a donc pX ,Y ( x, y ) = p X ( x ) pY ( y ).

Densits de probabilits conditionnelles


Soient deux variables alatoires X et Y. La probabilit pour quune ralisation de la variable Y soit
comprise entre y et y+dy lorsque la variable X prend la valeur x est note pY ( y x ) dy , o pY ( y x ) est la
densit de probabilit de y sachant x ou densit de probabilit conditionnelle de y. On a donc
pX ,Y ( x, y ) = pY ( y x ) pX ( x ) = p X ( x y ) pY ( y )
Remarque :
Si les variables sont indpendantes : pY ( y x ) = pY ( y ) et p X ( x y ) = p X ( x ).

Vecteur alatoire
Un vecteur alatoire est un vecteur dont les composantes sont des variables alatoires.

Esprance mathmatique dune variable alatoire


Dfinition

Lesprance mathmatique dune variable alatoire Y est EY =

ypY ( y ) dy.

Lesprance mathmatique dune variable alatoire est donc le premier moment de sa densit de probabilit.

Proprits
Il est facile de dmontrer les proprits suivantes :
lesprance mathmatique dune somme de variables alatoires est la somme des esprances mathmatiques des variables alatoires ;
lesprance mathmatique du produit de deux variables indpendantes est gale au produit de leurs
esprances mathmatiques ;
lesprance mathmatique dune variable certaine de valeur y0 est gale y0 ;
si une variable Y obit une distribution uniforme sur un intervalle [a, b], son esprance mathmatique
vaut (a+b)/2 ;
si une variable Y suit une loi gaussienne de moyenne , son esprance mathmatique vaut .

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

63

Comme nous lavons vu dans la section lments de la thorie de lapprentissage , lobjectif de tout
apprentissage est dobtenir une estimation fiable de lesprance mathmatique de la grandeur modliser.
cet effet, il est utile dintroduire le concept destimateur.

Estimateur non biais


Un estimateur est une variable alatoire, fonction dune ou plusieurs variables alatoires observables ;
une variable alatoire est observable si ses ralisations sont mesurables.
Dfinition

Un estimateur H dun paramtre de la distribution dune variable alatoire observable Y est dit non
biais si son esprance mathmatique EH est gale ce paramtre. Alors une ralisation de H
constitue une estimation non biaise du paramtre de la distribution.

Estimateur non biais dune variable certaine


Daprs la dnition prcdente, un estimateur dune variable certaine est non biais si son esprance mathmatique est gale la valeur
de la variable certaine.

Ainsi, chercher estimer les paramtres w dun modle, cest--dire faire lapprentissage dun modle,
revient chercher des estimateurs non biaiss des paramtres, ces derniers tant considrs comme des
variables certaines. Cest cette approche, dite frquentiste, qui est dcrite dans le prsent ouvrage.
Lapproche bayesienne qui considre les paramtres du modle comme des variables alatoires, permet
galement dobtenir dexcellents rsultats, comme dcrit par exemple dans [NEAL 1996] ; la description
de cette approche sort du cadre de cet ouvrage.
La moyenne est un estimateur non biais de lesprance mathmatique
Supposons que lon ait effectu N mesures dune grandeur Y, dans des conditions supposes identiques. On modlise cette grandeur par
une variable alatoire dont lesprance mathmatique EY est inconnue. Le rsultat yi de la mesure i peut tre considr comme une ralisation dune variable alatoire Yi. Supposons que le rsultat dune mesure naffecte pas les rsultats des autres mesures, ce qui est raisonnable pour une exprience bien conue : toutes ces variables alatoires sont donc mutuellement indpendantes, et, puisque les mesures
ont t effectues dans des conditions identiques, elles ont des distributions de probabilit identiques ; elles ont donc notamment la mme
esprance mathmatique EY.
Considrons la variable alatoire M = (Y1 + Y2 + + YN) / N. Puisque lesprance mathmatique dune somme de variables alatoires est
la somme des esprances mathmatiques de ces variables, on a videmment EM = EY : lesprance mathmatique de la variable alatoire
M (appele moyenne ) est bien gale lesprance mathmatique de la variable alatoire Y. La grandeur m = (y1 + y2 + + yN) / N,
ralisation de lestimateur de lesprance mathmatique de Y, constitue une estimation non biaise de cette dernire.

Il reste valuer la qualit de cette estimation : le fait quelle soit non biaise ne garantit pas quelle soit
prcise : sa prcision dpend du nombre et de la qualit des mesures effectues, cest--dire de la
dispersion des mesures autour de lesprance mathmatique. Pour caractriser numriquement cette
dispersion, on utilise la notion de variance.

Lapprentissage statistique

64

Variance dune variable alatoire


Dfinition

La

variance

varY = 2 =

dune
+

variable

[y E ]

alatoire

de

distribution

pY(y)

est

la

quantit

pY ( y ) dy.

La variance est donc le deuxime moment centr de la distribution de probabilit.


Remarque
2
La variance est galement lesprance mathmatique de [Y EY ] : varY = E Y E 2 .
(

Proprits
Une variable certaine a une variance nulle.
varY = EY 2 ( EY ) .
2

varaY = a 2 varY .
Si une variable alatoire obit une distribution uniforme sur un intervalle [a, b], sa variance vaut
(ba)2/12.
Si une variable alatoire obit une loi gaussienne dcart-type , sa variance vaut 2.

Estimateur non biais de la variance dune variable alatoire


Rappelons que, pour introduire lestimateur moyenne M (estimateur non biais de lesprance mathmatique), on a considr que N mesures, mutuellement indpendantes, dune grandeur Y ont t effectues,
et elles ont t modlises comme des ralisations de variables alatoires Yi de distributions identiques.
Estimateur non biais de la variance
La variable alatoire S 2 =

1 N
2
(Y M ) est un estimateur non biais de la variance de Y.
N 1 i =1 i

Si lon dispose de N rsultats de mesures yi, il faut donc, pour estimer la variance, calculer dabord la
valeur de la moyenne m =
s2 =

1 N
yi , puis calculer lestimation de la variance par la relation :
N i =1

1 N
2
( yi m ) .
N 1 i =1

Lestimation de la variance permet donc dvaluer, de manire quantitative, la dispersion des rsultats des
mesures autour de leur moyenne. La moyenne tant elle-mme une variable alatoire, elle possde une
variance : on pourrait effectuer plusieurs sries de mesures, calculer la moyenne de chacune de ces sries,
puis estimer la variance de la moyenne, laquelle caractriserait la dispersion de lestimation de la grandeur
modliser. Nanmoins, cette procdure est lourde puisquelle requiert que lon effectue plusieurs sries
de mesures, dans des conditions supposes identiques.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

Covariance de deux variables alatoires


La covariance de deux variables alatoires U et V est dfinie par :
covU ,V = E(U EU )(V EV ) = EUV EU EV .
Remarque
On a vu plus haut que
varY = E Y E 2 .
( Y)
La variance dune variable alatoire est donc la covariance de cette variable et delle-mme.

Variance dun vecteur alatoire

tant donn un vecteur alatoire U =

u1
u 2 , de dimension p, sa variance est la matrice (p, p) donne

up

par :

var U

var u cov u , u
1
1 2

cov u , u var u
1 2
2
=

M
M

L
L

L cov u1, u p

L L
.

O
M

L var u p

Proprit

Si A est une matrice certaine : varAU = A varU AT .

Autres distributions utiles


Loi de 2 (ou de Pearson)
Si une variable alatoire X est la somme des carrs de N variables gaussiennes indpendantes, elle obit
une loi de 2 (ou de Pearson) N degrs de libert. Alors EX = N et varX = 2N.

Loi de Student
Si Y1 est une variable de distribution normale, et si Y2 est une variable alatoire, indpendante de Y1, obissant une loi de Pearson N degrs de libert, alors la variable alatoire Z =
Student N degrs de libert.

Y1
obit une loi de
Y2 / N

65

66

Lapprentissage statistique

Loi de Fisher
Si Y1 est une variable alatoire de Pearson N1 degrs de libert, et si Y2 est une variable alatoire de
Y / N1
obit une loi de Fisher N1 et N2
Pearson N2 degrs de libert, alors la variable alatoire Z = 1
Y
2 / N2
degrs de libert.

Intervalles de confiance
Dans les sections prcdentes, nous avons vu que lestimation dune grandeur dpend la fois du nombre
dexpriences et de la variabilit des observations. On peut combiner lgamment la taille de lchantillon
et sa variabilit pour valuer la diffrence qui peut exister entre lestimation dune grandeur et sa vraie
valeur.
Dfinition

Un intervalle de confiance, au seuil de confiance 1 , pour une variable alatoire Y, est un intervalle
qui, avec une probabilit 1 , contient la valeur de lesprance mathmatique de Y.
En consquence, plus lintervalle de confiance est petit, plus on peut avoir confiance en lestimation de la
grandeur modliser.
Ainsi, supposons que lon ait ralis 100 ensembles de mesures ; partir de celles-ci, on peut calculer 100
moyennes, 100 estimations de la variance, et 100 intervalles de confiance 95 % ( = 0,05). Alors, pour
95 % de ces ensembles de donnes, lintervalle de confiance contient la moyenne ; on ne peut videmment pas garantir que, pour un ensemble particulier de mesures, la vraie valeur soit lintrieur de lintervalle de confiance calcul partir de cet ensemble de mesures.

Conception dun intervalle de confiance


Pour concevoir un intervalle de confiance pour une variable alatoire Y, il faut trouver une variable alatoire Z, fonction de Y, dont la distribution pZ(z) soit connue et indpendante de Y. Puisque la distribution
z2
p Z(z) est connue, il est facile de rsoudre lquation Pr ( z1 < z < z2 ) = pZ ( z ) dz = 1 : il suffit
z1
dinverser la fonction de rpartition de Z, cest--dire trouver la valeur z1 de z telle que Pr(z < z1) = / 2,
et la valeur z2 de z telle que Pr(z > z2) = / 2. Une fois dtermines les valeurs de z1 et de z2, on inverse la
fonction Z(Y) afin de trouver les valeurs a et b de y telles que Pr(a < y < b) = 1 .

Exemple : conception dun intervalle de confiance pour la moyenne


Le tout premier exemple dapprentissage qui a t considr dans ce chapitre consistait en lestimation de
lunique paramtre w dun modle constant ; on a vu que ce paramtre ntait autre que lesprance
mathmatique de la grandeur modliser. On a galement vu que la moyenne est un estimateur non biais
de lesprance mathmatique. On se pose donc la question suivante : tant donn un ensemble de mesures
dune grandeur, dont on a calcul la moyenne pour estimer son esprance mathmatique, quelle confiance
peut-on accorder cette estimation ?
Supposons donc, comme prcdemment, que N expriences ont t effectues, et que lon peut modliser
les rsultats de ces expriences comme N ralisations de variables alatoires Yi indpendantes et de mme
distribution. De plus, supposons que la distribution commune ces variables est une distribution gaussienne de moyenne et de variance 2.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

Il est facile de dmontrer que la somme de N variables gaussiennes indpendantes est une variable gaussienne dont la moyenne est la somme des moyennes, et dont la variance est la somme des variances. Ici
les distributions des N variables sont identiques, dont la moyenne est une gaussienne de moyenne N et
de variance N2. Leur moyenne M obit donc une loi gaussienne de moyenne et de variance 2/N ; par
consquent la variable alatoire M obit une loi normale (gaussienne de moyenne nulle et de
/ N
variance unit).
Rappelons que lon cherche tablir deux bornes pour lesprance mathmatique , qui doivent tre de la
forme m a, o m est la moyenne des mesures et a le demi-intervalle de confiance. On peut prvoir que
lintervalle de confiance crot avec la variance des mesures et dcrot avec leur nombre.
1 N Comme 2indiqu
plus haut, lestimateur non biais de la variance est la variable alatoire S 2 =
2(Yi M ) . Il est
N 1 i
=1 ; les variables Y
commode de normaliser cette variable en la divisant par son esprance mathmatique
i
tant supposes gaussiennes, la variable alatoire M est galement gaussienne, donc (N 1) S2/ 2 est la
somme de N 1 variables gaussiennes indpendantes (il ny a que N 1 variables indpendantes puisque
M dpend des Yi) ; elle obit donc une loi de Pearson.
M
Dautre part, comme indiqu plus haut, la variable alatoire
obit une loi normale.
/ N
M
M
Par consquent, la variable alatoire Z = / N =
obit une loi de Student N 1 degrs
2
2
S /
S2 / N
de libert. La distribution de Student tant symtrique, il suffit alors de chercher la valeur de z0 telle
quune variable de Student soit comprise entre z0 et +z0 avec la probabilit 1 , soit encore telle quune
variable de Student soit comprise entre et z0 avec la probabilit / 2. partir des rsultats exprimentaux, on peut calculer une ralisation m de M, une ralisation s de S, et une ralisation z de Z par les relam
1 N
1 N
2
yi , s =

( yi m ) et z = 2 . Avec une probabilit 1 , lestimation m de


N i =1
N 1 i =1
s /N
se trouve lintrieur de lintervalle de confiance si z est dans lintervalle [ z0, + z0] :
tions m =

z0 <

m
s2 / N

< + z0

soit
m z0 s 2 / N < < m + z0 s 2 / N .
Lintervalle de confiance recherch est donc lintervalle centr sur lestimation de la moyenne m, et de
demi-largeur z0 s 2 / N .

67

Lapprentissage statistique

La figure 1-35 reprsente linverse de la distribution de probabilit cumule dune variable de


Student, pour diffrentes valeurs de N. On observe
que, au-del de N = 10, la distribution devient peu
prs indpendante de N (elle est dailleurs trs
voisine dune distribution normale) ; pour un
niveau de confiance de 0,95, on voit que z0 2 pour
N 10, de sorte que la largeur de lintervalle de
confiance pour est peu prs 2 s 2 / N = 2 s / N .
La largeur de lintervalle de confiance est donc
proportionnelle s, donc au bruit de mesure, et
inversement proportionnelle la racine carre du
nombre dexemples : une grande variabilit dans
les mesures doit tre compense par une grande
taille de lchantillon.

5
4
3
Variable de Student

68

N=3

2
1

N = 10
N = 100

0
-1
-2
-3
-4
-5
0
0,1
0,025

0,2

0,3

0,4

0,5

0,6

0,7

0,8

Probabilit cumule dune variable de Student


N degrs de libert

0,9
1
0,975

Figure 1-35. Inverse de la probabilit cumule


titre dexemple, on a simul 10 000 sries de 100
dune variable de Student
mesures en engendrant des ralisations dune
variable alatoire selon une loi normale. Pour
chaque srie de mesures, la moyenne, lestimateur de la variance, et lintervalle de confiance dtermin
ci-dessus, au niveau de confiance 0,95 ont t calculs : dans 95,7% des cas, lesprance mathmatique
des mesures (gale zro) se trouve bien lintrieur de lintervalle de confiance.

On a donc tabli ici un intervalle de confiance pour lestimation de lesprance mathmatique, ou, en
dautres termes, de lunique paramtre dun modle constant. Il est trs important de pouvoir fournir un
intervalle de confiance sur les prdictions fournies par un modle. On en rencontrera de nombreux exemples dans cet ouvrage.

Tests dhypothse
On a vu plus haut que des tapes importantes dans la conception dun modle par apprentissage artificiel,
telles que la slection de variables ou la slection de modles, ncessitent de prendre des dcisions (slectionner ou rejeter un modle ou une variable) partir des informations disponibles, qui sont gnralement
en nombre limit. Il faut donc prendre ces dcisions de manire raisonne. Les tests dhypothse sont les
outils appropris pour ce genre de situation. Ils permettent de faire une hypothse et dtablir une des deux
conclusions suivantes, avec un risque derreur fix :
les donnes confirment cette hypothse,
le fait que les donnes semblent confirmer cette hypothse est simplement le rsultat dun concours de
circonstances improbable, li la petite taille de lchantillon et la variabilit des mesures.
De nombreux tests dhypothses, adapts une grande varit de situations, ont t proposs (voir par
exemple [LEHMANN 1993]).
Le principe dun test dhypothse est le suivant : pour tester la validit dune hypothse (appele
hypothse nulle et traditionnellement note H0), on cherche tablir lexpression dune variable alatoire qui suit une loi connue si lhypothse nulle est vraie, et dont on peut calculer une ralisation partir
des donnes disponibles. Si la probabilit pour que cette ralisation se trouve dans un intervalle donn est
trop faible , on considre que la probabilit pour que lhypothse nulle soit vraie est trop faible : on la
rejette donc.

Lapprentissage statistique : pourquoi, comment ?

69

CHAPITRE 1

titre de premire illustration, supposons quun modle prdise que la grandeur modliser, par exemple
lunique paramtre dun modle constant, a une certaine valeur w0. On dispose dun ensemble de N observations de cette grandeur, et lon veut savoir si elles confirment lhypothse selon laquelle la grandeur a
pour vraie valeur w0. Ces mesures sont modlises comme des ralisations de N variables alatoires Yi
supposes gaussiennes, desprance mathmatique et de variance 2. Lhypothse nulle est donc
H0 : w0 = , et lhypothse alternative est w0 .
Nous avons vu dans la section prcdente que, si lhypothse nulle est vraie, cest--dire si w0 = , la
M w0
variable alatoire Z =
, obit une loi de Student N 1 degrs de libert (M est lestimateur de
S2 / N
2
lesprance mathmatique, S est lestimateur de la variance). partir des N donnes disponibles, on peut
calculer une ralisation z de cette variable alatoire. Dautre part on peut calculer la valeur z0 telle que la
probabilit pour quune ralisation de la variable alatoire soit lextrieur de lintervalle [ z0, +z0] est
gale au risque choisi 1 . Si la ralisation observe z est lextrieur de cet intervalle, on peut considrer que les donnes ne confirment pas de manire significative lhypothse H0 ; on rejette donc celle-ci,
avec un risque 1 de se tromper. En outre, il faut dfinir le niveau de risque derreur, not 1 , que
lon est dispos admettre, lerreur consistant rejeter lhypothse nulle alors quelle est vraie (erreur de
type 1).
Supposons par exemple quune thorie prvoie quune grandeur vaut w0 = 1. Supposons que lon dispose
de 100 mesures de cette grandeur, dont la moyenne m vaut 2 et lcart-type vaut s = 10 : ces mesures sont
donc trs disperses autour de la moyenne. On se pose la question : ces donnes confirment-elles lhypothse selon laquelle w0 vaut 1 ? La ralisation de la variable alatoire z vaut
m w0

= 1.
s2 / N
En se reportant la figure 1-35, on voit que z0 2
(pour = 0,95), de sorte que z est dans lintervalle
[ z0, +z0]. On accepte donc lhypothse nulle au
vu des donnes disponibles. linverse, si les
donnes disponibles ont toujours pour moyenne
m = 2, mais avec une dispersion beaucoup plus
petite, par exemple s = 3, alors z = 3,3 ; dans ces
conditions, on est amen rejeter lhypothse
nulle.
La certitude avec laquelle on accepte lhypothse nulle est exprime par la p-valeur de la
ralisation z de la variable alatoire Z. Cest la
probabilit pour quune ralisation de Z soit
lextrieur de lintervalle z , + z si lhypothse
nulle est vraie : la p-valeur de z0 est donc 1 .
Ainsi, dans lexemple prcdent, la p-valeur de
z = 1 vaut 0,32, ce qui signifie que lon est raisonnablement sr de ne pas se tromper en acceptant
lhypothse nulle (figure 1-36). En revanche, la pvaleur de z = 3,3 vaut 8 10-3 : accepter lhypothse
nulle serait donc extrmement risqu.

5
4
3
Variable de Student

z=

2
1
ACCEPTATION
DE LHYPOTHSE NULLE

0
-1
-2
-3
-4
-5
0,1
0,16

0,2

0,3

0,4

0,5

0,6

0,7

0,8

Probabilit cumule dune variable de Student


100 degrs de libert

Figure 1-36. p-valeur de z = 1

0,9
0,16

70

Lapprentissage statistique

Notons que la p-valeur de z = 0 vaut 1, ce qui veut dire que lon accepte lhypothse nulle avec la plus
grande certitude possible ; cest naturel, puisque z = 0 correspond au cas o la moyenne est gale la
valeur postule de lesprance mathmatique.
Remarque
Dans ce cas particulier, le test dhypothse consiste regarder si la valeur de la moyenne dont on fait lhypothse se trouve dans lintervalle
de conance calcul au paragraphe prcdent, et rejeter lhypothse nulle si cette valeur est lextrieur de cet intervalle.

Un autre exemple de test dhypothses (test de Fisher) est dcrit dans la section Slection de variables .

Conclusion
Dans ce chapitre, les fondements de lapprentissage statistique et de sa mise en uvre ont t dcrits de
manire succincte ; on en trouvera une prsentation beaucoup plus dtaille dans [HASTIE 2001] par
exemple. Pendant longtemps, les efforts de recherche en apprentissage artificiel ont port essentiellement
sur les familles de modles et les algorithmes dapprentissage. Le nombre et la varit des applications,
leur difficult et leur exigence croissantes, ont rendu ncessaires la mise en place dun corps de doctrine
et dune mthodologie qui englobent tous les aspects de la conception de modle par apprentissage
statistique : slection de variables, slection de modle, planification dexpriences, estimation dintervalles de confiance sur les prdictions, sont au moins aussi importantes que lapprentissage lui-mme. Les
mthodes qui ont t dcrites ou esquisses dans ce chapitre peuvent tre mises en uvre pour la plupart
des grandes familles de modles. Les chapitres suivants de cet ouvrage sont consacrs diffrents types
de modles rseaux de neurones, cartes auto-organisatrices, machines vecteurs supports dont on
montrera les spcificits, la mise en uvre, et les applications.

Bibliographie
BJRCK A. [1967], Solving linear least squares problems by Gram-Schmidt orthogonalization. BIT, 7,
p. 1-27.
CHEN S., BILLINGS S. A., LUO W. [1989], Orthogonal least squares methods and their application to nonlinear system identification, International Journal of Control, 50, p. 1873-1896.
DRAPER N. R., SMITH H. [1998], Applied regression analysis, John Wiley & Sons.
DREYFUS G., GUYON I. [2006], Assessment Methods, in Feature Extraction, Foundations and Applications, I. Guyon, S. Gunn, M. Nikraveh, L. Zadeh, eds. (Springer), p. 65-88.
GUYON I., GUNN S., NIKRAVESH M., ZADEH L. [2006], Feature Extraction, Foundations and Applications,
Springer.
HASTIE T, TIBSHIRANI R., FRIEDMAN J. [2001], The elements of statistical learning, data mining, inference and predictions, Springer.
KULLBACK S. [1959], Information Theory and Statistics, Dover Publications.
LAGARDE DE J. [1983], Initiation lanalyse des donnes, Dunod, Paris.
LEHMANN E. L. [1993], Testing statistical hypotheses, Chapman & Hall.
MOOD A. M., GRAYBILL F. A., BOES D. C. [1974], Introduction to the Theory of Statistics, McGraw-Hill.
NEAL R. M. [1996] Bayesian Learning for Neural Networks, Springer.

Lapprentissage statistique : pourquoi, comment ?


CHAPITRE 1

SEBER G. A. F. [1977], Linear Regression Analysis, Wiley


STOPPIGLIA H. [1997], Mthodes statistiques de slection de modles neuronaux ; applications financires et bancaires, Thse de Doctorat de lUniversit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
STOPPIGLIA H., DREYFUS G., DUBOIS R., OUSSAR Y. [2003], Ranking a Random Feature for Variable and
Feature Selection, Journal of Machine Learning Research, p. 1399-1414.
VAPNIK V. [1998], The nature of statistical learning theory, Springer.
WONNACOTT T. H., WONNACOTT R. J. [1990], Statistique conomie-gestion-sciences-mdecine,
Economica, 4e dition, 1990.

71

2
Les rseaux de neurones
Introduction
Le premier chapitre de cet ouvrage a prsent les principes de lapprentissage statistique, ainsi quune
mthodologie globale permettant de rsoudre les problmes pratiques qui se posent lorsque lon souhaite
concevoir un modle prcis et fiable. Il reste appliquer ces principes des familles de modles rpondant
des besoins spcifiques notamment, en ce qui concerne ce chapitre, aux rseaux de neurones.
Le terme de rseau de neurones suggre un lien fort avec la biologie. Ce lien existe : les mthodes
mathmatiques dcrites dans ce chapitre ont t appliques avec succs la modlisation des systmes
nerveux vivants. Nanmoins, le terme est plus mtaphorique que scientifique : si le lien avec la biologie a
constitu une motivation majeure des pionniers du domaine, les rels dveloppements des rseaux de
neurones sont de nature purement mathmatique et statistique ; leurs applications se situent dans des
domaines qui nont gnralement aucun rapport avec la neurobiologie. Cest la raison pour laquelle, aprs
avoir fourni les dfinitions essentielles et nonc la proprit fondamentale des rseaux de neurones
lapproximation non linaire parcimonieuse , les classes de problmes que les rseaux de neurones sont
susceptibles de rsoudre sont rappeles : modlisation non linaire statique ou dynamique, classification
(discrimination), modlisation semi-physique ( bote grise ) et traitement de donnes structures
(graphes). Des applications trs diverses, choisies en raison de leur caractre exemplaire, sont dcrites en
dtail afin de fournir au lecteur des ides prcises sur le type de problmes auxquels les rseaux de
neurones sont susceptibles dapporter des solutions lgantes.
Cest seulement aprs avoir dcrit ces applications que sont prsents, de manire plus dtaille, les algorithmes et la mthodologie de conception quil convient de suivre pour obtenir des rsultats solides. Les
tapes de conception, dcrites de manire gnrique dans le premier chapitre, sont abordes en dtail ici :
slection des variables, apprentissage, slection de modles statiques. Les modles dynamiques sont
galement prsents dans une optique de mthodologie ; ils sont dcrits de manire plus dtaille dans le
chapitre 4. Des complments thoriques et algorithmiques clturent ce chapitre.

Rseaux de neurones : dfinitions et proprits


Dans la section du premier chapitre intitule Quelques dfinitions concernant les modles , on a introduit la distinction entre modles linaires et modles non linaires en leurs paramtres.
Rappelons quun modle linaire statique est de la forme :

( )

g x , w = wi f i x
i =1

74

Lapprentissage statistique

o le vecteur w est le vecteur des paramtres du modle, et o les fonctions fi(x) sont des fonctions non
paramtres, ou paramtres fixs et connus, des variables x.
Les rseaux de neurones entrent dans la catgorie des modles non linaires en leurs paramtres. La
forme la plus courante de rseau de neurones statique est une extension simple de la relation prcdente :
p

g ( x, w ) = wi fi ( x, w )
i =1

o les fonctions fi(x, w), appeles neurones , sont des fonctions paramtres qui seront dfinies dans
la section suivante.

Les neurones
Dfinition

Un neurone est une fonction non linaire, paramtre, valeurs bornes.

Suivant en cela lusage, on utilisera frquemment, par abus de langage, le terme de neurone linaire
pour dsigner une fonction paramtre linaire ou affine (qui nest donc pas borne).
Les variables sur lesquelles opre le neurone sont souvent
dsignes sous le terme dentres du neurone, et la valeur de la
fonction sous le terme de sortie. Reprenant le graphisme de la
figure 1-22 du premier chapitre, il est commode de reprsenter
graphiquement un neurone comme indiqu sur la figure 2-1.
Cette reprsentation est le reflet de linspiration biologique qui
a t lorigine de la premire vague dintrt pour
les neurones formels, dans les annes 1940 1970
[McCULLOCH 1943] [MINSKY 1969].

La fonction f peut tre paramtre de manire quelconque.


Deux types de paramtrage sont frquemment utiliss :
les paramtres sont attachs aux variables du neurone : la
x1 x2
xn
sortie du neurone est une fonction non linaire dune combinaison des variables {xi} pondres par les paramtres {wi},
Figure 2-1. Un neurone ralise une fonction
non linaire paramtre borne y = f (x, w)
qui sont alors souvent dsigns sous le nom de poids ou,
o les composantes du vecteur x
en raison de linspiration biologique des rseaux de neurones,
sont les variables et celles du vecteur w
poids synaptiques . Conformment lusage (galement
sont les paramtres.
inspir par la biologie), cette combinaison linaire sera
appele potentiel dans tout cet ouvrage. Le potentiel v le
plus frquemment utilis est la somme pondre, laquelle sajoute un terme constant ou biais 1 :
n

v = w0 + wi xi .
i =1

1. Ce terme de biais est malheureux, mais consacr par lusage. Il na rien voir le biais dun estimateur, dfini dans la section
lments de statistiques du premier chapitre.

Les rseaux de neurones


CHAPITRE 2

75

La fonction f est appele fonction dactivation. Pour des raisons qui seront exposes plus loin, il est
recommand dutiliser pour f une fonction sigmode (cest--dire une fonction en forme de s )
symtrique par rapport lorigine, telle que la tangente hyperbolique ou la fonction Arctangente. Ainsi,
dans la trs grande majorit des applications qui seront dcrites dans ce chapitre, la sortie dun neurone
a pour quation :
n

y = th w0 + wi xi .
i =1

Le biais w0 peut tre considr comme le produit du paramtre w0 par la constante 1, de sorte quil est
commode dintroduire une variable gale 1 dans le vecteur des variables. La relation prcdente peut
alors scrire :
y = th ( w x )
o le symbole dsigne le produit scalaire de deux vecteurs ;
les paramtres sont attachs la non-linarit du neurone : ils interviennent directement dans la fonction
f ; cette dernire peut tre une fonction radiale ou RBF (en anglais Radial Basis Function), ou encore
une ondelette ; la premire tire son origine de la thorie de lapproximation [POWELL 1987], la seconde
de la thorie du signal [MALLAT 1989].
Par exemple, la sortie dun neurone RBF non-linarit gaussienne a pour quation :
n
2
( xi wi )

y = exp i =1
2 wn2+1

o les paramtres wi, i = 1 n sont les coordonnes du centre de la gaussienne, et wn+1 est son cart-type.
Dans les complments thoriques et algorithmiques, en fin de chapitre, dautres exemples de neurones
sont prsents.
La diffrence pratique essentielle entre les deux types de neurones qui viennent dtre dcrits est la
suivante : les neurones tels que les RBF ou les ondelettes ont des non-linarits locales, qui tendent vers
zro dans toutes les directions de lespace des variables ; leur zone dinfluence est donc limite dans
lespace, ce qui nest pas le cas des neurones fonction dactivation sigmode.

Les rseaux de neurones


Un neurone ralise simplement une fonction non linaire, paramtre, de ses variables. Lintrt
des neurones rside dans les proprits qui rsultent de leur association en rseaux, cest--dire de la
composition des fonctions non linaires ralises par chacun des neurones.
Dans le premier chapitre, on a introduit la distinction entre modles statiques et modles dynamiques.
Bien entendu, la mme distinction sapplique aux rseaux de neurones : on diffrencie les rseaux statiques (ou rseaux non boucls) et les rseaux dynamiques (ou rseaux boucls).

76

Lapprentissage statistique

Rseaux de neurones statiques ou rseaux non boucls


Forme gnrale
Dfinition

Un rseau de neurones non boucl ralise une (ou plusieurs) fonction(s) de ses entres par composition des
fonctions ralises par chacun des neurones.

Un rseau de neurones non boucl peut donc tre imagin comme un ensemble de neurones connects
entre eux, linformation circulant des entres vers les sorties sans retour en arrire . On peut alors
reprsenter le rseau par un graphe acyclique dont les nuds sont les neurones et les artes les
connexions entre ceux-ci. Si lon se dplace dans le rseau, partir dun neurone quelconque, en
suivant les connexions et en respectant leurs sens, on ne peut pas revenir au neurone de dpart. La reprsentation de la topologie dun rseau par un graphe est trs utile, notamment pour les rseaux boucls,
comme on le verra dans la section Rseaux de neurones dynamiques . Les neurones qui effectuent le
dernier calcul de la composition de fonctions sont les neurones de sortie ; ceux qui effectuent des calculs
intermdiaires sont les neurones cachs (voir figure 2-2).
Remarque
Le terme de connexions doit tre pris dans un sens mtaphorique : dans la trs grande majorit des applications, les oprations effectues par un rseau de neurones sont programmes (nimporte quel langage de programmation convient) et excutes par un ordinateur
conventionnel. Le rseau de neurones nest donc pas, en gnral, un objet tel quun circuit lectronique, et les connexions nont pas de
ralit physique ; nanmoins, le terme de connexion, issu des origines biologiques des rseaux de neurones, est pass dans lusage, car
il est commode quoique trompeur ; il a mme donn naissance au terme de connexionnisme.

Rseaux couches
La seule contrainte sur le graphe des connexions dun
rseau de neurones non boucl est quil ne contient
pas de cycle. On peut donc imaginer une grande
varit de topologies pour ces rseaux. Nanmoins,
pour des raisons qui seront dveloppes dans la
section Proprit fondamentale , la trs grande
majorit des applications des rseaux de neurones
mettent en jeu des rseaux couches , dont un
exemple est reprsent sur la figure 2-2.
Forme gnrale

x1

x2

.....

Ns neurone(s) de sortie

....

Nc neurones cachs

x3

....

xn

n variables

Figure 2-2. Un rseau de neurones n variables,


une couche de Nc neurones cachs et Ns neurones
de sortie

Ce rseau ralise NS fonctions algbriques des


n variables du rseau ; chacune des sorties est une
fonction, ralise par le neurone de sortie correspondant, des fonctions non linaires ralises par
les neurones cachs.
Le temps ne joue aucun rle fonctionnel dans un rseau de neurones non boucl : si les variables sont
indpendantes du temps, les sorties le sont galement. Le temps ncessaire pour le calcul de la fonction
ralise par chaque neurone est ngligeable et, fonctionnellement, on peut considrer ce calcul comme
instantan. Pour cette raison, les rseaux non boucls sont souvent appels rseaux statiques , par
opposition aux rseaux boucls ou dynamiques qui seront introduits plus loin.

Les rseaux de neurones


CHAPITRE 2
Terminologie
Les rseaux de neurones non boucls couches, dont les neurones cachs ont une fonction dactivation sigmode, sont souvent appels
Perceptrons multicouche (ou MLP pour Multi-Layer Perceptron).
proscrire
On mentionne souvent, outre la couche cache et la couche de sortie, une couche dentre voire des neurones dentre . Cette
expression est trompeuse, car les entres (reprsentes par des carrs sur la gure 2-2) ne sont pas des neurones : elles ne ralisent
aucun traitement de linformation.

Forme de rseau la plus utile : les rseaux une couche cache de sigmodes
et un neurone de sortie linaire

Comme indiqu dans le chapitre 1 et rappel au dbut de ce chapitre, lextension la plus naturelle des
modles linaires de la forme :
p

g ( x, w ) = wi fi ( x )
i =1

est une combinaison linaire de fonctions paramtres :


p

g ( x, w ) = wi fi ( x, w ) .
i =1

Cest la forme la plus utile de modle neuronal :


une combinaison linaire de fonctions non linaires
paramtres des variables. Dans le jargon des
rseaux de neurones, un tel modle est dcrit comme
un rseau une couche cache et un neurone de sortie
linaire (figure 2-3).
Le modle reprsent sur la figure 2-3 a pour
expression :

g ( x, w ) = wN c +1,i th wij x j + wi 0 + wN c +1,0


j =1

i =1

= w2 f ( W1 x )
Nc

g(x, w)
Un neurone de sortie linaire

Nc+1
w2
f

....

Nc

Nc neurones cachs
fonction dactivation sigmode
+ un biais

W1
x

x0

x1

x2

....

xn

n variables + un biais

x0=1

Figure 2-3. Un rseau de neurones n variables,


un biais, une couche de Nc neurones cachs fonction
dactivation sigmode et un neurone de sortie linaire.
Sa sortie g(x, w) est une fonction non linaire du
vecteur des variables x, de composantes 1, x1, x2, ...,
xN, et du vecteur des paramtres w,
dont les composantes sont les (n+1)N+Nc+1
paramtres du rseau.

o x est le vecteur des variables (de dimension n+1),


w2 est le vecteur des paramtres de la deuxime
couche de connexions (de dimension Nc+1), W1 est la
matrice des connexions de la premire couche (de
dimension (Nc+1, n+1), et f(.) est le vecteur (de dimension Nc + 1) constitu du biais et des fonctions rali n

ses par les neurones cachs : f0 = 1, fi = th wij x j . Les neurones cachs sont numrots de 1 Nc et
j =0

le neurone de sortie est numrot Nc+1. Par convention, le paramtre wij est relatif la connexion allant
du neurone (ou de lentre) j vers le neurone i.
Trs important
Le modle g(x, w) est une fonction linaire des paramtres de la dernire couche de connexions (qui relient les Nc neurones cachs et le
biais f0 au neurone de sortie, numrot Nc+1), et elle est une fonction non linaire des paramtres de la premire couche de connexions

77

Lapprentissage statistique

78

(qui relient les n+1 variables du rseau aux Nc neurones cachs). Cette proprit a des consquences importantes qui seront examines
dans la section Proprit fondamentale .
Ce quil faut retenir
Un rseau de neurones non boucl est une fonction non linaire de ses variables et de ses paramtres.
Quest-ce quun rseau de neurones zro neurone cach ?
Un rseau de neurones non boucl sans neurone cach, avec un neurone de sortie linaire, ralise simplement une fonction linaire de ses
entres. On peut donc considrer tout systme linaire comme un rseau de neurones, ce qui ne prsente aucun intrt, ni thorique ni pratique.
Les termes directs
Si la relation que lon cherche raliser entre les variables et les sorties prsente une importante composante linaire, il peut tre utile
dajouter, la structure de rseau couches qui vient dtre dcrite, des termes linaires, parfois appels termes directs , qui se traduisent, dans la reprsentation graphique du rseau, par des connexions directes entre les entres et le neurone de sortie (gure 2-4). Par
exemple, pour un rseau dont les fonctions dactivation sont des sigmodes, le modle devient :
Nc
n

g ( x ,w ) = w Nc +1,i th w ij x j + w i 0 + w Nc +1,0 + w Nc +1,k x k


j =1

i =1
k =1

= w 2 f (W1x ) + w 3 x '

o w3 est un vecteur de dimension n et x est le vecteur de composantes {x1, , xn}, cest--dire le vecteur x dpourvu du biais.
g(x, w)

Nc+1
Termes directs
w3

w2
f

....

Nc

W1
x

x0

x1

x2

....

xn

Figure 2-4. Reprsentation graphique dun rseau de neurones


couches comportant des termes directs

x0=1

Rseaux de RBF (fonctions radiales de base) ou dondelettes

Dans ce cas, comme indiqu plus haut, les paramtres relatifs aux RBF sont attachs la non-linarit
elle-mme ; en revanche, le neurone de sortie (linaire) ralise une somme pondre des sorties
des neurones cachs. La sortie du rseau a donc pour expression (pour des fonctions radiales
gaussiennes) :
n
Nc
x j wij
j =1
g ( x, w ) = wN c +1,i exp
2 wi2

i ==1

o x est le vecteur des entres du rseau (de dimension n) et w est le vecteur des paramtres du rseau (de
dimension (n+2) Nc+1) [BROOMHEAD 1988] [MOODY 1989] ; les neurones cachs sont numrots de 1
Nc, et le neurone de sortie porte le numro Nc+1.
Remarquons que deux catgories de paramtres interviennent ici : ceux de la dernire couche (qui relient
les Nc fonctions radiales au neurone de sortie) et les paramtres des fonctions radiales (centres et carts-

Les rseaux de neurones


CHAPITRE 2

79

types pour des fonctions radiales gaussiennes). Les connexions de la premire couche ont toutes des paramtres gaux 1. Dans ces rseaux, la sortie est une fonction linaire des paramtres de la dernire
couche de connexions, et elle est une fonction non linaire des paramtres des gaussiennes. Les consquences de cette proprit seront examines plus loin.
Les rseaux dondelettes ont exactement la mme structure, lquation de la gaussienne tant remplace
par celle dune ondelette multidimensionnelle. Les paramtres attachs la non-linarit sont alors les
centres et les dilatations des ondelettes [BENVENISTE 1994] [OUSSAR 2000].

Rseaux de neurones dynamiques ou rseaux boucls (ou rcurrents)


Forme gnrale
Larchitecture la plus gnrale, pour un rseau de neurones, est celle des rseaux boucls , dont le
graphe des connexions est cyclique : lorsque lon se dplace dans le rseau en suivant le sens des
connexions, il est possible de trouver au moins un chemin qui revient son point de dpart (un tel chemin
est dsign sous le terme de cycle ). La sortie dun neurone du rseau peut donc tre fonction dellemme ; ceci nest videmment concevable que si la notion de temps est explicitement prise en considration.
lheure actuelle, limmense majorit des applications des rseaux de neurones est ralise par des
systmes numriques (ordinateurs conventionnels ou circuits numriques spcialiss pour le traitement de
signal) : il est donc naturel de se placer dans le cadre des systmes temps discret, rgis par des
quations aux diffrences (ou quations rcurrentes , do le terme de rseaux rcurrents ). Ces
quations jouent le mme rle, en temps discret, que les quations diffrentielles en temps continu.
Ainsi, chaque connexion dun rseau de neurones boucl (ou chaque arte de son graphe) est attach,
outre un paramtre comme pour les rseaux non boucls, un retard, multiple entier (ventuellement nul)
de lunit de temps choisie. Une grandeur, un instant donn, ne pouvant pas tre fonction de sa propre
valeur au mme instant, tout cycle du graphe du rseau doit contenir au moins une arte dont le retard
nest pas nul.
Dfinition

Un rseau de neurones boucl temps discret ralise une (ou plusieurs) quation(s) aux diffrences non
linaires, par composition des fonctions ralises par chacun des neurones et des retards associs chacune
des connexions.

Proprit

Tout cycle du graphe des connexions dun rseau de neurones boucl doit comprendre au moins une
connexion de retard non nul.
La figure 2-5 prsente un exemple de rseau de neurones boucl. Les chiffres dans les carrs indiquent le
retard attach chaque connexion, exprim en multiple de lunit de temps (ou priode dchantillonnage)
T. Ce rseau contient un cycle qui part du neurone 3 et revient celui-ci en passant par le neurone 4 ; la
connexion de 4 vers 3 ayant un retard non nul, ce rseau est causal.

80

Lapprentissage statistique

Explications
linstant kT : le neurone 3 calcule y3(kT) en fonction de y4[(k 1)T], u1(kT), u2[(k 1)T] (o k est un
entier positif et yi(kT) dsigne la sortie du neurone i linstant kT). Le neurone 4 calcule y4(kT) en
fonction de y3(kT) et u2(kT). Le neurone 5 calcule la sortie du rseau de neurones, g(kT), en fonction
de y3(kT), y4[(k 1)T] et u1(kT). Les quations rcurrentes qui gouvernent le rseau sont donc :
y3 (k) = f3 [y4 (k 1) u1 (k), u2 (k 1)]

g(kT)
5

y4 (k) = f4 [y3 (k), u2 (k)]

g (k) = f5 [y (k), y4 (k 1), u1 (k)]

o, pour allger les notations, la priode dchantillonnage T a t omise. f3, f4, f5 sont les fonctions
non linaires ralises par les neurones 3, 4 et 5 respectivement.

1
0

Forme canonique des rseaux de neurones boucls


Dans la mesure o les rseaux de neurones boucls ralisent des quations
rcurrentes non linaires, il est utile dexaminer les liens entre ces modles
non linaires et les modles dynamiques linaires, utiliss notamment en
automatique des systmes linaires.
La description la plus gnrale dun systme linaire est la description dtat :
x ( k ) = Ax ( k 1) + Bu ( k 1)
g ( k ) = Cx ( k ) + Du ( k )

u1(kT)

u2(kT)

Figure 2-5. Un rseau


de neurones boucl
deux variables.
Les chiffres dans les carrs
indiquent le retard attach
chaque connexion,
multiple de lunit de temps
(ou priode dchantillonnage) T. Le rseau contient
un cycle qui part du
neurone 3, va au neurone 4,
et revient au neurone 3.

o x(k) est le vecteur des variables dtat linstant (discret) kT, u(k) est le
vecteur des variables de commande linstant kT, g(k) est le vecteur des
prvisions du modle linstant kT, et A, B, C, D sont des matrices. Rappelons que les variables dtat sont un ensemble de variables, en nombre
minimal, telles que lon peut calculer leurs valeurs linstant (k+1)T si lon connat leurs valeurs initiales
et si lon connat les valeurs des variables de commande tout instant compris entre 0 et kT. Le nombre
de variables dtat est appel ordre du systme.
De manire analogue, on dfinit la forme canonique dun systme non linaire temps discret par les
quations suivantes :
x ( k ) = ( x ( k 1) , u ( k 1))

g ( k ) = ( x ( k 1) , u ( k 1))

o et sont des fonctions non linaires (des rseaux de


neurones, par exemple), et x est le vecteur des variables
dtat. L encore, les variables dtat sont un ensemble
de variables, en nombre minimal, permettant de dcrire
compltement le systme linstant k si lon connat leurs
valeurs initiales et si lon connat les valeurs des variables
de commande tout instant compris entre 0 et k-1. On
montrera, dans la section Mise sous forme canonique
des modles dynamiques , que tout rseau de neurones
peut tre mis sous une forme canonique, figure sur la
figure 2-6, o le symbole q1 reprsente un retard dune
unit de temps. Ce symbole, habituel en Automatique, sera
utilis systmatiquement dans toute la suite de louvrage.

Prdictions du modle
linstant k
g(k)

Variables dtat
linstant k
x(k)

Rseau de neurones non boucl


ralisant les fonctions et

u(k-1)
Variables externes
linstant k-1

q-1

q-1 Retards
units

x(k-1)
Variables dtat
linstant k-1

Figure 2-6. Forme canonique dun rseau


de neurones boucl. Le symbole q-1 reprsente
un retard dune unit de temps.

Les rseaux de neurones

81

CHAPITRE 2
Proprit
Tout rseau de neurones boucl, aussi complexe soit-il, peut tre
ramen une forme canonique, comportant un rseau de neurones
non boucl dont certaines sorties (les variables dtat) sont ramenes
aux entres par des bouclages de retard unit [NERRAND 1993].
Par exemple, le rseau de neurones reprsent sur la gure 2-5 peut
tre mis sous la forme canonique indique sur la gure 2-7. Ce rseau
possde une seule variable dtat (il est donc du 1er ordre), qui est la
sortie du neurone 3. Dans cet exemple, ce neurone est un neurone
cach, mais un neurone de sortie peut tre un neurone dtat ; on en
verra un exemple dans la section intitule Que faire en pratique ? .
Explications
linstant kT, le neurone 4 a pour variables u2[(k 1)T] et x[(k 1)T] =
y3[(k 1)T]) : il calcule donc y4[(k 1)T] ; comme dans la forme non
canonique, le neurone 3 a pour variables u1(kT), u2[(k 1)T],
y4[(k 1)T] : il calcule donc y3(kT) ; le neurone 5 a pour variables
y3(kT), u1(kT) et y4[(k 1)T] : il calcule donc sa sortie, qui est la sortie
du rseau de neurones, g(kT). Les deux rseaux sont donc bien quivalents fonctionnellement. On peut aussi montrer le rsultat en comparant les quations qui rgissent les deux rseaux : posant

g(k)

g(k)

x(k)

5
1

3
q-1

0
3

1
0
u1(k)

0
u2(k)

u1(k)

u2(k-1)

x(k-1)

Figure 2-7. Forme canonique ( droite) du rseau


reprsent sur la figure 2- 5 ( gauche). Ce rseau
possde une variable dtat x(kT) (la sortie
du neurone 3) : cest un rseau du 1er ordre. La partie
grise constitue le rseau de neurones non boucl
de la forme canonique.

(
)
( z (k 1) ,u (k 1))

z 3 = f3 z 4 ,u 2 (k 1)
z 4 = f4

le modle sous forme canonique scrit :

g (k ) = f5 z 3 , z 4 ,u 1 (k ) .
Ces quations sont bien identiques celles de la forme non canonique :
y3 (k) = f3 [y4 (k 1) u1 (k), u2 (k 1)]
y4 (k) = f4 [y3 (k), u2 (k)]
g (k) = f5 [y3 (k), y4 (k 1), u1 (k)]
en identiant z 3 y 3 (k ) et z 4 y 4 (k 1) .

Les rseaux boucls (et leur forme canonique) seront tudis en dtail dans la section Techniques et
mthodologie de conception de modles dynamiques de ce chapitre, ainsi que dans les chapitres 4 et 8.

Rsum
Les dfinitions essentielles concernant les rseaux de neurones ont t prsentes dans cette section.
Reprenant la distinction gnrale entre modles statiques et modles dynamiques, on a introduit :
les rseaux de neurones non boucls, statiques, qui ralisent des fonctions non linaires ;
les rseaux de neurones boucls, dynamiques, rgis par des quations aux diffrences (ou quations
rcurrentes) non linaires.
On a vu galement que tout rseau de neurones boucl peut tre mis sous une forme canonique, comprenant un rseau de neurones non boucl dont les variables dtat sont ramenes ses entres avec un retard
unit.
Llment de base est donc le rseau de neurones non boucl ; ses proprits sont exposes dans la
section suivante.

Lapprentissage statistique

Proprit fondamentale des rseaux de neurones statiques


(non boucls) : lapproximation parcimonieuse
Les rseaux de neurones sont des approximateurs universels
Proprit
Toute fonction borne sufsamment rgulire peut tre approche uniformment, avec une prcision arbitraire, dans un domaine ni de
lespace de ses variables, par un rseau de neurones comportant une couche de neurones cachs en nombre ni, possdant tous la
mme fonction dactivation, et un neurone de sortie linaire [HORNIK 1989] [HORNIK 1990] [HORNIK 1991].

Cette proprit, qui nest quun thorme dexistence et ne donne pas de mthode pour trouver les paramtres du rseau, nest pas spcifique aux rseaux de neurones. Cest la proprit suivante qui leur est
particulire et fait tout leur intrt.

Les rseaux de neurones non linaires par rapport leurs paramtres


sont des approximateurs parcimonieux
Dans la pratique, le nombre de fonctions ncessaires pour raliser une approximation est un critre important dans le choix dun approximateur de prfrence un autre. Comme indiqu dans le chapitre 1, la
complexit dun modle est lie au nombre de ses paramtres : pour contrler le surajustement, on doit
toujours faire en sorte que ce nombre soit le plus petit possible. En dautres termes, on cherche lapproximation la plus parcimonieuse. Les rseaux de neurones possdent cette proprit de parcimonie : cest en
cela que rside leur intrt par rapport aux modles linaires en leurs paramtres tels que les polynmes.
Proprit fondamentale
On montre [BARRON 1993] que, si lapproximation dpend des paramtres ajustables de manire non linaire, elle est plus parcimonieuse
que si elle dpend linairement des paramtres.

Plus prcisment, le nombre de paramtres des


modles linaires en leurs paramtres crot beaucoup
plus rapidement avec le nombre de variables que le
nombre de paramtres dun modle non linaire. Par
exemple, le nombre de paramtres dun polynme de
degr d n variables vaut ( n + d )! , alors que le nombre
n! d !
de paramtres dun rseau de neurones crot linairement avec le nombre de variables. La figure 2-8 montre
lvolution du nombre de paramtres dun polynme et
du nombre de paramtres dun rseau de neurones, en
fonction du nombre de variables. La parcimonie est
donc dautant plus importante que le nombre
de variables du modle est grand : pour un modle
une ou deux variables, on peut utiliser indiffremment
un modle linaire par rapport ses paramtres (polynme, par exemple) ou un modle non linaire par
rapport ses paramtres (rseau de neurones, par
exemple).

5
log(Nombre de paramtres)

82

Polynme
de degr 5

3
Rseau de neurones
5 neurones cachs

1
0

10

12

14

16

18

20

Nombre de variables

Figure 2-8. Variation du nombre de paramtres


(ordonne logarithmique) en fonction du nombre
de variables pour un modle polynomial
et pour un rseau de neurones

Il faut noter nanmoins que la dimension de Vapnik-Chervonenkis, qui crot linairement avec le nombre
de paramtres pour les modles linaires, crot au moins quadratiquement pour les rseaux de neurones,
donc on ne peut pas garantir que lon a toujours intrt utiliser des rseaux de neurones, surtout si le

Les rseaux de neurones


CHAPITRE 2

83

nombre de variables est petit, de lordre de 1 ou 2. En revanche, ds que le nombre de variables devient
suprieur 2, il est gnralement avantageux de mettre en uvre des rseaux de neurones avec une
couche de neurones cachs non-linarit sigmode, plutt que des polynmes, ou des rseaux de RBF
ou dondelettes paramtres fixs. Si, en revanche, on considre que les centres et carts-types des RBF
gaussiennes (ou les centres et les dilatations des ondelettes) sont des paramtres ajustables au mme titre
que les paramtres des connexions, il ny a pas, lheure actuelle, davantage mathmatiquement
dmontr utiliser un type de neurones plutt quun autre. En revanche, des arguments pratiques dcisifs
peuvent justifier une prfrence : connaissances a priori sur le type de non-linarit souhaitable, caractre
localis ou non de la fonction, rapidit de calcul, facilit dinitialisation de lapprentissage (voir la section
Initialisation des paramtres ), facilit de ralisation en circuit spcialis, etc.
Expliquons qualitativement lorigine de la parcimonie. Considrons un modle linaire par rapport ses
paramtres, un modle polynomial par exemple :
g(x) = 4 + 2x + 4x2 0,5x3.
Le modle g(x) est une combinaison linaire des fonctions y = 1, y = x, y = x2, y = x3, avec les paramtres
w0 = 4, w1 = 2, w2 = 4, w3 = 0,5. Ces fonctions ont une forme qui est fixe une fois pour toutes.
Considrons prsent le modle neuronal reprsent sur la figure 2-9,
dont lquation est :

g(x, w)

g(x) = 0,5 2 th(10 + 0,5 x) + 3 th(1+ 0,25 x) 2 th(3 0,25 x).


Ce modle est aussi une combinaison linaire de fonctions (y = 1,
y = th(10 + 0,5 x), y = th(1+ 0,25 x), y = th(3 0,25 x)), mais la
forme de ces fonctions dpend des valeurs des paramtres de la
matrice W1.
Ainsi, au lieu de combiner des fonctions de formes fixes, on
combine des fonctions dont la forme elle-mme est ajuste par des
paramtres. On comprend facilement que ces degrs de libert
supplmentaires permettent de raliser une fonction donne avec un
plus petit nombre de fonctions lmentaires, ce qui est prcisment
la dfinition de la parcimonie.

Un exemple lmentaire
Considrons la parabole dquation

w2
f

0,5

-2

-2

1
10

5 1

0,25 3 -0,25

W1
x

Figure 2-9. Un rseau de neurones


non boucl une variable (donc deux
entres) et trois neurones cachs.
Les nombres indiquent les valeurs
des paramtres.

y = 16,71 x2 0,075.
Prenons 20 chantillons rgulirement espacs, pour effectuer un apprentissage, par minimisation de la fonction de cot des moindres carrs (dfinie au chapitre 1), dun rseau 2 neurones cachs ( fonction dactivation arctangente) reprsent sur la figure 2-10(a). Un apprentissage laide de lalgorithme de LevenbergMarquardt (voir la section Mthodes de gradient du second ordre ) fournit, en quelques dizaines ditrations, les paramtres indiqus sur la figure 2-10(a). La figure 2-10(b) reprsente les points de lensemble
dapprentissage et la prdiction du modle, qui passe par ces points avec une excellente prcision.
La figure 2-10(c) reprsente les sorties des neurones cachs, dont la combinaison linaire avec le biais
constitue la prdiction du rseau. La figure 2-10(d) montre les points dun ensemble de test et la prdiction
du rseau : lorsque lon sloigne du domaine dapprentissage [0,12, +0,12], la prcision de lapproximation se dgrade, ce qui est normal. On notera la symtrie dans les valeurs des paramtres, qui reflte la
symtrie du problme (simulation ralise laide du logiciel NeuroOne de NETRAL S.A.).

Lapprentissage statistique

84

0,15

6
4

Paramtres
0
-1,02
1
2,73
2
1,02
3
2,73
4
7,23
5
4,58
6
-4,57

0,1
0,05
0
-0,005

-0,1
-0.15

(a)
(a

-0,1

-0,05

0,05

0,1

0,15

(b)
(b

18

14

2
10

0
-2

-4
2
-6
-8

-1

-0,5

(c)

0,5

-2
-1

-0,5

0,5

Figure 2-10. Interpolation


dune parabole
par un rseau 2 neurones
cachs : (a) rseau ;
(b) points dapprentissage
(croix) et modle aprs
apprentissage ;
(c) fonctions ralises
par les deux neurones cachs
(sigmodes) aprs
apprentissage ; (d) points
de test (croix) et modle
aprs apprentissage :
lapproximation se dgrade
en dehors de la zone
dapprentissage.

(d)

Remarque
Bien entendu, approcher une parabole une variable par un rseau de neurones ne prsente aucun intrt pratique, puisque la parabole
a deux paramtres alors que le rseau de neurones en a sept ! La seule justication de cet exemple est que, tant mono-dimensionnel, il
permet dutiliser des reprsentations graphiques simples.

En quoi la parcimonie est-elle avantageuse ?


Comme indiqu plus haut, la dimension de Vapnik-Chervonenkis des rseaux de neurones varie plus
lentement, en fonction du nombre de variables, que celle des modles linaires, de sorte que les rseaux
de neurones sont gnralement avantageux, en termes de complexit, ds que le nombre de variables
dpasse 2. Le dilemme biais-variance tant contrl par le rapport de la dimension de VapnikChervonenkis h au nombre de variables N, la parcimonie permet, rapport h/N fix, dutiliser un nombre
restreint dexemples. Ainsi, de manire gnrale, les rseaux de neurones permettent de tirer le meilleur
parti des donnes numriques disponibles, pour construire des modles plusieurs variables.
La figure 2-34 montre un exemple de parcimonie dans une application relle : la prdiction dun paramtre thermodynamique dun verre. Elle est commente dans la section Une application en
formulation .

quoi servent les rseaux de neurones non boucls apprentissage


supervis ? Modlisation statique et discrimination (classification)
Les proprits mathmatiques dcrites dans la section prcdente sont fondamentales : elles donnent une
base solide aux applications des rseaux de neurones apprentissage supervis. Nanmoins, dans la
pratique, il est rare que lon cherche raliser une approximation uniforme dune fonction connue.

Les rseaux de neurones


CHAPITRE 2

Le plus souvent, le problme qui se pose est celui qui a t tudi en dtail dans le chapitre 1 : on dispose
dun ensemble de variables mesures {xk, k = 1 N} et dun ensemble de mesures {yp(xk), k = 1 N}
dune grandeur relative un processus de nature quelconque (physique, chimique, biologique, financier...). On suppose quil existe une relation entre le vecteur des variables x et la grandeur modliser, et
lon cherche dterminer une forme mathmatique de cette relation, valable dans le domaine o les
mesures ont t effectues, sachant que (1) les mesures sont en nombre fini, et que (2) ces mesures sont
certainement entaches de bruit. De plus, toutes les variables qui dterminent la grandeur modliser ne
sont pas forcment mesures. En dautres termes, on cherche tablir un modle du processus, partir des
mesures disponibles, et delles seules : on dit que lon effectue une modlisation bote noire . On
tudiera plus loin la modlisation bote noire du comportement dun processus (lactionneur hydraulique dun bras de robot) : lensemble de variables {x} est constitu dune seule variable (langle douverture de la vanne dadmission de liquide hydraulique) et la grandeur yp est la pression dhuile dans lactionneur. On verra galement plus loin un exemple de prdiction de proprits chimiques ou dactivits
thrapeutiques de molcules : on cherche une relation dterministe entre une proprit des molcules (par
exemple leurs points dbullition, leur action anti-HIV, leur toxicit) et des descripteurs de ces molcules (masse molaire, nombre datomes, volume , moment dipolaire, etc.) ; on peut ainsi prdire les
proprits ou activits thrapeutiques de molcules dont la synthse na pas t effectue. Le lecteur
rencontrera dans cet ouvrage de nombreux cas de ce genre.
Le terme de bote noire qui vient dtre introduit soppose au terme de modle de connaissance ou
modle de comportement interne , qui dsigne un modle mathmatique tabli partir dune analyse
physique (ou chimique, physico-chimique, conomique, etc.) du processus que lon tudie ; ce modle
peut contenir un nombre limit de paramtres ajustables, qui possdent une signification physique. On
verra, dans la section Modlisation dynamique bote grise , que les rseaux de neurones peuvent tre
utiliss pour llaboration de modles semi-physiques , intermdiaires entre les modles botes
noires et les modles de connaissance.

Modlisation statique
Rappelons que lapprentissage statistique dun modle consiste estimer les valeurs des paramtres du
modle pour lesquelles lerreur de prdiction empirique est minimale. Le plus souvent, pour la modlisation par rseau de neurones, la fonction de perte utilise est le carr de lerreur de modlisation, de sorte
que la fonction de cot minimiser est la fonction de cot des moindres carrs
N

J ( w ) = ykp g ( x k , w )
k =1

p
k

o y est la valeur prise par la grandeur modliser pour lexemple k, et g(xk, w) est la prdiction du
modle pour lexemple k. Rappelons galement que lon a dmontr, au chapitre 1, que le meilleur
modle possible est la fonction de rgression du processus, laquelle est inconnue. La dmarche de modlisation consiste donc postuler un modle de complexit donne (un rseau de neurones trois neurones
cachs, par exemple), en effectuer lapprentissage par des mthodes qui seront dcrites dans la section
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl , et estimer la capacit de gnralisation de ce modle, afin de la comparer celles dautres modles, de complexits diffrentes. Cette estimation permet finalement de choisir le meilleur modle compte tenu des donnes disponibles.
Cette procdure pose deux questions, centrales dans la pratique des rseaux de neurones :
comment, en pratique, dans une famille de rseaux de neurones de complexit donne, trouver celui
pour lequel la fonction de cot des moindres carrs est minimale ?

85

86

Lapprentissage statistique

une fois que celui-ci a t trouv, comment juger si ses capacits de gnralisation sont satisfaisantes ?
Ces questions pratiques seront abordes en dtail dans la section Techniques et mthodologie de
conception de modles statiques .

Classification (discrimination)
Comme indiqu dans le chapitre 1, classer un ensemble dobjets, cest attribuer chacun une classe (ou
catgorie ) parmi plusieurs classes dfinies lavance. Cette tche est appele classification ou
discrimination . Un algorithme qui ralise automatiquement une classification est appel classifieur.
Les applications des classifieurs sont trs nombreuses : dans le domaine de la reconnaissance des formes
(chiffres et caractres manuscrits ou imprims, images, parole, signaux temporels...), mais galement
dans bien dautres domaines (conomie, finance, sociologie, traitement du langage...). De manire gnrale, on dsignera sous le terme de forme nimporte quel objet dcrit par un ensemble de nombres
( descripteurs ) : ainsi, une image pourra tre dcrite par lensemble des valeurs dintensit de
ses pixels (contraction de picture elements ou lments dimage), un signal temporel par ses valeurs
successives au cours dune priode de temps dfinie, une entreprise par lensemble des lments de son
bilan, un texte par lensemble des mots importants quil contient, etc. Schmatiquement, la question
laquelle un classifieur doit apporter un lment de rponse est du type : le caractre inconnu est-il un a,
un b, un c, etc. ? Le signal observ est-il normal ou anormal ? Lentreprise examine constitue-t-elle un
excellent, trs bon, bon, mdiocre, mauvais, trs mauvais, support dinvestissement ? La dpche
dagence reue est-elle relative une prise de participation entre entreprises ? Y aura-t-il demain une
alerte la pollution par lozone ? Les statisticiens appellent aussi classification la tche qui consiste
regrouper des donnes qui se ressemblent dans des classes qui ne sont pas dfinies lavance ; les rseaux
de neurones apprentissage non supervis, mentionns dans le chapitre 1 et dcrits en dtail dans le
chapitre 7, peuvent raliser ce genre de tches ; il y a donc une certaine confusion dans les termes. On
sefforcera toujours de prciser ce dont il sagit, lorsque le contexte ne rend pas la distinction vidente.
Dans tout ce paragraphe, on considre le cas o les classes sont connues lavance.
Il faut noter que le classifieur nest pas ncessairement conu pour donner une rponse complte : il peut
apporter seulement un lment de rponse. En effet, il faut bien distinguer laide la dcision et la dcision elle-mme : un classifieur peut apporter une information qui aidera un tre humain, ou un systme
automatique, prendre une dcision concernant lappartenance de lobjet inconnu telle ou telle classe.
Historiquement, les premiers rseaux de neurones utiliss pour la classification taient conus pour
fournir une dcision. Nanmoins, on a vu, dans le chapitre 1, que lon peut galement, par apprentissage,
obtenir une information beaucoup plus riche et fine quune simple dcision binaire : on peut estimer la
probabilit dappartenance de lobjet inconnu chacune des classes. Ceci permet notamment de concevoir des systmes de reconnaissance complexes qui utilisent plusieurs systmes de classification diffrents, chacun deux fournissant une estimation de la probabilit dappartenance de lobjet inconnu
chacune des classes. La dcision finale est prise au vu de ces estimations et en fonction, par exemple, des
domaines dexcellence de chacun des classifieurs.
De mme, dans le domaine de la fouille de donnes (data mining), une problmatique de plus en plus
frquente est celle du filtrage dinformation : trouver automatiquement, dans un corpus de donnes,
les textes qui sont pertinents pour un thme donn, et prsenter ces textes par ordre de probabilit de pertinence dcroissante, afin que lutilisateur puisse faire un choix rapide parmi les documents qui lui sont
prsents. L encore, il est indispensable que le classifieur ne se contente pas de donner une rponse
binaire (document pertinent ou non), mais bien quil dtermine une probabilit dappartenance une
classe. Comme on le verra plus loin, les modles obtenus par apprentissage, notamment les rseaux de
neurones non boucls, sont bien adapts ce type de tche, dont limportance est de plus en plus vidente.

Les rseaux de neurones


CHAPITRE 2

La section du prsent chapitre intitule Rseaux de neurones apprentissage supervis et


discrimination , et le chapitre 6 en entier, sont consacrs la discrimination.

quoi servent les rseaux de neurones apprentissage


non supervis ? Analyse et visualisation de donnes
Les moyens modernes de traitement et de stockage de linformation permettent de disposer de trs
grandes quantits dinformations, quelles soient numriques (traitements numriques intensifs de rsultats exprimentaux) ou linguistiques (corpus de textes). Retrouver des informations dont on sait quelles
doivent tre prsentes dans les donnes, mais dont on ne sait pas bien comment les extraire, devient une
proccupation de plus en plus importante. Les progrs du graphisme des ordinateurs permettent des reprsentations des donnes de plus en plus claires et conviviales, mais loprateur est incapable de visualiser
clairement des donnes de haute dimension. Il est donc trs important de disposer de techniques de reprsentations des donnes basse dimension (typiquement 2) qui permettent de retrouver linformation
prgnante dans les donnes. Les rseaux de neurones apprentissage non supervis offrent un
ensemble de techniques puissantes dans ce domaine, notamment les cartes auto-organisatrices.
Le chapitre 7 de cet ouvrage, entirement consacr lapprentissage non supervis, dcrit en dtail de
belles applications, notamment en tldtection.

quoi servent les rseaux de neurones boucls apprentissage


supervis ? Modlisation dynamique bote noire
et semi-physique ; commande de processus
Dans le paragraphe consacr aux rseaux dynamiques, on a montr que tout rseau de neurones boucl
peut tre mis sous une forme canonique, qui comprend un rseau de neurones non boucl et des bouclages
(ou rcurrences) externes celui-ci. Les proprits des rseaux de neurones boucls sont donc directement lies celles des rseaux non boucls : de mme que lon met en uvre les rseaux de neurones non
boucls pour modliser, de manire statique, des processus non linaires qui peuvent tre utilement
dcrits par des quations algbriques, de mme il est intressant de mettre en uvre des rseaux de
neurones boucls pour modliser, de manire dynamique, des processus qui peuvent tre utilement dcrits
par des quations rcurrentes (ou quations aux diffrences). Une partie du prsent chapitre, et tout le
chapitre 4, sont consacrs la modlisation dynamique de processus.
Plusieurs motivations peuvent pousser lingnieur ou le chercheur concevoir un modle dynamique :
utiliser le modle comme simulateur pour prvoir lvolution dun processus dont la modlisation
de connaissance est trop complexe ou trop incertaine ;
utiliser le modle comme simulateur dun processus dont la modlisation de connaissance est possible,
mais conduit des quations diffrentielles, ou aux drives partielles, dont la rsolution numrique est
lourde et ne peut rpondre des contraintes de fonctionnement en temps rel : on peut alors crer un
ensemble dapprentissage partir du code de rsolution des quations, et concevoir un rseau de
neurones qui fournit de trs bonnes solutions dans des temps de calcul beaucoup plus courts. Larchitecture de ce rseau peut avantageusement tre inspire des quations diffrentielles du modle de
connaissance : on conoit alors un modle semi-physique ou modle bote grise (voir la section
suivante) ;
utiliser le modle comme prdicteur trs court terme (une priode dchantillonnage) afin de lintgrer
un systme de commande.

87

88

Lapprentissage statistique

Modlisation semi-physique
Il est trs frquent, notamment dans lindustrie manufacturire, que lon dispose dun modle de connaissance dun procd, mais que celui-ci ne soit pas satisfaisant ; cela peut sexpliquer par plusieurs raisons :
le modle peut tre insuffisamment prcis pour lobjectif que lon sest fix. Par exemple, si lon dsire
dtecter une anomalie de fonctionnement en analysant la diffrence entre ltat du processus prvu par
le modle du fonctionnement normal et ltat rellement mesur, il faut que le modle de fonctionnement normal soit prcis ;
le modle peut tre prcis, mais tre trop complexe pour pouvoir tre intgr numriquement en temps
rel (pour une application de surveillance ou de commande, par exemple).
Si lon dispose de mesures, on peut alors lgitimement dcider davoir recours un modle bote
noire , non linaire si ncessaire. Toutefois il serait nanmoins maladroit dabandonner compltement
toutes les connaissances accumules lors de la conception du modle, pour construire un autre modle
fond uniquement sur les mesures. La modlisation semi-physique permet de rconcilier ces deux points
de vue, en utilisant toutes les connaissances avres dont on peut disposer sur le processus (sous rserve
quelles soient sous la forme dquations algbriques ou diffrentielles) pour structurer le rseau et dfinir
son architecture. La mthodologie de conception dun tel modle sera prsente dans la section
Modlisation dynamique bote grise , et un exemple dapplication industrielle sera dcrit dans la
section Modlisation semi-physique dun procd manufacturier .

La commande de processus
Commander un systme, cest lui imposer une dynamique de rponse une commande. Sil sagit dune
rgulation, il faut imposer au systme de rester dans un tat dtermin quelles que soient les perturbations,
mesurables ou non, auxquelles il est soumis : pour un systme de rgulation de vitesse dune voiture
(cruise control), il faut agir automatiquement sur lacclrateur afin que la voiture conserve une vitesse
constante gale la vitesse de consigne, indpendamment de perturbations telles que des bourrasques de
vent, des changements de la pente de la route, etc. Sil sagit dun systme de poursuite, il faut imposer
celui-ci de suivre une trajectoire de consigne : par exemple, dans un fermenteur, agir sur le systme de
chauffage pour que la temprature suive un profil temporel dtermin lavance, indpendamment de la
temprature du four, de la temprature des ingrdients que lon ajoute durant la fermentation, des ractions exothermiques ou endothermiques qui peuvent se produire, etc. Pour raliser ces tches, il faut gnralement disposer dun modle qui, si les non-linarits sont importantes, peut tre un rseau de neurones.
Le chapitre 5 est entirement consacr la commande de processus non linaires.

Quand et comment mettre en uvre des rseaux


de neurones apprentissage supervis ?
Aprs avoir prsent les fondements thoriques qui justifient lutilisation de rseaux de neurones, on
aborde ici les problmes pratiques lis leur mise en uvre : on rappellera dabord quand utiliser et
quand ne pas utiliser les rseaux de neurones et on expliquera brivement ensuite comment il faut les
mettre en uvre. Toutes les questions qui sont abordes dans cette section sont approfondies dans ce
chapitre et les suivants.

Quand utiliser les rseaux de neurones ?


Rappelons le fondement thorique de lutilisation des rseaux de neurones apprentissage supervis : la
proprit dapprocher toute fonction non linaire suffisamment rgulire.

Les rseaux de neurones


CHAPITRE 2

Il peut donc tre avantageux de mettre en uvre des rseaux de neurones pour toute application ncessitant de trouver, par apprentissage, une relation non linaire entre des donnes numriques.
Sous quelles conditions peut-on utiliser une telle approche ?
Une premire condition est ncessaire mais non suffisante : puisque les rseaux de neurones utilisent
des techniques issues des statistiques, il faut disposer dun ensemble de donnes de taille suffisamment
grande, et bien reprsentatif.
Une fois ces donnes recueillies, il faut sassurer de lintrt rel dun modle non linaire pour lapplication considre : en effet, la mise en uvre dun modle linaire (ou affine) est toujours plus simple,
et moins coteuse en temps de calcul, que celle dun rseau de neurones. Par consquent, en labsence
de toute connaissance a priori sur lintrt dun modle non linaire, il faut dabord utiliser les
mthodes simples et prouves dlaboration dun modle linaire, qui ont t exposes dans le chapitre
1. Sil apparat que la prcision du modle est insuffisante bien que toutes les variables pertinentes
soient prsentes dans le modle, alors on doit envisager la mise en uvre de modles non linaires tels
que les rseaux de neurones.
Si les donnes sont disponibles, et si lon sest assur quun modle non linaire est utile, il faut sinterroger sur lopportunit dutiliser un rseau de neurones de prfrence une autre famille de fonctions non
linaire, les polynmes par exemple. Comme indiqu plus haut, les rseaux de neurones, notamment
fonction dactivation sigmode, sont dautant plus avantageux que le nombre de variables est grand ;
dans la majorit des cas, grand signifie, en pratique et de manire empirique, suprieur ou gal 3.
En rsum : si lon dispose de donnes numriques suffisamment nombreuses et reprsentatives, il est
gnralement avantageux dutiliser des rseaux de neurones dans toute application mettant en jeu lestimation des paramtres dune fonction non linaire possdant au moins trois variables. Si le nombre
de variables est suprieur ou gal 3, il est gnralement avantageux dutiliser des rseaux de neurones
fonction dactivation sigmode ; dans le cas contraire, des rseaux de neurones utilisant des RBF centres
et carts-types fixs, ou des ondelettes centres et dilatations fixs, ou encore des polynmes, peuvent tre
aussi prcis et plus simples mettre en uvre.
Bien entendu, si les donnes ne sont pas numriques (mais linguistiques, par exemple), les rseaux de
neurones ne peuvent les traiter directement. Il faut avoir recours des prtraitements permettant de
quantifier ces donnes (par exemple, laide de techniques issues de la thorie des ensembles flous).

Comment mettre en uvre les rseaux de neurones ?


La mise en uvre des rseaux de neurones entre compltement dans le cadre gnral de la modlisation
par apprentissage statistique, dveloppe dans le chapitre 1. Elle ncessite donc :
de collecter les donnes utiles pour lapprentissage et lvaluation des performances du rseau de
neurones ;
de dterminer les variables pertinentes, cest--dire les grandeurs qui ont une influence significative sur
le phnomne que lon cherche modliser ;
de postuler des modles de complexit croissante et den effectuer lapprentissage, afin de trouver la
complexit approprie, cest--dire le nombre de neurones cachs ncessaires pour obtenir une gnralisation satisfaisante ;
dvaluer les performances du rseau de neurones choisi lissue de la phase de slection de modle.
En fonction des rsultats obtenus, il peut tre ncessaire deffectuer plusieurs itrations de cette procdure, ou dune partie de celle-ci.
Ces diffrents points seront abords ultrieurement.

89

90

Lapprentissage statistique

Les variables pertinentes


Le problme de la dtermination des variables pertinentes se pose de manire trs diffrente selon les
applications envisages.
Si le processus que lon veut modliser est un
processus industriel conu par des ingnieurs, le
problme est important mais pas crucial car, en gnral,
on connat bien les grandeurs qui interviennent et les
relations causales entre celles-ci. Ainsi, dans un
procd de soudage par points, on fait fondre localement les deux tles souder en faisant passer un
courant lectrique trs important (quelques kiloampres) pendant quelques dizaines de millisecondes,
entre deux lectrodes qui exercent une pression mcanique sur les tles (figure 2-11). La qualit de la
Transformateur
soudure, caractrise par le diamtre de la zone fondue,
dpend videmment de lintensit du courant, de la
Figure 2-11. Schma dun processus industriel :
dure pendant laquelle il est appliqu, de leffort exerc
le soudage par points
par les lectrodes pendant le passage du courant et
pendant la phase de solidification, de ltat de surface des lectrodes, de la nature des tles, et de quelques
autres facteurs qui ont t trs largement tudis en raison de limportance industrielle du procd. On
connat donc la nature des variables dsirables pour un modle ; il peut tre nanmoins utile de faire un
choix parmi ces grandeurs, en ne prenant en considration, comme variables du modle, que celles qui
agissent de manire trs significative sur le processus (cest--dire celles dont leffet est plus important
que lincertitude de la mesure).
Lapplication dune approche de ce problme par apprentissage statistique est dcrite plus en dtail dans
la section Modlisation dun procd de fabrication : le soudage par points .
En revanche, si le processus modliser est un processus naturel complexe (physiologique, par exemple),
ou un processus conomique, social ou financier, la dtermination des variables pertinentes peut tre
beaucoup plus dlicate. Ainsi, si lon veut prdire une proprit chimique dune molcule (cet exemple est
dcrit en dtail dans la section Aide la dcouverte de mdicaments ), le choix des descripteurs pertinents nest pas vident ; de mme, pour dterminer la solvabilit dun organisme, ou la qualit dune
entreprise, il est trs important de choisir des ratios appropris pour dcrire la situation comptable, fiscale,
commerciale, etc.
Les mthodes de slection de variables qui ont t dcrites ou mentionnes dans le chapitre 1 sont entirement applicables aux rseaux de neurones.

La collecte des donnes


Pour pouvoir effectuer lapprentissage, il faut disposer de donnes. Celles-ci doivent tre en nombre suffisant, et tre suffisamment reprsentatives de celles qui seront prsentes au modle lors de son utilisation.
Lorsque la grandeur que lon veut modliser dpend de nombreux facteurs, cest--dire lorsque le modle
possde de nombreuses variables, il nest pas possible de raliser un pavage rgulier dans tout le
domaine de variation de celles-ci ; il faut donc trouver une mthode permettant de raliser uniquement des
expriences qui apportent une information significative pour lapprentissage du modle : il faut raliser un
plan dexpriences . Pour les modles linaires, llaboration des plans dexpriences est bien
matrise ; pour les modles non linaires, le problme est plus difficile. La section laboration de plans

Les rseaux de neurones


CHAPITRE 2

dexpriences prsente quelques lments qui permettent de construire itrativement un plan dexpriences pour un modle neuronal.

La complexit : le nombre de neurones cachs


lheure actuelle, il nexiste pas de rsultat thorique permettant de dterminer a priori la complexit
souhaitable pour construire un modle compte tenu des donnes disponibles. Par exemple, lestimation de
la dimension de Vapnik-Chervonenkis, pour un rseau de neurones, permet de savoir comment cette
dernire varie avec le nombre de neurones cachs, mais ne fournit que des bornes larges, ventuellement
pessimistes, pour le nombre de neurones cachs ncessaires. Il faut donc ncessairement mettre en uvre
une procdure numrique de slection de modle, notamment celles dcrites dans le chapitre 1 : validation simple, validation croise, leave-one-out et leurs variantes.
Rappelons le rsultat tabli dans le chapitre 1 : pour tout modle conu par apprentissage, notamment un
rseau de neurones, le meilleur modle possible est celui pour lequel la variance de lerreur de prdiction
est gale la variance du bruit de mesure.

Lapprentissage des rseaux de neurones non boucls :


un problme doptimisation non linaire
Une fois que lon a postul un rseau de neurones de complexit donne, on doit procder son
apprentissage : estimer les valeurs des paramtres du rseau de neurones pour lesquelles la fonction de
cot des moindres carrs, calcule sur les points de lensemble dapprentissage, est minimale. Lapprentissage est donc un problme numrique doptimisation.
Considrons, pour simplifier, un rseau de neurones une sortie g(x, w). On dispose dun ensemble
dapprentissage comprenant N exemples. La fonction de cot des moindres carrs a t dfinie plus haut :
N

J ( w ) = ykp g ( xk , w )

k =1

o xk dsigne le vecteur des valeurs des variables pour lexemple k, et ykp la valeur de la mesure correspondante.
Si lon met en uvre des modles linaires en leurs paramtres (des fonctions radiales gaussiennes dont
les centres et carts-types sont fixs, par exemple), les mthodes dcrites dans le chapitre 1, section
Conception de modles linaires , sont directement applicables. La qualit du rsultat dpend essentiellement du choix des centres et les carts-types des fonctions non linaires mises en uvre ; ce choix
doit tre effectu par des techniques de slection de modle analogues celles qui sont dcrites dans la
section Slection de modles du chapitre 1.
Si, en revanche, on met en uvre des modles non linaires en leurs paramtres, tels que des Perceptrons multicouche ou des rseaux de RBF centres et carts-types variables, on doit rsoudre un
problme doptimisation non linaire multivariable. Les mthodes utilises cet effet seront exposes
en dtail dans la section Estimation des paramtres (apprentissage) dun rseau de neurones non
boucl . Il sagit de techniques itratives qui, partir dun rseau muni de paramtres dont les valeurs
sont alatoires, modifient ceux-ci jusqu ce quun minimum de la fonction de cot empirique soit
atteint, ou quun critre darrt soit satisfait.
Dans ce dernier cas, les techniques doptimisation sont des mthodes de gradient : elles sont fondes sur
le calcul, chaque itration, du gradient de la fonction de cot par rapport aux paramtres du modle,
gradient qui est ensuite utilis pour calculer une modification des paramtres. Le calcul du gradient peut
tre effectu de diverses manires : il en est une, appele rtropropagation (voir la section valuation

91

Lapprentissage statistique

92

du gradient de la fonction de cot ), qui est gnralement plus conome que les autres en termes de
nombres doprations arithmtiques effectuer pour valuer le gradient. Contrairement une ide trop
rpandue, la rtropropagation nest pas un algorithme dapprentissage : cest simplement une technique
dvaluation du gradient de la fonction de cot, qui est frquemment, mais pas obligatoirement, utilise
au sein dalgorithmes dapprentissage. Il faut noter que, contrairement bien des affirmations, ce nest pas
linvention de la rtropropagation qui a permis lapprentissage des rseaux de neurones couches ; en
effet, les spcialistes de traitement du signal connaissaient, bien avant la rtropropagation, des mthodes
dvaluation du gradient dune fonction de cot des moindres carrs, mthodes qui auraient pu tre mises
en uvre pour effectuer lapprentissage de rseaux [MARCOS 1992].
Ces algorithmes dapprentissage ont fait dnormes progrs au cours des dernires annes. Alors que, au
dbut des annes 1990, les publications faisaient tat de dizaines ou de centaines de milliers ditrations,
reprsentant des journes de calcul sur des ordinateurs puissants, les nombres ditrations typiques
lheure actuelle sont de lordre de quelques dizaines quelques centaines. La figure 2-12 montre le droulement de lapprentissage dun modle une variable.

2
5 itrations

1,5

10 itrations

1,5

1
0,5

0,5

0
-0,5

-0,5

-1
-1,5
-2

-1.5 -1

-0.5 0

0.5

1.5 2

-1,5
-2

-0.5 0

0.5

1.5 2

2
30 itrations

1,5

0,5

0,5

-0,5

-0,5

-1

-1
-1.5 -1

-0.5 0

0.5

1.5 2

50 itrations

1,5

-1,5
-2

-1.5 -1

-1,5
-2

-1.5 -1

-0.5 0

0.5

1.5 2

Figure 2-12. Apprentissage dun rseau de neurones une variable et 3 neurones cachs. Le trait continu reprsente
la prdiction du modle aprs 5, 10, 30 et 50 itrations de lalgorithme dapprentissage (reproduit avec lautorisation de
Netral S.A.).

Les rseaux de neurones


CHAPITRE 2

93

Les croix reprsentent les mesures de lensemble dapprentissage. Initialement, on donne aux paramtres
du rseau des valeurs petites (voir la section Initialisation des paramtres ). Le rsultat obtenu au
bout de 50 itrations est satisfaisant visuellement ; quantitativement, lEQMA et lEQMT (cette
dernire tant calcule sur un ensemble de points non reprsents sur la figure) sont du mme ordre de
grandeur, et de lordre de lcart-type du bruit, de sorte que le modle est satisfaisant.

Conclusion
Dans ce paragraphe, on a expliqu quand et comment utiliser les rseaux de neurones pour la modlisation. Rappelons que lutilisation des rseaux de neurones peut tre avantageuse chaque fois que lon
cherche tablir une relation non linaire entre des donnes numriques. Les rseaux de neurones entrent
dans le cadre gnral des mthodes statistiques dapprentissage dcrites dans le chapitre 1. Une vue gnrale de la mise en uvre de ces mthodes a t prsente, en insistant sur les conditions qui doivent tre
remplies pour quun rseau de neurones donne des rsultats satisfaisants. Les techniques dapprentissage,
de slection de variables et de slection de modle proprement dites, dont lefficacit conditionne en
grande partie les performances des rseaux, seront abordes en dtail dans la section Techniques et
mthodologie de conception de modles statiques .

Rseaux de neurones apprentissage supervis


et discrimination (classification)
Les premires recherches sur les rseaux de neurones taient motives par lambition dimiter certaines
fonctions des systmes nerveux vivants, notamment pour la reconnaissance des formes. Cest pourquoi
les premires applications des rseaux de neurones portrent sur la classification pour la reconnaissance
de formes ou de signaux. Ce nest que plus tard que lon comprit que les rseaux de neurones sont avant
tout des approximateurs de fonctions. Nanmoins, comme cela a t montr dans le chapitre 1, la modlisation et la classification sont trs fortement lies, en dpit des diffrences apparentes. Cest pourquoi la
prsente section est consacre la discussion de ce quest un problme de classification. Le lecteur en
trouvera une prsentation plus dtaille dans le chapitre 6 de cet ouvrage.
On utilisera ici indiffremment le terme de classification ou celui de discrimination .

Quand est-il opportun dutiliser un classifieur statistique ?


Rappelons que les ingrdients dun problme de classification sont :
une population de N objets ;
n variables descriptives (ou descripteurs), valeurs relles ou binaires, qui permettent de dcrire les
objets, lensemble des descripteurs constituant la reprsentation des objets ;
un ensemble de C classes dans lesquelles on cherche ranger les objets (une des classes peut tre une
classe de rejet laquelle appartiennent tous les objets que lon ne peut attribuer aucune autre classe).
Rsoudre un problme de classification, cest trouver une application de lensemble des objets classer
dans lensemble des classes. Lalgorithme ou la procdure qui ralise cette application est appel classifieur.
Lorsque lon se pose un problme de classification, il faut dabord analyser le type de mthode quil
convient de mettre en uvre pour le rsoudre. En effet, les classifieurs statistiques ne sont pas forcment
adapts au problme, et il y a bien dautres mthodes de classification. Afin de dlimiter le domaine

94

Lapprentissage statistique

dutilisation des classifieurs statistiques, considrons quelques exemples plus ou moins acadmiques, qui
illustrent plusieurs aspects de cette tche. Pour chacun des exemples, on se posera trois questions :
les connaissances a priori sur le problme permettent-elles de dterminer simplement des descripteurs
pertinents ?
ces descripteurs sont-ils mesurables (ou calculables partir de mesures) ?
quel est le rle de la classe de rejet ?
Les exemples suivants sont extraits de [STOPPIGLIA 1997].
Chacun a eu loccasion dutiliser un distributeur de tickets de mtro, ou un automate de page, qui reconnat les pices de monnaie utilises en paiement, et rejette les pices fausses ou trangres. Considrons
ce problme sous langle des trois questions ci-dessus :
il est facile de dterminer des descripteurs pertinents : le diamtre de la pice, son poids, son paisseur,
la composition de lalliage, etc. ; ces descripteurs sont en petit nombre (les nouvelles pices de monnaie
sont conues de manire en faciliter la discrimination) ;
les descripteurs sont des grandeurs physiques mesurables ;
la classe de rejet peut tre aussi grande que lon veut : elle nest limite que par la patience des usagers
qui naiment pas voir leurs pices rejetes sans raison ; ainsi, dans lespace des descripteurs, les classes
sont de petits paralllpipdes dlimits par les seuils de tolrance qui tiennent compte de la variabilit de la fabrication et des erreurs de mesure ; tout le reste de lespace constitue la classe de rejet.
Dans ces conditions, il est facile de concevoir un automate qui met en uvre des rgles simples portant
sur les descripteurs des pices classer. Ces rgles rsultent dune analyse du problme, effectue par les
concepteurs de la machine, qui conduit un arbre de dcision implant dans lautomate. Dans un tel cas,
lutilisation dune mthode statistique de classification nest pas approprie.
Considrons prsent lvaluation du confort dune voiture. Pour prvoir les ractions des clients potentiels la mise sur le march dun nouveau modle, les constructeurs automobiles ont recours des
panels dindividus, supposs reprsentatifs de la clientle, qui doivent mettre un jugement sur le
confort. Mais quest-ce que le confort ? Cest une notion complexe dans laquelle interviennent la qualit
de la suspension, la conception des siges, linsonorisation du vhicule, la visibilit, etc. Exprimer un
jugement (classer le confort du vhicule dans lune des trois classes bon , moyen , insuffisant )
est alors un processus impossible formaliser, fond sur des impressions plus que sur des mesures. Ce
problme a donc les caractristiques suivantes :
les descripteurs ne sont pas forcment tous connus et exprims clairement par les membres des panels ;
mme si les descripteurs sont bien dfinis, les jugements sont trs variables : deux personnes places
dans les mmes conditions peuvent mettre des jugements diffrents ;
les descripteurs ne sont pas ncessairement mesurables ;
il ny a pas de classe de rejet : un consommateur a forcment une opinion sur le confort de sa voiture.
Le fait que les descripteurs ne soient pas connus et pas ncessairement mesurables empche (ou rend trs
difficile) lutilisation dune mthode de classification statistique. Dans ce contexte, une mthode de classification floue serait mieux adapte.
La reconnaissance automatique des chiffres manuscrits, par exemple celle des codes postaux, a fait lobjet
de nombreuses tudes et ralisations. Considrons ce problme sous les mmes angles que les deux exemples prcdents :
contrairement au cas du tri des pices de monnaie, la variabilit des styles dcriture pose un problme
majeur pour le choix des descripteurs ; nanmoins, contrairement au cas de lvaluation du confort, les
personnes qui savent lire identifient gnralement de la mme manire une image de chiffre donne
(sauf si le chiffre est vraiment mal crit) ;

Les rseaux de neurones


CHAPITRE 2

les descripteurs sont des nombres que lon peut extraire de limage : dans le cas dune description de
bas niveau , cest lintensit des pixels ; dans le cas dune description de haut niveau , cest le
nombre de boucles, de pointes, leur position, lorientation et la position des segments, etc. ;
la taille de la classe de rejet constitue un critre de performance : pour un taux derreur donn, le pourcentage de rejet doit tre aussi faible que possible. En effet, tout objet postal rejet ncessite lintervention dun prpos, et il est plus coteux denvoyer une lettre dans une mauvaise direction que davoir
recours une intervention humaine pour lire le code postal. Le cahier des charges est donc exprim de
la manire suivante : pour un taux derreur donn (par exemple 1 %), on veut un taux de rejet aussi
faible que possible. En effet, il serait facile de concevoir un classifieur qui ne se trompe jamais : il suffirait quil ne prenne jamais de dcision. Compte tenu des donnes conomiques du problme, un bon
classifieur est un classifieur qui prend une dcision le plus souvent possible, tout en ne se trompant pas
plus dune fois sur cent. Si les conditions conomiques taient inverses, cest--dire si une erreur
cotait moins cher que lintervention dun expert, le critre de qualit serait diffrent : on chercherait
obtenir le taux derreur le plus petit possible pour un taux de rejet donn (cest le cas pour les diagnostics mdicaux automatiss lchelle de toute une population, o lintervention dun mdecin cote
plus cher quune erreur de diagnostic de type faux positif ).
Dans ces conditions, la mise en uvre dune mthode statistique telle que les rseaux de neurone est
opportune, sous rserve que lon dispose dune base de donnes convenable. Le problme central est celui
du choix de la reprsentation des donnes. Cest dailleurs le cas dans la majorit des problmes de classification non acadmiques : la rflexion du concepteur, et la mise en uvre de techniques de prtraitement des donnes adaptes au problme (des exemples sont dcrits dans le chapitre 3), sont bien souvent
plus importantes que lalgorithme de classification lui-mme.

Classification statistique et formule de Bayes


Supposons donc quune analyse pralable du problme ait conduit au choix de la mise en uvre dune
mthode statistique de classification, de prfrence un arbre de dcision, par exemple. On entre alors
dans le cadre de la classification statistique, tel quil a t dcrit succinctement dans le chapitre 1. Rappelons notamment la formule de Bayes, qui permet le calcul de la probabilit pour que lobjet dcrit par le
vecteur de descripteurs x appartienne la classe Ci :
Pr ( Ci x ) =

pX ( x Ci ) PrCi
c

p
j =1

( x C ) Pr
j

Cj

o Pr ( Ci x ) dsigne la probabilit a posteriori de la classe Ci sachant que lon observe lobjet dcrit par
le vecteur x, pX ( x Ci ) dsigne la vraisemblance du vecteur de descripteurs x sachant que lobjet dcrit par
x appartient la classe Ci, et o PrC dsigne la probabilit a priori de la classe Ci. Le classifieur de Bayes
i
consiste en lestimation de la probabilit a posteriori dun objet dcrit par x laide de la formule de
Bayes, suivie dune prise de dcision selon la rgle de dcision de Bayes : attribuer lobjet la classe dont
la probabilit a posteriori est la plus grande. Ce classifieur est le meilleur possible si toutes les erreurs ont
le mme cot. Son utilisation ncessite nanmoins de connatre aussi prcisment que possible les probabilits a priori et les vraisemblances ; ces dernires sont particulirement difficiles estimer lorsque le
vecteur x est de grande dimension, ce qui est frquent dans des applications relles. Le classifieur de
Bayes prsente donc un intrt plus thorique que pratique. Il peut nanmoins servir de rfrence lorsque
lon cherche valuer la qualit dun classifieur : on peut appliquer celui-ci un problme fictif pour
lequel les probabilits a priori et les vraisemblances sont connues exactement, et comparer ses perfor-

95

96

Lapprentissage statistique

mances celles du classifieur de Bayes sur ce mme problme. Introduisons ici le problme fictif laide
duquel on testera quelques classifieurs.
Il sagit dun problme deux classes et
une variable ; les lments de la classe A sont des
ralisations de nombres alatoires obissant une
loi qui est la somme de deux gaussiennes ; ceux de
la classe B sont des ralisations de nombres alatoires obissant une loi uniforme dans un intervalle born (figure 2-13).

Classe A
-5

-10

-15

Classe B
0

+5

+10

Figure 2-13. Densits de probabilit pour les classes A


et B

On peut donc calculer analytiquement les probabi1


lits a posteriori (figure 2-14), et dterminer les
limites de chaque classe (figure 2-15). Pour estimer 0,5
le taux derreur, on ralise un grand nombre
dexemples de chaque classe et lon compte la
0
-5
0
+5
-15
-10
proportion de ces ralisations qui se trouve du
mauvais ct des limites dtermines par le Figure 2-14. Probabilit a posteriori de la classe A,
classifieur de Bayes ; dans ce problme, on dispose calcule par la formule de Bayes
de 600 exemples pour chaque classe (figure 2-16)
partir desquels, par simple dnombrement, on estime le taux derreur 30,1 %. Ainsi, on peut affirmer
que, pour ce problme, aucun classifieur, aussi bien conu soit-il, ne peut raliser une performance
meilleure que 69,9 % de classification correcte ; le meilleur classifieur rel est celui qui sapproche le plus
de cette limite thorique.
A
-15

-10

B
-5

600 exemples

+5
0

Figure 2-15. Classification ralise par le classifieur


de Bayes

Rpartition des 1200 exemples

600 exemples
-15

-10

-5

10

Figure 2-16. Exemples utiliss pour lestimation du taux


derreur. En haut : classe A ; en bas : classe B

Classification et rgression
Le lien entre classification et estimation de la fonction de rgression stablit de manire trs simple dans
le cas dun problme deux classes. On montrera ensuite comment on peut traiter les problmes plus de
deux classes.

Problme deux classes


Considrons tout dabord un problme deux classes C1 et C2. On a dfini, dans le chapitre 1, la fonction
indicatrice ( x, w ) =

1 + sgn g ( x, w )

qui vaut +1 lorsque lobjet classer appartient la classe A, et 1


2
dans le cas contraire. Pour un objet dcrit par le vecteur de descripteurs x, la valeur de la fonction indicatrice peut tre modlise comme une ralisation dune variable alatoire binaire (x).

Les rseaux de neurones


CHAPITRE 2

Proprit

La fonction de rgression de la variable alatoire (x) est la probabilit a posteriori dappartenance de


lobjet la classe A.
Dmonstration
La fonction de rgression de (x) est lesprance mathmatique de tant donn x, note E x . Or,
E x = Pr ( = 1 x ) 1+ Pr ( = 0 x ) 0 = Pr ( = 1 x )
ce qui dmontre le rsultat.

Le problme de lestimation de la probabilit a posteriori des classes ramne donc au problme de lestimation de la fonction de rgression dune variable alatoire, ce qui peut tre ralis avec nimporte quelle
famille de fonctions bornes (les probabilits doivent tre comprises entre 0 et 1), notamment avec des
rseaux de neurones dont le neurone de sortie a une fonction dactivation sigmode, par exemple une
tangente hyperbolique. Cette dernire tant comprise entre 1 et +1, lestimation de la probabilit est
obtenue par 1 + g ( x, w ) 2 , o g(x, w) est la prdiction du modle. On peut aussi utiliser une fonction
1
sigmode du type
: variant entre 0 et 1, elle peut directement approcher une probabilit. La
1 + exp ( v )
figure 2-17 illustre cette approche : on effectue lapprentissage partir dun ensemble de couples
(xk, ykp), o xk est la valeur du descripteur x pour lexemple k, et ykp = +1 ou 1 selon que lexemple k
appartient la classe C1 ou la classe C2 (la figure prsente les rsultats aprs transformation ramenant
lestimation entre 0 et +1). Aprs estimation de la probabilit a posteriori, la frontire est dfinie comme
le lieu des points pour lesquels les probabilits a posteriori sont gales 0,5 (rgle de dcision de Bayes).
Classe C1

0 Classe C2

Estimation de la probabilit
a posteriori de la classe C1
sachant que lon observe le descripteur x1

Pr (C1 | x)

1
Figure 2-17. Estimation
de la probabilit a posteriori
dappartenance la classe C1,
et dtermination du seuil
de dcision par la rgle
de Bayes

Frontire entre
les classes
0,5

00 0
x1

0 0000000000000000
x

La complexit de la frontire entre les classes dpend de la complexit du modle choisi. Le modle le plus
simple est le modle sans neurone cach, avec un neurone de sortie fonction sigmode. Il dfinit une surface
de sparation qui est une droite pour un problme deux variables, un plan pour un problme trois variables,
et une surface appele hyperplan dans les autres cas. Considrons en effet un classifieur un neurone :
g ( x, w ) = th ( v ) avec v = w x .
Aprs apprentissage, et aprs la transformation mentionne ci-dessus pour que la prdiction du modle
puisse constituer une estimation dune probabilit, cette dernire devient :

97

Lapprentissage statistique

98

1 + th ( w x )
.
2
La frontire est le lieu des points o les
probabilits a posteriori sont gales
0,5, donc le lieu des points pour
lesquels th(wx) = 0, soit encore :

g(x1,x2,w0,w1,w2)

1
0,8

Frontire entre les classes:


Pr C1 x = Pr C2 x = 0,5

0,6

w x = 0,
0,4
ce qui est bien lquation dun plan de
vecteur normal w. Ainsi, la figure 2-18
0,2
montre lestimation de probabilit
0
dappartenance la classe des
3
cercles dans lexemple prsent
0
dans le chapitre 1, section Un
x2
3
exemple de classification ; len0
-3
x1
semble dapprentissage est reprsent
-3
sur la figure 1-5. Pour tout point (x1,
Figure 2-18. Estimation de probabilit a posteriori par un classifieur
x2), le modle fournit une estimation
un neurone (classifieur linaire)
de la probabilit a posteriori dappartenance la classe des cercles ; la frontire entre les classes est la droite correspondant g(x, w) = 0,5. Sa
projection dans le plan des variables est reprsente sur la figure 1-8.
Rappelons que, dans ce cas (deux distributions gaussiennes isotropes de mme variance), la frontire
linaire est la frontire idale fournie par le classifieur de Bayes. Sil est ncessaire dobtenir des frontires plus complexes, on peut :
soit mettre en uvre des neurones cachs ;
soit conserver un classifieur de la forme g(x, w) = th(v), mais rendre v plus complexe, par exemple en
postulant une forme polynomiale au lieu dune forme linaire (neurone dordre suprieur ).
La figure 2-19 montre lensemble dapprentissage pour un problme de classification o la solution optimale
nest pas une frontire linaire ; elle prsente galement la solution ce problme, fournie par un rseau
2 neurones cachs.
4
3
2

0,8
g(x, w)

x2

0
-1

Frontire entre les classes:


Pr C1 x = Pr C2 x = 0,5

0,6

0,4

-2
0,2
-3
0

-4

-5
-6

2
0
x2

-5

0
x1

-2
-4

-6

-5

0
x1

Figure 2-19. Classification non linaire par un rseau de neurones deux neurones cachs et un neurone de sortie
activation sigmode

Les rseaux de neurones


CHAPITRE 2

Lexcellent ouvrage [BISHOP 1995] est entirement consacr la mise en uvre de rseaux de neurones
pour la classification. Le chapitre 6 du prsent ouvrage prsente en dtail les rseaux de neurones
(binaires ou non) ainsi que les machines vecteurs supports pour la classification.

Problme C classes
Lorsque le problme de classification est un problme plus de deux classes, plusieurs approches sont
possibles :
rsoudre globalement le problme en estimant simultanment, pour un objet donn, ses probabilits
dappartenance aux diffrentes classes ;
diviser le problme en sous-problmes deux classes, concevoir un ensemble de classifieurs deux
deux et combiner les rsultats de ces derniers pour estimer les probabilits a posteriori globales.
Ces deux approches vont tre examines successivement.

Approche globale

.....

C neurones
fonction dactivation
sigmode

....
x1

x2

x3

....

xn Descripteurs

Figure 2-20. Classification non linaire C classes :


Perceptron multicouche C neurones de sortie
fonction dactivation sigmode

Cette approche est frquemment mise en uvre, bien


quelle ne soit pas toujours la plus efficace pour des
problmes difficiles. Elle consiste utiliser un rseau
de neurones C sorties (figure 2-20), le rsultat tant
cod laide dun code 1-parmi-C : lvnement
lobjet appartient la classe Ci est associ un
vecteur g dont seule la composante i est gale 1, les
autres composantes tant gales 0. De manire
analogue au cas de deux classes, on dmontre facilement que lesprance mathmatique de chacune des
composantes est gale la probabilit a posteriori de la
classe correspondante.

Terminologie
Dans le jargon des rseaux de neurones, un codage un-parmi-C est appel codage grand-mre . Cette appellation provient de la
neurobiologie : lune des thories de la reprsentation des informations dans les systmes nerveux soutient que certains de nos neurones
sont spcialiss dans la reconnaissance de formes usuelles, notamment du visage de notre grand-mre.

Il convient de noter plusieurs diffrences pratiques entre un Perceptron multicouche pour la classification
et un Perceptron multicouche pour la modlisation statique :
contrairement au cas de la modlisation, les neurones de sortie dun rseau pour la classification ont une
fonction dactivation sigmode, pour assurer que lestimation de la probabilit soit comprise entre 0 et
1 ; on trouvera, dans le chapitre 6, une justification thorique lutilisation de la tangente hyperbolique
comme fonction dactivation des neurones de sortie pour la classification ;
pour la classification, il est parfois plus efficace, pour estimer les probabilits, de minimiser la fonction
de cot dentropie croise plutt que la fonction de cot des moindres carrs [HOPFIELD 1987] [BAUM
1988] [HAMPSHIRE 1990] ; les algorithmes dapprentissage qui seront prsents dans la section
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl sappliquent sans
difficult pour cette fonction de cot :
C
1 gi ( xk , w )
g ( x , w)
k
J = ik ln i kk

+ 1 i ln
k
k i =1
1 i

o ik est la valeur (0 ou 1) de la variable indicatrice pour la sortie i lorsque lon prsente lentre
lexemple k, dcrit par le vecteur de descripteurs xk, et o gi(xk,w) est la valeur de la sortie i du classifieur

99

100

Lapprentissage statistique

pour cet exemple. On vrifie facilement que cette fonction est minimale lorsque tous les exemples sont
correctement classs.
Bien entendu, il convient de vrifier que la somme des sorties vaut 1 la fin de lapprentissage. La
mthode Softmax permet de garantir que cette condition est automatiquement remplie [BRIDLE 1990].
Cette difficult ne se prsente videmment pas si lon utilise un ensemble de classifieurs deux deux .
Comme indiqu dans le
chapitre 1, le dilemme
biais-variance existe pour
la classification comme
pour la rgression. Des
exemples de surajustement
en classification ont t
prsents dans le chapitre
1, figure 1-6. Il faut donc
mettre en uvre, pour
slectionner le meilleur
modle, les techniques de
slection de modles introduites dans le chapitre 1.
Essentiellement, il faut
trouver un rseau dont les
taux derreurs de classification sur lensemble
dapprentissage et sur un
ensemble de validation
soient du mme ordre de
grandeur, et les plus petits
possibles.

Classification :

Thorique

Estime avec 4 neurones cachs

0,5

0
-15

-10

-5

10

(a)
Classification :

Thorique

Estime avec 5 neurones cachs

0,5

0
-15

-10

-5

10

(b)

La figure 2-21 montre un


Classification :
Estime avec 6 neurones cachs
Thorique
exemple de surajustement
1
dans lestimation de la
probabilit dappartenance
la classe A pour lexem0,5
ple prsent sur la figure
2-16 ; on voit que le rseau
0
4 neurones cachs est trop
-15
-10
-5
0
5
10
peu complexe pour estimer
(c)
correctement la probabilit, alors quun rseau Figure 2-21. Estimation des probabilits dappartenance la classe A avec trois
6 neurones cachs sajuste classifieurs de complexits diffrentes : (a) 4 neurones cachs (complexit insuffisante),
sur les fluctuations de la (b) 5 neurones cachs (performance trs proche de la meilleure performance thorique),
(c) 6 neurones cachs (surajustement manifeste)
densit des points utiliss
pour lapprentissage. Le
taux de classification incorrecte, estim sur un ensemble de validation de plusieurs millions de points, est
de 30,3 %, alors que le classifieur thorique de Bayes donne une erreur minimale de 30,1 %. On vrifie
bien ici que les rseaux de neurones peuvent approcher les meilleures performances possibles, celles du
classifieur thorique de Bayes.

Les rseaux de neurones


CHAPITRE 2

101

Classification 2 2
Il est souvent beaucoup plus sr, pour des problmes difficiles, de traiter une classification C classes
comme C(C-1)/2 problmes de classification 2 classes, pour les raisons suivantes :
on peut bnficier de nombreux rsultats et algorithmes, notamment concernant la sparation linaire
entre classes. Ces lments sont largement dvelopps dans le chapitre 6 ; ils seront introduits trs brivement dans le paragraphe suivant, intitul Sparabilit linaire ;
on obtient des rseaux beaucoup plus petits, dont lapprentissage est court et la manipulation simple ;
chacun deux ayant une seule sortie, son interprtation comme une probabilit est immdiate ;
les descripteurs pertinents pour sparer la classe A de la classe B ne sont pas ncessairement les mmes
que ceux utiles pour discriminer la classe A de la classe C. En reconnaissance de formes notamment, le
fait de ne pas utiliser tous les descripteurs, mais seulement ceux qui sont utiles, constitue un avantage
considrable ; les techniques de slection des variables exposes dans le chapitre 1 sont directement
utilisables.
Une fois que les C(C-1)/2 probabilits des classes deux deux ont t estimes, ventuellement par de
simples rseaux sans couche cache, la probabilit pour quun objet dcrit par le vecteur de descripteurs
x appartienne la classe Ci est calcule par la relation [PRICE 1994] :
Pr ( Ci x ) =

1
1
Pr (C 2 )
j =1
ij
C

j i

o C est le nombre de classes et Prij la probabilit dappartenance de lobjet la classe i, estime par le
rseau de neurones qui spare la classe Ci de la classe Cj.

Sparabilit linaire
Deux ensembles dobjets dcrits dans un espace de N descripteurs, appartenant deux classes diffrentes,
sont dits linairement sparables sils peuvent tre spars sans erreurs par un hyperplan dans lespace
des variables.
Si des exemples sont linairement sparables, un rseau de neurones un seul neurone (galement appel
Perceptron ), fonction dactivation en chelon, peut les sparer. Ce classifieur est de la forme :
g ( x, w ) =

+1 si x w 0
1 si x w < 0

On peut donc considrer un Perceptron comme la limite dun rseau un seul neurone, lorsque la pente
lorigine de la tangente hyperbolique tend vers linfini. La frontire est lhyperplan dquation xw = 0.
Lorsque lon dcoupe le problme en sous-problmes de sparation de classes deux deux, il apparat que
la sparation linaire entre deux classes prsente trs souvent une complexit suffisante ; il est mme
frquent que, dans des problmes multiclasses rputs difficiles , les exemples soient, en fait, linairement sparables si lon considre les classes deux deux. Or, dans ce dernier cas, des algorithmes simples
et lgants permettent de trouver une trs bonne solution, comme expliqu en dtail dans le chapitre 6 : la
premire tape, dans la conception dun classifieur, est donc de chercher savoir si les exemples des
classes sont sparables deux deux. Lalgorithme de Ho et Kashyap [HO 1965], largement antrieur aux
rseaux de neurones, fournit rapidement une rponse cette question :
si les exemples sont linairement sparables, lalgorithme converge en un nombre fini ditrations vers
une solution ;

102

Lapprentissage statistique

si les exemples ne sont pas linairement sparables, lalgorithme lindique galement aprs un nombre
fini ditrations.
Par exemple, pour la base de donnes de codes postaux fournie par le National Institute of Standards and
Technology, qui a servi de support de trs nombreux travaux, les classes de chiffres sont linairement
sparables deux deux, mme si lon utilise une reprsentation par pixels [KNERR 1992] ! De mme, il
existe une base de donnes, relative des signaux sonar, qui a fait lobjet de trs nombreuses tudes et a
donn lieu la conception de nombreux classifieurs fort compliqus ; en quelques secondes de calcul,
lalgorithme de Ho et Kashyap montre que les exemples des deux classes sont linairement sparables. Il
est donc tout fait inutile, pour cette application, de concevoir un classifieur plus complexe quun rseau
un neurone ; cette application sera reprise dans le chapitre 6.

Mthodologie de conception dun classifieur


Ces considrations conduisent dfinir la stratgie suivante pour la conception dun classifieur utilisant
des rseaux de neurones (il faut donc pralablement sassurer que le problme pos relve bien dun traitement statistique) :
laborer une reprsentation bien discriminante des objets classer, notamment dans des applications de
reconnaissance de formes (on utilisera avec profit, si ncessaire, les techniques dcrites dans le chapitre 3).
Cette tape est dune extrme importance et conditionne toute la suite, car une reprsentation bien
discriminante peut rendre le problme de classification trivial (ce point est illustr dans les applications
dcrites dans la section Exemples dapplications ) ;
Attention
Si le nombre dexemples nest pas grand devant la dimension du vecteur dentre dans la reprsentation choisie, il est inutile daller plus
loin, en vertu du thorme de Cover [COVER 1965], prsent dans le chapitre 6 : il faut chercher une reprsentation plus compacte ou
bien collecter dautres exemples avant de passer aux tapes suivantes, ou encore, lors de lapprentissage, adopter une mthode de rgularisation svre telle que la modration des poids (weight decay, dcrite dans la section Rgularisation par modration des poids ).

pour chaque paire de classes, effectuer la slection des variables selon les mthodes dcrites dans le
chapitre 1 ; en effet, il nest pas du tout certain que les mmes descripteurs soient utiles pour sparer les
classes A et B et pour sparer les classes A et C ;
pour chaque paire de classes, tester la sparabilit linaire des exemples des classes deux deux laide
de lalgorithme de Ho et Kashyap ;
pour toutes les classes dont les exemples sont sparables deux deux, mettre en uvre les mthodes de
sparation linaire (dcrites dans le chapitre 6), et obtenir une estimation des probabilits a posteriori ;
pour les classes non linairement sparables, mettre en uvre de petits Perceptrons multicouches ou des
Perceptrons sphriques dcrits dans le chapitre 6, avec estimation des probabilits ; mettre en uvre des
mthodes de validation croise ou de leave-one-out (voir chapitres 1 et 2) pour la slection de modles ;
estimer la probabilit dappartenance chaque classe partir des probabilits dtermines ltape
prcdente, selon la formule indique plus haut dans la section Classification 2 2 ;
fixer les seuils de dcision pour dfinir les classes de rejet.
Cette stratgie constitue une variante de la procdure STEPNET [KNERR 1990] [KNERR 1991], utilise
efficacement dans plusieurs applications industrielles.
Dans la planification dun tel projet, il ne faut pas sous-estimer le temps ncessaire pour la premire et
pour la dernire tape : dans les applications relles non triviales, ce sont frquemment les deux tapes les
plus longues. La dernire dentre elles est susceptible de remettre en cause les rsultats obtenus lors des
tapes prcdentes.

Les rseaux de neurones


CHAPITRE 2

103

Lapplication de cette stratgie est videmment limite par le fait que le nombre de classifieurs varie
comme le carr du nombre de classes. Nanmoins, chacun des classifieurs est trs simple, de sorte que
cette dmarche sapplique sans difficult jusqu quelques dizaines de classes, ce qui couvre limmense
majorit des applications. Si le nombre de classes est plus lev, il faut avoir recours des stratgies
hirarchiques.
Rappelons que le chapitre 6 est entirement consacr la classification. Il prsente notamment les
machines vecteurs supports, qui sont des outils de classification trs puissants, notamment par le fait
quils permettent de contrler la complexit du modle.

Modlisation et classification de donnes structures :


les graph machines
Toutes les mthodes exposes, dans ce chapitre et dans le prcdent, ont pour objectif de traiter des
donnes qui sont sous la forme dun vecteur de variables x. Ainsi, une image ou un texte doivent dabord
tre transforms en un vecteur de variables susceptibles de dcrire, de manire pertinente, les donnes que
lon doit traiter. Nanmoins, celles-ci ont souvent naturellement une structure en graphes : une scne peut
tre dcrite par les relations entre les objets qui la composent, une phrase par les relations entre ses mots,
une molcule par les liaisons entre ses atomes ou ses groupements fonctionnels, etc. De telles donnes
sont dites structures. La transformation de ces donnes en vecteurs fait frquemment perdre leur structure, qui peut pourtant tre dterminante pour la prdiction ou la classification que lon cherche effectuer. Il est donc utile de concevoir des mthodes qui permettent de modliser des relations entre graphes
et nombres, plutt que des relations entre vecteurs et nombres. Lensemble dapprentissage nest plus
compos de paires {xk, ykp }, mais de paires {Gk, ykp}, o Gk dsigne le graphe k de lensemble
dapprentissage ; lobjectif de la modlisation est de prdire la valeur de la grandeur yp tant donn un
graphe G qui ne fait pas partie de lensemble dapprentissage.
Lide de lapprentissage partir de donnes structures remonte au dbut des annes 1990, o les
mmoires auto-associatives rcursives ont t conues afin de fournir un codage compact pour une
catgorie particulire de graphes appels arbres [POLLAK 1990]. Une synthse sur le dveloppement
de lapprentissage numrique partir de donnes structures est prsente dans [GOULON 2005].
Le principe des graph machines est simple : au lieu de construire une fonction g(x, w) qui est la mme
pour tous les exemples, on construit, pour chaque graphe, une fonction (ou machine dans le jargon de
lapprentissage) par combinaison de fonctions lmentaires, cette combinaison ayant la structure du
graphe. Les fonctions lmentaires qui constituent les machines sont identiques, mais cest la faon de les
combiner qui change dun exemple lautre : cest elle qui reflte la structure du graphe auquel on veut
associer la grandeur que lon cherche prdire.
Ainsi, au lieu de concevoir une seule machine qui ralise la prdiction pour tous les exemples, on construit
autant de machines que dexemples ; toutes ces machines ont des structures diffrentes, qui refltent la
structure des donnes que lon veut traiter, mais elles sont constitues des mmes fonctions munies des
mmes paramtres. Les sections suivantes prsentent cette approche de manire un peu plus dtaille.

104

Lapprentissage statistique

Dfinitions
Graphes acycliques
Rappelons quun graphe est dfini par un ensemble de nuds et un ensemble dartes entre ces nuds, les
artes pouvant tre orientes. Sil nest pas possible de trouver un chemin dans le graphe, respectant
lorientation des artes, dont le point de dpart et le point darrive sont identiques, le graphe est dit
acyclique.
La figure 2-22 reprsente un ensemble de trois graphes ; les machines correspondantes sont obtenues en
remplaant chaque nud par une fonction paramtre f(z, w), o w est le vecteur des paramtres. La fonction du nud qui effectue le dernier calcul (nud racine ) peut tre diffrente des autres ; elle est note
F(z, W). Pour chaque graphe acyclique Gi, on construit une fonction gi ( graph machine ) qui est une
combinaison de fonctions paramtres ( fonctions de nuds ) identiques. Ces fonctions de nuds
peuvent tre, par exemple, des rseaux de neurones ; les fonctions gi sont parfois appeles rseaux
rcursifs [FRASCONI 1998].
Graphe G1: g w, W ( x 1, x 2, x 3, x 4 ) = F W ( x 4, f ( z 1, w ), f ( z 2, w ), f ( z 3, w ), W ) o :
x1, x2, x3, sont des vecteurs de variables, de dimension X1, qui fournissent une information sur les
nuds ; ces variables ne sont pas obligatoires, mais elles peuvent tre utiles pour fournir une information spcifique aux nuds (un exemple en est prsent dans la section Aide la dcouverte de
mdicaments ). Si ces informations ne sont pas utiles, on a X1= 0, et, dans ce cas, la valeur de
gw1 ,W ( x1 , x2 , x3 , x4 ) ne dpend que du graphe et des paramtres des fonctions de nud ;
z1, z2, z3 sont des vecteurs de dimension D1 + 1 ; soit dk le degr du nud k, cest--dire le nombre
dartes adjacentes ce nud, et M1 = maxkdk . On a : D1 = M1 + X1 ; dans cet exemple M1 = 3, donc
D1 = 3. Ces vecteurs sont construits de la manire suivante :
1

pour tous les nuds, la premire composante z0 est gale 1 ;


pour le nud k, de degr dk, les composantes 2 dk + 1 de zk sont les valeurs de fw calcules
par les nuds parents du nud k, cest--dire les nuds j tels quil existe dans le graphe une
arte oriente de j vers k ; si dk < Mk, les composantes dk + 2 M1 + 1 sont gales zro ; si
X1 = 0, les composantes M1 + 2 M1 + 1 + X1 sont les composantes de xk.

7
9

10

6
1
1

2
Graphe G1

2
Graphe G3

3
1

2
Graphe G2
Figure 2-22. Trois graphes acycliques orients

Les rseaux de neurones

105

CHAPITRE 2

Dans lexemple reprsent sur la figure 2-22, sil nest pas ncessaire de fournir une information sur les
nuds (X1 = 0), on a D1 = 3.
Graphe G2 :

) )

gw2 ,W ( x1 , x2 , x 3 , x4 , x5 , x6 , x7 ) = FW x 7 , f ( z6 , w ) , fw x5 , f ( z 4 , w ) , fw x3 , f ( z2 , w ) , f ( z1 , w ) , w , w , W

o les vecteurs x1 x7 et z1 z6 sont construits comme les variables correspondantes de G1, avec M2= 2.
Sil nest pas ncessaire dtiqueter les nuds (X2 = 0), on a :

f ( z1 , w )

D2 = 2, z1 = z2 = z 4 = z6 = (1 0 0 ) , z 3 = 1
T

z7 = 1

f ( z5 , w )

f ( z6 , w )

f ( z2 , w ) , z5 = 1
T

f ( z3 , w )

f ( z4 , w ) ,
T

Graphe G3 :

( ( (

) (

) )

) )

gw3 ,W ( x1 ,..., x10 ) = FW x10 , fw x9 , fw x8 , f ( z 7 , w ), f x6 , f x5 , fw ( z 4 , w ), w , f x3 , f ( z2 , w ), f ( z1 , w ), w , w , w , w , W

o les vecteurs x1 x10 et z1 z9 sont construits comme indiqu plus haut, avec M3= 2.
Si ces trois graphes sont utiliss comme ensemble dapprentissage, les trois graph machines doivent
possder les mmes fonctions de nuds, de sorte que le nombre de variables de la fonction de nud soit
D = max Di , i = 1 3.
i

Graphes cycliques
Les graph machines peuvent manipuler les cycles et les artes parallles, ce qui est important notamment
pour leurs applications en aide la dcouverte de mdicaments. Le graphe initial subit un prtraitement
qui consiste supprimer des artes, en nombre gal au nombre de cycles, et dtruire toutes les artes
parallles sauf une ; de plus, on affecte chaque nud une tiquette qui est gale son degr dans le
graphe initial, ce qui permet de conserver linformation complte sur la structure du graphe original.
Enfin, on choisit un nud racine et lon affecte les orientations convenables aux artes.

Apprentissage
Lapprentissage des graph machines entre dans le cadre habituel de minimisation du risque structurel,
prsent dans le chapitre 1. Il ncessite la dfinition dune fonction de perte et la minimisation dune fonction de cot par rapport aux paramtres de la fonction de nud. La fonction de cot peut, si ncessaire,
contenir un ou des termes de rgularisation (voir la section Apprentissage avec rgularisation ). Typiquement, la fonction de cot est de la forme :
N

J ( w, W ) = yip gwi ,W
i =1

+ 1 w + 2 W

o N est le nombre dexemples de lensemble dapprentissage, yip est la valeur de la grandeur modliser
pour lexemple i, 1 et 2 sont des constantes de rgularisation convenablement choisies. Rappelons que
les paramtres w et W sont les mmes pour toutes les machines i, de sorte quil faut utiliser la technique
des poids partags qui sera dcrite dans la section valuation du gradient sous contrainte dgalit
des paramtres .

106

Lapprentissage statistique

Les algorithmes doptimisation, dcrits dans la section Modification des paramtres en fonction du
gradient de la fonction de cot sont directement applicables.

Deux exemples acadmiques


Considrons deux exemples acadmiques : lapprentissage du nombre de nuds dun graphe et lapprentissage du nombre dartes dun graphe.
Dans le premier exemple, on cherche apprendre, partir dexemples, et prdire le nombre de nuds
prsents dans un graphe donn. Supposons que lensemble dapprentissage soit constitu des trois
graphes prsents sur la figure 2-22. On cherche donc associer G1 le nombre 4, G2 le nombre 7, et
G3 le nombre 10. Commenant par la structure la moins complexe, on postule une fonction f(z, w) affine,
et F = f. Comme tous les nuds sont quivalents pour le problme que lon cherche rsoudre, il nest
pas ncessaire de les tiqueter : X1 = X2 = X3 = 0. Les fonctions de nuds tant les mmes pour tous les
graphes, on prend D = max Di = 3, donc :
i

fw ( x ) = w0 + w1 z1 + w2 z2 + w3 z3 .
Toutes les artes tant quivalentes, on a w1 = w2 = w3 = w. Il ny a donc que deux paramtres indpendants, w et w0.
Ce problme admet une solution vidente : w = w0 = 1. Ainsi, pour le graphe G1, on a :

gw1 ,W ( x1 , x2 , x3 , x4 ) = f 1, f ( z1 , w ) , f ( z2 , w ) , f ( z 3 , w ) ,w = w0 + 3w1w0 = 4
o z1 = z2 = z 3 = (1 0 0 0 ) . On obtient bien le rsultat cherch.
T

De mme, considrons lapprentissage du nombre


dartes dun graphe. Supposons que, en plus des trois
graphes prcdents, lensemble dapprentissage
contienne le graphe G4, reprsent sur la figure 2-23.

Ce graphe est cyclique, de sorte quil doit subir le


prtraitement indiqu plus haut : une des artes du
cycle doit tre supprime, par exemple larte entre 1
et 2. Afin de conserver linformation sur lexistence de
1
2
1
2
Graphe G4
Graphe acyclique
cette arte dans le graphe initial, on affecte chaque
orient
nud une tiquette gale son degr ; on a donc
Figure 2-23. Graphe cyclique
prsent Xk = 1 pour tous les nuds de tous les graphes
de lensemble dapprentissage. Aucune autre information nest ncessaire pour le problme que lon cherche rsoudre. On a donc, pour le graphe G4 :
gw4 ( x1 , x2 , x3 , x4 , x5 ) = f ( z5 , w )
avec :
x1 = 2, x2 = 2, x3 = 3, x4 = 1, x5 = 2, z1 = z2 = (1 0 0 0 2 ) ,
T

z3 = 1

f ( z1 , w )

f ( z2 , w ) 0 3 , z 4 = (1 0 0 0 1) , z5 = 1
T

f ( z3 , w )

f ( z4 , w ) 0 2 .
T

Postulons nouveau une fonction de nud affine f ( z, w ) = w0 + w1 z1 + w2 z2 + w3 z3 + w4 z4 . On a une


solution vidente : w0 = 0, w1 = w2 = w3 =1, w4 = 0,5. On obtient alors, pour le graphe G4 par exemple :

Les rseaux de neurones


CHAPITRE 2

107

gw4 ( x1 , x2 , x3 , x4 , x5 ) = 1 + 2 w + 2 w 2 = 5
ce qui est bien le rsultat cherch.
Indice de Wiener estim

450
Bien entendu, il est exceptionnel de disposer dune
400
solution vidente. Il faut donc avoir recours la proc350
dure dapprentissage dcrite plus haut. De plus, il faut
300
250
trouver la complexit convenable pour la fonction de
200
nud, ce qui ncessite de mettre en uvre des techni150
ques de slection de modles dcrites dans le premier
100
chapitre : validation simple, validation croise, leave50
0
one-out ou leave-one-out virtuel. La figure 2-24
0
50
100
150
200
250
300
350
400
450
Indice de Wiener
prsente le diagramme de dispersion des rsultats
obtenus pour lapprentissage de lindice de Wiener
Figure 2-24. Prdiction de lindice de Wiener
par une graph machine
dun graphe, cest--dire lapprentissage de la somme
des distances entre ses nuds. La base de donnes
utilise contient 150 graphes engendrs alatoirement, dont les indices de Wiener varient entre 1 et 426.
Les rsultats prsents ont t obtenus avec des fonctions de nuds qui sont des rseaux de neurones
4 neurones cachs ; la slection de modle a t effectue par validation croise. Dautres problmes
acadmiques sont dcrits dans [GOULON 2007].

Des exemples dapplication des graph machines la prdiction de proprits et dactivits de molcules
sont prsents dans la section Aide la dcouverte de mdicaments .

Exemples dapplications
Introduction
Le dbut de ce chapitre a t consacr lexpos du contexte mathmatique qui est essentiel pour
comprendre ce que sont rellement les rseaux de neurones et les principes sur lesquels repose leur mise
en uvre. Certains aspects peuvent paratre un peu techniques , mais il est important davoir bien
compris ces bases. En effet, la simplicit mme de mise en uvre des rseaux de neurones constitue un
danger, car elle peut conduire une application irrflchie qui donne des performances mdiocres ou
mauvaises.
Les rponses aux questions que se pose tout ingnieur ou chercheur qui envisage dutiliser des rseaux de
neurones peuvent galement tre claires par lexpos de quelques applications typiques. Bien entendu,
il nest pas question ici de faire un expos exhaustif des applications des rseaux de neurones : plusieurs
livres ny suffiraient pas. Il sagit plutt de montrer quelques applications ayant un caractre exemplaire,
en insistant sur les raisons pour lesquelles les rseaux de neurones ont un apport important, voire dcisif.

Reconnaissance de formes :
la lecture automatique de codes postaux
Cest sans doute dans le domaine de la reconnaissance de caractres que les rseaux de neurones ont
acquis leurs lettres de noblesse, et ont prouv quils constituent des alternatives fiables dautres
mthodes de classification. On citera ici quelques exemples et rsultats, qui sappuient sur les considrations pratiques dveloppes dans le paragraphe consacr aux rseaux de neurones pour la classification.

108

Lapprentissage statistique

La reconnaissance automatique de codes postaux a probablement t lun des problmes de reconnaissance dimages les plus tudis. En effet, si le traitement automatique du courrier adresse dactylographie ou imprime est relativement simple, celui du courrier adresse manuscrite est beaucoup plus
complexe, en raison de la variabilit des styles dcriture. Pour chaque objet postal, une machine automatique doit soit identifier le code, soit indiquer quelle ne peut pas lidentifier, et donc faire appel un
oprateur humain. Comme indiqu plus haut, il est plus onreux de rectifier une erreur de tri commise par
une machine que de faire lire un code postal par un oprateur, de sorte que le critre de performance le
plus frquemment utilis pour les machines de lecture de codes postaux est le suivant : pour un taux
derreur maximal fix (par exemple, 1 %) sur les codes identifis, quelle est la fraction du courrier qui
devra tre traite par un oprateur ? lheure actuelle, les machines les plus performantes font appel des
rseaux de neurones (conjointement dautres techniques), et le taux de rejet est infrieur 5 % pour un
taux derreur infrieur 1 %.
Lessor des tudes sur la reconnaissance des codes postaux est d deux facteurs : dune part, lenjeu
conomique du problme ; dautre part, le fait que, ds 1990, des bases de donnes de grande taille ont t
mises dans le domaine public par le Service postal des tats-Unis (USPS), puis par le National Institute
of Science and Technology (NIST). Cette disponibilit de bases de donnes, accessibles tous, a permis
de nombreux laboratoires (universitaires et industriels), de valider, de manire statistiquement significative, les mthodes et procdures quils avaient dveloppes. Cette politique a permis de faire progresser
ltat de lart sur la reconnaissance des codes postaux et, de manire plus gnrale, sur les problmes de
classification complexes.
La figure 2-25 prsente quelques extraits de la base
USPS, qui comprend en tout 9 000 caractres (ce qui
est encore relativement peu, eu gard la complexit
du problme). On observe immdiatement la diversit
des styles et les difficults auxquelles il faut faire face.
Considrons lexemple du code postal situ en haut
droite de limage ; on lit sans effort le code 68544,
mais on constate :
que le chiffre 6 est coup en deux morceaux ;
que le 8 et le 5 sont attachs ;
mais que le 5 est coup en deux, et sa partie droite
attache au 4 !

Figure 2-25. Quelques morceaux choisis de la base

de donnes USPS
Donc, si lon fonde la reconnaissance du code sur la
reconnaissance de chacun de ses chiffres sparment,
il faut dabord rsoudre le problme de la segmentation : comment sparer les chiffres les uns des
autres ? Une fois ce difficile problme rsolu, il reste traiter la trs grande diversit des styles, des tailles,
des orientations, des chiffres isols : il faut pour cela rsoudre le problme crucial de la reprsentation
des formes classer, cest--dire du choix des descripteurs qui seront utiliss par un ou plusieurs classifieurs, ventuellement neuronaux. Il est impossible de traiter ce problme de reprsentation de manire
gnrale, car il dpend compltement de lapplication mise en uvre : il est vident que lon ne peut pas
reprsenter, de la mme manire, des images de trait telles que des caractres manuscrits ou imprims, des
images issues de satellites mtorologiques, ou encore des radiographies mdicales.

En dpit de la grande diversit des traitements mis en uvre pour les images, il existe quelques oprations
de base que lon retrouve dans toutes les applications relles : dtection de contours, rehaussement de
contraste, etc. (certaines de ces oprations se trouvent galement dans le systme visuel humain). Dans le
cas de la reconnaissance de caractres, la normalisation est galement incontournable, pour que tous les
traitements portent sur des chiffres de mme taille. Lingnieur doit toujours raliser un compromis entre

Les rseaux de neurones


CHAPITRE 2

109

la complexit des prtraitements ncessaires pour aboutir la reprsentation choisie, et la complexit de


la classification : un prtraitement bien fait, qui extrait des caractristiques bien discriminantes et donc
pertinentes pour la classification, peut permettre lutilisation dun classifieur dune grande simplicit,
mais ce prtraitement ne doit pas tre trop gourmand en temps de calcul. En revanche, un prtraitement
primitif (par exemple, une simple normalisation) est extrmement rapide mais ne facilite pas la tche du
classifieur. Il faut donc trouver la solution qui prsente la meilleure performance compatible avec le temps
de calcul autoris par le cahier des charges de lapplication. Deux exemples vont tre prsents, qui
mettent en jeu des stratgies trs diffrentes pour rsoudre le mme problme.
Le premier exemple a t dvelopp au laboratoire AT&T Bell Labs. Il sagit dun rseau de neurones,
connu sous le nom de LeNet [LECUN 1989] ou rseau de convolution , qui utilise une reprsentation
par pixels (aprs normalisation). Les premires couches du rseau ralisent des traitements locaux
destins extraire automatiquement des caractristiques ; les dernires couches effectuent la classification proprement dite. Ce rseau est reprsent sur la figure 2-26. Il a t utilis avec succs dans de
nombreuses applications, notamment en traitement dimages (voir par exemple [OSADCHY 2007]).
10 neurones de sortie
Connectivit complte
30 neurones cachs
Connectivit complte
12 x 16
neurones cachs

Figure 2-26. LeNet,


un rseau de neurones
qui effectue lextraction
des caractristiques
et la classification.

Connectivit partielle
(poids partags)
12 x 64
neurones cachs

Connectivit partielle
(poids partags)
256 variables

Lentre du rseau est une matrice de 16 16 pixels. Une premire couche de neurones cachs est
compose de 12 ensembles de 64 neurones cachs, chacun des 64 neurones cachs recevant des informations concernant un champ rceptif de 5 5 pixels. Ces ensembles de 64 neurones sont appels
cartes de caractristiques , car les variables de tous les neurones dune carte donne sont affectes des
mmes paramtres (technique des poids partags , dcrite dans la section valuation du gradient
sous contrainte dgalit des paramtres ). Ainsi, on fait agir le mme oprateur, localement, sur chaque
ensemble de 25 pixels, de sorte que lensemble des sorties dun groupe de 64 neurones constitue une carte
du rsultat de lapplication de loprateur limage. Si la technique des oprateurs locaux est classique en
traitement dimages, loriginalit de la prsente mthode rside dans le fait que ces derniers ne sont pas
conus par lingnieur : ils sont dtermins par apprentissage partir dexemples. Lopration est renou-

110

Lapprentissage statistique

vele dans une deuxime couche doprateurs qui traitent les rsultats de la premire couche. On obtient
ainsi 12 cartes de 16 neurones cachs, soit 192 neurones dont les sorties constituent le vecteur de descripteurs utilis pour la classification. Celle-ci est effectue avec un rseau une couche de 30 neurones
cachs et 10 neurones de sortie. Les neurones de sortie utilisent un codage 1-parmi-C, qui a t dfini
plus haut : il y a autant de neurones dans la couche de sortie que de classes. La sortie du neurone i doit
tre gale 1 si la forme classer appartient la classe i, et doit tre sinon gale 0.
Ainsi, un tel rseau ralise automatiquement le prtraitement et la classification, oprations qui sont traditionnellement conues sparment. Le prix payer est videmment une certaine lourdeur dapprentissage
et, compte tenu du grand nombre de paramtres, la ncessit de faire preuve dune grande vigilance relativement au surajustement.
Pour traiter le mme problme, une approche trs diffrente [KNERR 1992] consiste raliser un prtraitement plus labor de limage, afin dextraire des caractristiques discriminantes qui permettent
dutiliser un classifieur relativement simple. Le prtraitement est la dtection de contours suivie dune
normalisation, qui produit 4 cartes de caractristiques de 64 lments, soit un vecteur de 256 composantes. Mettant en uvre la mthodologie de conception dun classifieur dcrite plus haut, les dix classes
ont t spares deux deux : 45 classifieurs diffrents ont t labors, dont lapprentissage a t effectu
sparment et qui sont trs simples puisque, dans lapplication considre, il se trouve que tous les exemples de lensemble dapprentissage sont linairement sparables deux deux. Chacun des 45 classifieurs
est donc constitu dun seul neurone.
La figure 2-27 montre les 18 erreurs commises par ce classifieur sur les 9 000 caractres de la base de
donnes USPS. Pour chaque chiffre manuscrit, lindication en haut droite est la classe dappartenance
du chiffre indique dans la base, et le chiffre en bas droite est la classe affecte par le classifieur. On
remarquera notamment le cas du dernier chiffre (en bas droite de la figure) qui est reconnu comme un
chiffre 1 alors quil est class dans la base comme un chiffre 8, ce qui est videmment une erreur dtiquetage.

Figure 2-27. Les 18 erreurs


de classification commises
par sparation linaire des classes
deux deux

Limportance du choix de la reprsentation pour ce type dapplications a t mentionne plusieurs


reprises, notamment dans la section Mthodologie de conception dun classifieur . On peut la mettre
en vidence dans ce cas. Pour les deux reprsentations mentionnes plus haut (reprsentations par pixels
dune part, cartes de caractristiques aprs dtection des contours dautre part), la distance entre les barycentres des classes a t calcule ; elle est reprsente sur la figure 2-28. On observe que les distances
entre classes sont toujours suprieures, pour la reprsentation par cartes de caractristiques, ce quelles
sont pour la reprsentation par pixels. Ainsi, la reprsentation par cartes loigne les classes les unes des
autres, ce qui facilite videmment la tche des classifieurs.

Les rseaux de neurones


CHAPITRE 2

111

Le tableau 2-1 met en vidence lamlioration de performances qui rsulte de la mise en uvre dune
meilleure reprsentation : aprs ajustement des seuils de dcision afin dobtenir, dans les deux cas, un taux
derreur de 1 %, le taux de rejet pour la reprsentation par pixels est beaucoup plus lev que pour la
reprsentation par caractristiques. Il faut noter que les deux reprsentations ont la mme dimension (dans
les deux cas, chaque chiffre est reprsent par un vecteur de 256 composantes) : lamlioration ne
provient pas de la compacit de la reprsentation, mais de sa bonne adquation au problme pos. Cest
la rflexion de lingnieur qui fait la diffrence.
1,2
1,0
0,8
0,6
0,4
0,2
0
1

13

17

21

25

29

33

37

41

Couple de classes

Pixels

Caractristiques

Figure 2-28. Distances entre classes pour deux reprsentations : la reprsentation par cartes de caractristiques loigne
les classes les unes des autres, et donc facilite le travail ultrieur des classifieurs
Taux de chiffres bien classs

Taux de rejet

Taux dexemples mal classs

Reprsentation par pixels

70,9 %

28,1 %

1%

Reprsentation par caractristiques

90,3 %

8,7 %

1%

Tableau 2-1

Une application en contrle non destructif :


la dtection de dfauts dans des rails par courants de Foucault
Lexemple prcdent est relatif la reconnaissance automatique dimages. Bien entendu, les formes que
les rseaux de neurones peuvent classer ne sont pas ncessairement de cette nature : voici un exemple de
reconnaissance de signaux dans le domaine du contrle non destructif. Cette application consiste
dtecter les dfauts dans les rails du mtro parisien laide de courants de Foucault. Elle a t dveloppe
par lInstitut national de la recherche sur les transports et leur scurit (INRETS) pour la RATP
[OUKHELLOU 1997].
La dtection de dfauts dans les pices mtalliques laide de courants de Foucault est une technique classique dans le domaine du contrle non destructif. Son principe est simple : un bobinage cre un champ
magntique alternatif dans la pice contrler, ce qui engendre des courants de Foucault, dans une pais-

112

Lapprentissage statistique

seur qui dpend de la frquence du champ magntique. Ces courants sont dtects par un second
bobinage ; la prsence de dfauts dans le mtal modifie le signal recueilli, la fois en amplitude et en
phase. Ainsi, le signal induit constitue une signature des dfauts. Comme il existe toujours plusieurs catgories de dfauts, qui peuvent tre plus ou moins graves, il est important de pouvoir non seulement
dtecter ces dfauts, mais encore les classer. Il faut aussi pouvoir faire une distinction entre des dfauts et
des phnomnes normaux qui peuvent galement avoir une influence sur le signal : la jointure entre deux
rails provoque une modification des courants de Foucault, analogue celle engendre par une fissure,
alors quil sagit dun vnement normal (mais sa position est connue, ce qui facilite la discrimination).
Dans lapplication considre, le systme de cration et de dtection des courants de Foucault est mont
sous la voiture, quelques dizaines de millimtres du rail, comme reprsent sur la figure 2-29.

Figure 2-29. Photographie du systme de cration et de dtection des courants de Foucault

Comme toujours, le choix des descripteurs du signal conditionne en grande partie lefficacit de la discrimination. Comme il sagit ici dimages mono-dimensionnelles (par opposition aux images
bidimensionnelles traites prcdemment), on peut utiliser un relativement petit nombre de descripteurs qui sont fonds sur les composantes de Fourier du signal, condition que ces descripteurs soient
bien choisis. La mthode de la variable sonde, expose dans le chapitre 1, a t mise en uvre pour dvelopper cette application [OUKHELLOU 1998].

Fouille de donnes : le filtrage de documents


En raison de laugmentation constante du volume dinformations accessible lectroniquement, la conception et la mise en uvre doutils efficaces, permettant notamment lutilisateur de navoir accs qu

Les rseaux de neurones


CHAPITRE 2

113

linformation quil juge pertinente, devient une ncessit absolue. Comme la plupart de ces outils sont
destins tre utiliss dans un cadre professionnel, les exigences de fiabilit et de convivialit sont trs
importantes ; les problmes rsoudre pour satisfaire ces exigences sont nombreux et difficiles. Laccs
linformation pertinente peut tre ralise en fournissant un utilisateur des documents pertinents, ou
en lui proposant des passages de documents pertinents (ou des rponses des questions). Le premier cas
relve du domaine de la recherche de textes, le second du domaine de lextraction dinformations.
La catgorisation de textes, appele galement filtrage , consiste trouver, dans un ensemble de documents (comme un fil de dpches dagence de presse, ou un ensemble de pages Web), ceux relatifs un sujet
dfini par avance. On peut ainsi fournir un utilisateur, en temps rel, toutes les informations importantes
pour lexercice de son mtier. Dans ce cas, lutilisateur nexprime pas son intrt par une requte, mais par
un ensemble de documents pertinents qui dfinissent un thme ou une catgorie. Pour un thme donn, la
catgorisation consiste donc rsoudre un problme de classification supervise deux classes ; celui-ci
peut tre rsolu notamment par les mthodes dcrites dans cet ouvrage : les rseaux de neurones, les
machines vecteurs supports (chapitre 6) ou les modles de Markov cachs (chapitre 4).
Cest un problme trs difficile, qui va bien au-del de la recherche par mots-cls. En effet, supposons,
que lon cherche slectionner, dans le flot des dpches de lAFP, celles qui sont pertinentes pour le
thme prises de participations entre entreprises ; des textes qui contiennent les phrases : la socit A
a rachet la socit B ou bien A est entr dans le capital de B hauteur de 10 % , ou encore A vient
de franchir la hausse le cap des 20 % des parts sociales de B , sont tous pertinents, et pourtant ils ne
contiennent aucun des mots qui dfinissent le thme. En revanche, la phrase la participation des communistes au gouvernement inquite les chefs dentreprises nest pas pertinente, bien quelle contienne deux
des mots du thme.
Lapplication (extraite de [STRICKER 2000]) a t dveloppe pour la Caisse des dpts et consignations,
qui offre, sur lintranet du groupe, un service de filtrage de dpches de lAFP en temps rel. Les objectifs
sont doubles :
dveloppement dune application permettant un utilisateur dobtenir automatiquement un filtre
dinformation sur un thme de son choix, sous rserve de fournir des exemples de textes pertinents pour
le thme considr ;
dveloppement dun outil permettant de surveiller lobsolescence des filtres classiques, constitus de
systmes base de rgles.
Pour atteindre le second objectif, on fabrique une copie dun filtre base de rgles avec un filtre utilisant
un rseau de neurones. Comme le rseau de neurones fournit une probabilit de pertinence et non une
rponse binaire, il est possible danalyser les plus grandes divergences entre les deux filtres : les documents considrs comme pertinents par la mthode base de rgles, mais obtenant une probabilit proche
de zro avec le rseau de neurones, et les documents considrs comme non pertinents avec le premier et
obtenant une probabilit de pertinence proche de un avec le second [WOLINSKI 2000].
Le premier de ces objectifs consiste donc en la conception et la ralisation dun systme de cration automatique de filtres, dont la caractristique majeure est labsence dintervention dun expert, par opposition
la mise en uvre dun systme base de rgles. Il sagit donc de concevoir un systme de discrimination
deux classes ; partir dune base de documents tiquets comme pertinents ou non pertinents pour le
thme considr, il faut :
trouver une reprsentation des textes par des nombres, reprsentation qui doit tre aussi compacte que
possible ;
concevoir et mettre en uvre un classifieur utilisant cette reprsentation.
Le problme de la reprsentation des textes, et donc de la slection des variables, est videmment central
dans cette application.

Lapprentissage statistique

114

Slection des variables


Lapproche la plus conventionnelle est la reprsentation en sac de mots , dans laquelle un texte est reprsent par un vecteur dont chaque composante est un nombre qui est li la prsence ou labsence dun mot
dans le texte, ou sa frquence dans le texte. Cette approche prsente un inconvnient : la dimension de ce
vecteur est gale au nombre de mots du vocabulaire, ce qui est videmment norme. On peut nanmoins
remarquer que tous les mots ne sont pas galement discriminants : les mots les plus frquents (de, la, et...)
sont inutiles pour la discrimination, de mme que les mots trs rares. Dans une premire tape, on cherche
donc, pour un thme donn, trouver les mots les plus pertinents pour le thme considr.

Codage des mots


Les mots sont cods de la manire suivante : soit FT(m, t) la frquence doccurrence du terme m dans le
texte t, et FT(t) la frquence moyenne des termes dans le texte t. Alors le mot m est dcrit par la quantit :
x (m) =

1 + log ( FT ( m, t ))

,
1 + log ( FT ( t ))
dont on trouvera la justification dans [SINGHAL1996].

La loi de Zipf
Pour slectionner les mots discriminants, on est aid par la loi de Zipf [ZIPF 1949] : soit un corpus de T textes,
appelons FC(m) la frquence doccurrence du mot m sur le corpus T ; la quantit FT(m, t), frquence du mot m
dans le texte t, a t dfinie dans le paragraphe prcdent. Construisons une liste de mots, classs par ordre de
FC(m) dcroissant ; soit r(m) le rang du mot m dans cette liste. La loi de Zipf snonce ainsi : FC(m) r(m) = K,
o K est une constante qui dpend du corpus considr. Il y a donc un petit nombre de mots trs frquents, et
un grand nombre de mots trs rares qui napparaissent quune fois ou deux sur le corpus ; entre ces extrmes,
il existe un ensemble de mots dans lesquels il faut chercher les mots discriminants.

Extraction du vocabulaire spcifique


Pour dterminer le vocabulaire spcifique un thme donn,
on dfinit, pour chaque mot m de chaque texte pertinent t, le
rapport R(m, t) = FT(m, t) / FC(m). On range les mots du texte
par ordre de R(m, t) dcroissant, on supprime la seconde
moiti de la liste, et lon construit un vecteur boolen v(t) tel
que vi(t) = 1 si le mot i est prsent dans la liste, et 0 sinon. On
calcule enfin le vecteur v = v ( t ) , o la somme porte sur tous

log FC(m)

5
4
3
2
1
0
0

log r(m)

Figure 2-30. Vrification exprimentale


de la loi de Zipf sur le corpus Reuters,
et reprsentation des mots du vocabulaire
spcifique au thme Falkland petroleum
exploration

les documents pertinents : le vocabulaire spcifique du thme


est lensemble des mots dont la composante dans v est non
nulle. La figure 2-30 montre que, sur le corpus des dpches
Reuters, la loi de Zipf est assez bien vrifie, et que les mots
du vocabulaire spcifique du thme Falkland petroleum
exploration sont bien au milieu de la distribution.

Slection finale
lintrieur du vocabulaire spcifique ainsi dfini, qui peut tre encore vaste (une quelques centaines
de mots), une slection finale est effectue par la mthode de la variable sonde, dcrite dans le chapitre 1.
la fin de cette tape, il apparat que, en moyenne sur 500 thmes tudis, le vocabulaire spcifique dun
thme comprend 25 mots, ce qui est tout fait raisonnable pour un vecteur de variables dun rseau de

Les rseaux de neurones


CHAPITRE 2

115

neurones. Nanmoins, cette reprsentation nest pas encore satisfaisante, mme si elle est compacte. En
effet, les mots seuls sont ambigus : dans une application comme celle-ci, il est indispensable de tenir
compte du contexte.

Dtermination du contexte
Pour introduire le contexte dans la reprsentation des textes, on cherche des mots de contexte dans une
fentre de 5 mots de part et dautre de chaque mot du vocabulaire spcifique. On dfinit :
des mots de contexte positifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabulaire spcifique, dans les documents pertinents ;
des mots de contexte ngatifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabulaire spcifique, dans les documents non pertinents.
Pour slectionner les mots de contexte, on utilise exactement la mme procdure que pour la dtermination
du vocabulaire spcifique. Typiquement, pour lexemple de prise de participation entre entreprises , on
constate que pour le mot capital , qui fait partie du vocabulaire spcifique, les mots dtient et
droits se trouvent dans les mots de contexte spcifique, et les mots risque et fonds dans le
contexte ngatif.
En moyenne sur 500 thmes diffrents, un thme est dfini par 25 mots de vocabulaire spcifique, chacun
de ces mots ayant 3 mots de contexte.

Conception et apprentissage des filtres


Filtres sans contexte
Si lon ne tient pas compte du contexte, le filtre a pour variables les mots du vocabulaire spcifique, cods
comme indiqu prcdemment. Conformment la mthodologie de conception de classifieurs prsente
dans la section consacre la discrimination, la structure du classifieur dpend de la complexit du
problme. Sur les corpus et les thmes tests, les ensembles dapprentissage sont gnralement linairement sparables, de sorte que lon utilise un rseau un seul neurone fonction dactivation sigmode.

Filtres avec contexte


Le contexte doit modifier le descripteur correspondant
chaque mot du vocabulaire spcifique. Le filtre reprsente donc chaque mot du vocabulaire par un neurone
fonction dactivation sigmode, dont les variables
sont le descripteur du mot considr et les descripteurs
des mots de contexte de celui-ci. Les sorties de
ces neurones sont spares linairement par un neurone
fonction dactivation sigmode. La figure 2-31 reprsente
un filtre avec contexte et un filtre sans contexte.
Lutilisation du contexte augmente videmment le
nombre de paramtres. Typiquement, pour un thme
avec 25 mots de vocabulaire spcifique et 3 mots de
contexte par mot du vocabulaire spcifique le filtre
comprend 151 paramtres. Compte tenu du fait que le
nombre de paramtres peut tre du mme ordre de
grandeur que le nombre dexemples (voire infrieur
celui-ci), il est impratif de mettre en uvre une
mthode de rgularisation. La mthode de modration

Filtre sans contexte

Filtre avec contexte

Figure 2-31. Un filtre sans contexte est un classifieur


linaire qui reoit en entre le descripteur de chacun
des mots du vocabulaire spcifique (rectangles
en traits gras) ; dans un filtre avec contexte,
les entres sont les descripteurs des mots
du vocabulaire spcifique (rectangles en traits gras)
et les mots de contexte (rectangles en traits fins).

Lapprentissage statistique

116

des poids a t mise en uvre dans cette application ; on en verra leffet dans la section consacre
lapprentissage avec rgularisation.

Validation des rsultats


Dans le domaine du traitement automatique du langage, la comptition organise chaque anne dans le
cadre de la confrence TREC (Text REtrieval Conference) constitue une rfrence. La mthodologie
prsente ci-dessus a t mise en uvre dans le cadre de la comptition TREC-9, pour lpreuve de
routing : celle-ci consiste classer un ensemble de textes par ordre de pertinence dcroissante pour des
thmes imposs. Lpreuve de TREC-9 portait sur deux ensembles de textes, se rapportant respectivement
63 et 500 thmes, et comprenant au total 294 000 documents. Il va de soi que le nombre de documents
analyser et le nombre de thmes rendent impossible tout traitement manuel ou semi-automatique
des donnes, dans le temps imparti la comptition. Lapproche dcrite ci-dessus a remport lpreuve
pour chacun des deux thmes ; la figure 2-32 reprsente les scores raliss par les participants [STRICKER
2001].
preuve OHSU (63 thmes)

preuve MeSH (500 thmes)


1

Scor e

0,8

0,8

0,6
0,4

0,385

0,6

0,343

0,326

0,317
0,237

0,234

0,2

0,185

0,177
0,099

0,4

0,081

0,335
0,253

)
0)
2)
00
N
9r
r
o0
N
N
no
N
er
R
U
rp
fr2
rf2
2R
nt
trp
(K
9r
(M
KU
S2
(S
k9
a
n
(
(
k
(
o
n
a
(
C
.
e
(o
IG
C
en
.(
D
ft
U
D
ft
/S
eg
U
s
IC
eg
so
IC
IT
so
er
rs
ijm
ro
ro
IR
ijm
tg
ic
ge
ic
N
.N
u
t
M
.
u
M
U
R
U
R
r2

)
r1

)
po

)
po

)
r1

2)

0,158

0,2

0,0078
0
ICDC
(S2RNsamp)

Microsoft
(ok9rfr2ps)

Rutgers U
(antrpnms00)

Rutgers U (antrpms00)

Figure 2-32. Rsultats de lpreuve de routing de TREC-9 : en noir : rsultats obtenus par la mthode dcrite ci-dessus ;
en gris : rsultats obtenus par dautres mthodes

Aide la dcouverte de mdicaments : prdiction de proprits


chimiques et dactivits thrapeutiques de molcules
Ltude des relations structure-activit des molcules (QSAR pour Quantitative Structure-Activity Relations) et de leurs relations structure-proprit (QSPR pour Quantitative Structure-Property Relationships)
est un domaine en plein essor, en raison des progrs trs rapides de la simulation molculaire. Ces travaux
ont pour objectif de prdire les proprits physicochimiques ou thrapeutiques de molcules partir de
donnes structurales qui peuvent tre calcules a priori par ordinateur, sans quil soit ncessaire de synthtiser la molcule ; on peut donc viter une synthse coteuse si lon peut prdire que la molcule envisage ne possde pas les proprits souhaitables [HANSCH 1995]. Cette approche est particulirement
utile dans le domaine de la bio-ingnierie, pour la prdiction de proprits pharmacologiques de molcules, mais elle peut videmment tre transpose nimporte quel domaine (prdiction de proprits
mcaniques de matriaux complexes partir de leur formulation, prdiction de paramtres thermodynamiques de mlanges, etc.). Lobjectif est toujours de rduire les cots de dveloppement, particulirement
importants dans lindustrie pharmaceutique, en remplaant des synthses ou des ralisations coteuses
par des prdictions fiables.

Les rseaux de neurones


CHAPITRE 2

117

Pourquoi les mthodes dapprentissage statistique peuvent-elles tre mises en uvre avec profit dans ce
contexte ? Si lon admet quil existe une relation dterministe entre certains descripteurs de la molcule
et la proprit que lon veut prdire, alors on est ramen un problme de dtermination de la fonction de
rgression de la proprit envisage, en fonction des descripteurs choisis.
La premire question quil convient de se poser est celle des donnes utilisables pour lapprentissage et pour
lvaluation des performances du rseau. Compte tenu de limportance des enjeux, il existe de nombreuses
bases de donnes concernant des proprits telles que le point dbullition, la solubilit dans leau ou le coefficient de partage eau-octanol, ou encore des activits telles que laction anti-VIH, la toxicit, etc.
La deuxime question se poser est celle des variables pertinentes pour le modle envisag. Ici, les
connaissances du chimiste doivent ncessairement guider le choix de ces variables. On peut envisager
plusieurs catgories de descripteurs :
des descripteurs chimiques tels que la masse molculaire, le nombre datomes de carbone ;
des descripteurs gomtriques tels que le volume de la molcule, sa surface, son ovalit ;
des descripteurs lectriques tels que les charges portes par les diffrents atomes, le moment dipolaire ;
etc.
Pour chaque proprit que lon cherche prdire, il faut donc tablir un ensemble de descripteurs que lon
peut supposer pertinents, et utiliser une technique de slection de variables, comme celles dcrites dans le
premier chapitre, afin de dterminer les descripteurs qui sont rellement utiles pour les molcules et la
proprit considres. En raison de leur parcimonie, des rseaux de neurones de trs petite taille (5
7 neurones cachs) fournissent gnralement des rsultats de meilleure qualit que les techniques de
rgression multilinaire habituellement mises en uvre dans ce domaine [DUPRAT 1998].
Nanmoins, les proprits et activits des molcules dpendent en grande partie de la structure de cellesci ; cest pourquoi il est particulirement intressant dutiliser des mthodes de rgression ou de classification de donnes structures telles que les graph machines dcrites prcdemment dans la section
Modlisation et classification de donnes structures . En effet, elles permettent de saffranchir
compltement de la dtermination, du calcul et de la slection des descripteurs, puisque la structure
chimique dtermine directement les prdictions du modle.
9

Ensemble dapprentissage-validation
Ensemble de test

8
Activit prdite

titre dexemple, considrons la prdiction des


proprits anti-VIH de drivs de la ttrahydroimidazobenzo-diazepinone (TIBO), qui agit en
bloquant lactivit de lenzyme qui permet la duplication du rtrovirus. Lactivit est exprime quantitativement par le rapport log(1/IC50), o IC50 est la
concentration en TIBO qui produit linhibition de
50 % de lenzyme responsable de la duplication.
Les rsultats sont prsents sur la figure 2-33 ; ils
sont de meilleure qualit que ceux obtenus par les
mthodes conventionnelles, y compris les rseaux
de neurones, avec le grand avantage de supprimer
les phases de conception, calcul et slection des
descripteurs [GOULON 2006].

7
6
5
4
3
3

5
6
7
Activit mesure

Figure 2-33. Prdiction dune activit anti-VIH

Comme mentionn dans la prsentation des graph


machines, celles-ci peuvent galement effectuer des tches de classification. Un ensemble de donnes de
321 molcules, possdant des groupements fonctionnels varis, a t divis en un ensemble dapprentissage-validation de 274 exemples et un ensemble de test de 47 exemples. La slection de modles a t
effectue par validation croise laide de 10 sous-ensembles. La procdure a conduit au choix dune

118

Lapprentissage statistique

fonction de nud constitue dun rseau de neurones 3 neurones cachs, qui ne commet aucune erreur,
ni sur les donnes dapprentissage, ni sur les donnes de test.
De nombreux autres exemples dapplications sont dcrits dans [GOULON 2007].

Une application en formulation :


la prdiction de la temprature de liquidus de verres
Dans le mme esprit que lapplication prcdente, on peut prdire des paramtres thermodynamiques de
matriaux en fonction de la composition de ceux-ci. Cest le cas notamment pour la temprature de
liquidus de verres doxydes. Cette temprature est la temprature maximale laquelle des cristaux sont
en quilibre thermodynamique avec le liquide ; il est important, industriellement, de pouvoir prdire cette
temprature en fonction de la composition du verre, car la valeur de la viscosit la temprature de
liquidus est un lment important pour le choix des paramtres des procds de mise en forme des verres.
La prdiction de cette temprature en fonction de la composition du verre est difficile, car les diagrammes
prsentent des variations brutales dans le domaine dintrt ; compte tenu de cet enjeu industriel, de
nombreuses tudes ont t menes (voir par exemple [KIM 1991]) et des bases de donnes sont disponibles. Lutilisation de modles non linaires obtenus par apprentissage sest montre avantageuse par
rapport aux mthodes traditionnelles, notamment pour les verres ayant plus de trois composantes.
La figure 2-34 illustre, sur un exemple concret, la parcimonie des rseaux de neurones. Les variables des
modles sont les teneurs en oxydes et le modle doit prdire la temprature de liquidus. La figure 2-34(a)
prsente le rsultat obtenu sur un verre de silice (compos, outre de SiO2, doxyde de potassium K2O et
dalumine Al2O3), obtenu avec un rseau 6 neurones cachs (25 paramtres), et la figure 2-34(b) le
rsultat obtenu avec un polynme de degr 3, dont le mme nombre de paramtres est trs voisin (19). Il
est clair que, nombre de paramtres peu prs quivalent, le rseau de neurones fournit un bien meilleur
rsultat. La figure 2-34(c) indique, pour mmoire, le rsultat obtenu avec un modle linaire.

Modlisation dun procd de fabrication : le soudage par points


Le soudage par points est le procd de soudage le plus utilis dans lindustrie automobile : des millions de
soudures sont effectues chaque jour. Le procd est schmatis sur la figure 2-11 : le soudage des deux tles
est effectu en faisant passer un courant trs intense (des kiloampres) pendant un temps trs court (quelques
centaines de millisecondes) entre deux lectrodes presses contre la surface des tles. Lchauffement
produit par effet Joule fait fondre une zone des tles. Aprs refroidissement, le diamtre de la zone fondue
(typiquement 5 mm) caractrise la qualit de la soudure ; si ce diamtre est infrieur 4 mm, la soudure est
considre comme dfectueuse. Le diamtre du point soud est donc un lment crucial de la scurit du
vhicule. lheure actuelle, il nexiste pas de mthode physique non destructive qui permette dvaluer rapidement le diamtre de la soudure. En consquence, une stratgie industrielle typique consiste :
utiliser une intensit de courant excessive, ce qui produit un trs grand chauffement, donc ljection
de gouttelettes de mtal en fusion de la zone de soudage (cest lorigine des tincelles que lon
observe chaque soudure effectue par les robots de soudage sur une chane de fabrication) ;
raliser des soudures en surnombre afin que, avec une probabilit voisine de 1, on ait au moins une
soudure de bonne qualit.
Lexcs de courant et le trop grand nombre de soudures conduisent une dgradation rapide des lectrodes, qui doivent tre changes ou rusines frquemment.
Pour toutes ces raisons, la modlisation du processus en vue dobtenir une prdiction fiable du diamtre de
la soudure, en temps rel, partir de mesures effectues pendant le soudage, constitue un problme industriel
important. Il est trs difficile de modliser la dynamique du processus de soudage, pour plusieurs raisons :

Les rseaux de neurones


CHAPITRE 2

6 neurones
cachs

1600
1500
1400
1300
1200
1100
1000
900
800
700
800

900

1000

1100

1200

1300

1400

1500

1600

1700

1300

1400

1500

1600

1700

1300

1400

1500

1600

1700

(a)

1600

Polynme de degr 3

1500
1400
1300
1200
1100
1000
900
800
700
800

900

1000

1100

1200

(b)

1600
1500

0 neurones cachs
(modle linaire)

1400
1300
1200
1100
1000
900
800
700
800

900

1000

1100

1200

(c)

Figure 2-34. Diagrammes de dispersion (temprature prdite en fonction de la temprature observe) pour la prdiction
de la temprature de liquidus de verres doxydes en fonction de la composition, pour trois modles diffrents.

119

Lapprentissage statistique

120

le temps ncessaire pour intgrer numriquement les quations diffrentielles et les quations aux drives partielles du modle de connaissance est suprieur, de plusieurs ordres de grandeur, la dure
dune soudure : on ne peut donc pas utiliser un tel modle pour une prdiction en temps rel ;
certains paramtres physiques, qui interviennent dans les quations du modle de connaissance, sont
mal connus.
La modlisation par apprentissage est donc une alternative intressante un modle de connaissance. Le
procd tant non linaire et prsentant plusieurs variables, les rseaux de neurones sont de bons candidats pour effectuer une prdiction, en temps rel, du diamtre du point fondu, et donc de la qualit de la
soudure, en fonction de mesures effectues pendant la soudure [MONARI 1999].
Les difficults sont, dune part, le choix des variables du modle et, dautre part, le fait que la constitution
dune base de donnes est onreuse : le nombre dexemples est donc limit.
Les grandeurs candidates pour constituer des variables du modle sont des grandeurs mcaniques et lectriques qui peuvent tre mesures durant le processus. La slection des variables a t effectue laide
des mthodes dcrites dans le chapitre 1, et le choix ainsi effectu a t valid par les experts impliqus
dans le dveloppement du modle de connaissance du procd.
Comme il nexiste pas de mthode non destructive simple pour prdire le diamtre du point fondu, la base
de donnes est construite de la manire suivante : un ensemble de soudures est effectu dans des conditions bien contrles ; elles sont ensuite arraches ( dboutonnes ) et le diamtre du bouton fondu ,
qui reste solidaire dune des tles, est mesur. Cest un processus long et coteux, de sorte que lensemble
dapprentissage initial comprenait seulement 250 exemples. En utilisant lestimation des intervalles de
confiance qui sera expose dans la section Effet du retrait dun exemple sur lintervalle de confiance
pour sa prdiction , un plan dexpriences a t tabli, qui a permis denrichir progressivement la base
de donnes disponible. La moiti de ces donnes a t utilise pour lapprentissage, lautre pour le test ;
la slection de modle a t effectue par la procdure de leave-one-out virtuel, de sorte quil na pas t
ncessaire dutiliser un ensemble de validation.
La figure 2-35 prsente des diagrammes de dispersion typiques, o chaque prdiction figure avec son
intervalle de confiance. Lerreur de gnralisation estime (score de leave-one-out, voir chapitre 1 et
section Slection de modles du prsent chapitre) est de 0,27 mm, et lEQMT de lordre de 0,23 mm.
Ces quantits tant de lordre de grandeur de lincertitude de mesure, ces rsultats sont trs satisfaisants.

Diamtre prdit (mm)

Diamtre prdit (mm)

8
7
6
5
4
3

7
6
5
4
3
2

2
2

3
4 5
6
7 8
Diamtre mesur (mm)

3
4 5
6
7
8
Diamtre mesur (mm)

Figure 2-35.
Diagrammes
de dispersion
pour la prdiction
du diamtre
de soudures
par points,
et intervalles
de confiance sur
les prdictions

Les rseaux de neurones


CHAPITRE 2

121

Application en robotique :
modlisation de lactionneur hydraulique dun bras de robot
On cherche concevoir un modle dun bras de robot dont la position est commande par un actionneur
hydraulique. La position du bras dpend de la pression de liquide hydraulique dans lactionneur, pression
commande par louverture dune vanne. Il sagit dun processus dynamique, command en temps discret ;
comme indiqu dans la section quoi servent les rseaux de neurones boucls ? , on omet de mentionner
la priode dchantillonnage T afin dallger les notations. Les variations de louverture de la vanne, cest-dire la squence de signaux de commande {u(k)}, et la pression dhuile correspondante, cest--dire la
squence de la grandeur modliser {yp(k)}, sont reprsentes sur la figure 2-36. Cet ensemble de donnes
contient 1 024 points de mesure : la premire moiti dentre eux est utilise pour lapprentissage, la seconde
pour lestimation de la performance (squence de test). On ne dispose daucune autre information sur le
processus : on a donc ncessairement recours une modlisation bote noire.
1,5
Commande

1
0,5
0
-0,5
-1
-1,5

200

400

(a)

600

800

1000

Squence de test

Squence d'apprentissage
4
Sortie du processus
2
0
-2
-4

200

400

(b)

600

800

1000

Figure 2-36. Squences dapprentissage et de test pour la modlisation dun bras de robot

Lexamen des donnes montre que le processus nest certainement pas linaire et que, compte tenu des
oscillations observes en rponse des variations de u(k) qui sont presque des chelons, le processus est
au moins dordre 2. On observe aussi que les squences dapprentissage et de test nexplorent quapproximativement le mme domaine de fonctionnement (signaux de sortie et de commande de mme type et de
mme amplitude). On note quaux instants 600 et 850 environ de la squence de validation, lamplitude

122

Lapprentissage statistique

de la commande dpasse les amplitudes maximales atteintes sur la squence dapprentissage. On ne se


trouve donc pas dans les meilleures conditions possibles.
Cet exemple sera tudi en dtail dans la section Que faire en pratique ? Un exemple de modlisation
dynamique bote noire . Les meilleurs rsultats ont t obtenus [OUSSAR 1998] avec un modle dtat
du second ordre, dont lune des variables dtat est la sortie elle-mme, de la forme :
g ( k + 1) = x1 ( k + 1) = 1 ( x1 ( k ) , x2 ( k ) , u ( k ))
x2 ( k + 1) = 2 ( x1 ( k ) , x2 ( k ) , u ( k ))

avec deux neurones cachs. Il est reprsent sur la figure 2-37.

g(k+1) = x1(k+1)
x2(k+1)

q-1
5

yp
g

u(k)

x2(k)
g(k) = x1(k)

Figure 2-37. Modle neuronal dtat pour lactionneur


hydraulique. La sortie est lune des variables dtat.

-5

0
200
100
400
500
300
Figure 2-38. Modlisation dtat de lactionneur hydraulique

Lerreur quadratique moyenne obtenue avec le modle de la figure 2-37 est de 0,07 sur la squence
dapprentissage et de 0,12 sur la squence de validation, ce qui est une trs bonne performance compte
tenu de la reprsentativit des donnes disponibles. Les rsultats obtenus sur la squence de test sont
reprsents sur la figure 2-38. Les dfauts de modlisation rsultent du fait quil y ait des perturbations
non mesures, qui ne figurent pas dans les variables du rseau.

Modlisation semi-physique dun procd manufacturier


La mthode de modlisation semi-physique sera dcrite en dtail dans la section Modlisation dynamique bote grise . Lapplication qui en est prsente ici porte sur la modlisation du schage du ruban
adhsif Scotch.
Un ruban adhsif est constitu dun film de matire plastique le substrat sur lequel est dpos un film
liquide le revtement constitu dun polymre adhsif dissout dans un solvant. Lensemble passe dans
un four, dans une atmosphre gazeuse o la pression partielle du solvant est trs infrieure la pression
partielle lquilibre la temprature du four ; en consquence, le solvant svapore, de sorte que la

Les rseaux de neurones


CHAPITRE 2

123

concentration du solvant dans le revtement au voisinage de la surface devient infrieure la concentration du solvant dans le volume du revtement. Le solvant diffuse alors du volume vers la surface pour
compenser ce gradient de concentration, ce qui alimente encore lvaporation. Le processus se poursuit
jusqu schage du revtement, de sorte que seul subsiste ladhsif la surface du substrat.
Traditionnellement, le solvant est un solvant organique. Pour des raisons de scurit et denvironnement,
il est souhaitable de remplacer les solvants organiques par de leau. Un modle physique prcis du
schage en prsence dun solvant organique existe [PRICE 1997] ; il est constitu de treize quations algbriques et diffrentielles non linaires couples ; lorsque le solvant organique est remplac par de leau,
certains lments de ce modle ne sont plus valables, de sorte que les prdictions du modle sont beaucoup moins prcises.
La thorie de la dissolution du polymre dans leau est moins bien connue que celle du polymre dans un
solvant organique, de sorte que lon ne peut pas laborer un modle de connaissance satisfaisant ; dautre
part, des squences de mesure du poids de lchantillon en fonction du temps et de la temprature du four
sont disponibles : lutilisation dun modle semi-physique parat donc possible et opportune.
Les quations qui constituent le modle expriment :
la conservation de la masse dans le volume du solvant : cette quation ne peut tre remise en cause par
le changement du solvant ;
la loi qui rgit le courant de solvant vers la surface (loi de Fick). La validit de cette loi nest pas discutable, mais elle fait intervenir une grandeur (le coefficient de diffusion) dont la variation en fonction de
la concentration et de la temprature est donne par une thorie (thorie du volume libre) dont la validit, dans le cas o le solvant est de leau, est incertaine ;
la condition de conservation de la masse la surface : toute molcule qui arrive la surface, et
svapore, contribue la variation de la pression partielle du solvant dans le gaz cette loi ne peut tre
remise en cause ;
la condition linterface entre le revtement et le substrat : le substrat tant impermable au solvant, il
ny a aucun flux de solvant vers le substrat ;
la valeur de la pression partielle de solvant dans le gaz, qui constitue la force motrice du processus. Cette
grandeur est donne par une loi dont la validit nest pas remise en cause par les experts.
la lumire de cette analyse, il apparat que cest la variation du coefficient de diffusion qui doit tre
reprsente par un rseau de neurones bote noire au sein du modle semi-physique. Cest ce qui a t
effectu en suivant la mthode de conception esquisse plus haut ; elle est dcrite en dtail dans la section
Modlisation dynamique bote grise . Il faut noter que les quations du modle ne sont pas des quations diffrentielles, mais des quations aux drives partielles ; ceci nest pas un obstacle lutilisation
de la mthode. Un schma explicite de discrtisation a t utilis pour la variable de temps, et une discrtisation implicite a t utilise pour la variable despace.
Le lecteur intress par les dtails de la ralisation du modle et par les rsultats obtenus pourra les lire
dans [OUSSAR 2001]. On trouvera galement une autre application la dtection automatique de dysfonctionnements dans une colonne distiller industrielle mettant en uvre la modlisation neuronale semiphysique, dans [PLOIX 1997]. Mentionnons enfin que des applications sont oprationnelles dans un
groupe industriel franais majeur, pour la formulation de matriaux et de produits nouveaux.

Contrle de lenvironnement : hydrologie urbaine


La Direction de leau et de lassainissement du dpartement de Seine-Saint-Denis a dvelopp un systme
sophistiqu de mesure des niveaux deau dans le systme de collecte des eaux pluviales, et a procd des
mesures systmatiques des chutes de pluie et des niveaux deau correspondants. Lobjectif est une utilisa-

124

Lapprentissage statistique

tion optimale du rseau et une bonne anticipation des difficults qui peuvent rsulter de pluies importantes. La fiabilit du systme dpend donc largement de la fiabilit des capteurs des niveaux deau dans
les collecteurs : il est donc important de pouvoir dtecter automatiquement quun capteur est en panne
[ROUSSEL 2001].
La possibilit de crer, par apprentissage, des modles statiques ou dynamiques a permis la ralisation de
nombreux systmes de dtection de dysfonctionnements : si lon dispose dun modle prcis du fonctionnement normal du processus que lon veut surveiller, et que lon observe une diffrence significative entre
les prdictions du modle et les mesures effectues, on peut en conclure que le systme est en fonctionnement anormal ou, dans lexemple dcrit ici, que le capteur considr est en panne.
Deux types de pannes doivent tre considrs :
capteur bloqu (fournissant une mesure constante) ;
capteur subissant une drive lente.

Erreur moyenne de modlisation

Ces deux types de pannes peuvent tres dtects en utilisant des rseaux de neurones boucls, notamment
des modles NARMAX, qui seront dcrits en dtail dans la section Techniques et mthodologie de
conception de modles dynamiques de ce chapitre, ainsi que dans le chapitre 4. Ainsi, la figure 2-39
montre clairement la diffrence de comportement de lerreur de modlisation lorsque le capteur est en
fonctionnement normal et lorsquil drive.
0,04
0,02
0
-0,02

11

13
Drive
Fonctionnement
normal

-0,04
-0,06
-0,08
-0,10

Figure 2-39.
Dtection
de panne
de capteur dans
un collecteur
deau pluviale

-0,12
Jour

Une application en robotique mobile :


le pilotage automatique dun vhicule autonome
Commander un processus, cest dterminer les commandes lui appliquer afin de lui assurer un comportement donn (dfini par un cahier des charges) en dpit de perturbations.
Lexemple prsent ici est celui dun vhicule Mercedes 4 4 (baptis REMI), quip par la socit
SAGEM des capteurs et actionneurs ncessaires pour que le vhicule puisse tre autonome. Commander
ce processus, cest envoyer aux actionneurs du volant, de lacclrateur et du frein, les signaux de
commande ncessaires pour que le vhicule suive une trajectoire dfinie lavance, avec un profil de
vitesse dtermin au pralable, en dpit des perturbations telles que la pente de la route, son dvers, les
bourrasques de vent, des drapages ventuels, etc.
Les rseaux de neurones sont de bons candidats pour tre des lments de systmes de commande de
processus non linaires. En effet, on a vu leur capacit raliser des modles, botes noires ou aids de
connaissances physiques. Or, pour tre en mesure dlaborer un systme de commande pour un processus,

Les rseaux de neurones


CHAPITRE 2

125

il faut gnralement disposer dun modle de celui-ci ; les rseaux de neurones interviennent donc dans
les systmes de commande non linaires comme modles du processus, soit pendant la phase dapprentissage, soit en tant qulment du systme de commande lui-mme (commande avec modle interne).
Dautre part, llaboration du signal de commande (par exemple langle dont il faut faire tourner le volant,
et la vitesse angulaire avec laquelle il faut le faire tourner) partir de linformation de consigne (le cap
que doit suivre le vhicule) implique gnralement la ralisation dune fonction non linaire, donc les
rseaux de neurones peuvent avantageusement assurer cette fonction : celle du correcteur.
Le vhicule exprimental REMI est quip dactionneurs (moteur lectrique pour faire tourner le volant,
actionneur hydraulique pour le circuit de freinage, moteur lectrique pour le papillon dadmission dair)
et de capteurs de deux types :
des capteurs qui permettent de connatre ltat du vhicule (capteurs proprioceptifs) : odomtres sur les
roues, capteur angulaire sur le volant et le papillon dadmission dair, capteur hydraulique sur le circuit
de freinage ;
un capteur qui permet de connatre la position du vhicule par rapport au monde extrieur (capteur
extroceptif) : une centrale inertielle.
Le systme de navigation et de pilotage est constitu des lments suivants :
un module de planification qui, partir de lobjectif atteindre et des contraintes (routes), dtermine la
trajectoire que doit suivre le vhicule, et le profil de vitesse respecter durant le trajet ;
un module de guidage, qui labore les consignes de cap et de vitesse ;
un module de pilotage, qui dtermine les positions souhaites pour les actionneurs ;
un module de commande des actionneurs eux-mmes.
Dans cette structure, les rseaux de neurones interviennent au niveau du pilotage pour dterminer les
actions souhaitables en fonction des consignes de cap et de vitesse [RIVALS 1994] [RIVALS 1995].
Lapplication a ncessit la conception et la ralisation de deux systmes de commande destins raliser
deux tches :
la commande du volant, pour maintenir le vhicule sur sa trajectoire : un rgulateur neuronal de la position a t ralis, qui permet une erreur latrale maximale de 40 cm, pour des courbures jusqu 0,1 m-1,
et des dvers jusqu 30 %, sur route et en tout-terrain ; cet asservissement a mis en uvre, en certains
de ses lments, une modlisation semi-physique ;
la commande de lacclrateur et du frein, pour respecter le profil de vitesse impos par le module de
guidage.
Il faut noter que les divers rseaux de neurones mis en jeu dans cette application, quils jouent le rle de
modles ou de correcteurs, sont tous de trs petite taille (moins dune dizaine de neurones cachs). Leur
mise en uvre en temps rel na ncessit aucun matriel spcialis : ils ont t raliss sous forme
uniquement logicielle, excuts sur une carte microprocesseur standard qui remplissait diverses autres
fonctions.

Techniques et mthodologie de conception de modles


statiques (rseaux non boucls)
Dans ce chapitre, on a dlibrment laiss de ct, jusqu cette section, un certain nombre de points techniques dont la connaissance nest pas essentielle pour comprendre ce que peuvent apporter les modles
neuronaux lingnieur ou au chercheur, mais quil faut videmment connatre pour mettre en uvre une
application. Cest pourquoi cette section prsente plus en dtail les points qui nont t que survols

126

Lapprentissage statistique

jusqu prsent. On reprendra ici les lments de mthodologie exposs succinctement dans le premier
chapitre : slection de variables, apprentissage, slection de modles.

Slection des variables


Rappelons ce qui a t indiqu au chapitre 1, section Slection de variables : la slection des variables
dun modle est trs importante pour assurer la parcimonie de celui-ci. Cette tape de la conception de
modles peut comprendre deux tches, raliser successivement :
la rduction de la dimension du vecteur des variables par analyse en composantes principales, analyse
en composantes indpendantes ou analyse en composantes curvilignes ; cette tche est explique en
dtail dans le chapitre 3 ;
la slection des variables pertinentes, qui a t dcrite dans le chapitre 1.
Pour cette dernire tche, la mthode de la variable sonde sapplique entirement la slection
des variables dun rseau de neurones. En effet, une variable qui est pertinente lest indpendamment du
modle postul, condition que lon prenne en considration le fait que deux variables prises sparment
peuvent ne pas tre pertinentes, mais que la combinaison des deux peut ltre. On applique donc la
mthode de la variable sonde comme indiqu dans le chapitre 1, en nomettant pas de tenir compte
des variables primaires et des variables secondaires ; on recense les variables primaires slectionnes,
seules ou en combinaison, et on les utilise comme variables dun rseau de neurones. On bnficie ainsi
de la parcimonie de ce dernier, qui, rappelons-le, est trs avantageuse pour les problmes ncessitant une
modlisation non linaire avec plus de deux variables.

Estimation des paramtres (apprentissage) dun rseau de neurones


non boucl
Rappelons que lestimation des paramtres du modle se fait par minimisation dune fonction de cot qui
traduit la distance entre les mesures effectues ykp (k = 1 N), prsentes dans lensemble dapprentissage, et les prdictions du modle g(xk, w) (k = 1 N) sur ces mmes mesures. Le plus souvent, on utilise
la fonction de cot des moindres carrs :
N

J ( w ) = ykp g ( x k , w ) .
k =1

Les mthodes qui peuvent tre mises en uvre pour minimiser la fonction de cot sont de deux types :
des mthodes non adaptatives dapprentissage : elles consistent estimer les paramtres du modle par
minimisation de la fonction de cot des moindres carrs, qui tient compte simultanment de tous les
exemples de lensemble dapprentissage ; lutilisation dune telle mthode ncessite videmment que
les N exemples soient disponibles ds le dbut de lapprentissage ;
des mthodes adaptatives dapprentissage : elles consistent modifier les paramtres du modle,
2
successivement en utilisant la fonction de perte relative chaque exemple k : ( xk , w ) = ykp g ( xk , w ) .
Cette technique est la seule qui soit applicable lorsquon dsire effectuer lapprentissage sans attendre
que tous les exemples soient disponibles ; elle permet galement de mettre jour un modle si le
processus quil modlise est soumis des drives lentes (usures, encrassements).

Terminologie
En anglais, on dsigne lapprentissage non adaptatif sous le terme de batch training ou off-line training, et lapprentissage adaptatif sous le
terme de on-line training.

Lapprentissage non adaptatif, le plus frquemment utilis, est dcrit dans la section suivante.

Les rseaux de neurones


CHAPITRE 2

127

Apprentissage non adaptatif des rseaux de neurones


Comme lapprentissage des systmes linaires, celui des systmes non linaires a pour objectif de minimiser la fonction de cot des moindres carrs. Comme expliqu dans le chapitre 1, cette minimisation se
fait aisment dans le cas des systmes linaires : la fonction de cot tant quadratique par rapport aux
paramtres, sa drive est linaire par rapport ceux-ci, de sorte que lon obtient un systme dquations
linaires. En revanche, si le modle nest pas linaire en ses paramtres, les quations obtenues en annulant le gradient de la fonction de cot ne sont pas linaires, ce qui complique lestimation des paramtres.
Cest une des composantes du prix payer pour bnficier de la parcimonie caractristique des rseaux
de neurones. Lautre composante de ce prix est lexistence de plusieurs minima locaux de la fonction de
cot : celle-ci ntant pas quadratique, elle ne possde pas un minimum unique.
La minimisation de la fonction de cot ne pouvant tre effectue par inversion de matrice, comme cest le
cas pour les modles linaires, il faut avoir recours des techniques classiques doptimisation : ce sont
des mthodes itratives, qui modifient les paramtres du modle en fonction du gradient de la fonction de
cot par rapport ces paramtres.
Chaque itration du processus dapprentissage ncessite donc la mise en uvre de deux ingrdients bien
distincts :
lvaluation du gradient de la fonction de cot choisie ;
la modification des paramtres en fonction de ce gradient, afin dapprocher un minimum de la fonction
de cot.
Terminologie
Pour lapprentissage non adaptatif, on utilise aussi, au lieu du terme ditration, le terme dpoque.

Ces deux points vont tre abords successivement ; on rappelle tout dabord le pralable indispensable :
la normalisation des variables.

Normalisation des variables et de la grandeur modliser


Rappelons que, avant tout apprentissage, il est indispensable de normaliser et de centrer toutes
les variables, ainsi que la grandeur modliser. La procdure de normalisation a t dcrite dans le
chapitre 1, section Prtraitement des donnes .

valuation du gradient de la fonction de cot


Lorsque le modle postul est un rseau de neurones, lvaluation du gradient de la fonction de cot peut
tre effectue dune faon conomique laide dun algorithme appel algorithme de rtropropagation
[RUMELHART 1986] [WERBOS 1974], devenu tellement populaire quil apparat parfois comme synonyme
dapprentissage de rseaux de neurones. En ralit, lalgorithme de rtropropagation nest pas un algorithme dapprentissage, mais un ingrdient dans une procdure dapprentissage. On montrera dailleurs
quil est possible dvaluer le gradient au moyen dune autre mthode que la rtropropagation.
proscrire
On trouve trop souvent lexpression rseau de neurones rtropropagation (quand ce nest pas rseau backprop ...) pour dsigner
un rseau de neurones non boucl. Cette expression est doublement absurde : dune part, il est parfaitement possible de faire lapprentissage dun rseau non boucl sans utiliser la rtropropagation, comme on le verra dans le paragraphe intitul valuation du gradient de
la fonction de cot dans le sens direct ; dautre part, on utilise aussi la rtropropagation dans lapprentissage de rseaux boucls, comme
on le montrera dans les paragraphes consacrs lapprentissage de modles dynamiques. Il ny a donc aucun lien entre larchitecture du
rseau (boucl ou non boucl) et lutilisation, ou la non-utilisation, de la rtropropagation.

Lapprentissage statistique

128

valuation du gradient de la fonction de cot par rtropropagation

Considrons un rseau de neurones non boucl avec neurones cachs et un neurone de sortie. Lextension
un rseau qui possde plusieurs neurones de sortie est triviale. Rappelons que le neurone i calcule une
quantit yi qui est une fonction non linaire de son potentiel vi :

ni
yi = f ( vi ) = f wij x ij ,

j =1
o x ij dsigne la variable j du neurone i. Les ni variables du neurone i peuvent tre soit les sorties
dautres neurones, soit les variables du rseau. Dans toute la suite, x ij dsignera donc indiffremment soit
la sortie yj du neurone j, soit la variable j du rseau, lune ou lautre constituant une variable du neurone i.
La fonction de cot dont on cherche valuer le gradient est de la forme :
N

J ( w ) = ykp g ( x k , w )
k =1

) = ( x , w ),
2

k =1

o (xk,w) est la fonction de perte relative lexemple k. Pour valuer le gradient de la fonction de cot,
il suffit donc dvaluer le gradient de la fonction de perte relative lobservation k, et de faire ensuite la
somme sur tous les exemples.
Lalgorithme de rtropropagation consiste essentiellement en lapplication rpte de la rgle des drives
composes. On remarque tout dabord que la fonction de perte ne dpend du paramtre wij que par lintermdiaire de la valeur de la sortie du neurone i, qui est elle-mme fonction uniquement du potentiel du
neurone i ; on peut donc crire :
( x, w )
vi
( x, w )
=
= ik x ij ,k ,
w
w

ij
i
ij x = x
x = xk
x = xk
k
o
( x, w )
= ik dsigne la valeur du gradient de la fonction de perte par rapport au potentiel du

vi x = xk
neurone i lorsque les valeurs des variables du rseau sont celles qui correspondent lexemple k ;
v
= x ij ,k dsigne la valeur de la drive partielle du potentiel du neurone i par rapport au para i
wij x = xk
mtre wij lorsque les variables du rseau sont celles qui correspondent lexemple k ;
x ij ,k est la valeur de la variable j du neurone i lorsque les variables du rseau sont celles qui correspondent lexemple k.
Cette dernire quantit est entirement calculable si lon connat les valeurs des paramtres. Or celles-ci
sont connues tout moment pendant lapprentissage, puisquelles ont initialement des valeurs alatoires,
qui sont ensuite modifies selon les algorithmes qui seront prsents dans la section Modification des
paramtres en fonction du gradient de la fonction de cot ; les quantits x ij ,k sont donc connues. Il reste
donc valuer les quantits ik prsentes dans le membre de droite de lquation. On va dmontrer que ces
quantits peuvent tre avantageusement calcules dune manire rcursive en menant les calculs depuis la
(ou les) sortie(s) du rseau vers ses entres.

Les rseaux de neurones


CHAPITRE 2

129

En effet :
pour le neurone de sortie, de potentiel vs :
p
g ( x, w )
( x, w )
2
yk g ( xk , w )) = 2e ( xk , w )
sk =
=
,
(

vs x = xk
vs x = xk vs

o e ( xk , w ) = ykp g ( x k , w ) est lerreur de modlisation commise par le rseau, muni du vecteur de paramtres w, pour lexemple xk.
Or, la prdiction du modle est le rsultat du calcul du neurone de sortie ; cette relation scrit donc :
sk = 2 e ( xk , w ) f vsk , o f vsk dsigne la drive de la fonction dactivation du neurone de sortie
lorsque les entres du rseau sont celles de lexemple k. Si, comme cest le cas lorsque le rseau est
utilis en modlisation, le neurone de sortie est linaire, lexpression se rduit : sk = 2 e ( xk ,w ) ;
pour un neurone cach i : la fonction de cot ne dpend du potentiel du neurone i que par lintermdiaire
des potentiels des neurones m dont une des variables est la valeur de la sortie du neurone i, cest--dire
de tous les neurones qui, dans le graphe des connexions du rseau, sont adjacents au neurone i, entre ce
neurone et la sortie :

( )

( )

( x, w )
( x, w )
vm
v
ik
=
= mk m .

vm x = x vi x = x
vi x = xk
vi x = xk
m
m
k
k
Dsignant par vmk le potentiel du neurone m lorsque les variables du rseau sont celles de lexemple k, on
v
= wmi f vik .
a : vmk = wmi xim,k = wmi f vik . Par consquent m
vi x = xk
i
i

( )

( )

On obtient donc finalement la relation :

ik = mk wmi f ( vik ) = f ( vik ) mk wmi


m

Ainsi, les quantits ik peuvent tre calcules rcursivement, en parcourant le graphe des connexions
dans le sens rtrograde , depuis la (les) sortie(s) vers les variables du rseau (ce qui explique le terme
de rtropropagation).
Une fois que les gradients des fonctions de perte ont t calculs, il suffit den faire la somme pour obtenir
le gradient de la fonction de cot.
Rsum de la rtropropagation

Lalgorithme de rtropropagation comporte deux phases pour chaque exemple k :


une phase de propagation, au cours de laquelle les variables correspondant lexemple k sont utilises
pour calculer les sorties et les potentiels de tous les neurones ;
une phase de rtropropagation, au cours de laquelle sont calcules les quantits ik .
Une fois que ces quantits sont disponibles, on calcule les gradients des fonctions de perte par les relations
( x, w )
J ( w ) N ( x k , w )
k i , puis le gradient du cot total
.
=
=
x

i j ,k
w
wij
wij
k =1
x = xk

ij
Lalgorithme de rtropropagation peut tre interprt sous une forme graphique, en introduisant le
rseau adjoint du rseau dont on veut estimer les paramtres. Cette approche, parfois utile, est
prsente dans le chapitre 4 traitant de lidentification de systmes dynamiques.

130

Lapprentissage statistique

Remarque importante
Lalgorithme de rtropropagation a t prsent ici dans le cadre de la minimisation de la fonction de cot des moindres carrs. Il est facile
de ladapter au calcul du gradient de nimporte quelle autre fonction de cot drivable, notamment, pour la classication, la fonction de
cot dentropie croise.

valuation du gradient de la fonction de cot dans le sens direct

Une mythologie sest dveloppe, selon laquelle lapprentissage des rseaux de neurones possdant
des neurones cachs a t rendu possible par linvention de la rtropropagation. En ralit, il est tout fait
possible dvaluer le gradient de la fonction de cot par un calcul plus simple dans son principe (quoique
plus coteux en temps de calcul), qui a dailleurs t largement utilis pour lestimation des coefficients
de filtres linaires en cascade. Ce calcul seffectue dans le sens direct, en valuant les gradients partir
des variables, vers les sorties.
En effet :
pour un neurone m qui a pour variable xj,k, valeur prise par la variable j du rseau pour lexemple k :
ym
vm
y
= m
= f vmk x j ,k ;

mj x = xk vm x = xk wmj x = xk

( )

pour un neurone m dont la sortie dpend de xj,k, valeur prise par la variable j du rseau ou par la sortie
du neurone j pour lexemple k, par lintermdiaire dautres neurones du rseau, situs entre les entres
et le neurone m :
ym
vm
y
= m
= f vmk

ij x = xk vm x = xk wij x = xk

( ) vy
l

m
l

yl
= f vmk
w

ij x = x
x = xk
k

( ) w
l

ml

yl
w
ij x = xk

o lindice l dsigne tous les neurones qui sont adjacents au neurone m dans le graphe des connexions,
entre le neurone j (ou la variable j) et le neurone m.
Ces deux relations permettent de calculer rcursivement les drives de la sortie de chaque neurone par
rapport aux paramtres qui ont une influence sur cette sortie, partir des variables du rseau jusquaux
sorties de ce dernier.
Une fois toutes ces drives calcules, on peut calculer le gradient de la fonction de perte :

( x, w )
g ( x, w )

y p g ( x, w ) 2
=
= 2 e x k , w
k
.

x = xk ij
x = xk

wij x = xk
ij

Or, g(x, w) est la sortie dun neurone du rseau, donc la dernire drive peut tre calcule rcursivement
par le mme procd que toutes les autres. Une fois valu le gradient de la fonction de perte pour chaque
exemple, on fait la somme de ces gradients comme pour la rtropropagation.
Comparaison entre lvaluation du gradient de la fonction de cot par rtropropagation et par calcul
dans le sens direct

Les calculs qui viennent dtre exposs montrent que la rtropropagation ncessite lvaluation dun
gradient par neurone, alors que le calcul direct requiert lvaluation dun gradient par connexion. Comme
le nombre de connexions est peu prs proportionnel au carr du nombre de neurones, le nombre
dvaluations de gradient est plus important pour le calcul direct que pour la rtropropagation.
Donc, pour lapprentissage de rseaux non boucls, on utilisera avantageusement la rtropropagation pour
valuer le gradient de la fonction de cot.

Les rseaux de neurones


CHAPITRE 2

131

valuation du gradient sous contrainte dgalit des paramtres : les poids partags

On a vu dans la section Modlisation et classification de donnes structures , quil est ncessaire, pour
lapprentissage des graph machines, deffectuer lapprentissage sous la contrainte quun certain nombre
de paramtres doivent tre gaux entre eux la fin de lapprentissage. On retrouve la mme contrainte
pour lapprentissage des rseaux de convolution (section Reconnaissance des formes : la lecture automatique de codes postaux ). Enfin, la mme contrainte est impose pour lapprentissage des rseaux
dynamiques, qui sera abord dans la section Techniques et mthodologie de conception de modles
dynamiques . Cette contrainte est appele contrainte des poids partags , introduite initialement dans
le contexte de la reconnaissance de la parole [WAIBEL 1989]). Or on verra, dans la section suivante, que
lvolution des paramtres, chaque itration de lalgorithme dapprentissage, dpend du gradient de la
fonction de cot ; pour que plusieurs paramtres restent gaux, il faut donc que le gradient de la fonction
de cot utilis pour leur mise jour soit le mme pour tous.
Supposons donc que, dans un mme rseau, v paramtres doivent tre gaux :
w1 = w2 = = wv = w
On peut crire le gradient de la fonction de cot sous la forme :
J w ,
J w1 J w2
J
+ ... +
+
=
w w
w w1 w w2 w
or

w
w1 w2
J
J
.
=
=
= ... = = 1, donc
w i =1 wi
w
w
w

Ainsi, lorsquun rseau contient des poids partags, il faut, chaque itration, effectuer la rtropropagation de la manire habituelle pour calculer les gradients par rapport ces paramtres, puis calculer la
somme de ces gradients, et affecter cette valeur chacun de ces gradients, avant de procder la modification de ces paramtres.

Modification des paramtres en fonction du gradient de la fonction de cot


Dans la section prcdente, on a vu comment valuer le gradient de la fonction de cot par rapport aux
paramtres du modle, chaque itration du processus dapprentissage. Une fois que lon dispose de cette
valuation, on effectue une modification des paramtres, afin dapprocher dun minimum de la fonction
de cot. On examine prsent quelques algorithmes de minimisation itrative des paramtres du modle.
La mthode du gradient simple

La mthode du gradient simple consiste modifier les paramtres par la formule suivante, litration i
de lapprentissage :
w ( i ) = w ( i 1) i J ( w ( i 1)) , avec i > 0.
La direction de descente est donc simplement oppose celle du gradient : cest en effet la direction selon
laquelle la fonction de cot diminue le plus rapidement. La quantit i est appele pas du gradient ou pas
dapprentissage.
Cette mthode est simple, mais elle prsente de nombreux inconvnients :
Si le pas du gradient est trop petit, la dcroissance du cot est trs lente ; si le pas est trop grand, le cot
peut augmenter ou osciller ; cette situation est illustre sur la figure 2-40, qui reprsente les lignes de
niveau de la fonction de cot (fonction de deux variables w1 et w2) et lvolution du point reprsentatif
du vecteur w au cours du droulement de lalgorithme.

132

Lapprentissage statistique

Au voisinage dun minimum de la fonction de cot, le gradient de cette dernire tend vers zro : lvolution du vecteur des coefficients devient donc trs lente. Il en va de mme si la fonction de cot prsente
des plateaux o sa pente est trs faible ; ces plateaux peuvent tre trs loigns dun minimum, et,
dans la pratique, il est impossible de savoir si une volution trs lente du gradient est due au fait que lon
est au voisinage dun minimum, ou que lon se trouve sur un plateau de la fonction de cot.
Si la courbure de la surface de cot varie beaucoup, la direction du gradient peut tre trs diffrente de
la direction qui mnerait vers le minimum ; cest le cas si le minimum recherch se trouve dans une
valle longue et troite (les courbes de niveau sont des ellipsodes allongs au voisinage du
minimum), comme on le voit galement sur la figure 2-40.

Figure 2-40.
Minimisation
de la fonction
de cot par
la mthode
du gradient
simple

Pour porter remde au premier inconvnient, de trs nombreuses heuristiques ont t proposes, avec des
succs divers. Les mthodes de recherche unidimensionnelle (notamment celle qui est prsente dans les
complments thoriques et algorithmiques la fin de ce chapitre), fondes sur des principes solides, sont
recommandes.
Pour faire face aux deux autres problmes, on utilise des mthodes du second ordre qui, au lieu de modifier les coefficients uniquement en fonction du gradient de la fonction de cot, utilisent les drives
secondes de cette dernire. Certaines de ces mthodes font galement intervenir un paramtre susceptible dtre choisi laide de mthodes de recherche unidimensionnelle.
Les grandes lignes des mthodes du second ordre les plus frquemment utilises, ainsi que les mthodes
de recherche unidimensionnelle du pas, sont prsentes dans les sections suivantes.
Les mthodes de gradient du second ordre

Toutes les mthodes du second ordre sont drives de la mthode de Newton, dont on dcrit ici le principe.
Le dveloppement de Taylor dune fonction f(x) dune seule variable x au voisinage dun minimum x* est
donn par la relation :
f ( x ) = f ( x *) +

d2 f
1
( x x *)2 2 + O x 3 ,
2
dx x = x*

( )

car le gradient de la fonction de cot f(x) est nul au minimum. Une approximation du gradient de la fonction de cot au voisinage du minimum est obtenue aisment partir de la relation prcdente, en la drivant par rapport w :
d2 f
df
( x x *) 2 .
dx
dx x = x*

Les rseaux de neurones


CHAPITRE 2

133

Par consquent, lorsque la variable x est au voisinage de x*, on pourrait atteindre ce minimum en une
seule itration si lon connaissait la drive seconde de la fonction son minimum : il suffirait pour cela
df
---- dx
-.
de modifier la variable w de la quantit x = ---------------------2
d--------f
d x2
x = x*
Le mme raisonnement sapplique une fonction de plusieurs variables, la drive seconde
tant
2 f
remplace par la matrice hessienne H(w) de la fonction optimiser, de terme gnral
: pour
xi x j
atteindre le minimum de la fonction de cot en une itration, il suffirait dappliquer au vecteur des poids
la modification suivante (sous rserve que la matrice hessienne soit inversible) :

x = H ( x *) f ( x ) .
1

Remarque
Ainsi, la diffrence de la mthode du gradient simple, les mthodes du second ordre adoptent une direction de dplacement, dans
lespace des variables, qui nest plus la direction du gradient, mais qui rsulte dune transformation linaire de celui-ci.

Cette dernire formule nest videmment pas applicable en pratique, puisque le vecteur x* nest pas
connu. Nanmoins, elle suggre plusieurs techniques qui mettent en uvre une approximation itrative de
la matrice hessienne (ou de son inverse). Deux dentre elles seront prsentes en annexe thorique et algorithmique de ce chapitre : la mthode de Broyden-Fletcher-Goldfarb-Shanno (algorithme BFGS,
[BROYDEN 1970]) et lalgorithme de Levenberg-Marquardt ([LEVENBERG 1944] [MARQUARDT 1963]). Il
faut noter que ces mthodes ne sont pas spcifiques aux rseaux de neurones : ce sont des mthodes trs
gnrales doptimisation. On en trouvera des descriptions dtailles dans [PRESS 1992] ; cet ouvrage
prsente galement la technique du gradient conjugu , qui utilise la matrice hessienne de manire
implicite.
Pour lapprentissage des rseaux de neurones, la fonction optimiser f(x) en fonction des variables x nest
autre que la fonction de cot J(w), quil faut optimiser par rapport aux paramtres w du rseau. Le gradient
de J(w) est valu par lalgorithme de rtropropagation dcrit plus haut.
Que faire en pratique ?

En premier lieu, il ne faut pas utiliser la mthode du gradient simple et ses variantes, dont les temps de
convergence (en nombre ditrations) sont suprieurs de plusieurs ordres de grandeur ceux des
mthodes du second ordre (voir ci-aprs le paragraphe prsentant quelques problmes tests). Lutilisation
de la mthode du gradient simple ne peut se justifier que dans le cas o lon utilise de trs gros rseaux
(plusieurs milliers de paramtres), ce qui peut se produire pour des problmes de classification dans
lesquels les objets classer ont de trs nombreux descripteurs (typiquement, des images reprsentes par
des descripteurs de bas niveau). Dans ce cas, on arrte la descente avant datteindre un minimum de la
fonction de cot, afin dviter le surajustement ; cette technique, dite darrt prmatur (early stopping),
constitue une forme de rgularisation, sur laquelle on reviendra dans la section consacre lapprentissage avec rgularisation.
Remarque
On mentionne souvent dans la littrature lheuristique du terme de moment (momentum term [PLAUT 1986]) qui consiste ajouter au
terme de gradient J un terme proportionnel la variation des coefcients litration prcdente [w(i 1) w (i 2)] ; on ralise ainsi
une sorte de ltre passe-bas qui peut viter les oscillations et augmenter un peu la vitesse de convergence si est bien choisi.

134

Lapprentissage statistique

Le choix entre les mthodes de BFGS et de Levenberg-Marquardt repose essentiellement sur des considrations relatives au temps de calcul et la taille de la mmoire. La mthode de BFGS ncessite de
choisir le moment o lon passe du gradient simple BFGS ; il ny a pas, cet effet, de rgle fonde sur
des arguments thoriques. Quelques ttonnements sont parfois ncessaires pour trouver le bon
nombre ditrations (typiquement, une centaine), mais celui-ci nest pas critique. La mthode de Levenberg-Marquardt ne prsente pas cet inconvnient, mais elle devient lourde pour des gros rseaux (une
centaine de paramtres), en raison de linversion de matrice ncessaire chaque itration. Globalement,
on a donc intrt choisir la mthode de Levenberg-Marquardt si le rseau est petit , et celle de BFGS
dans le cas contraire. Si lon dispose du temps ncessaire, il est recommand dessayer les deux. La
mthode du gradient conjugu peut galement constituer une solution efficace au problme doptimisation de la fonction de cot.
Initialisation des paramtres

Quelle que soit la mthode mise en uvre, il est ncessaire de fixer les valeurs des paramtres du rseau
au dbut de lapprentissage. Les considrations suivantes doivent guider linitialisation de ces grandeurs :
les paramtres relatifs aux biais (entres constantes gales 1) doivent tre initialiss zro, pour
sassurer que les sigmodes des neurones sont initialement situes autour de zro ; alors, si les entres,
ainsi que les paramtres (autres que ceux des biais), ont t normaliss et centrs comme cela est recommand plus haut, les valeurs des sorties des neurones cachs le sont galement ;
il reste sassurer que ces valeurs des sorties des neurones cachs ne sont pas trop voisines de +1 ou 1.
En effet, rappelons que le gradient de la fonction de cot, qui est le moteur de la minimisation,
dpend de la drive de la fonction dactivation des neurones cachs par rapport au potentiel. Or, au
voisinage de leurs saturations +1 et 1, les drives des sigmodes sont voisines de zro : dans ces
conditions, le processus de minimisation ne dmarre pas.
Soit n le nombre de variables du modle ; chaque neurone a donc n1 variables xi et un biais. Les paramtres non nuls doivent tre suffisamment petits pour que les potentiels des neurones cachs aient une
variance de lordre de 1, afin que les sigmodes ne soient pas satures. Supposons que les xi puissent tre
considres comme des variables alatoires indpendantes Xi, tires de distributions identiques, centres
et normalises. On veut tirer les paramtres initiaux au hasard dans une distribution centre autour de
zro, dont on cherche la variance. Rappelons que le paramtre relatif au biais est initialis zro comme
n

indiqu lalina prcdent. Le potentiel v = wi xi de chaque neurone est donc la somme de n 1 variai =1

bles alatoires qui sont les produits de variables alatoires indpendantes, centres, ayant toutes la mme
distribution. On dmontre facilement, partir des dfinitions et proprits indiques dans les notions
lmentaires de statistiques prsentes la fin du chapitre 1, que lon a :
varV = ( n 1) varWi varXi
avec varXi = 1 puisque les variables ont t normalises.
Ainsi, si lon veut que la variance du potentiel soit 1, on tirera les valeurs initiales des paramtres alatoirement dans une distribution centre de variance 1/(n1). Si lon veut prendre une distribution uniforme
3
.
n 1
Les points prcdents concernent les rseaux fonctions dactivation sigmode. Pour les rseaux de RBF
ou dondelettes, le problme est beaucoup plus critique, en raison du caractre localis de ces fonctions :
si, initialement, elles sont situes trs loin de lendroit o elles devraient tre, ou si leur extension spatiale
(cart-type ou dilatation) nest pas convenable, lapprentissage a peu de chances de russir. Le test des
2
/ 3, donc il faut prendre wmax =
entre wmax et +wmax, on a : varWi = wmax

Les rseaux de neurones


CHAPITRE 2

135

problmes matre-lve , qui sera introduit dans le paragraphe suivant, est beaucoup plus difficile
russir avec des RBF ou des ondelettes quavec des rseaux de sigmodes. Il faut mettre en uvre une stratgie plus labore, dcrite en dtail dans [OUSSAR 2000] : on prpare une bibliothque dondelettes
ou de RBF, cest--dire un ensemble dun grand nombre de ces fonctions, et lon applique une mthode
de slection analogue aux mthodes de slection des variables dcrites plus haut. On effectue ensuite
lapprentissage en donnant aux paramtres les valeurs des paramtres des ondelettes, ou des RBF, qui ont
t slectionnes.
Comment tester un algorithme dapprentissage : le problme matre-lve

Lexprience dannes denseignement et de recherche montre quil est trs facile dcrire un algorithme
dapprentissage faux, ou un programme dapprentissage bogu , qui converge nanmoins, parfois trs
lentement, et aboutit un modle qui nest pas compltement ridicule. Les erreurs algorithmiques ou de
programmation peuvent alors passer inaperues si lon ne fait pas preuve de vigilance. Il est donc important de tester la validit dune procdure dapprentissage que lon a crite soi-mme, ou tlcharge
gratuitement sur le Web.
cet effet, la mthode suivante (souvent appele problme matre-lve ) est commode et simple
mettre en uvre. On cre un rseau de neurones, le rseau matre , dont les paramtres sont arbitraires,
mais fixs et connus (par exemple, tirs au hasard, une fois pour toutes, dans une distribution uniforme
entre 4 et +4). On utilise ce rseau pour crer une base dapprentissage, aussi grande que lon veut, en
lui prsentant des variables alatoires (par exemple, tires dans une distribution uniforme entre 1 et +1)
et en calculant les sorties correspondantes. On utilise cette base pour faire lapprentissage dun second
rseau (le rseau lve ) qui a le mme nombre de variables et le mme nombre de neurones cachs
que le rseau matre. Si lalgorithme dapprentissage et le programme sont corrects, on doit retrouver les
paramtres du rseau matre avec une prcision correspondant aux seules erreurs darrondi (typiquement,
lerreur quadratique moyenne est de lordre de 1030, et chaque paramtre du rseau lve est gal au paramtre correspondant du rseau matre, aux erreurs darrondi prs). Si ce nest pas le cas, lalgorithme
dapprentissage, et/ou sa programmation, doivent gnralement tre mis en cause.
Remarque
La structure du rseau lve obtenu est identique celle du rseau matre une permutation prs pour les neurones cachs. Cest une
consquence du thorme dunicit [SONTAG 1993].

Deux problmes tests :


Problme 1 : un rseau 8 variables, 6 neurones cachs et une sortie est cr en tirant des paramtres
uniformment dans lintervalle [20, +20]. Un ensemble dapprentissage et un ensemble de test de
1 500 exemples chacun sont crs en tirant des entres uniformment dans [1, +1]. Un rseau de mme
structure est entran de la manire suivante : initialisation des paramtres uniformment dans [0,6,
+0,6], calcul du gradient par rtropropagation, minimisation de la fonction de cot par LevenbergMarquardt. Le rseau matre est retrouv exactement (EQMA et EQMT de lordre de1031) dans 96 %
des cas ( lissue de 48 apprentissages sur 50 effectus avec des initialisations diffrentes).
Problme 2 : un rseau 10 variables, 5 neurones cachs et une sortie est cr en tirant des paramtres
uniformment dans [1, +1] ; un ensemble dapprentissage et un ensemble de test sont crs en tirant
des variables alatoirement suivant une loi normale ; lapprentissage est effectu comme dans lexemple
prcdent. Le taux de russite est de 96 % pour un ensemble dapprentissage de 400 lments, de 100 %
pour un ensemble dapprentissage de 2000 exemples.

136

Lapprentissage statistique

Remarque
Pour les mmes problmes, le taux de russite est strictement nul si lon utilise lalgorithme du gradient simple ou du gradient stochastique
(dcrit dans la section suivante), avec ou sans terme de moment.

Il faut noter que le problme matre-lve est difficile pour certaines architectures en raison dun grand
nombre de minima locaux. Cest pourquoi il est recommand de tester tout algorithme ou procdure
dapprentissage sur les architectures que lon vient de mentionner.

En rsum
Rsumons ici la dmarche quil convient dadopter pour lapprentissage dun rseau non boucl, dont on
a fix le nombre de variables, ainsi que le nombre de neurones cachs :
initialiser les paramtres selon la mthode indique dans le paragraphe prcdent ;
calculer le gradient de la fonction de cot par lalgorithme de rtropropagation ;
modifier les paramtres par une mthode de minimisation (gradient simple, BFGS, LevenbergMarquardt, gradient conjugu...) ;
si un nombre maximal ditrations (ou poques) a t atteint, ou si la variation du module du vecteur des
poids est infrieure une limite fixe, ou si la variation du module du gradient est infrieure une limite
fixe (lalgorithme nvolue plus), ou encore si le module du gradient de la fonction de cot est infrieur
une valeur fixe (on est arriv un minimum ou dans un voisinage trs proche), arrter la procdure ;
sinon, reprendre le calcul du gradient et effectuer une nouvelle itration.

Apprentissage adaptatif de modles non linaires


par rapport leurs paramtres
Les mthodes qui ont t introduites au paragraphe prcdent cherchent optimiser la fonction de cot
des moindres carrs, en supposant que toutes les donnes dapprentissage soient disponibles au moment
de lentreprendre ; on peut donc valuer le gradient du cot total en effectuant la somme des fonctions de
perte pour chaque exemple.
Lapprentissage adaptatif, abord dans cette section, consiste effectuer les modifications des paramtres
en fonction du gradient de la fonction de perte relative chaque exemple (gradient qui est obtenu, comme
le cot total, par rtropropagation), de sorte quil soit possible deffectuer lapprentissage au fur et
mesure que les donnes deviennent disponibles. Une telle procdure est souvent utile pour affiner les
paramtres dun modle en cours dutilisation, aprs un apprentissage initial non adaptatif. Ces mthodes
sont traites en dtail au chapitre 4.
La technique de modification adaptative des paramtres la plus largement utilise est celle du gradient
stochastique, qui consiste modifier les paramtres proportionnellement au gradient de la fonction de
perte :

( )

w k +1 = w k k J k w k

o wk dsigne la valeur du vecteur des paramtres aprs litration k, cest--dire aprs prsentation de
lexemple k et modification correspondante des coefficients. Pour lapprentissage adaptatif des modles
linaires, cet algorithme est appel algorithme LMS .
Certains rsultats empiriques suggrent que la mthode du gradient stochastique permet dviter les
minima locaux. Il ny a aucun lment thorique qui appuie cette affirmation.
Une autre technique, inspire notamment du filtrage adaptatif, a t utilise pour lapprentissage adaptatif des
rseaux de neurones : le filtre de Kalman tendu [PUSKORIUS 1994]. Elle est plus efficace que le gradient

Les rseaux de neurones


CHAPITRE 2

137

stochastique en termes de vitesse de convergence, mais elle est beaucoup plus lourde en termes de nombre
doprations par itration. Cette approche est prsente en dtail au chapitre 4 du prsent ouvrage.

Apprentissage avec rgularisation


Comme indiqu dans le chapitre 1, lobjectif recherch dans la modlisation bote noire est lobtention dun modle qui soit suffisamment complexe pour apprendre les donnes, mais qui ne souffre pas de
surajustement, cest--dire qui ne sadapte pas au bruit. Deux grands types de mthodes sont utiliss pour
atteindre cet objectif :
des mthodes passives : on effectue lapprentissage de plusieurs modles de complexits diffrentes,
comme indiqu plus haut, et lon procde ensuite une slection parmi les modles ainsi conus, afin
dliminer ceux qui sont susceptibles dtre surajusts ; dans ce but, on utilise des techniques de validation croise ou des tests statistiques, qui feront lobjet de la section suivante ;
des mthodes actives : on effectue lapprentissage de manire viter de crer des modles surajusts,
sans chercher contrler la complexit du rseau, mais en sefforant de limiter lamplitude des
paramtres ; on utilise, pour ce faire, des mthodes de rgularisation [TIKHONOV 1977] [POGGIO 1985],
qui constituent lobjet de la prsente section.
Ces dernires mthodes sont importantes lorsquon est oblig dutiliser de grands rseaux, ce qui peut tre le
cas en classification : la reprsentation des objets peut comporter de nombreuses variables, notamment si lon
utilise une reprsentation de bas niveau pour une image (par exemple, lintensit de ses pixels) ; cest galement
le cas pour des problmes de classification en bio-informatique. En effet, le nombre de paramtres ne peut
videmment tre infrieur au nombre de variables du rseau : le nombre de paramtres est minimal lorsque le
rseau ne comprend quun neurone. La seule mthode qui permette de limiter le surajustement consiste alors
limiter lamplitude des paramtres du rseau. On montre mme dans [BARTLETT 1997] que, si un grand rseau
est utilis, et si lalgorithme dapprentissage trouve une erreur quadratique moyenne faible avec des poids de
valeurs absolues faibles, alors les performances en gnralisation dpendent de la norme des poids plutt que
de leur nombre. titre dillustration, la figure 2-41 montre lvolution du module du vecteur des paramtres w
en fonction de la complexit du modle polynomial, pour le problme de modlisation tudi dans le chapitre
1, section Un exemple de modlisation pour la prdiction : on observe une croissance exponentielle de la
norme du vecteur des paramtres, qui est corrle au surajustement.

ou weight decay ).
Notons galement que les machines vecteurs
supports, dcrites en dtail dans le chapitre 6, doivent
leur efficacit au fait quelles contiennent intrinsquement un processus de rgularisation.

4,5
4
3,5

( )

4
log w

On peut distinguer deux familles de mthodes de


rgularisation :
larrt prmatur (early stopping) qui consiste
arrter lapprentissage avant la convergence ;
les mthodes de pnalisation, qui consistent ajouter
un terme la fonction de cot usuelle afin de favoriser les fonctions rgulires. La fonction minimiser est alors de la forme : J = J +  , o J est,
par exemple, la fonction de cot des moindres carrs.
La fonction la plus largement utilise est celle qui
pnalise les modles ayant des paramtres levs :
2
= wi (mthode de modration des poids

2,5
2
1,5
1
0,5
0

-0,5

10

12

Degr du polynme

Figure 2-41. volution exponentielle du module


du vecteur des paramtres en fonction
de la complexit de modles polynomiaux

14

Lapprentissage statistique

138

Arrt prmatur
Principe

Comme dans la section prcdente, lapprentissage consiste minimiser, grce un algorithme itratif,
une fonction de cot calcule sur la base dapprentissage, par exemple la fonction de cot des moindres
carrs. La diffrence avec lapprentissage sans rgularisation rside dans le critre darrt de
lapprentissage : on arrte celui-ci prmaturment, cest--dire avant convergence complte de lalgorithme. Ainsi, le modle ne sajuste pas trop finement aux donnes dapprentissage : le surajustement est
limit. La difficult rside alors videmment dans la dtermination du moment o arrter lapprentissage.
La mthode la plus classique consiste suivre lvolution de la fonction de cot sur une base de validation, et arrter les itrations lorsque le cot calcul sur cette base commence crotre.
Exemple (tir de [STRICKER 2000])

Il sagit dun problme de classification deux classes ; comme indiqu dans le chapitre 1, on dsire que
la sortie du rseau soit +1 pour tous les lments de lune des classes (classe A), et 0 pour tous les
lments de lautre classe (classe B). Aprs apprentissage, la sortie est une estimation de la probabilit
dappartenance de lobjet inconnu la classe A. Dans ce problme, lespace de description est un espace
deux dimensions, et les exemples sont tirs de deux distributions qui se recouvrent partiellement,
comme indiqu sur la figure 2-42.
Dans cet exemple acadmique, les distributions sont connues a priori : il est donc possible de calculer, par
la formule de Bayes, la probabilit dappartenance dun objet dcrit par les coordonnes (x, y) la classe
A, comme indiqu au chapitre 1 ; la figure 2-43 montre les probabilits a posteriori dappartenance la
classe A, calcules par la formule de Bayes.
3
2

-2
-3
-4 -3 -2 -1
0
1 2
3 4
Figure 2-42. Les exemples de la classe A
(cercles) sont tirs dune distribution
de probabilit qui est le produit de deux
distributions gaussiennes selon x et y ;
la distribution selon x est une gaussienne
centre en 1, dcart-type 1, et la distribution selon y est une gaussienne centre en 1 et
dcart-type 0,5. Les exemples de la classe B
(croix) sont tirs dune distribution
de probabilit qui est le produit de deux
distributions de probabilit selon x et y ;
la distribution selon x est la somme de deux
gaussiennes dcart-type 0,5, centres en 2
et 1.

-1

Pr A x,y

1
0,8
0,6
0,4
0,2
0

5
0
y

5
-5 -5

0
x

Figure 2-43. Probabilit dappartenance la classe A calcule


par la formule de Bayes

Les rseaux de neurones

139

CHAPITRE 2

1
0,8

Pr A x,y

0,6
0,4

Pr A x,y

Lapprentissage est effectu laide de 500 points. La figure 2-44 montre les probabilits a posteriori estimes par un rseau 2 neurones cachs et par un rseau 10 neurones cachs.

0,2
0
4
0
x

1
0,8
0,6
0,4
0,2
0

4
0
-4 -4

0
x

4
0
-4 -4

Figure 2-44. Probabilits a posteriori estimes par un rseau 2 neurones cachs ( gauche) et par un rseau 10 neurones
cachs ( droite)

On constate que le rsultat obtenu avec un rseau 2 neurones cachs est trs proche de la surface thorique reprsente sur la figure 2-43, alors que la surface obtenue avec 10 neurones cachs est quasi
binaire : dans la zone de recouvrement entre les classes, une trs petite variation de lun des descripteurs
x ou y entrane une brusque variation de la probabilit dappartenance. Le rseau 10 neurones cachs est
donc exagrment spcialis sur les exemples proches de la zone de recouvrement : il est surajust.
Ces variations sont trs caractristiques des rseaux dont les paramtres sont suffisamment grands pour
que les sigmodes des neurones cachs soient toujours dans leurs zones satures , comme illustr sur
la figure 2-45.
1
0,8
0,6

Erreur sur la base de validation

0,4

th(wx)

0,2
0

-0,2
-0,4
-0,6
-0,8

w=1

w=5

w=100

-1
-3

-2

-1

0
x

Figure 2-45. Sortie dun neurone une variable x

0,25
0,20
0,15

2 NC
5 NC
10 NC

0,10
0,05
0
0
50
100
150
200
250
300
Nombre ditrations de lalgorithme dapprentissage

Figure 2-46. Erreur sur la base de validation


durant lapprentissage

Lvolution de lerreur quadratique moyenne sur la base de validation de 300 exemples, en fonction du
nombre ditrations de lapprentissage, est reprsente sur la figure 2-46, pour divers nombres de

140

Lapprentissage statistique

neurones cachs. On voit quil est difficile de savoir exactement o il faut arrter lapprentissage, car
lerreur porte pour lessentiel sur les exemples qui sont proches de la surface de sparation entre les
classes, ce qui correspond un nombre relativement petit de points.
Cette mthode est donc malaise appliquer, notamment pour les problmes de classification. Cest pourquoi lon prfre souvent mettre en uvre des mthodes de rgularisation par pnalisation des paramtres
de fortes valeurs ; il a t prouv thoriquement [SJBERG 1995] que larrt prmatur est quivalent
lintroduction dun terme de pnalisation dans la fonction de cot.

Rgularisation par modration des poids (weight decay)


Pendant lapprentissage, certains paramtres des rseaux 5 et 10 neurones cachs augmentent et finissent par atteindre des valeurs trs leves, exactement comme dans le cas de la rgression polynomiale
illustr par la figure 2-41. Ce nest pas le cas pour le rseau deux neurones cachs.
La mthode de rgularisation par modration des poids a prcisment pour objectif dempcher les paramtres de prendre des valeurs exagres, en minimisant, pendant lapprentissage, une fonction de cot J
qui est la somme de la fonction de cot des moindres carrs J (ou de tout autre fonction de cot, telle que
lentropie croise qui est introduite dans le chapitre 1) et dun terme de rgularisation proportionnel la
p
somme des carrs des paramtres : J = J + wi2, o p est le nombre de paramtres du rseau, et est
2 i =1
un hyperparamtre dont la valeur doit tre dtermine par un compromis : si est trop grand, la minimisation tend faire diminuer les valeurs des paramtres sans se proccuper de lerreur de modlisation ;
linverse, si est trop petit, le terme de rgularisation a trs peu deffet sur lapprentissage, donc le surajustement risque dapparatre.
Le principe de la mise en uvre de la mthode est trs simple. On calcule le gradient de la fonction de
cot J par rtropropagation, puis on lui ajoute la contribution du terme de rgularisation :
J = J + w .
Il faut noter nanmoins que tous les paramtres du rseau nont pas le mme effet :
les paramtres de la premire couche de connexions (matrice W1 de la figure 2-3) dterminent la vitesse
de variation des sigmodes des neurones cachs, sauf les lments de W1 relatifs au biais, qui dterminent une translation horizontale des sigmodes des neurones cachs ;
les paramtres de la deuxime couche de connexions (vecteur w2 de la figure 2-3) dterminent
linfluence de chaque neurone cach sur la sortie, sauf les lments de w2 relatifs au biais, qui dterminent une translation verticale de la sortie du rseau.
Il est donc naturel dintroduire des hyperparamtres diffrents pour ces diffrents types de paramtres
[MCKAY 1992]. La fonction de cot devient alors :
J = J +

wi2 + 21 wi2 + 22 wi2,


2 W0
W1
W2

o W0 reprsente lensemble des paramtres des biais des neurones cachs, o W1 reprsente lensemble
des paramtres relatifs aux variables des neurones cachs lexception des biais, et W3 lensemble des
paramtres relatifs aux variables du neurone de sortie (y compris le biais de celui-ci). Il convient donc de
dterminer les valeurs des trois hyperparamtres 0, 1, 2. Dans ce but, [MCKAY 1992] propose une
dmarche fonde statistiquement dune manire solide, mais qui repose sur de nombreuses hypothses et
conduit des calculs lourds. En pratique, il apparat que les valeurs de ces hyperparamtres ne sont pas
critiques ; une dmarche heuristique, qui consiste effectuer plusieurs apprentissages avec des valeurs

Les rseaux de neurones


CHAPITRE 2

141

diffrentes des paramtres, tester les modles obtenus sur un ensemble de donnes de validation, et
choisir le meilleur, est gnralement suffisante.
Exemple (extrait de [STRICKER 2000])

Voici un exemple de classification deux classes ; il sagit de dterminer, dans un ensemble de textes (les
dpches de lagence France-Presse), celles qui sont pertinentes pour un sujet donn. Cest donc un
problme deux classes (une dpche est soit pertinente, soit non pertinente), pour lequel on dispose
dune base de donnes tiquetes. La base dapprentissage est constitue de 1 400 exemples de dpches
pertinentes et de 8 000 dpches non pertinentes. On mesure la qualit du classement laide dun indice
F qui est calcul partir de la prcision du classifieur (pourcentage de documents rellement pertinents
dans lensemble des documents considrs comme pertinents par le classifieur) et de son taux de rappel
(pourcentage de documents considrs comme pertinents par le classifieur parmi les documents pertinents
prsents dans la base de donnes). La performance du classifieur est dautant meilleure que F est grand.
On considre un classifieur zro neurone cach, et un neurone de sortie fonction dactivation sigmode,
cest--dire un sparateur linaire. Il nest videmment pas possible de rduire le nombre de ses paramtres tout en maintenant constant le nombre de ses variables : seules les mthodes de rgularisation peuvent
viter le surajustement. La figure 2-47 montre lvolution de F sur la base de test, lorsque aucune mthode
de rgularisation nest mise en uvre, en fonction des proportions des exemples pertinents et non pertinents dans la base dapprentissage. La figure 2-48 montre la norme du vecteur des paramtres w des
rseaux correspondants. On observe que les performances se dgradent, et que, corrlativement, la norme
des paramtres augmente lorsque le nombre dlments de la base dapprentissage diminue.
F sur la
base
de test

Norme du vecteur
des paramtres
6000
5000

0,95

4000

0,90

3000
0,85

2000
0,80

1000

0,75
8000

0
8000
1500

6000
4000
2000
Nombre de textes non pertinents
dans la base dapprentissage

1000
0

500
Nombre de textes pertinents
dans la base dapprentissage

Figure 2-47. Apprentissage sans rgularisation :


volution de lefficacit dun classifieur linaire
en fonction des proportions des exemples pertinents
et non pertinents dans la base dapprentissage

1500

6000
4000
2000
Nombre de textes non pertinents
dans la base dapprentissage

1000
0

500
Nombre de textes pertinents
dans la base dapprentissage

Figure 2-48. Norme des paramtres en fonction


du nombre de textes de la base dapprentissage

Avec les mmes bases dapprentissage et de test, on a effectu un apprentissage avec arrt prmatur. Les
rsultats (indice de performance F et norme des paramtres), prsents sur la figure 2-49, montrent que
les performances sont sensiblement amliores dans la zone o le nombre dexemples de la base
dapprentissage est faible, mais quelles sont dgrades dans la zone o les exemples sont nombreux
(F < 0,9), ce qui prouve que larrt de lapprentissage ne permet pas dexploiter au mieux les donnes
prsentes dans la base dapprentissage. La norme du vecteur des paramtres (non reprsente sur la
figure) est trs faible dans tout le domaine explor.

Lapprentissage statistique

142

F sur la
base
de test

F sur la
base
de test

0,95

0,95

0,90

0,90

0,85

0,85

0,80

0,80

0,75
8000

0,75
8000
1500

6000
1000

4000
2000
Nombre de textes non pertinents 0
dans la base dapprentissage

500
Nombre de textes pertinents
dans la base dapprentissage

Figure 2-49. Apprentissage avec rgularisation par arrt


prmatur : volution de lefficacit dun classifieur
linaire en fonction des proportions des exemples
pertinents et non pertinents dans la base dapprentissage

1500

6000
4000
2000
Nombre de textes non pertinents 0
dans la base dapprentissage

1000
0

500
Nombre de textes pertinents
dans la base dapprentissage

Figure 2-50. Apprentissage avec rgularisation


par modration des poids : volution de la norme
des poids en fonction des proportions des exemples
pertinents et non pertinents dans la base dapprentissage

La mthode de modration des poids a galement t mise en uvre sur cet exemple, en utilisant deux
hyperparamtres : un pour le biais (b = 0,001) et un pour les connexions entre les entres et le neurone
de sortie (1 = 1). Les rsultats sont prsents sur la figure 2-50 ; on observe que, cette fois, les performances sont nettement amliores dans la zone o le nombre dexemples est faible, et que, contrairement
au cas de larrt prmatur, elles restent satisfaisantes dans la zone o les exemples sont nombreux. Il faut
noter quaucun effort particulier na t fourni pour optimiser les hyperparamtres. Comme prcdemment, la norme du vecteur des paramtres reste uniformment faible.
Remarque
On peut galement pnaliser les modles dont les sorties varient trop vite, en pnalisant les valeurs leves des drives [BISHOP 1993].

Conclusion sur lapprentissage de modles statiques


Dans cette section, on a distingu
lapprentissage des modles linaires par rapport leurs paramtres (prsent dans le chapitre 1) de
celui des modles non linaires par rapport aux paramtres ;
lapprentissage adaptatif de lapprentissage non adaptatif ;
lapprentissage sans rgularisation de lapprentissage avec rgularisation.
On a montr :
que lapprentissage des modles non linaires par rapport aux paramtres (tels que les rseaux de neurones)
ncessite des mthodes plus lourdes, mais rapides et bien matrises, que lapprentissage des modles
linaires en leurs paramtres : cest le prix payer pour bnficier de la proprit de parcimonie ;
que lapprentissage est gnralement effectu dune manire non adaptative, avec des algorithmes de
minimisation du second ordre qui sont performants ; si ncessaire, on peut ensuite mettre en uvre un
apprentissage adaptatif pour recaler le modle en tenant compte dventuelles drives lentes du
processus ;
quil est possible de limiter le surajustement en limitant lamplitude des paramtres du modle laide
dune mthode de pnalisation, mise en uvre durant lapprentissage ; cest surtout ncessaire lorsque
le nombre dexemples est petit.
Dans la section suivante, le problme du surajustement est abord sous langle de la slection de modle.

Les rseaux de neurones


CHAPITRE 2

143

Slection de modles
Dans le chapitre 1, le dilemme biais-variance et les mthodes de slection de modles dont il ncessite la
mise en uvre ont t dcrits en dtail. Les trois mthodes principales qui ont t prsentes validation
simple, validation croise et leave-one-out peuvent tre appliques directement lapprentissage des
rseaux de neurones comme lapprentissage des modles linaires. Nanmoins, les modles non
linaires en leurs paramtres ont une particularit quil faut prendre en considration : la fonction de cot
des moindres carrs prsente des minima locaux, de sorte que des initialisations diffrentes des paramtres peuvent produire, en fin dapprentissage, des modles dont les performances sont diffrentes bien
quils aient la mme complexit.
Pour un modle non linaire par rapport ses paramtres, la problmatique de la slection de modle est
donc double :
parmi les modles de mme complexit, trouver celui qui ralise le meilleur compromis biais-variance ;
parmi les meilleurs modles de complexits diffrentes, de trouver celui qui ralise le meilleur
compromis biais-variance.
Toutes les techniques qui sont prsentes dans cette section ont pour objet, dune part, dliminer les
modles manifestement surajusts, et, dautre part, destimer lerreur de gnralisation des autres
modles, afin de choisir celui qui commet la plus petite erreur de gnralisation. On commencera donc,
en prliminaire, par montrer comment il est possible dliminer les modles manifestement surajusts.
Deux techniques de slection seront ensuite abordes :
une mthode globale de slection par estimation de lerreur de gnralisation : la validation croise ;
une mthode locale de slection qui permet destimer linfluence de chaque exemple sur le modle : la
mthode LOCL (Local Overfitting Control via Leverages), fonde sur la mthode des moindres carrs
locaux, qui fait appel notamment lestimation dintervalles de confiance pour les prdictions du
rseau.
Ces deux approches seront combines pour construire une mthodologie complte de conception de
modles non linaires.

Prliminaire : limination de modles surajusts par calcul du rang


de la matrice jacobienne
Justification
Dans la section du premier chapitre consacre lestimation des paramtres dun modle linaire par rapport
ses paramtres, on a introduit la matrice des observations. Chaque colonne de cette matrice correspond
une variable du modle : elle possde N lments, qui sont les valeurs prises par cette entre pour chacun des
N exemples. Pour un modle p variables, la matrice des observations est une matrice (N, p). Pour un
modle non linaire possdant un vecteur de p paramtres wmc, lquivalent de la matrice des observations
est la matrice jacobienne Z ; chaque colonne zi de cette matrice correspond un paramtre du rseau : elle
possde N lments, qui sont les valeurs prises par la drive partielle de la sortie par rapport au paramtre

g ( x, w )
considr : z i = ---------------------
wi

. Il est ais de vrifier que, pour un modle linaire par rapport ses paraw = w mc

mtres, la matrice jacobienne est identique la matrice des observations.


Chaque colonne de la matrice jacobienne exprime leffet de la variation dun paramtre sur la prdiction
du modle. Si la matrice jacobienne nest pas de rang plein (cest--dire si son rang nest pas gal p),
cela signifie que deux paramtres (au moins) ont sur la sortie des effets qui ne sont pas indpendants. Il

144

Lapprentissage statistique

existe donc, dans le modle, des paramtres redondants : le modle considr possde trop de paramtres,
donc une variance certainement trop grande. Un tel modle doit donc tre limin de lensemble des
modles candidats la slection. De plus, cette dficience du rang a un effet ngatif sur le droulement de
lapprentissage [SAARINEN 1993] [ZHOU 1998].

Calcul de la matrice jacobienne


Dans la section consacre lestimation des paramtres dun modle non linaire, on a vu que lon peut
facilement calculer, par rtropropagation, le gradient de la fonction de cot :

p
J y g ( x, w )

=
w
wi
i

g ( x, w )
.
= 2 y p g ( x, w )
wi

Si lerreur de modlisation yp g(x, w) vaut 1/2, le gradient de la fonction de cot est gal au gradient
de la prdiction du modle. Ainsi, la matrice jacobienne est aisment calcule par rtropropagation dune
erreur gale 1/2. Le temps supplmentaire ncessit par le calcul de la matrice jacobienne est donc
marginal, puisquil sagit dun calcul de rtropropagation effectu une seule fois par modle, la fin de
lapprentissage, alors que la rtropropagation est effectue lors de chaque itration de lapprentissage.

Approche globale de la slection de modles :


validation simple, validation croise et leave-one-out
Rappelons tout dabord que, comme indiqu et justifi en dtail dans le chapitre 1, on ne doit jamais
utiliser lerreur quadratique sur lensemble dapprentissage comme critre de slection de modles.

Validation simple
Comme indiqu dans le chapitre 1, la validation simple consiste utiliser une partie des donnes, appele
ensemble de validation, pour estimer lerreur de gnralisation des modles aprs apprentissage. Cela
suppose videmment que les donnes prsentes dans lensemble de validation sont bien reprsentatives de
lensemble des donnes. Pour cela, on utilise la distance de Kullback-Leibler [KULLBACK 1951]
[KULLBACK 1959], dj dfinie dans le chapitre 1, entre deux distributions de probabilit p1 et p2 :
+

p ( x)

D ( p1 , p2 ) = p1 ( x ) Log 1
dx .
p2 ( x )

Comme cette expression nest pas symtrique, on prfre utiliser la quantit


( p1 , p2 ) =

1
D p1 , p2 + D ( p2 , p1 ) .

On effectue donc plusieurs partitions alatoires de la base de donnes, et lon choisit, parmi ces partitions,
celle pour laquelle la distance de Kullback-Leibler entre la base dapprentissage et la base de validation
est la plus petite. Le tirage dun grand nombre de partitions et le calcul de la distance de Kullback-Leibler
tant beaucoup plus rapide quun apprentissage, on divise ainsi le temps de calcul par un facteur de lordre
de 5 par rapport une validation croise avec D = 5. Si lon fait lhypothse que les distributions sont deux
gaussiennes p1(1, 1) et p2(2, 2), la distance de Kullback-Leibler scrit :

2
1

+ 22

12 22 + ( 1 2 )2 .

4 12 22

Les rseaux de neurones


CHAPITRE 2

145

On trouvera la dmonstration de cette relation dans les complments thoriques et algorithmiques en fin
de chapitre.
Cette heuristique se rvle trs utile pour une mise au point rapide dun premier modle ; elle peut tre
affine ensuite par une validation croise conventionnelle, ou par un leave-one-out virtuel .

Validation croise
La validation croise a t dcrite dans le chapitre 1. La slection de modles seffectue en partant du
modle le plus simple (modle zro neurone cach, cest--dire modle linaire), et en augmentant
progressivement la complexit des modles (pour des modles neuronaux : en augmentant le nombre de
neurones cachs).
Remarque
On pourrait aussi augmenter le nombre de couches de neurones cachs. Pour les problmes de modlisation, cela ne peut tre envisag
que dans une deuxime tape : une fois que lon a obtenu un modle satisfaisant avec une couche de neurones cachs, on peut, si le
temps disponible le permet, essayer damliorer un peu les performances en augmentant le nombre de couches caches, tout en diminuant le nombre de neurones par couche. Cette procdure apporte parfois une amlioration, gnralement marginale. En revanche, si lon
na pas obtenu de rsultats satisfaisants avec une couche cache, il est illusoire desprer en obtenir en augmentant le nombre de couches
caches.

Pour chaque famille de modles, on calcule le score de validation croise. Le surajustement se traduit par
une augmentation significative du score de validation croise. On arrte la procdure lorsque cette
augmentation apparat, et lon slectionne la complexit pour laquelle la plus petite EQMV a t obtenue.
On effectue alors lapprentissage dun modle de cette complexit laide de lensemble des donnes
disponibles (tout en laissant de ct des donnes destines au test de ce modle).

Leave-one-out
Rappelons que lestimation de lerreur de gnralisation par leave-one-out est un cas particulier de la validation croise, pour lequel D = N : litration k, on extrait lexemple k de lensemble dapprentissage,
on effectue des apprentissages (avec des initialisations diffrentes des paramtres) avec les N-1 lments
de la base dapprentissage. Pour chacun des modles obtenus, on calcule lerreur de prdiction commise
sur lobservation k lorsque celle-ci est extraite de lensemble dapprentissage, et lon retient la plus petite
1 N k 2
rk . On utilise ce score,
N k =1
comme dans le cas de la validation croise, en augmentant progressivement la complexit des modles.

de ces erreurs, note rk k . On dfinit le score de leave-one-out Et =

( )

Cette technique a linconvnient dtre trs lourde en temps de calcul, mais on dmontre que le score de
validation croise est un estimateur non biais de lerreur de gnralisation [VAPNIK 1995].
Dans les sections suivantes, on prsente une autre technique, trs avantageuse, qui permet de diviser le
temps de calcul par un facteur N (le nombre dobservations disponibles). Elle est fonde sur lide que le
retrait dun exemple de lensemble dapprentissage ne doit pas beaucoup perturber le modle ; on peut
alors construire un modle localement linaire dans lespace des paramtres, ce qui permet de bnficier
des rsultats thoriques connus, relatifs aux modles linaires.

Moindres carrs locaux :


effet du retrait dun exemple sur le modle et leave-one-out virtuel
Dans le chapitre 1, on a montr que, pour un modle linaire, il est possible de prdire, de manire exacte,
leffet, sur un modle, du retrait dun exemple de lensemble dapprentissage ; on en a dduit lexpression

146

Lapprentissage statistique

de la statistique PRESS, qui est exactement le score que lon obtiendrait si lon faisait un leave-one-out
sur les donnes disponibles. Dans ce paragraphe, on montre comment tendre ce rsultat aux modles non
linaires, et calculer le score de leave-one-out virtuel sans avoir raliser un vrai leave-one-out, cest-dire en faisant un apprentissage avec toutes les donnes disponibles (en gardant toujours un ensemble
de test). On introduit galement le calcul des leviers des observations pour un modle non linaire.

Approximation locale de la mthode des moindres carrs


Considrons un modle g(x, w*) obtenu par minimisation de la fonction de cot des moindres carrs. Un
dveloppement du modle au premier ordre, dans lespace des paramtres, au voisinage de w*, scrit
g ( x, w ) g ( x, w *) + Z ( w w *)
o Z est la matrice jacobienne du modle, dfinie plus haut. Ce modle est linaire par rapport ses paramtres w, et la matrice Z joue exactement le rle de la matrice des observations.
Pour tablir une approximation locale de la solution des moindres carrs wmc, il faut obtenir une approximation, au premier ordre en w wmc, du gradient de la fonction de cot des moindres carrs ; pour cela, il
faut partir dune approximation du second ordre de cette fonction de cot, donc, dune approximation du
second ordre du modle ([MONARI 2000] ; le mme rsultat est tabli dans [SEBER 1989], mais avec une
dmonstration incorrecte) On obtient alors une approximation de la solution des moindres carrs wmc :

wmc w * + ZT Z

ZT y p g ( x, w *) .

Ce rsultat est approch dans le cas dun modle non linaire, et il est exact dans le cas dun modle
linaire.
En effet, dans le cas dun modle linaire, Z est la matrice des observations, et g(x, w*) = Z w*. La relation prcdente devient alors

( )
= w * + ( Z Z)

wmc w * + ZT Z
T

1
1

( )
( Z Z)

ZT y p ZT Z
ZT y p

1
1

ZT g ( x, w *)

ZT Zw* = ZT Z

ZT y p

ce qui est le rsultat exact, dmontr dans le chapitre 1, section Apprentissage de modles linaires en
leurs paramtres .

Effet du retrait dun exemple sur le modle


Estimons prsent leffet, sur les prdictions dun modle, du retrait dun exemple de lensemble
dapprentissage. On utilise une convention de notation dj introduite dans le chapitre 1 : les quantits
relatives un modle qui a t construit en ayant extrait lexemple k de lensemble dapprentissage sont
dotes de lindice suprieur k ; les grandeurs qui nont pas dindice suprieur sont relatives un modle
dont lapprentissage a t effectu avec lensemble des donnes disponibles.

Effet du retrait dun exemple sur sa prdiction : le leave-one-out virtuel


Si lon suppose que le retrait de lexemple k produit un petit effet sur la solution des moindres carrs, on
peut utiliser la relation tablie au paragraphe prcdent pour dterminer lexpression du vecteur des paramtres du modle dont lapprentissage est effectu avec lensemble incomplet (priv de lexemple k), en
fonction du vecteur des paramtres du modle entran avec lensemble de toutes les donnes :

Les rseaux de neurones


CHAPITRE 2

k
wmc
wmc ZT Z

zk

147

rk
1 hkk

o zk est le vecteur dont les composantes sont la k-ime ligne de la matrice jacobienne Z, rk est lerreur de
prdiction (ou rsidu) sur lexemple k lorsque celui-ci fait partie de lensemble dapprentissage :
rk = y p g ( xk , wmc ),

( )(
T

et o hkk = z k ZT Z z k est le levier de lexemple k [LAWRANCE 1995]. Gomtriquement, hkk est la


composante k de la projection, sur le sous-espace des solutions, du vecteur unitaire port par laxe k.
Rappelons (voir chapitre 1) que les leviers sont compris entre 0 et 1, et que leur somme est gale au
nombre de paramtres du modle.
Une procdure numrique efficace de calcul des leviers est prsente dans les complments thoriques et
algorithmiques la fin de ce chapitre.
La mthode du leave-one-out virtuel est une consquence des rsultats prcdents : on dmontre que
lerreur de prdiction commise sur lexemple k, lorsque celui-ci est retir de lensemble dapprentissage,
peut tre estime simplement partir de lerreur de prdiction commise sur ce mme exemple, sil est
dans lensemble dapprentissage :
rk k =

rk .
1 hkk

Comme indiqu dans le chapitre 1, ce rsultat est exact pour un modle linaire, (PRESS, voir par
exemple [ANTONIADIS 1992]), et il est approch pour un modle non linaire.
Remarque
Une approche analogue a t propose dans [HANSEN 1996] pour les modles dont lapprentissage est effectu avec rgularisation.

Illustrons cette mthode sur un exemple acadmique : un ensemble de 50 points dapprentissage est cr
en ajoutant la fonction sinx/x un bruit gaussien de moyenne nulle et de variance 102.
Ensemble dapprentissage
1

0,3

Intervalle de confiance 95 %
Prdiction du modle

rk k

0,5

0
Figure 2-51. Ensemble dapprentissage, prdiction
dun modle 2 neurones cachs et intervalle de confiance
de celle-ci

Figure 2-52. Prcision de lestimation des rsidus


par leave-one-out virtuel

- 0,3

- 0,3
rk
1 hkk

0,3

Lapprentissage statistique

148

La figure 2-51 reprsente les points de lensemble dapprentissage et la prdiction dun modle
deux neurones cachs. Une procdure conventionnelle de leave-one-out, dcrite au paragraphe prcdent,
a t effectue, fournissant ainsi les valeurs des quantits rk k prsentes en ordonne de la figure 2-52, et
la formule prcdente a t applique, fournissant les valeurs prsentes en abscisse. Le fait que tous les
points soient aligns sur la bissectrice du graphe montre que lapproximation est trs prcise.
On peut donc, dune faon trs avantageuse en temps de calcul, remplacer le score de leave-one-out Et,
qui a t dfini plus haut
Et =

1 N ( k )
rk
N k =1

par le score de leave-one-out virtuel Ep


Ep =

1 N rk

N k =1 1 hkk

qui constitue une trs bonne approximation de lerreur de gnralisation. Cette quantit est un lment
essentiel de la procdure de slection de modles qui sera expose dans la section suivante : elle fournit
une estimation de lerreur de gnralisation, au prix dun temps de calcul qui est N fois plus petit que la
procdure traditionnelle de leave-one-out, puisque lapprentissage est effectu une seule fois, avec tous
les exemples disponibles, au lieu de ltre N fois avec N-1 exemples.

Effet du retrait dun exemple sur lintervalle de confiance pour sa prdiction


Dans [SEBER 1989], un intervalle de confiance approch est propos pour un modle non linaire, avec
une confiance 1 :

EY p ( x ) g ( x, wmc ) tN p s z T ZT Z

o tN p est la valeur dune variable de Student N-p degrs de libert et un niveau de confiance 1 , et
s est une estimation de la variance de lerreur de prdiction du modle. La figure 2-51 reprsente lintervalle de confiance calcul par cette formule, en tous points de lintervalle considr.
Remarque
Il est possible de dnir de nombreux intervalles de conance pour des modles non linaires [TIBSHIRANI 1996], que lon peut soit calculer
analytiquement, soit estimer laide de mthodes de r-chantillonnage, telles que celles qui sont dcrites dans le chapitre 3 de cet
ouvrage. Les intervalles de conance utiliss dans le prsent chapitre ont lavantage de mettre en uvre les mmes quantits que celles
qui permettent de prdire le score de leave-one-out.

Pour lobservation k de lensemble dapprentissage, cet intervalle de confiance peut scrire :

EY p ( x ) g ( x, wmc ) tN p s z T ZT Z

z = g ( x, wmc ) tN p s hkk .

On voit ainsi que les intervalles de confiance sur les prdictions du modle font intervenir les mmes
quantits hkk que la prdiction du retrait dun exemple sur lerreur de prdiction du modle. Cela nest pas
surprenant car les deux groupes de relations proviennent du mme dveloppement de Taylor du modle
dans lespace des paramtres.

Les rseaux de neurones


CHAPITRE 2

149

Comme dans le cas prcdent, il est possible destimer lintervalle de confiance sur la prdiction dun
exemple extrait de lensemble dapprentissage : tant donn un vecteur de variables xk, lintervalle de
confiance approch sur la prdiction de cet exemple est donn par ([SEBER 1989])
EY pk ( x ) g ( x, wmc ) tN p s k

hkk
.
1 hkk

On peut en gnral approcher s-k par s.

Interprtation des leviers


Rappelons (voir chapitre 1) que le levier dun exemple peut tre interprt comme la proportion des
degrs de libert du modle qui est mobilise pour sajuster cette observation.
Considrons quelques cas particuliers :
Si tous les leviers sont gaux, ils valent tous p/N, o p est le nombre de paramtres du modle et N le
nombre dexemples : chaque exemple mobilise une fraction p/N des paramtres du modle, et tous les
exemples ont la mme importance pour le modle ; un tel modle ne devrait pas prsenter de surajustement, puisquil ne sest spcialis sur aucun exemple particulier. On verra que cette remarque peut avantageusement tre utilise pour la slection de modles.
Si un levier est nul, le modle ne consacre aucun degr de libert lexemple correspondant. Cela
sinterprte gomtriquement dune faon simple : rappelons que hkk est la composante k de la projection, sur le sous-espace des solutions, du vecteur unitaire port par laxe correspondant lexemple k
dans lespace des observations ; si cet axe est orthogonal au sous-espace des solutions, lexemple k na
aucune contribution la sortie du modle qui, rappelons-le, est dans le sous-espace des solutions; il na
donc aucune influence sur les paramtres du modle. Que cet exemple soit dans lensemble dapprentissage, ou quil en ait t extrait, la prdiction de cet exemple est donc entache de la mme erreur ;
rk
cest ce que lon vrifie sur la relation rk k =
. Lintervalle de confiance sur cette prdiction est
1 hkk
nul. La prdiction du modle tant certainement gale lesprance mathmatique de la grandeur
modliser au point considr, le modle est parfait en ce point.
Remarque
Le fait que lintervalle de conance soit nul signie que lon est sr que la prdiction du modle en ce point est exacte. Ce nest pas contradictoire avec le fait que lerreur de prdiction rk ne soit pas nulle. En effet, lerreur de prdiction est la diffrence entre la valeur mesure et
la valeur prdite : elle est due la fois lerreur de modlisation (diffrence entre la grandeur prdite et son esprance mathmatique
inconnue) et au bruit (diffrence entre la grandeur mesure et son esprance mathmatique inconnue). Si le modle est parfait, lerreur de
prdiction est due uniquement au bruit. On ne peut donc avoir un levier nul que si la famille de fonctions dans laquelle on cherche lapproximation de la rgression contient la fonction de rgression elle-mme.

Si un levier est trs proche de 1, le vecteur unitaire port par laxe correspondant lexemple k est trs
proche du sous-espace des solutions ; cet exemple est donc presque parfaitement appris, et il a une trs
grande influence sur les paramtres du modle. Lerreur de prdiction sur cet exemple est presque nulle
lorsque lexemple fait partie de lensemble dapprentissage, et elle est trs grande lorsque lexemple
nen fait pas partie. Le modle est donc exagrment ajust cet exemple. Lintervalle de confiance est
trs petit lorsque lexemple fait partie de lensemble dapprentissage, et il est trs grand lorsque
lexemple en est extrait.

150

Lapprentissage statistique

Mthodologie de slection de modle par combinaison de lapproche globale


et de lapproche locale
Supposons quun ensemble de variables pertinentes ait t dtermin selon les techniques dcrites dans la
section Slection des variables . Il faut prsent chercher le meilleur modle compte tenu des donnes
disponibles.
Rappelons que lon procde par augmentation progressive de la complexit du modle jusqu lapparition du surajustement. Dans un souci de pdagogie, on spare ce processus de slection en deux tapes :
Pour une famille de fonctions de mme complexit, non linaires par rapport aux paramtres (par
exemple, des rseaux de neurones qui possdent le mme nombre de neurones cachs), on effectue
plusieurs apprentissages, utilisant la totalit des exemples disponibles ( lexception de lensemble de
test), avec des initialisations diffrentes des paramtres. On obtient ainsi plusieurs modles : il faut donc
effectuer un premier choix parmi ceux-ci, aprs avoir limin demble ceux pour lesquels la matrice
jacobienne nest pas de rang plein. Dans la section intitule Slection dun modle dans une famille de
modles de complexit donne , on indiquera comment effectuer ce choix.
Remarque
Pour un modle linaire par rapport aux paramtres, la premire tape est trs simple puisque la fonction de cot ne possde quun
minimum : on effectue un seul apprentissage.

Ayant effectu ce choix pour plusieurs familles de fonctions de complexits croissantes, on choisit le
meilleur modle, selon une procdure qui sera dcrite dans la section Choix de la complexit
optimale .

Slection dun modle dans une famille de modles de complexit donne : critres globaux
Pour une complexit de modle donne, plusieurs apprentissages sont effectus, et, lissue de chacun
deux, le rang de la matrice jacobienne du modle obtenu est valu. Si cette matrice nest pas de rang
plein, le modle doit tre limin, comme indiqu plus haut.
Il faut noter que, contrairement ce qui a parfois t publi, la valeur du nombre de conditionnement de
la matrice jacobienne ne doit pas tre utilis comme critre de comparaison entre modles. Ainsi, dans
[RIVALS 2000] [RIVALS 2004], les auteurs indiquent que les modles dont la matrice de conditionnement
est suprieure 108 doivent tre rejets. Dans [OUSSAR 2004], de nombreux contre-exemples montrent
quil ny a essentiellement aucun rapport entre le surajustement et le nombre de conditionnement de la
matrice jacobienne : des modles trs fortement surajusts peuvent avoir des nombres de conditionnement
infrieurs cette limite, et des modles dont le nombre de conditionnement est trs suprieur cette limite
peuvent ne pas prsenter de surajustement.
Remarque
Le fait de trouver, pour une complexit donne, que le minimum global de la fonction de cot correspond un modle dont la matrice jacobienne nest pas de rang plein ne signie pas que tous les modles de mme complexit doivent tre limins : un minimum local peut fort
bien fournir un excellent modle mme si le minimum global fournit un modle surajust. On retrouve ici une ide analogue celle de larrt
prmatur, qui a t expose dans la section consacre la rgularisation : choisir un modle qui ne correspond pas au minimum global
de la fonction de cot peut constituer une forme de rgularisation.

Ayant effectu cette premire limination, il faut faire une slection parmi les modles restants. Dans ce
but, on met en uvre la technique du leave-one-out virtuel , dcrite plus haut. Rappelons la dfinition
du score de leave-one-out virtuel

Les rseaux de neurones


CHAPITRE 2

151

Ep =

1 N rk .

N k =1 1 hkk

Il doit tre compar lerreur quadratique moyenne sur lensemble dapprentissage (EQMA), dfinie plus
haut :
EA =

1 N
rk
N k =1

( )

Rappelons galement que, dans la procdure de leave-one-out virtuel, lapprentissage est effectu partir
de tous les exemples disponibles, lexception des exemples de lensemble de test. Cest donc bien la
mme quantit N qui est prsente dans les relations prsentes ci-dessus pour Ep et EA.
Erreur de gnralisation et EQMA
Les leviers tant positifs et infrieurs 1, Ep est ncessairement plus grand que lEQMA ; plus un modle est surajust, cest--dire plus il
donne lieu des leviers voisins de 1, plus lestimation de lerreur de gnralisation est grande devant lEQMA, exactement comme prvu
par la thorie du dilemme biais-variance prsente dans le chapitre 1.
Cas des grands ensembles dapprentissage
N
E . Ep et EA sont gaux dans la limite des grands ensembles dapprentissage pour
N p A
un modle sans surajustement, ce qui est normal puisque la diffrence entre lEQMA et lerreur de gnralisation est due au fait que le
nombre dlments de lensemble dapprentissage est ni : si lon disposait dun nombre inni dexemples, on pourrait connatre exactement la fonction de rgression.
Si tous les leviers sont gaux p/N, on a : E p =

Pour illustrer cela, considrons lexemple dun rseau 4 neurones cachs, dont lapprentissage est
effectu laide des exemples reprsents sur la figure 2-51. Cinq cents apprentissages ont t effectus,
avec des initialisations diffrentes des paramtres, en utilisant lalgorithme de Levenberg-Marquardt. La
figure 2-53 reprsente les rsultats obtenus, avec les conventions suivantes :
pour les modles dont la matrice jacobienne est de rang plein, chaque modle est reprsent par un point
dans un plan ; laxe des abscisses reprsente lEQMA, et laxe des ordonnes le score de leave-one-out
virtuel (estimation de lerreur de gnralisation du modle) ; notez lchelle logarithmique en
ordonnes ;
pour les modles dont la matrice jacobienne nest pas de rang plein, les points correspondants sont
reprsents en dessous du graphique prcdent, sur un axe figurant les EQMA de ces modles.
On remarque :
que la matrice jacobienne du modle dont lEQMA est la plus petite (modle qui a le mieux appris les
donnes ) nest pas de rang plein : ce modle est donc cart ;
que, dans cet exemple, 70 % des minima trouvs nont pas une matrice jacobienne de rang plein ;
que lestimation de lerreur de gnralisation varie de plusieurs ordres de grandeur, ce qui ncessite
lutilisation dune chelle logarithmique pour Ep. Les modles correspondant aux minima dont les
scores de leave-one-out virtuel sont levs sont trs spcialiss sur un ou quelques points, avec des
leviers trs voisins de 1.

152

Lapprentissage statistique

(chelle logarithmique)

Score
de leave-one-out virtuel Ep

105
104
103
Figure 2-53. Scores
de leave-one-out virtuels
de cinq cents modles diffrents

102
10
1

10-1
0,075
Rang(Z) < p

0,080

0,085

0,09

0,095

0,1

0,105

0,110

La figure 2-54 montre les prdictions des modles qui ont la plus petite valeur de EA et la plus petite valeur
de Ep (reprsentes respectivement par un cercle gris et par un triangle gris sur la figure 2-53). On
remarque que le modle correspondant au minimum de EA fournit une prdiction plus irrgulire que
le modle correspondant au minimum de Ep. Ce dernier est donc plus satisfaisant ; il faut noter cependant
quil est le modle le plus satisfaisant trouv dans la famille des rseaux 4 neurones cachs. Pour
terminer la slection, il reste comparer ce modle aux meilleurs modles trouvs pour des complexits
diffrentes.

1,5
1
0,5
0
-0,5

Figure 2-54. Prdictions


de deux modles quatre
neurones cachs : modle
correspondant au minimum
de lEQMA (trait plein)
et modle correspondant
au minimum du score de leaveone-out virtuel (trait pointill)

La figure 2-55 reprsente les scores de leave-one-out virtuel et les EQMA des meilleurs rseaux, trouvs
par cette procdure, pour des complexits croissantes partir dun rseau 0 neurone cach (modle
linaire) jusqu un modle 5 neurones cachs. titre indicatif, on a port aussi, sur ce graphe, lcarttype du bruit. On note que, comme attendu, lEQMA diminue lorsquon augmente le nombre de neurones
cachs, tandis que le score de leave-one-out virtuel passe par un minimum et augmente lorsque la
complexit du rseau crot. Nanmoins, le choix entre les architectures 2, 3 et 4 neurones cachs nest
pas vident, dans la mesure o les scores de leave-one-out virtuel sont peu diffrents. Le paragraphe
suivant est consacr ce problme : celui du choix de la complexit optimale.
Remarque
partir de 3 neurones cachs, lEQMA passe au-dessous de lcart-type du bruit ; on peut donc en dduire que les modles possdant
plus de 3 neurones cachs sont surajusts. Cela ne peut nanmoins pas tre considr comme un critre pratique de slection sauf si
lcart-type du bruit est connu.

Les rseaux de neurones


CHAPITRE 2

153

0,3
EQMA

0,25

Ep

0,20

cart-type du bruit

0,15
0,10
0,05
0 NC

1 NC

2 NC

3 NC

4 NC

5 NC

Nombre de neurones cachs


Figure 2-55. volution de lEQMA et du score de leave-one-out virtuel en fonction du nombre de neurones cachs

Choix de la complexit optimale : critres locaux (mthode LOCL)


On vient de voir comment, grce un critre global tel que le score de leave-one-out virtuel, on peut
choisir, pour une complexit donne, le modle le moins susceptible de prsenter un surajustement. On a
vu galement, par lexemple prcdent, que ce critre global ne permet pas toujours de diffrencier des
modles de complexits diffrentes. On met alors en uvre la mthode LOCL (Local Overfitting Control
via Leverages), fonde sur les valeurs locales des leviers [MONARI 2002].
En effet, on a indiqu plus haut quun modle qui est galement influenc par tous les exemples ne
comporte quun risque trs faible dtre surajust. Par ailleurs, on a vu que, dans ce cas, tous les leviers
sont gaux p/N. En consquence, pour des modles de complexits diffrentes ayant des scores de leaveone-out virtuel quivalents, on prfrera le modle dont la distribution des leviers est la plus troite autour
de p/N, sauf si, pour des raisons spcifiques lies au processus tudi, on considre quil est important que
le modle soit bien ajust un ou plusieurs exemples particuliers.
Reprenons lexemple considr prcdemment : la figure 2-56 montre la prdiction obtenue avec les
meilleurs modles trouvs, respectivement 2 neurones cachs et 4 neurones cachs. On a port, sur les
mmes graphes, les intervalles de confiance 95 % pour les prdictions de ces modles.

Ensemble d apprentissage

Ensemble d apprentissage

Intervalle de confiance 95 %

Intervalle de confiance 95 %

Sortie du modle
(2 neurones cachs)

0,5
0

0
3

-0,5

Prdiction du modle
(4 neurones cachs)

0,5

8
-0,5

Figure 2-56. Prdictions et intervalles de confiance : modles 2 et 4 neurones cachs

13

Lapprentissage statistique

154

Nombre dexemples

On observe que lintervalle de confiance pour le modle 2 neurones cachs est peu prs uniforme sur
tout le domaine dapprentissage, alors que, pour le modle 4 neurones cachs, lintervalle de confiance
est important dans la rgion [8, 12], o une oscillation de la sortie du modle est observe, dont on nest
pas sr quelle soit significative. Si lon considre la distribution des leviers, reprsente sur la figure 257, on observe une plus grande dispersion de ces derniers pour le modle 4 neurones cachs (traits
griss) que pour le modle 2 neurones cachs (traits noirs).
40
35
30
25
20
15
10
5
0

p/N
2 neurones cachs
4 neurones cachs

0,1

0,3

0,5

0,7

0,9

Leviers
Figure 2-57. Histogramme des leviers pour des modles 2 et 4 neurones cachs

On peut caractriser commodment la distribution des leviers de deux manires diffrentes.


On peut utiliser considre la quantit dfinie par :

1 N N
hkk .
N k =1 p

Cette quantit est toujours infrieure 1, et elle vaut 1 si et seulement si tous les leviers sont gaux
p/N.
Elle constitue donc un paramtre normalis qui caractrise la distribution des leviers : plus est proche
de 1, plus la distribution des leviers est troite autour de p/N. Ainsi, parmi les modles de complexits
diffrentes ayant des scores de leave-one-out virtuel du mme ordre de grandeur, on choisira celui qui
possde le paramtre le plus voisin de 1.
On peut galement caractriser la distribution des leviers par son cart-type normalis

n =

N
p
N

hkk
N
p ( N p ) k =1

qui vaut zro si tous les leviers sont gaux p/N, et qui vaut 1 dans le pire cas de surapprentissage, cest-dire si p leviers sont gaux 1 et les (p N) autres leviers sont gaux zro. Ainsi, un modle est
dautant plus satisfaisant que n est petit.
titre dillustration, la figure 2-58 prsente un modle une variable dont lapprentissage a t effectu
partir des points obtenus en ajoutant un bruit uniforme dcart-type gal 0,1 la courbe reprsente en
trait fin. On observe que les leviers ont une distribution assez peu disperse si lon fait abstraction des
points qui sont aux frontires du domaine, qui ont invitablement une grande importance dans un modle
une variable ; 3 leviers sont suprieurs 0,95 ; de plus, = 0,984 et n = 0,38.

Les rseaux de neurones

1,5
1
0,5
0
-0,5
-1
-1,5

Leviers

Modle et fonction de rgression

1,5
1
0,5
0
-0,5
-1

0,8

0,8

0,6
0,4
0,2

155

-1,5

Leviers

Modle et fonction de rgression

CHAPITRE 2

0,6
0,4
0,2

0
0

Figure 2-58. Modle, fonction de rgression et leviers


pour un modle non surajust

Figure 2-59. Modle, fonction de rgression et leviers


pour un modle surajust

partir du mme ensemble dapprentissage, on a obtenu un autre modle, reprsent sur la figure 2-59.
Ce modle prsente clairement un fort surajustement pour 1 x 2. On observe que les leviers sont trs
levs pour ces valeurs de x, et que, pour ce modle, les leviers sont beaucoup plus disperss que dans
lexemple prcdent : on a en effet = 0,979 et n = 0,56.
14

14

12

12

10

p/N
/

10

0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

p/N

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Figure 2-60. Histogrammes des leviers : gauche, pour le modle non surajust (figure 2-58) ;
droite, pour un modle surajust (figure 2-59)

156

Lapprentissage statistique

La figure 2-60 montre lhistogramme des leviers pour chacun des deux modles : la distribution des
leviers du premier est clairement plus troite, avec un pic pour p/N, que la distribution des leviers du
second modle.
Ces exemples montrent clairement que les leviers permettent de reprer localement les risques de surajustement, et doivent donc contribuer la slection du meilleur modle et/ou la planification dexpriences
supplmentaires.

Que faire en pratique ?


Rsumons la dmarche de slection de modle qui vient dtre dcrite.
Raliser les oprations suivantes pour une complexit donne (si les modles sont des rseaux de
neurones : pour un nombre de neurones cachs donn) :
effectuer des apprentissages, avec toutes les donnes disponibles, pour des initialisations diffrentes des
paramtres du rseau ;
valuer le rang de la matrice jacobienne des modles ainsi trouvs et liminer ceux dont la matrice jacobienne est de rang infrieur au nombre de paramtres ajustables du modle ;
pour chaque modle dont la matrice jacobienne est de rang plein, calculer son score de leave-one-out
virtuel et son paramtre n (ou son paramtre ).
Raliser les oprations prcdentes pour des modles de complexits croissantes ; lorsque les scores de
leave-one-out virtuel deviennent trop grands, ou la distribution des leviers trop large, arrter la procdure
et choisir le modle. Deux stratgies sont envisageables :
si lensemble dapprentissage est dfinitivement fix et ne peut pas tre enrichi, il faut choisir, parmi les
modles qui ont de petits scores de leave-one-out virtuel, le modle avec le le plus lev ou le n le
plus faible ;
sil est possible denrichir lensemble dapprentissage en effectuant quelques expriences supplmentaires, il est prfrable de choisir un modle lgrement surajust, et deffectuer des expriences supplmentaires dans les zones qui correspondent des leviers levs (ou des intervalles de confiance grands) ;
on choisira alors un modle qui a le score de leave-one-out le plus petit possible, mme sil ne correspond pas la plus grande valeur de , ou la plus petite valeur de n.

laboration de plans dexpriences


Aprs avoir suivi la dmarche dlaboration et de slection de modles qui vient dtre dcrite, il peut
savrer ncessaire de complter la base de donnes utilise pour llaboration du modle. Il convient
alors de construire un plan dexpriences , en profitant des rsultats obtenus lors de llaboration du
modle, notamment des intervalles de confiance. En effet, un intervalle de confiance lev dans une
certaine zone de lespace peut tre d un nombre de points insuffisant. Il suffit donc de reprer les zones
de lespace des variables o les intervalles de confiance sont excessifs, et deffectuer ensuite les mesures
dans ces zones.

Techniques et mthodologie de conception de modles


dynamiques (rseaux boucls ou rcurrents)
La section prcdente traitait de la modlisation statique, cest--dire de modles qui ralisent une relation
algbrique entre leurs variables et leurs sorties. Ces modles sont utiles pour rendre compte des proprits
dun processus dans un tat stationnaire, ou pour tablir des relations entre des grandeurs qui sont indpendantes du temps.

Les rseaux de neurones


CHAPITRE 2

157

On sintresse prsent aux modles dynamiques, dont les variables et les prdictions sont relies entre
elles par des quations diffrentielles, ou, pour des systmes temps discret, par des quations rcurrentes ou quations aux diffrences. Dans tout cet ouvrage, on se placera uniquement dans le cadre de
systmes temps discret, car les applications relles des rseaux de neurones dynamiques pour la modlisation font appel des ordinateurs ou des circuits intgrs numriques, qui sont des systmes
chantillonns : les grandeurs ne sont mesures qu des instants discrets, multiples dune priode
dchantillonnage T.
Remarque
Pour allger les notations, on omettra systmatiquement T dans les quations : la valeur dune variable x linstant kT, k entier positif, sera
note x(k).

Le chapitre 4 de cet ouvrage propose une prsentation gnrale des systmes dynamiques non linaires.
Dans le prsent chapitre, on se contentera dune introduction mthodologique succincte de la modlisation stochastique tats continus, qui dcoule directement des considrations relatives la modlisation
statique dcrite dans les sections prcdentes. Les lments de modlisation dynamique prsents ici sont
suffisants pour aborder, dans la dernire partie de ce chapitre, la mthodologie de modlisation semiphysique , trs importante en raison de ses applications industrielles.

Reprsentations dtat et reprsentations entre-sortie


La modlisation dynamique prsente, par rapport la modlisation statique, des particularits importantes.
La premire dentre elles rside en ce quil existe plusieurs reprsentations possibles pour un modle
dynamique dun mme processus (voir par exemple [KUO 1995] pour une introduction aux systmes
dynamiques, et [KUO 1992] pour une introduction aux systmes chantillonns). On considre ci-aprs la
modlisation dun processus une variable de sortie ; lextension un processus multi-sortie ne prsente
pas de difficult.

Reprsentation dtat
Un modle est sous la forme dune reprsentation dtat sil est constitu dun ensemble dquations de
la forme :
x ( k ) = f ( x ( k 1) , u ( k 1) , b1 ( k 1)) quation d'tat

y ( k ) = g ( x ( k ) , b2 ( k )) quation d'observation (ou quation de sortie)


o le vecteur x(k) est appel vecteur dtat (dont les composantes sont les variables dtat ), le
vecteur u(k) est le vecteur des variables de commande, b1(k) et b2(k) sont les vecteurs des perturbations,
et le scalaire y(k) est la prdiction fournie par le modle. f est une fonction vectorielle non linaire, et g
est une fonction scalaire non linaire. La dimension du vecteur dtat (cest--dire le nombre de variables
dtat) est appele ordre du modle. Les variables dtat peuvent tre mesures ou non mesures.
Remarque 1
Pour un processus mono-entre u(k), le vecteur u(k) peut tre constitu de u(k) et de valeurs de la commande plusieurs instants passs :
u(k) = [u(k), u(k 1), , u(k m)]T.

158

Lapprentissage statistique

Remarque 2
Les perturbations sont des facteurs qui affectent la sortie, ou ltat, ou les deux la fois, et qui, contrairement aux variables de commande,
ne sont pas mesures ; elles ne peuvent donc pas constituer des variables du modle, bien quelles aient un effet sur la grandeur modliser. Par exemple, pour un four, lintensit qui passe dans la rsistance chauffante est une grandeur de commande ; la dgradation de
lisolant thermique du four et le bruit de mesure du thermocouple constituent des perturbations, que lon peut, si ncessaire, modliser par
des variables alatoires.
Remarque 3
Rien ne soppose ce que la sortie elle-mme soit une des variables dtat (on en verra un exemple dans le paragraphe intitul Que faire
en pratique ? )

Lobjectif du concepteur dun modle sous forme de reprsentation dtat est donc de trouver des approximations des deux fonctions f et g, par apprentissage, partir de squences des entres, des sorties, et,
ventuellement, des variables dtat si celles-ci sont mesures.

Reprsentation entre-sortie
Un modle est sous la forme dune reprsentation entre-sortie sil est constitu dquations de la forme :
y ( k ) = h ( y ( k 1) ,..., y ( k n ) , u ( k 1) ,..., u ( k m ) , b ( k - 1) ,..., b ( k p ))
o h est une fonction non linaire, n est lordre du modle, m et p sont deux constantes positives, u(k) est
le vecteur des signaux de commande, b(k) est le vecteur des perturbations. Remarquons que les reprsentations entre-sortie constituent des formes particulires des reprsentations dtat, o le vecteur dtat a
pour composantes [y(k-1), y(k-2), y(k-n)].
Attention

Pour raliser un modle linaire, les reprsentations dtat et entre-sortie sont strictement
quivalentes : le choix de lune ou lautre repose sur des considrations qui ont trait leur commodit, compte tenu des objectifs de la modlisation considre. En revanche, pour la ralisation dun
modle non linaire, une reprsentation dtat est plus gnrale et plus parcimonieuse quune reprsentation entre-sortie ([LEVIN 1993]), comme on le verra plus loin sur un exemple ; nanmoins, elle
peut tre plus dlicate mettre en uvre, puisque deux fonctions f et g doivent tre approches, alors
que les modles entre-sortie ncessitent lapproximation de la seule fonction h.
Une fois effectu le choix entre reprsentation entre-sortie et reprsentation dtat, il convient de faire
une hypothse sur la faon dont le bruit intervient dans le processus. Cette distinction fondamentale est
souvent nglige dans la littrature sur les rseaux de neurones, alors quelle est bien connue dans le cas
de la modlisation dynamique linaire, comme on le verra au chapitre 4. On va montrer que lhypothse
effectue sur le bruit conditionne la fois lalgorithme dapprentissage quil faut utiliser et la structure
du modle qui doit tre mis en uvre. On va donc passer en revue les principales hypothses relatives au
bruit, et en dduire, dans chaque cas, la structure du modle dont il faut estimer les paramtres.

Les hypothses concernant le bruit et leurs consquences


sur la structure, lapprentissage et lutilisation du modle
Dans cette section, on examinera les hypothses concernant la manire dont le bruit intervient dans le
processus. On indiquera, en premier lieu, les consquences de ces hypothses sur la structure, lapprentis-

Les rseaux de neurones

159

CHAPITRE 2

sage et lutilisation des modles entre-sortie, puis sur la structure, lapprentissage et lutilisation des
modles dtat.

Cas des reprsentations entre-sortie


Hypothse bruit dtat (reprsentation entre-sortie )
Faisons lhypothse que le processus peut tre correctement dcrit, dans le domaine de validit souhait,
par une reprsentation de la forme :

y p ( k ) = y p ( k 1) ,..., y p ( k n ) , u ( k 1) ,..., u ( k m ) + b ( k )
o yp(k) est la valeur de la grandeur modliser,
mesure sur le processus linstant k ; b(k) modlise
lensemble des bruits et perturbations. On suppose
donc que le bruit est additif la sortie du processus
(voir figure 2-61), et que, linstant k, le bruit nintervient pas seulement dans la sortie actuelle, mais galement dans les valeurs des n sorties passes. Dans le
domaine de la modlisation non linaire, cette hypothse est nomme NARX (Nonlinaire Auto-Rgressif
entres eXognes) (voir aussi chapitre 4) ou equation
error (voir par exemple [LJUNG 1987] [GOODWIN
1984]), ou encore srie-parallle [NARENDRA
1989] en modlisation adaptative.

yp(k)

.....
yp(k-1)

yp(k-n+1)
....
q-1

.....
b(k) u(k-1) u(k-m)

.....

yp(k-n)

....

yp(k-2)

yp(k-1)
Figure 2-61. Hypothse bruit dtat

Remarque
On emploie parfois, au lieu du vocable hypothse , lexpression modle hypothse , traduction de langlais postulated model. Pour viter
toute confusion entre hypothse et modle, et pour ne pas alourdir inutilement la nomenclature, nous nutiliserons pas ces derniers termes.

Par hypothse, le bruit agit donc sur la sortie, non seulement dune manire directe linstant k, mais
galement par lintermdiaire des sorties aux n instants prcdents ; puisque lon souhaite obtenir un
modle tel que lerreur de modlisation linstant k soit gale au bruit au mme instant, il faut quil tienne
compte des sorties du processus aux n instants prcdents. Considrons donc un rseau de neurones non
boucl, reprsent sur la figure 2-62, rgi par lquation

g ( k ) = RN y p ( k 1) ,..., y p ( k n ) , u ( k 1) ,...u ( k m ) ,w

o w est un vecteur des paramtres, et o la fonction RN est ralise par un rseau de neurones (non
boucl). Supposons que lon ait effectu lapprentissage du rseau de neurones RN de telle manire quil
ralise exactement la fonction . On a alors yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel que
lerreur de modlisation soit gale au bruit : cest donc le modle idal, puisquil modlise parfaitement
tout ce qui est dterministe dans le processus, et ne modlise pas le bruit.
Il est important de remarquer que les variables du modle sont les variables de commande et les valeurs
de la grandeur modliser, mesures sur le processus : le modle (galement appel prdicteur ) idal,
reprsent sur la figure 2-62 nest donc pas un rseau de neurones boucl.
Apprentissage du modle : apprentissage dirig
Puisque le modle obtenu est un modle non boucl, son apprentissage seffectue en mettant en uvre les techniques prsentes dans
la section Apprentissage non adaptatif de modles entre-sortie non boucls : apprentissage dirig .

160

Lapprentissage statistique

g(k)

g(k)
.....
yp(k-1)

yp(k-n+1)
....

RN

RN

q-1

.....

.....

yp(k-n)

....

.....

y (k-2)

u(k-1) u(k-m)

u(k-1) u(k-m)

.....
yp(k-1) yp(k-2) yp(k-n)

yp(k-1)
Figure 2-62. Modle idal pour une reprsentation entre-sortie avec lhypothse bruit dtat ; les deux dessins
sont quivalents, mais le fait que le rseau nest pas boucl apparat plus clairement sur celui de droite.
Utilisation du modle
Puisquune partie des variables du prdicteur sont les valeurs de la grandeur modliser, mesures du processus, on ne peut calculer la
sortie quau temps immdiatement suivant : on dit que lon ralise un prdicteur un pas . Si lon dsire utiliser le modle comme simulateur, cest--dire prvoir la rponse du processus sur un horizon suprieur un pas dchantillonnage, il faut ncessairement utiliser
comme variables les prdictions faites par le modle aux instants prcdents : le prdicteur nest plus utilis dans des conditions optimales.

Hypothse bruit de sortie (reprsentation entre-sortie )


Faisons prsent lhypothse que le processus peut tre correctement dcrit, dans le domaine de validit
souhait, par une reprsentation de la forme :

x p ( k ) = x p ( k 1) ,..., x p ( k n ) , u ( k 1) ,..., u ( k m )
p
y ( k ) = x p ( k ) + b ( k )
yp(k)

.....
xp(k-1)

xp(k-n+1)
....
q-1

.....

.....

b(k) u(k-1) u(k-m)

xp(k-2)

xp(k-n)

xp(k-1)

Figure 2-63. Hypothse bruit de sortie

....

On suppose donc ici que le bruit est additif sur la sortie


uniquement (figure 2-63) : il intervient en dehors de la
boucle, donc il naffecte que la prdiction. Cette hypothse est connue, en modlisation linaire adaptative,
sous les termes d output error ou observateur
parallle [NARENDRA 1989].
Puisque la sortie, linstant k, nest affecte que par le
bruit ce mme instant, le modle recherch ne doit
pas faire intervenir les valeurs passes de la grandeur
modliser. Considrons donc un rseau de neurones
boucl, reprsent sur la figure 2-64, rgi par lquation
g ( k ) = RN ( g ( k 1) ,..., g ( k n ) , u ( k 1) ,..., u ( k m ) , w )

Les rseaux de neurones


CHAPITRE 2

o w est un vecteur des paramtres, et o la fonction


RN est ralise par un rseau de neurones non boucl.
Supposons que lon ait effectu lapprentissage du
rseau de neurones RN de telle manire quil ralise
exactement la fonction . Supposons de plus que
lerreur de prdiction soit gale au bruit aux n premiers
instants : yp(k) g(k) = b(k) pour k = 0 n-1. On a alors
yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel
que lerreur de modlisation soit gale au bruit : cest
donc le modle idal, puisquil modlise parfaitement
tout ce qui est dterministe dans la reprsentation, et ne
modlise pas le bruit.
Remarque
Si la condition initiale nest pas ralise, mais que nanmoins
RN = , et si le modle est stable quelles que soient les conditions
initiales, lerreur de modlisation tend vers zro lorsque k crot.

161

g(k)

.....
g(k-1)

g(k-n+1)
....
q-1

.....

.....

u(k-1) u(k-m)

g(k-n)

....

g(k-2)

g(k-1)
Figure 2-64. Modle idal pour une reprsentation
entre-sortie avec lhypothse bruit de sortie

Il faut noter que, dans ce cas, le modle idal est un


modle boucl.
Apprentissage du modle : apprentissage semi-dirig
Lapprentissage dun modle boucl se ramne, moyennant une technique approprie, lapprentissage dun rseau de neurones non
boucl ( apprentissage semi-dirig ). La technique dapprentissage des rseaux de neurones boucls est dcrite dans la section
Apprentissage non adaptatif de modles entre-sortie boucls .
Utilisation du modle
Contrairement au cas prcdent, ce modle peut tre utilis comme simulateur dans des conditions optimales. Il peut aussi, bien sr, tre
utilis comme prdicteur un pas.

Illustration
Avant de continuer passer en revue les principales hypothses possibles, on va illustrer limportance du
choix du modle en fonction de la manire dont le bruit intervient dans le processus. Cette illustration est
tire de [NERRAND 1992] et de [NERRAND 1994].
Modlisation dun processus avec bruit de sortie

Considrons un processus, simul sur ordinateur, qui obit aux quations suivantes :

c + dx p ( k 1)
T
x p ( k ) = 1
x p ( k 1) + T
u ( k 1) ,
a
bx
k
+

1
(
)

a + bx p ( k 1)
p

p
y ( k ) = x p ( k ) + b ( k )
avec a = 0,139, b = 1,2, c = 5,633, d = 0,326, et une priode dchantillonnage T = 0,1 s. b(k) est un
bruit blanc damplitude maximale 0,5. Il sagit donc dun processus avec bruit de sortie. La figure 2-65
montre la rponse du processus simul une squence de crneaux pseudo-alatoires.

Lapprentissage statistique

Lors de la modlisation dun processus rel, la manire


dont le bruit intervient dans le processus nest pas
connue. On fait donc successivement des hypothses sur
ce type de bruit ; on effectue lapprentissage en fonction
dune hypothse retenue, et lon compare les rsultats de
cet apprentissage avec les rsultats obtenus avec
dautres hypothses. Cest donc ce qui va tre fait ici.

10
yp

Amplitude

162

6
4

2
0
0

Hypothse bruit de sortie

200

300 400
500
Temps (0,1 sec)

600

700

Figure 2-65. Rponse du processus simul


une squence de crneaux pseudo-alatoires.
Erreur de modlisation

Considrons tout dabord lhypothse (exacte) selon


laquelle le bruit serait un bruit de sortie. On a vu que le
modle idal est alors un modle boucl. La figure 2-66
montre lerreur de modlisation aprs apprentissage
dun rseau de neurones boucl 5 neurones cachs.
On observe que lerreur de modlisation est un bruit
blanc damplitude 0,5 : on vrifie que, ayant effectu
lhypothse exacte et ayant choisi la structure du
modle en consquence, lerreur de modlisation est
bien gale au bruit, ce qui constitue le meilleur rsultat
de modlisation que lon puisse obtenir.

100

0,4
0,2
0
-0,2
-0,4
0

100

200

300 400 500


Temps (0,1 sec)

600

700

Figure 2-66. Erreur de modlisation dun processus


avec bruit de sortie aprs apprentissage
avec hypothse bruit de sortie

Hypothse bruit dtat

Considrons prsent lhypothse (inexacte)


selon laquelle le bruit serait un bruit dtat.
Erreur de modlisation

Conformment cette hypothse, effectuons


0,4
lapprentissage dun rseau de neurones non
0,2
boucl, 5 neurones cachs. La figure 2-67
reprsente lerreur de modlisation : on vrifie
0
que son amplitude est suprieure 0,5. Le
-0,2
rsultat est donc moins bon quavec lhypothse bruit de sortie , ce qui est normal
-0,4
puisque cette hypothse est inexacte. Souli0
100 200 300 400 500 600 700
gnons quil ne sagit pas ici dun problme
Temps (0,1 sec)
technique (trop ou trop peu de neurones cachs,
Figure 2-67. Erreur de modlisation dun processus avec bruit
algorithme doptimisation inefficace, erreur de
de sortie aprs apprentissage avec lhypothse bruit dtat
programmation), mais dun problme
fondamental : mme avec le meilleur algorithme dapprentissage possible, et une structure de rseau de neurones parfaitement adapte, on ne pourrait pas obtenir une erreur de modlisation gale au bruit, puisque lon a fait une hypothse errone sur le
bruit.
Modlisation dun processus avec bruit dtat

Considrons prsent un processus, simul sur ordinateur, qui obit lquation suivante :

p
c + dy p ( k 1)
T
y p ( k ) = 1
y ( k 1) + T
u ( k 1) + b ( k )
p
a + bx p ( k 1)
a + by ( k 1)

Les rseaux de neurones

163

CHAPITRE 2

Considrons tout dabord lhypothse


(inexacte) selon laquelle le bruit serait un bruit
de sortie. On a vu que le modle idal est alors
un modle boucl. La figure 2-68 montre lerreur
de modlisation aprs apprentissage dun
rseau de neurones boucl 5 neurones cachs.
On observe que lerreur de modlisation ne se
prsente pas du tout comme un bruit blanc : il
est manifeste que lerreur de modlisation
contient de linformation que lapprentissage
du modle na pas permis dapprhender. L
encore, cet chec nest pas d une raison technique (modle insuffisamment complexe,
apprentissage inefficace) : cest lhypothse sur
boucl), qui est en cause.

0,5
0
-0,5
-1,5
100

200 300 400 500


Temps (0,1 sec)

600

700

Figure 2-68. Erreur de modlisation dun processus avec bruit


dtat aprs apprentissage avec lhypothse bruit
de sortie

le bruit, donc la structure du modle (ici, modle

Faisons enfin lhypothse (exacte) selon laquelle le


bruit serait un bruit dtat. Le modle idal est alors un
rseau non boucl. La figure 2-69 montre que lerreur
de modlisation a bien toutes les caractristiques dun
bruit blanc damplitude 0,5 : on a bien obtenu un
prdicteur idal.
(reprsentation entre-sortie )

1,0

Hypothse bruit dtat

Hypothse bruit de sortie et bruit dtat

1,5

Erreur de modlisation

Hypothse bruit de sortie

Erreur de modlisation

Il sagit donc dun processus avec bruit dtat, dont la partie dterministe est la mme que dans le cas
prcdent : elle sera donc modlise par un rseau de neurones cinq neurones cachs, comme prcdemment. Faisons nouveau successivement les deux hypothses bruit de sortie et bruit dtat .

0,4
0,2
0
-0,2
-0,4
0

100

200

300 400 500


Temps (0,1 sec)

600

700

Figure 2-69. Erreur de modlisation dun processus


avec bruit dtat aprs apprentissage
avec lhypothse bruit dtat

Ayant examin successivement les consquences des


hypothses bruit de sortie et bruit dtat ,
faisons prsent lhypothse dun bruit additif qui affecte la fois la sortie et ltat : le processus peut tre
correctement dcrit par un modle de la forme :

x p ( k ) = x p ( k 1) ,..., x p ( k n ) , u ( k 1) ,..., u ( k m ) , b ( k 1) ,...b ( k p )


y (k ) = xp (k ) + b(k )

reprsent sur la figure 2-70. On nomme parfois cette hypothse NARMAX (Non linaire Auto-Rgressif
Moyenne Ajuste et entres eXognes).
Il faut cette fois que le modle tienne compte simultanment des valeurs passes de la sortie du processus et des
valeurs passes de la sortie du modle. Considrons donc un rseau de neurones boucl, rgi par lquation

g ( k ) = RN y p ( k 1) ,...y p ( k n ) , u ( k 1) ,..., u ( k m ) , r ( k 1) ,..., r ( k p ) , w

o r(k) = yp(k) g(k) (figure 2-71). Supposons que lon ait effectu lapprentissage du rseau de neurones
RN de telle manire quil ralise exactement la fonction . Supposons de plus que lerreur de prdiction

164

Lapprentissage statistique

soit gale au bruit aux p premiers instants : yp(k) g(k) = b(k) pour k = 0 p 1. On a alors
yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel que lerreur de modlisation soit gale au bruit :
cest donc le modle idal, puisquil modlise parfaitement tout ce qui est dterministe dans la reprsentation, et ne modlise pas le bruit.
yp(k)

g(k)
r(k)

xp(k)

xp(k-1)

xp(k-n+1)

....

yp(k)

..... x (k-n)
p

.....

b(k) b(k-1) b(k-p) u(k-1) u(k-m)

r(k-p+1)

RN

q-1
.....

......
r(k-1)

....

r(k-1)

......

......
u(k-1)

xp(k-2)

u(k-m)

yp(k)

q-1

yp(k-n)

r(k-2)

......

r(k-p)

xp(k-1)

Figure 2-70. Hypothse NARMAX

Figure 2-71. Modle

Rsum sur la structure, lapprentissage et lutilisation des modles dynamiques entre-sortie


Le tableau 2-1 rsume les hypothses de bruit et leurs consquences sur lapprentissage des modles
entre-sortie.
Hypothse

Nom usuel en
modlisation non
linaire

quivalent en
modlisation linaire

Apprentissage

Bruit dtat

NARX

ARX

Dirig

Prdicteur
un pas

Output error

Semi-dirig

Simulateur

ARMAX

Semi-dirig

Prdicteur
un pas

Bruit de sortie
Bruit dtat et bruit de
sortie

NARMAX

Utilisation
recommande

Tableau 2-1. Hypothses de bruit et leurs consquences sur lapprentissage


des modles entre-sortie

Cas des reprsentations dtat


On reprend ici les mmes hypothses que dans le paragraphe prcdent, mais on considre prsent leurs
consquences sur les modles dtat.

Hypothse bruit de sortie


(reprsentation dtat)
Dans les paragraphes prcdents, on a considr diverses hypothses sur le bruit, et cherch des modles
idaux dans ces diffrents cas, sous la forme de reprsentations entre-sortie. Reprenons ces hypothses,
mais en cherchant prsent des modles sous la forme de reprsentations dtat, qui, rappelons-le, sont
gnralement plus parcimonieuses que les reprsentations entre-sortie.
Faisons tout dabord lhypothse bruit de sortie , selon laquelle le comportement du processus pourrait
tre correctement dcrit par des quations de la forme

Les rseaux de neurones


CHAPITRE 2

x ( k ) = ( x ( k 1) , u ( k 1))

y ( k ) = ( x ( k )) + b ( k )

yp(k)

comme reprsent sur la figure 2-72 pour un modle du


deuxime ordre.
Le bruit nintervenant que dans lquation dobservation, il na aucune influence sur la dynamique du
modle. Pour des raisons analogues celles qui ont t
dveloppes dans le cas des reprsentations entresortie, le modle idal est un modle boucl, reprsent
sur la figure 2-73 :

xp1(k)
xp2(k)

x ( k ) = RN ( x ( k 1) , u ( k 1))

y ( k ) = RN ( x ( k ))
o jRN ralise exactement la fonction j et RN ralise
exactement la fonction .

q-1

b(k)

xp2(k-1)

u(k)

Hypothse bruit dtat


(reprsentation dtat)

Supposons que le processus puisse tre dcrit correctement par les quations :

xp1(k-1)

Figure 2-72. Reprsentation dtat, hypothse


bruit de sortie .

x ( k ) = ( x ( k 1) , u ( k 1) , b ( k 1))

y ( k ) = ( x ( k ))
Alors, par un argument analogue celui qui a t dvelopp pour les modles entre-sortie, le modle idal
devrait avoir pour entres, outre les entres de
commande u, les variables dtat du processus. Deux
cas peuvent alors se prsenter :
ces variables sont mesures : on peut alors les considrer comme des sorties, et lon est alors ramen un
modle entre-sortie ; le modle est un modle non
boucl, qui peut tre utilis essentiellement comme
prdicteur un pas ;
ces variables ne sont pas mesures : on ne peut pas
construire le modle idal ; il convient soit dutiliser
une reprsentation entre-sortie (bien quelle soit
moins parcimonieuse quun modle dtat), soit
dutiliser un modle boucl, non optimal.

Hypothse bruit de sortie et bruit dtat


(reprsentation dtat)

Supposons enfin que le processus puisse tre dcrit


correctement par les quations :

165

g(k)

RN
x1(k)
x2(k)

RN
q-1

u(k)

x2(k-1)
x1(k-1)

Figure 2-73. Modle idal pour une reprsentation


dtat avec lhypothse bruit de sortie

166

Lapprentissage statistique

x ( k ) = ( x ( k 1) , u ( k 1) , b1 ( k 1))

y ( k ) = ( x ( k ))
L encore, deux cas peuvent se prsenter :
si les variables dtat sont mesures, on peut les considrer comme des sorties, et lon est ramen au cas
dune reprsentation entre-sortie, considr prcdemment ;
si les variables dtat ne sont pas mesures, le modle idal doit faire intervenir la fois ltat et la sortie
mesure du processus ; il est donc de la forme :

x ( k ) = x ( k 1) , u ( k 1) , y p ( k 1)

y ( k ) = ( x ( k ))

Rsum sur la structure, lapprentissage et lutilisation des modles dtat


dynamiques
Le tableau 2-2 rsume les hypothses de bruit et leurs consquences sur lapprentissage des modles
dtat dynamiques. Les termes apprentissage dirig et semi-dirig sont dfinis dans la section
suivante.
Hypothse

Apprentissage

Utilisation
recommande

Bruit dtat
(tat mesur)

Dirig

Prdicteur
un pas

Bruit dtat
(tat non mesur)

Semi-dirig

Simulateur
(non optimal)

Bruit de sortie

Semi-dirig

Simulateur

Bruit dtat et bruit de sortie

Semi-dirig

Prdicteur
un pas

Tableau 2-2. Consquences des hypothses de bruit sur lapprentissage des modles dtat dynamiques

Apprentissage non adaptatif des modles dynamiques


sous forme canonique
Dans les paragraphes prcdents, on a montr comment choisir la structure du modle dynamique, en
fonction de la manire dont le bruit est susceptible dintervenir dans le processus, afin davoir une chance,
si lapprentissage est bien fait, dobtenir le modle idal, cest--dire celui qui rend parfaitement compte
de tout ce qui est dterministe dans le processus. Abordons prsent le problme de lapprentissage de ce
modle. On suppose que des squences de mesures des entres et des sorties correspondantes sont
disponibles : on se place dans le cadre de lapprentissage non adaptatif.
Dans tout ce qui suit, on considrera que le prdicteur dont on dsire effectuer lapprentissage est sous sa
forme canonique (dfinie dans la section Forme canonique des rseaux de neurones boucls ), cest-dire quil est sous la forme :
x ( k + 1) = ( x ( k ) , u ( k ))

g ( k + 1) = ( x ( k ) , u ( k ))

Les rseaux de neurones


CHAPITRE 2

167

o x(k) est lensemble minimal, compos de variables, qui permet de calculer compltement ltat du
modle linstant k+1, connaissant ltat du modle et ses variables externes linstant k, et o les fonctions vectorielles F et y sont ralises par un ou plusieurs rseaux de neurones non boucls. est lordre
de la forme canonique. Cette forme est donc la reprsentation dtat minimale ; si le vecteur dtat est de
la forme

g(k )

g(k ) = g(k 1)

g(k v + 1)

la forme canonique constitue un modle entre-sortie :


seule la sortie intervient dans le vecteur dtat. Dans la
suite, pour simplifier, on considrera que les fonctions
F et y sont ralises par un seul rseau plusieurs
sorties, que lon dsignera sous le terme de rseau
non boucl de la forme canonique (figure 2-74).
Deux cas doivent tre envisags :
on effectue une modlisation bote noire : il est
naturel de choisir, ds la conception, un prdicteur
sous forme canonique, car il ny a aucune raison den
choisir un autre ;
on effectue une modlisation partir de connaissances
qui suggrent un prdicteur qui nest pas sous forme
canonique : il faut alors, pralablement lapprentissage, trouver la forme canonique quivalente de ce
prdicteur, ce qui est toujours possible. La section intitule Mise sous forme canonique des modles
dynamiques est consacre cette question.

Prdictions du modle
linstant k+1

Variables dtat
linstant k+1

g(k+1)

x(k+1)

Rseau de neurones non boucl


de la forme canonique

u(k)

x(k)

Variables externes
linstant k

Variables dtat
linstant k

Figure 2-74. Rseau de neurones non boucl


de la forme canonique

Dans les paragraphes qui suivent, on supposera donc


toujours que le modle dont on cherche raliser lapprentissage a t mis sous forme canonique.
On distinguera lapprentissage des modles non boucls et celui des modles boucls.

Apprentissage non adaptatif de modles entre-sortie non boucls :


apprentissage dirig
On a vu que, si lhypothse de la prsence dun bruit dtat seul permet de dcrire le comportement dun
processus, le modle idal est un modle non boucl, dont les variables sont les signaux de commande et
les valeurs de la grandeur modliser mesures sur le processus aux n instants prcdents. Lapprentissage de ce modle est dit dirig par le processus, puisque ce sont les mesures issues du processus qui sont
utilises comme variables du prdicteur pendant lapprentissage, comme cela est indiqu sur la figure 2-75
(cet apprentissage est appel teacher forcing en anglais). Le modle est donc cal en permanence sur
les mesures de la grandeur modliser.
Lapprentissage de ce modle seffectue exactement comme celui dun rseau pour la modlisation
statique. Lensemble dapprentissage de ce rseau est constitu de N couples {xk, yk} (k = 1 N), o N est
la longueur de la squence dapprentissage, et o

168

Lapprentissage statistique

x = u ( k ) , u ( k 1) ,..., u ( k m + 1) , y p ( k ) , y p ( k 1) ,..., y p ( k n + 1) T
k

p
yk = y ( k + 1)
Lapprentissage se fait par minimisation de la fonction
de cot
N

J (w ) = y p ( k ) g ( xk , w )
k =1

g(xk,w)

par rapport aux paramtres w du rseau non boucl de


la forme canonique.

Rseau de neurones non boucl


de la forme canonique

Le pige du prdicteur stupide


En apprentissage dirig, le modle prend en considration, chaque
.....
.....
pas de temps, les valeurs de la grandeur modliser mesures sur le
processus. Il est donc trs facile dobtenir des rsultats qui peuvent
u(k-1) u(k-m) yp(k-1) yp(k-2) yp(k-n)
donner limpression dune grande qualit, surtout si lon se contente
destimer graphiquement celle-ci en superposant la courbe relle et la
Figure 2-75. Apprentissage dirig dun modle
courbe prdite. Cela peut tre trompeur : en effet, un prdicteur
dynamique sous forme canonique
stupide constitu dun simple retard dune unit de temps, cest-dire un prdicteur qui prdit que la sortie linstant k + 1 sera gale
la sortie mesure linstant k, peut galement donner dexcellents rsultats : il suft pour cela que la sortie du processus varie peu entre
deux instants dchantillonnage. Il est donc trs important, lorsque lon a effectu un apprentissage dirig, de comparer la prcision du
modle obtenu celle du prdicteur stupide . Les dsillusions sont frquentes...

Apprentissage non adaptatif de modles entre-sortie boucls :


apprentissage semi-dirig
On a vu que, si lhypothse de la prsence dun bruit de sortie seul, ou dun bruit de sortie et dun bruit
dtat, permet de dcrire le comportement dun processus, le modle idal est un modle boucl dont
les variables sont
les signaux de commande et les prdictions du modle aux n instants prcdents (si lon fait lhypothse
de lexistence dun bruit de sortie seul) ;
les signaux de commande, les prdictions du modle et les erreurs de modlisation sur un horizon
convenable p (si lon fait lhypothse NARMAX).

Hypothse bruit de sortie


Le modle tant boucl, son apprentissage, laide dune squence de mesures de longueur N, ncessite
de dplier le rseau boucl en un grand rseau non boucl, compos de N copies identiques (cest-dire qui possdent toutes les mmes paramtres). Les variables de la copie k (reprsente sur la figure 2-76)
sont :
le vecteur u(k) = [u(k), ..., u(k-m+1)]T (pour simplifier, on suppose ici quil y a un seul signal de
commande ; sil y en a plusieurs, le vecteur des variables de commande est la concatnation des
vecteurs constitus des valeurs de chacun de ces signaux sur lhorizon m),
le vecteur des prdictions linstant k et aux n-1 instants prcdents [g(k), ..., g(k-n+1)]T.
Le vecteur de sortie de la copie k est le vecteur des prdictions linstant k+1 et aux n-1 instants prcdents [g(k), ..., g(k-n+2)]T. Le rseau ne calcule donc que g(k+1), les autres composantes du vecteur des
prdictions tant dduites de celles du prcdent vecteur des prdictions par dcalage dune unit de

Les rseaux de neurones


CHAPITRE 2

169

temps. Le vecteur des sorties de la copie k constitue le vecteur des variables de la copie suivante, correspondant linstant k+1. Le dpliement temporel pour lapprentissage dun rseau dordre 2, avec m = 1,
laide dune squence de longueur N, est reprsent sur la figure 2-77.
Le concepteur doit choisir le vecteur des variables linstant initial. Si la grandeur modliser est connue
au cours des n premiers instants, il est naturel de prendre ces valeurs pour ltat initial. Les valeurs de la
grandeur modliser ninterviennent donc que pour linitialisation : cest la raison pour laquelle cet algorithme est appel semi-dirig, par opposition aux algorithmes dirigs qui sont utiliss pour les rseaux non
boucls, dans lesquels les mesures effectues sur le processus interviennent tous les instants (figure 2-75).
Remarque trs importante
Toutes les copies tant identiques, il fautt utiliser la technique des poids partags, dcrite plus haut.

Vecteur des prdictions


linstant k +1 et aux n -1 instants prcdents
g(k+1)

g(k)

g(k-n+3) g(k-n+2)
Figure 2-76. Copie k
du rseau non boucl
de la forme canonique
pour un apprentissage
semi-dirig

Rseau non boucl


de la forme canonique

......

......
u(k)

u(k-m+1)
u(k)

g(k)

g(k-1)

g(k-n+2) g(k-n+1)

Vecteur des prdictions


linstant k et aux n -1 instants prcdents
g(N)

Rseau non boucl


g(k+2)

g(k+1)
u(N)

Rseau non boucl


g(2)

g(1)
u(k+1)

Rseau non boucl

u(1)

g(1)

g(0)

Rseau non boucl


u(0)
g(0)

g(0)

g(k+1)

g(k)

Rseau non boucl


u(k)

g(k)

g(k-1)

g(N-1)

g(N-2)

Figure 2-77.
Dpliement
temporel pour
lapprentissage
semi-dirig
dun rseau
dynamique
dordre 2
sous forme
canonique,
avec m = 1

170

Lapprentissage statistique

Hypothse NARMAX
Le prdicteur tant boucl, son apprentissage ncessite, comme dans le cas prcdent, de dplier le
rseau en un grand rseau non boucl, compos de N copies identiques (cest--dire possdant toutes les
mmes paramtres). Les variables de la copie k (reprsente sur la figure 2-78) sont :
le vecteur [u(k), ..., u(k-m+1)]T (on suppose, pour simplifier le schma, que le processus a une
seule variable de commande) ;
le vecteur [yp(k), ..., yp(k-n+1)]T ;
le vecteur des erreurs linstant k et aux p instants prcdents [r(k), ...,
r(k-p+1)]T.
Le vecteur de sortie de la copie k est le vecteur des erreurs linstant k+1 et aux p instants prcdents
[r(k+1), ..., r(k-p+2)]T. Le rseau ne calcule donc que r(k+1), les autres composantes du vecteur des
erreurs linstant k+1 tant dduites de celles du vecteur des erreurs linstant k par dcalage dune unit
de temps. Le vecteur des erreurs linstant k+1 entre dans la constitution du vecteur des variables de la
copie suivante, correspondant linstant k+1.
Vecteur des erreurs
linstant k+1
r(k+1)

g(k+1)

r(k)

...... r(k-p+2)

Figure 2-78.
Copie k du rseau non boucl
de la forme canonique
pour lapprentissage
dun modle NARMAX

yp(k+1)

Rseau non boucl


de la forme canonique
......
u(k)

u(k-m+1) yp(k)

......
yp(k-n+1)

......
r(k)

r(k-p+1)
Vecteur des erreurs
linstant k

Apprentissage non adaptatif de modles dtat boucls :


apprentissage semi-dirig
Comme dans le cas dun modle entre-sortie, lapprentissage ncessite de dplier le rseau de
manire raliser un grand rseau non boucl, compos de N copies identiques dun rseau non boucl
dont les variables sont, pour la copie k :
la variable de commande u(k) ;
le vecteur dtat linstant k [x1(k), ..., xn(k)]T ;
et dont les sorties sont :
la prdiction g(k+1) ;
le vecteur dtat linstant k+1 [x1(k+1), ..., xn(k+1)]T.

Les rseaux de neurones


CHAPITRE 2

171

Ce dernier vecteur constitue le vecteur des variables dtat de la copie suivante, correspondant linstant
k+1 (voir figure 2-79).
Pour linitialisation de la premire copie, le problme est plus dlicat que dans les cas prcdents, puisque
ltat initial nest pas connu. On peut, par exemple, prendre un vecteur nul.
Ltat ntant impos que pour la premire copie, il sagit encore dun algorithme semi-dirig.

Vecteur des variables dtat


linstant k +1
g(k+1)

x1(k+1) x2(k+1)

xn(k+1)
Figure 2-79.
Copie k du rseau non boucl
de la forme canonique
pour lapprentissage
semi-dirig dun modle dtat

Rseau non boucl


de la forme canonique

......
u(k)

x1(k)

x2(k)

xn(k)

Vecteur des variables dtat


linstant k
Apprentissage non adaptatif de modles dtat non boucls :
apprentissage dirig
Il a t dmontr plus haut que, si lon fait lhypothse dun bruit dtat, et si les variables dtat sont
mesures, le modle idal est un modle non boucl qui prdit ltat et la grandeur modliser, soit
laide dun rseau unique, soit au moyen de deux rseaux distincts.
Le prdicteur de ltat est non boucl, ainsi que le prdicteur de la grandeur modliser. Pour la prdiction
de ltat, on peut soit utiliser n rseaux distincts (qui ont tous les mmes entres, mais qui prdisent
chacun une variable dtat diffrente), soit utiliser un rseau unique qui prdit toutes les variables dtat :
ltat linstant k+1 est calcul partir de ltat mesur linstant k et des entres de commande
linstant k ;
la sortie linstant k+1 est calcule partir de ltat calcul linstant k+1.
La figure 2-80 montre le modle mis en uvre si lon utilise deux rseaux de neurones distincts pour ltat
et la grandeur modliser.
Lapprentissage de ces rseaux est un apprentissage dirig : il seffectue donc exactement comme pour un
rseau non boucl.

172

Lapprentissage statistique

Remarque
La remarque concernant le prdicteur stupide , formule propos de lapprentissage dirig des modles entre-sortie, sapplique
galement lapprentissage dirig des modles dtat.

tat prdit
linstant k+1
x1(k+1)

g(k+1)
xn(k+1)

Rseau non boucl

x1p(k)

xnp(k)
tat mesur
linstant k

Rseau non boucl

u(k)

x1(k+1)

xn(k+1)

Figure 2-80.
Copie k pour lapprentissage
dun rseau dtat
comprenant deux rseaux
distincts pour ltat et pour
la grandeur modliser

tat prdit
linstant k+1

Implantation pratique des algorithmes dirigs et semi-dirigs

Le lecteur dsireux de programmer lui-mme des algorithmes dirigs ou semi-dirigs trouvera


lensemble des quations ncessaires dans le chapitre 3, pages 64 69 (modles entre-sortie) et 72
81 (modles dtat), [OUSSAR 1998]. Une discussion technique trs complte, quil serait trop long de
reproduire ici, y est prsente.

Apprentissage adaptatif de rseaux de neurones boucls


Dans la section consacre lapprentissage des modles statiques, la possibilit de raliser un apprentissage adaptatif a t mentionne. La thorie et les conditions dapplication de ces algorithmes sont dveloppes au chapitre 4, dans le cadre de lapproximation stochastique. On retrouve les principes essentiels
dvelopps plus haut, notamment linfluence de la nature du bruit sur les choix du type dapprentissage.
On retrouve galement les algorithmes dirigs et semi-dirigs, et lon trouvera un troisime type
dapprentissage : lapprentissage non dirig.

Que faire en pratique ? Un exemple rel de modlisation


bote noire
On a prsent, dans les premiers paragraphes de ce chapitre, les problmes poss par la conception dun
modle statique bote noire :
prtraitement et choix des variables pertinentes ;
choix de la complexit du modle, cest--dire du nombre de neurones cachs.
La conception dun modle dynamique ncessite, en outre, les choix suivants :
choix de la reprsentation (entre-sortie ou dtat) ;
choix de lhypothse concernant le bruit (bruit dtat, bruit de sortie, bruit dtat et de sortie) ;
choix de lordre du modle.
En labsence de toute connaissance sur le processus, il faudrait en principe essayer toutes les combinaisons dhypothses et de reprsentations, et mettre en uvre des modles dordres croissants, jusqu
obtention dun modle satisfaisant. Nanmoins, les considrations suivantes doivent simplifier largement
la tche du concepteur :

Les rseaux de neurones


CHAPITRE 2

173

comme indiqu au dbut de la section sur la modlisation dynamique bote noire , les modles dtat
sont plus gnraux et plus parcimonieux, mais dapprentissage moins ais, que les modles entresortie; il est donc recommand dessayer dabord des modles entre-sortie, puis, si ceux-ci ne sont pas
satisfaisants, dessayer des modles dtat ;
des connaissances, mme trs sommaires, sur le processus modliser, fournissent souvent des indications sur la nature du bruit qui agit sur le processus ;
de mme, lobservation de la rponse du processus fournit souvent des indications concernant lordre
souhaitable pour le modle.
Pour illustrer cette dmarche de conception, on prsente ici un exemple : la modlisation bote noire
de lactionneur hydraulique dun bras de robot utilis pour lexploitation forestire. Les donnes ont t
recueillies par lUniversit de Linkping (Sude)2, et ont fait lobjet de modlisations bote noire
effectues par plusieurs quipes (voir notamment [SJBERG 1995]).

1,5
Commande u

1
0,5
0
-0,5
-1
-1,5
0

200

400

(a)

600

Squence d'apprentissage

800

1000

Squence de test

Figure 2-81.
Squences
dapprentissage
et de test pour
la modlisation
de lactionneur
dun bras
de robot

4
Grandeur modliser yp
2
0
-2
-4
0

200

400

(b)

600

800

1000

La variable de commande est louverture de la vanne dadmission du liquide dans le vrin, et la grandeur
modliser est la pression hydraulique dans lactionneur. Deux squences dobservations sont
disponibles ; chacune delles comprend 512 points. La premire de ces squences est destine lapprentissage, la seconde au test. La figure 2-81(a) montre la squence des signaux de commande, et la figure 2-81(b)
reprsente les rponses correspondantes.
Remarque
Aucun ensemble de validation ntant fourni, les performances indiques sont les meilleures performances obtenues sur lensemble de test.

2. Ces donnes proviennent de la Division of Oil Hydraulics and Pneumatics, Dept. of Mechanical Eng., Linkping University, et
nous ont t aimablement communiques par P.-Y. Glorennec (IRISA, Rennes).

174

Lapprentissage statistique

Tout dabord, on observe facilement que le modle doit tre non linaire pour rendre compte des
observations : par exemple, des commandes dont les amplitudes sont dans un rapport 2 (par exemple les
variations rapides prsentes aux instants 10 et 380 environ) nentranent pas des rponses dans un rapport 2.
On ne dispose ici daucune indication sur la physique du dispositif, et notamment sur les sources de
perturbation. Il faut donc tester les hypothses de bruit dtat et de bruit de sortie.
De plus, les rponses des variations brusques (par exemple au voisinage de linstant 220) suggrent que
le modle doit tre dordre suprieur 1.
Enfin, lapplication ne ncessitant pas un apprentissage adaptatif, seuls les apprentissages non adaptatifs
seront envisags.

Modlisation entre-sortie
Comme indiqu plus haut, la modlisation entre-sortie est plus simple mettre en uvre que la modlisation dtat : cest donc celle que lon essaie en priorit. En labsence de toute connaissance sur le
processus, il faut faire successivement les hypothses de bruit dtat (apprentissage dirig dun modle
non boucl, modle NARX), de bruit de sortie (apprentissage semi-dirig dun modle boucl), et de
prsence simultane des deux (apprentissage avec prsence simultane, en entre, des prdictions du
modle et des mesures de la sortie du processus).
Les hypothses faisant intervenir un bruit dtat donnent des rsultats de trs mauvaise qualit lorsquils
sont utiliss comme simulateurs, cest--dire si on leur demande une prdiction plus dun pas de temps ;
ils ne seront pas prsents ici. On ne prsente que les rsultats obtenus par modlisation par apprentissage
semi-dirig dun modle boucl. Le meilleur modle est un modle dordre 2, 3 neurones cachs avec
fonction dactivation sigmode, avec un horizon de 1 sur lentre. Son quation est donc :
g ( k ) = RN ( g ( k 1) , g ( k 2 ) , u ( k 1) ,w )
o w est le vecteur des paramtres, de dimension 19.
Son EQMA vaut 0,092 et son EQMT vaut 0,15. Pour chaque structure essaye, 50 apprentissages ont t
effectus avec des initialisations diffrentes. Lapport de neurones supplmentaires conduit du surajustement, et lutilisation dun ordre plus lev namliore pas les performances. Lapprentissage est effectu
laide dun algorithme semi-dirig mettant en uvre lalgorithme de Levenberg-Marquardt.

Modlisation dtat
Compte tenu des rsultats obtenus avec les modles entre-sortie, on cherche concevoir des modles
dordre 2. Deux possibilits se prsentent :
modles deux variables dtat (non mesures dans cette application) ;
modles dont la prdiction constitue une des variables dtat (une des variables dtat est donc mesure).
L encore, les modles dont lapprentissage est effectu laide dun algorithme dirig (hypothse bruit
dtat ) donnent de trs mauvais rsultats lorsquils sont tests en simulateurs.
Le tableau 2-3 prsente les meilleurs rsultats obtenus aprs apprentissage semi-dirig mettant en uvre
lalgorithme de Levenberg-Marquardt, pour un rseau trois neurones cachs.
EQMA

EQMT

Rseau sans variable dtat mesure

0,091

0,18

Rseau dont une des variables dtat est la sortie

0,071

0,12

Tableau 2-3. Rsultats obtenus aprs apprentissage semi-dirig avec optimisation par lalgorithme de Levenberg-Marquardt
(trois neurones cachs)

Les rseaux de neurones


CHAPITRE 2

175

Le meilleur modle est donc le rseau dont la sortie est une des variables dtat. Son quation est
x1 ( k ) = 1RN ( x1 ( k 1) , x2 ( k 1) , u ( k 1))

2
x2 ( k ) = RN ( x1 ( k 1) , x2 ( k 1) , u ( k 1))

g ( k ) = x2 ( k )
Ce rseau possde 26 paramtres ajustables, et il prsente nanmoins de meilleures performances que
celles dun rseau entre-sortie 19 paramtres ajustables. On vrifie bien ainsi, de manire exprimentale, la plus grande gnralit et la parcimonie des rseaux dtat, qui ont permis de mettre en uvre un
plus grand nombre de paramtres sans dgradation des performances par surajustement.
Remarque
notre connaissance, ces rsultats sont les meilleurs rsultats publis sur cette application. On peut en trouver le dtail, ainsi que des
rsultats obtenus avec des rseaux dondelettes, dans [OUSSAR 1998].

Mise sous forme canonique des modles dynamiques


Dans tout ce qui prcde, on a suppos que le concepteur du modle ne possde aucune connaissance a
priori sur le processus quil veut modliser, et notamment quil na aucune ide de la forme des quations
algbro-diffrentielles qui pourraient dcrire le processus si une analyse physique de celui-ci tait
ralise : on tait dans le contexte dun modle dynamique bote noire .
Dans la section suivante, on montre quil peut tre trs avantageux de tenir compte, dans la conception du
modle, dquations issues dune analyse du processus, mme si elles sont approximatives. Il sagit alors
dune modlisation bote grise , ou semi-physique . La conception dun tel modle peut amener
une structure de rseau complexe, qui nest ni une reprsentation entre-sortie, ni une reprsentation
dtat ; or, les algorithmes dapprentissage prsents dans les paragraphes prcdents sappliquent des
rseaux sous forme de reprsentation entre-sortie ou sous forme de reprsentation dtat. Comment
raliser lapprentissage de rseaux qui, a priori, ne sont sous aucune de ces deux formes ?
De mme, on trouvera dans le chapitre 4 une srie de modles de rseaux (o modle ne doit pas
tre pris au sens scientifique du terme, mais au sens commercial comme modle de voiture ou
modle de tlviseur ), portant gnralement le nom de leur auteur (modles de Hopfield [HOPFIELD
1987], de Jordan, dElman, etc.), qui ont des structures diffrentes de celles qui ont t considres
jusqu prsent. L encore, il est lgitime de se demander comment on peut raliser lapprentissage de tels
rseaux.
Pour rpondre cette question, utilisons la proprit suivante.
Proprit

Tout rseau de neurones boucl, aussi complexe soit-il, peut tre mis sous une forme dtat minimale,
dite forme canonique , laquelle sappliquent directement les algorithmes dcrits dans les paragraphes prcdents. Ces derniers sont donc compltement gnriques, en ce sens quils sappliquent
nimporte quelle structure de rseau boucl, sous rserve davoir pralablement ramen celle-ci
une forme canonique.

176

Lapprentissage statistique

On va donc montrer comment, tant donne une structure arbitraire de rseau, provenant, par exemple,
dune modlisation de connaissance, on peut trouver la forme canonique correspondante. Cette opration
peut se dcomposer en deux tapes :
dtermination de lordre du rseau ;
dtermination dun vecteur dtat et de la forme canonique correspondante.
Rappel
Lorsquon procde une modlisation purement bote noire , cest--dire que lon ne dispose daucun modle mathmatique, mme
approximatif, dont on dsire sinspirer pour concevoir le modle, on utilise directement la forme canonique : le problme de la mise sous
forme canonique ne se pose pas.

Dfinition
Forme canonique

On appelle forme canonique dun rseau de neurones boucl la forme dtat minimale
x ( k ) = ( x ( k 1) , u ( k 1))

g ( k ) = ( x ( k 1) , u ( k 1))

o x(k) est lensemble minimal, compos de variables, qui permet de calculer compltement ltat
du modle linstant k+1, connaissant ltat du modle et ses entres linstant k, et o les fonctions
F et Y sont des fonctions qui peuvent notamment tre ralises par des rseaux de neurones non
boucls.
est lordre de la forme canonique. Il savre commode, mais pas obligatoire, dutiliser un seul
rseau de neurones pour raliser le prdicteur, dont les variables sont les variables externes et
les variables dtat un instant donn, et les sorties sont les variables dtat et les prdictions
linstant suivant (voir figure 2-6).
On reconnat, dans cette structure, la forme gnrale dun modle dtat.
Une technique gnrale, compltement automatique, pour la mise sous forme canonique dun modle
quelconque, est dcrite en dtail dans [DREYFUS 1998]. Elle va tre illustre par un exemple, titre dillustration.

Exemple de mise sous forme canonique


Lanalyse dun processus a permis dtablir un modle constitu par les quations suivantes :
x = ( x , x , x , u )
1
1
2
3
2
x 2 = 2 ( x 1, x 3 )

x3 = 3 ( x 1, x 2 )

g = x 3
Un quivalent, en temps discret, de ces quations, tabli laide de la mthode dEuler, est donn par des
relations de la forme :

Les rseaux de neurones


CHAPITRE 2

177

x1 ( k + 1)) = 1 ( x1 ( k ) , x1 ( k 1) , x2 ( k 1) , x3 ( k 1) , u ( k 1))

x2 ( k + 1) = 2 ( x2 ( k + 1) , x3 ( k + 1))

x3 ( k + 1) = 3 ( x3 ( k ) , x3 ( k 1) , x1 ( k 1) , x2 ( k ) , x2 ( k 1))

g ( k + 1) = x3 ( k + 1)
Rappel
La mthode de discrtisation dEuler consiste remplacer la drive f(t) dune fonction linstant kT (o T est la priode dchantillonnage
et k un entier positif) par lexpression approche [f(kT) f((k 1)T)] / T. Dans la section consacre la modlisation bote grise , on
reviendra en dtail sur les problmes de discrtisation des quations diffrentielles dun modle temps continu.

Il est clair que ces quations ne sont pas sous une forme canonique. Il est souhaitable, pour la clart de
lanalyse du rseau, et pour faciliter lapprentissage si les fonctions inconnues sont paramtres, de
connatre le nombre minimal de variables qui permettent de dcrire ce modle, et de le mettre sous forme
canonique. Il faut noter que cette forme canonique nest pas unique : pour un rseau donn, on peut gnralement trouver plusieurs formes canoniques, qui, bien entendu, ont toutes le mme nombre de variables
dtat.
Il savre intressant de reprsenter cette structure par le graphe du rseau, dont les nuds sont
les neurones, et les artes les connexions entre neurones ; on attribue chaque arte une longueur qui est
le retard (exprim en multiple entier, ventuellement nul, de la priode dchantillonnage) associ celleci, et une direction (qui est celle de la circulation de linformation dans la connexion considre). La
longueur dun chemin dans le graphe est gale la somme des longueurs des artes de ce chemin.
Attention

Pour quun rseau de neurones temps discret soit causal, il ne doit pas possder de cycle de
longueur nulle.

Remarque
Un cycle dans un graphe est un chemin qui va dun nud lui-mme, sans passer deux fois par un autre nud, en respectant la direction
des artes. La longueur dun cycle est la somme des longueurs de ses artes.

En effet, si un cycle tait de longueur nulle, cela signifierait que la valeur de la sortie dun neurone du
rseau un instant donn dpendrait de la valeur de cette mme sortie au mme instant.
La figure 2-82 montre une reprsentation des quations du modle sous forme du graphe dun rseau de
neurones boucl ; les nuds 1, 2 et 3 reprsentent des neurones de fonction dactivation 1, 2 et 3,
respectivement, si ces dernires sont connues ; si elles ne le sont pas, chacun de ces nuds reprsente un
rseau de neurones non boucl ralisant une de ces fonctions. Les nombres reprsents dans des carrs
sont les retards associs chacune des connexions, exprims en nombre de priodes dchantillonnage.

Lapprentissage statistique

178

g(k+1)
2
1
0
1

Figure 2-82
Graphe
dun modle
dynamique

2
2
u(k)

On peut choisir comme vecteur dtat le vecteur z(k) = [x1(k), x2(k-1), x3(k), x3(k-1)]T. La forme canonique
correspondante est reprsente sur la figure 2-83.
g(k+1)

z2(k+1)
=x1(k)

z1(k+1)
=x1(k+1)

z3(k+1)
=x3(k+1)

Figure 2-83.
Forme
canonique
du modle
de la figure 2-82

x3(k-1)
q-1

z4(k+1)
=x3(k)

x2(k)

k-1

k-1

u(k-1)

z2(k+1)
=x1(k-1)

z1(k)
=x1(k)

z3(k)
=x3(k)

q-1

k-1

z4(k)
=x3(k-1)

Elle comprend un rseau non boucl avec trois neurones cachs (le neurone 1, et le neurone 2, qui est
dupliqu dans la forme canonique (avec des poids partags)), un neurone de sortie (le neurone 3), qui est

Les rseaux de neurones


CHAPITRE 2

179

un neurone dtat ; le neurone 1 est galement un neurone dtat. Le modle tant dordre quatre, il y a
quatre sorties dtat, relies aux entres dtat par des retards unit, reprsents par loprateur retard q1.
Remarque
Le rseau reprsent sur la gure 2-83 est strictement quivalent celui qui est reprsent sur la gure 2-82 : il sagit seulement dune
rcriture trs commode, qui permet, en premier lieu, de rendre la structure du modle plus lisible, et surtout dutiliser les algorithmes
dapprentissage conventionnels exposs plus haut, rendant ainsi inutile la conception dun algorithme dapprentissage spcique pour
chaque architecture de rseau.

Cette forme est bien une forme canonique du type reprsent sur la figure 2-6. Les dtails algorithmiques
de la mise sous forme canonique de ce modle sont donns dans [DREYFUS 1998].

Modlisation dynamique bote grise


Dans les premires sections de ce chapitre, on a mis laccent sur la mthodologie de conception de
modles non linaires botes noires , ce qui constitue la vue traditionnelle des rseaux de neurones,
boucls ou non : on labore un modle partir des mesures effectues sur le processus, et delles seules.
Une telle approche est trs utile lorsque lon est dans lincapacit de construire un modle de connaissance suffisamment prcis. Nanmoins, il arrive frquemment quun modle de connaissance existe, mais
quil ne soit pas satisfaisant, soit parce quil na pas la prcision requise, soit parce que sa mise en uvre
ncessite, pour obtenir la prcision requise, des temps de calcul excessifs (par exemple, incompatibles
avec un fonctionnement en temps rel pour la surveillance ou la commande dun processus). Il est alors
souhaitable de pouvoir mettre profit ces connaissances, exprimes par des quations algbriques ou
diffrentielles, pour llaboration dun modle plus prcis, ou plus rapide, mettant en uvre un apprentissage partir de mesures : ainsi construit-on un modle bote grise ou modle semi-physique . On
peut ainsi obtenir un modle qui combine la lisibilit des modles de connaissance avec la souplesse et la
vitesse dexcution de modles botes noires.
Une mthodologie gnrale pour la conception de modles semi-physiques qui mettent en uvre
lapprentissage de rseaux de neurones est prsente dans la section suivante. Il convient dinsister sur
limportance du processus de discrtisation du modle de connaissance continu, qui conditionne en partie
la stabilit du modle temps discret obtenu. Une application industrielle de cette mthodologie a t
prsente dans la section Modlisation semi-physique dun procd manufacturier .

Principe de la modlisation semi-physique


Du modle bote noire au modle de connaissance
Un modle de connaissance est une description mathmatique des phnomnes qui se produisent dans un
processus ; il est construit partir dquations de la physique et de la chimie (ou de la biologie, de
lconomie, etc.) : typiquement, il peut sagir des quations de la thermodynamique, dquations de transport, dquations de conservation de la masse, etc. Ces quations contiennent des paramtres qui ont un
sens physique (nergies dactivation, coefficients de diffusion, etc.), et elles peuvent contenir aussi des
paramtres phnomnologiques, en petit nombre, qui doivent tre estims partir des mesures.
Inversement, un modle bote noire est une description paramtre, dont tous les paramtres doivent tre
dtermins partir de mesures : il ne tient aucun compte des connaissances expertes ventuellement
disponibles.
Un modle semi-physique peut tre considr comme un compromis entre un modle de connaissance et
un modle bote noire. Il peut prendre en considration toutes les connaissances que lingnieur ou le

180

Lapprentissage statistique

chercheur possde sur le processus, condition que celles-ci puissent tre exprimes par des quations
algbriques ou diffrentielles. De surcrot, ce modle peut utiliser des fonctions paramtres, dont les
paramtres sont dtermins par apprentissage. Dans la mesure o lon met en uvre davantage de
connaissances expertes, les donnes exprimentales ncessaires pour estimer les paramtres dune
manire significative peuvent tre en quantit plus rduite.

Conception et apprentissage dun modle dynamique semi-physique


Principe de conception
La conception dun modle semi-physique exige que lon dispose dun modle de connaissance, qui se
prsente habituellement sous la forme dun ensemble dquations algbriques, diffrentielles, et aux drives partielles, non linaires couples. Pour simplifier, supposons que le modle soit sous la forme dtat
conventionnelle :
dx
= f ( x ( t ) , u ( t ))
dt
y ( t ) = g ( x ( t ))
o x est le vecteur des variables dtat, y est le vecteur des grandeurs modliser, u est le vecteur des
signaux de commande, et o f et g sont des fonctions connues. Comme indiqu plus haut, ce modle peut
ne pas tre satisfaisant pour des raisons diverses : les fonctions f et g peuvent tre trop imprcises compte
tenu de lobjectif dutilisation du modle, ou mettre en jeu un trop grand nombre de paramtres, ou encore
ncessiter un temps de calcul trop grand, etc. Dans un modle semi-physique, les fonctions qui ne sont pas
connues avec suffisamment de prcision sont ralises par des rseaux de neurones dont on effectue
lapprentissage partir de donnes exprimentales, tandis que les fonctions qui sont connues dune
manire fiable sont conserves sous forme analytique, ou encore mises sous la forme de neurones dont la
fonction dactivation est connue et ne fait pas intervenir de paramtres ajustables.
En gnral, la conception dun modle semi-physique comprend trois tapes :
tape 1 : obtention, partir du modle de connaissance, dun modle temps discret : cela ncessite le
choix dune mthode de discrtisation approprie ;
tape 2 : apprentissage du modle semi-physique, ou de parties de celui-ci, partir de donnes obtenues
par intgration numrique du modle de connaissance ; cette tape est en gnral ncessaire pour
obtenir de bonnes valeurs initiales des paramtres, qui sont utilises lors de ltape suivante ;
tape 3 : apprentissage du modle semi-physique partir de donnes exprimentales.
Cette stratgie de conception de modle semi-physique va tre illustre au moyen dun exemple simple.

Exemple illustratif
Un modle de connaissance est dcrit par les quations suivantes :
dx1 ( t )
2
= ( x1 ( t ) + 2 x2 ( t )) + u ( t )
dt
dx2 ( t )
= 8, 32 x1 ( t )
dt
y ( t ) = x2 ( t )

Les rseaux de neurones


CHAPITRE 2

181

Les variables dtat x1 et x2 sont mesurables. La figure 2-84 montre la rponse du processus deux
squences dentre ; dans tout ce paragraphe, la squence de gauche est utilise comme ensemble
dapprentissage, et la squence de droite comme ensemble de test.
5
4,5

y(t)

2,5

2,5
2
1,5
1
0,5
0

y(t)

4
3,5

4
3,5

Grandeur modliser
(ensemble dde test)

Grandeur modliser
(ensemble dapprentissage)

5
4,5

1,5
1

u(t)

u(t)

0,5
0

1000

2000
Temps

3000

4000

1000

(a)

2000
Temps

3000

4000

(b)

Figure 2-84. Rponse du processus deux squences dentre : a) squence dapprentissage, b) squence de test

Les experts indiquent que la premire quation dtat


ne peut pas tre mise en cause, mais plusieurs niveaux
de critiques sont mis pour la seconde quation dtat :
le paramtre 8,32 peut tre imprcis ;
on nest pas sr que cette quation soit linaire ;
enfin, il y a des raisons de penser que le membre de
droite devrait faire intervenir le facteur x2.

1,5
1

Erreur de modlisation

Les rsultats obtenus en intgrant numriquement le


modle de connaissance ne sont pas satisfaisants :
lerreur quadratique moyenne sur lensemble de test
vaut 0,17, ce qui est trs suprieur lcart-type du
bruit qui vaut 0,01 (voir figure 2-85).

0,5
0
-0,5
-1
-1,5
0

500

1000 1500 2000 2500 3000 3500 4000


Temps

Figure 2-85. Erreur de modlisation commise


Dans ces conditions, et en labsence dautres connaispar le modle de connaissance.
sances physiques, il peut savrer avantageux de
concevoir un modle semi-physique. On va montrer
comment il est possible de concevoir trois modles neuronaux semi-physiques, de complexit croissante,
pour tenir compte des trois niveaux de critique qui viennent dtre mentionns.

Comme indiqu plus haut, la premire tape consiste en la discrtisation du modle de connaissance pour
obtenir un modle temps discret, partir duquel sera construit un rseau de neurones boucl temps discret.
Les donnes tant recueillies avec une priode dchantillonnage T, il est naturel de choisir cette priode
comme pas de discrtisation des quations. La mthode de discrtisation la plus simple est la mthode
f ( k + 1) T ) f ( kT )
dEuler explicite , dans laquelle on remplace la drive df ( kT ) par la quantit (
(o
T
dt
k est un entier positif). On obtient ainsi le modle temps discret suivant (en remplaant kT par k pour allger
les critures) :

182

Lapprentissage statistique

x1 ( k + 1) = x1 ( k ) + T ( x1 ( k ) + 2 x2 ( k )) + u ( k )

x2 ( k + 1) = x2 ( k ) + T ( 8, 32 x1 ( k ))

Le rseau de neurones semi-physique le plus simple est alors dcrit par les quations suivantes :
2
x1 ( k + 1) = x1 ( k ) + T ( x1 ( k ) + 2 x2 ( k )) + u ( k )

x2 ( k + 1) = x2 ( k ) + T ( wx1 ( k ))

o w est un paramtre qui est estim par apprentissage partir des donnes exprimentales. Ces quations
sont sous la forme conventionnelle dun modle dtat : il nest donc pas ncessaire de les mettre sous
forme canonique ; si ce ntait pas le cas, il faudrait avoir recours la technique de mise sous forme canonique dcrite prcdemment. Le rseau ainsi obtenu est reprsent sur la figure 2-86.
Pour simplifier les schmas, lentre constante (biais) ne
sera pas reprsente ; de plus, le temps discret kT sera
simplement not k. Sur la figure 2-86, le neurone 1 ralise
une somme pondre s de x1(kT) et x2(kT) avec les poids
indiqus sur la figure, puis la non-linarit s2, et ajoute
u(kT). Le neurone 2 multiplie son entre par le paramtre
w. Les neurones 3 et 4 ralisent simplement des sommes
pondres. Si w valait 8,32, les rsultats du modle
seraient exactement les rsultats de lintgration numrique du modle de connaissance par la mthode dEuler
explicite, avec un pas dintgration gal T. Si w est un
paramtre ajustable, sa valeur peut tre estime partir de
donnes exprimentales par apprentissage, en utilisant un
des algorithmes vus plus haut (par exemple, un algorithme semi-dirig si lon suppose que le bruit qui intervient dans le processus est un bruit de sortie). Le paramtre w serait videmment initialis 8,32 avant
lapprentissage. On peut remarquer que, dans ce cas trs
simple, ltape 2 de lalgorithme nest pas mise en uvre.

y(k+1)
x1(k+1)

x2(k+1)

4
T

1 T
1
1 1

u(k)

2
2

x1(k)

q-1

x2(k)

Figure 2-86. Forme canonique du modle


de connaissance discrtis par la mthode dEuler
explicite

La figure 2-87 montre lerreur de modlisation, sur lensemble de test, pour ce modle semi-physique
lmentaire. Lerreur quadratique sur la squence de test vaut 0,08 (contre 0,17 pour le modle de
connaissance) ; dans la mesure o la variance du bruit est de 0,01, on peut penser que le modle peut tre
amlior.
Pour essayer damliorer le modle, on peut donc considrer le deuxime niveau de critique lgard du
modle de connaissance : le fait que le membre de droite de la seconde quation dtat pourrait tre une
fonction non linaire de x1. cet effet, on remplace donc le neurone 2 de la figure 2-86 par un rseau de
neurones statique dont lentre est x1. Le modle qui en rsulte est reprsent sur la figure 2-88, avec
trois neurones cachs (et donc, 6 paramtres ajustables reprsents sur la figure, et 4 paramtres ajustables
relatifs au biais, non reprsents).
Le rseau de neurones non boucl, constitu des neurones non numrots sur la figure 2-88, peut subir un
apprentissage partir de donnes engendres par intgration du modle de connaissance (tape 2 de la
procdure) : bien que ces valeurs ne soient pas trs prcises, les valeurs des paramtres ainsi obtenues
peuvent tre utilises avec profit pour initialiser lapprentissage du modle partir de valeurs exprimentales.

Les rseaux de neurones

183

CHAPITRE 2

y(k+1)

1,5
x1(k+1)

x2(k+1)

44

Ereur de modlisation

0,5
1

w 4 w5 w6

q-1

-0,5
w2

w1

w3

-1
2

-1,5

500 1000 1500 2000 2500 3000 3500 4000


Temps

x1(k)

u(k)

x2(k)

Figure 2-88. Forme canonique dun modle semiphysique

Figure 2-87. Erreur de modlisation sur lensemble


de test

La figure 2-89 montre lerreur de modlisation obtenue avec ce modle, en utilisant deux neurones dans
la couche cache du rseau bote noire non boucl. Lerreur quadratique moyenne sur lensemble de
test devient gale 0,02, ce qui constitue une amlioration importante par rapport au modle prcdent.
y(k+1)

Erreur de modlisation

1,5

x1(k+1)

x2(k+1)
44

0,5

1 T

q-1

-0,5
-1
1

-1,5

1000

2000
Temps

3000

Figure 2-89. Erreur de modlisation sur lensemble


de test

4000

u(k)

x1(k)

x2(k)

Figure 2-90. Forme canonique dun modle semiphysique

Les rsultats ntant pas encore satisfaisants (lerreur quadratique sur lensemble de test est deux fois plus
grande que la variance du bruit), on peut mettre en uvre un rseau qui rponde au troisime niveau de
critique mise contre le modle de connaissance : la seconde quation dtat est non linaire par rapport
x1 et par rapport x2. Ce modle est reprsent sur la figure 2-90 (avec trois neurones cachs).

Lapprentissage statistique

Les tapes 2 et 3 de la conception du modle sont


effectues de la mme faon que pour le modle prcdent. La variance de lerreur de modlisation tant
gale la variance du bruit (voir figure 2-91), le
modle peut tre considr comme satisfaisant.

Discrtisation du modle
de connaissance

1,5

Erreur de modlisation

184

1
0,5
0

-0,5

Rappelons que la premire tape de la conception dun


-1
modle semi-physique consiste en la discrtisation du
-1,5
modle de connaissance (qui est gnralement un
0
1000
2000
3000
4000
modle temps continu) afin dobtenir un modle
Temps
temps discret dont la structure est utilise pour conceFigure 2-91. Erreur de modlisation sur lensemble
voir larchitecture du modle neuronal boucl. Il est
de test
utile de rappeler ici que le choix de la technique de
discrtisation a une consquence importante sur la stabilit du modle qui est construit lors des tapes
suivantes. La discrtisation des quations diffrentielles constitue gnralement un gros chapitre de tout
ouvrage danalyse numrique ; on en rappellera simplement ici quelques lments, qui sont importants
pour la conception dun modle semi-physique.

Schmas explicites et schmas implicites : dfinitions


Considrons une quation diffrentielle du premier ordre :
dx ( t )
= f ( x ( t ))
dt
Un schma de discrtisation explicite la transforme en une quation temps discret de la forme
suivante :
x ( k + 1) = ( x ( k ) , T )
o T est le pas de discrtisation qui est, le plus souvent, gal la priode dchantillonnage des donnes
exprimentales ;
o k est un entier positif ;
et o la fonction dpend de la technique de discrtisation choisie (on verra au paragraphe suivant des
exemples de techniques de discrtisation).
Un schma de discrtisation implicite transforme la mme quation diffrentielle en une quation
temps discret de la forme suivante :
x ( k + 1) = x ( k + 1) , x ( k ) , T .
La diffrence essentielle entre ces deux formes rside en ceci que la quantit x[(k+1)T] est prsente
uniquement dans le membre de gauche, si lon utilise un schma explicite, tandis que ce terme est prsent
dans les deux membres, si lon utilise un schma implicite. En consquence, si lon veut raliser un
prdicteur un pas, cest--dire un modle qui permette de calculer les quantits linstant (k+1)T,
connaissant les quantits linstant kT, il faut rsoudre une quation non linaire lorsquon utilise un
schma implicite, alors que le calcul est immdiat si lon utilise un schma explicite.

Les rseaux de neurones


CHAPITRE 2

185

De faon plus gnrale, considrons un ensemble dquations dtat crit sous la forme vectorielle :
dx ( t )
= f ( x ( t ) , u ( t ))
dt
Lutilisation dun schma explicite met ces quations sous la forme :
K x ( k ) x ( k + 1) + x ( k ) , u ( k ) , T = 0
o K est une matrice et Y est une fonction vectorielle qui dpendent de la technique de discrtisation
utilise, tandis que, si un schma implicite est mis en uvre, les quations discrtises peuvent tre mises
sous la forme gnrale :
K x ( k + 1) x ( k + 1) + x ( k + 1) , x ( k ) , u ( k + 1) , T = 0
L encore, on observe que le calcul du vecteur dtat x[(k+1)T] partir de ltat et des variables linstant
kT est immdiat si lon utilise un schma explicite (si la matrice K est inversible) :
x ( k + 1) = K 1 x ( k ) x ( k ) , u ( k ) , T
alors quil ncessite la rsolution dun systme dquations non linaires si lon utilise un schma implicite.
Exemples

dx
= f x ( t ) , u ( t ) .
dt
La mthode dEuler explicite consiste considrer que la fonction f est constante, gale f x ( kT ) entre
les instants kT et (k+1)T, de sorte que lintgration de lquation diffrentielle entre kT et (k+1)T donne
immdiatement :
Reprenons lexemple de lquation diffrentielle du premier ordre

x ( k + 1) = x ( k ) + Tf x ( k )
En revanche, le schma dEuler implicite consiste considrer que la fonction f est constante, gale
f x ( k + 1) T entre kT et (k+1)T, de sorte que lintgration de lquation diffrentielle entre kT et (k+1)T
donne immdiatement :
x ( k + 1) = x ( k ) + Tf x ( k + 1)
De mme, la mthode des trapzes (ou mthode de Tustin) consiste considrer que la fonction f varie
linairement entre kT et (k+1)T, de sorte que lintgration de lquation diffrentielle donne :
x ( k + 1) = x ( k ) +

T
f ( x ( k + 1)) + f ( x ( k )) .
2

Cette mthode est donc une mthode implicite, puisque des valeurs des grandeurs linstant (k+1)T apparaissent dans les deux membres de lquation : le calcul de x(k+1) ncessite la rsolution dune quation
algbrique non linaire.

186

Lapprentissage statistique

Application

Considrons le modle de connaissance trait plus haut, dcrit par les quations :
dx1 ( t )
2
= ( x1 ( t ) + 2 x2 ( t )) + u ( t )
dt
dx2 ( t )
= 8, 32 x1 ( t )
dt
y ( t ) = x2 ( t )
Il est facile de vrifier que sa discrtisation par la mthode dEuler explicite donne :
x1 ( k + 1) = x1 ( k ) + T ( x1 ( k ) + 2 x2 ( k )) + u ( k )

x2 ( k + 1) = x2 ( k ) + T ( 8, 32 x1 ( k ))

Sa discrtisation par la mthode dEuler implicite donne les relations suivantes :


2
1 + Tx1 ( k + 1) + 4Tx2 ( k + 1) x1 ( k + 1) + 4Tx2 ( k + 1) = x1 ( k ) + Tu ( k + 1)

x2 ( k + 1) T ( 8, 32 x1 ( k + 1)) = x2 ( k )

On vrifie que ces quations sont de la forme :


K x ( k + 1) x ( k + 1) + x ( k + 1) , x ( k ) , u ( k + 1) , T = 0
avec :
1 + Tx1 ( k + 1) + 4Tx2 ( k + 1) 4Tx2 ( k + 1)
K x ( k + 1) =

Tw
1

et :
x ( k ) + Tu ( k + 1)
x ( k + 1) , x ( k ) , u ( k + 1) , T = 1

x2 ( k )

Schmas explicites et schmas implicites : consquences sur la stabilit


On vient de montrer que la ralisation dun modle semi-physique temps discret est plus simple si lon
utilise un schma explicite que si lon met en uvre un schma implicite. Quel profit peut-on donc retirer
de la mise en uvre dun schma implicite ?
On va voir que les schmas implicites peuvent conduire des modles qui ont une plus grande stabilit
que ceux qui sont construits sur des schmas explicites. Prenons un exemple simple pour illustrer cette
ide ; soit lquation diffrentielle linaire du premier ordre :
du ( t )
= u ( t ) , > 0
dt

Les rseaux de neurones


CHAPITRE 2

187

La discrtisation par la mthode dEuler explicite donne :


u ( k + 1) u ( k )
= u ( k )
T
ou, dune manire quivalente :
u ( k + 1) = (1 T ) u ( k )
Ainsi, u(k + 1) se dduit de u(0) par une progression gomtrique de raison (1 T), qui converge si, et
seulement si, sa raison est infrieure 1, soit T < 2/. Le temps de calcul ncessaire pour intgrer numriquement cette quation est donc proportionnel 1/ : si la quantit est trs petite, le temps de calcul
peut tre prohibitif car le pas dchantillonnage doit tre trs fin.
Considrons prsent la discrtisation de la mme quation par la mthode dEuler implicite ; on obtient
alors :
u ( k + 1) u ( k )
= u ( k + 1),
T
soit encore :
u ( k + 1) =

1
u(k)
1 + T

Comme le dnominateur du membre de droite est ncessairement suprieur 1, la raison de la progression


gomtrique est infrieure 1 : elle converge donc quelle que soit la valeur de . Ainsi, le choix du pas
dchantillonnage peut tre effectu indpendamment de la valeur de .
Nanmoins, cette proprit se paie, comme cela a t indiqu plus haut, par le fait que, en gnral (et
contrairement lexemple trs simple ci-dessus), on ne peut pas calculer directement les valeurs des quantits linstant (k + 1)T : il faut rsoudre une quation algbrique non linaire. Cela a des consquences
sur la forme du modle neuronal qui en rsulte.

Schmas explicites et schmas implicites : consquences sur larchitecture du modle


neuronal
Un modle de connaissance discrtis par un schma
explicite est trs simple mettre sous la forme dun
rseau de neurones boucl : comme cela a t vu plus
haut, on a
x ( k + 1) = K 1 x ( k ) x ( k ) , u ( k ) , T
ce qui est directement la forme canonique dun rseau
de neurones boucl comme cela est reprsent sur la
figure 2-92, o le rseau de neurones non boucl
ralise une approximation de la fonction K1 .
Lexemple didactique prsent plus haut est un
exemple de ralisation dun modle semi-physique
partir dun modle physique discrtis par une
mthode explicite.

Variables d'tat
linstant k+1
x(k+1)

Rseau de neurones non boucl


q-1

u(k-1)
Signaux de commande
linstant k-1

x(k)
Variables d'tat
linstant k

Figure 2-92. Forme canonique du rseau obtenu


par discrtisation avec un schma explicite

q-1

188

Lapprentissage statistique

Lorsque, pour des raisons de stabilit numrique voques plus haut, on met en uvre une mthode implicite de discrtisation, la ralisation du modle semi-physique sous forme dun rseau de neurones boucl
est moins simple, mais elle est tout fait possible. La description de cette technique dpasse le cadre de
cet ouvrage. Le lecteur en trouvera une description dtaille dans [OUSSAR 2001].

Conclusion : quels outils ?


Dans ce chapitre, les concepts fondamentaux de la modlisation laide de rseaux de neurones ont t
prsents, et les algorithmes et mthodes qui permettent de mettre en uvre ces modles de manire
raisonne ont t dcrits en dtail. Les modles statiques et les modles dynamiques (ces derniers sont
dcrits dune manire plus dtaille, et placs dans un cadre plus gnral, au chapitre 4) ont t abords.
La modlisation semi-physique, et le traitement de donnes structures, dont lutilit en contexte industriel nest pas dmontrer, ont t exposs.
Dans la pratique, lingnieur ou le chercheur, sil se doit davoir compris les fondements des outils quil
utilise ainsi que la mthodologie quil doit imprativement mettre en uvre sil veut obtenir des rsultats
fiables, na certainement ni le got ni le loisir de programmer lui-mme tous les algorithmes qui ont t
prsents. Il a donc le souci de choisir un bon outil pour atteindre ses objectifs.
lheure o ces lignes sont crites, deux types doutils de dveloppement sont disponibles :
des botes outils spcifiques aux rseaux de neurones, lintrieur doutils gnraux de calcul ;
typiquement, Matlab et SAS proposent des botes outils qui permettent un apprentissage et une mise
en uvre aise de rseaux de neurones non boucls ; leffort de programmation est trs rduit pour les
fonctions classiques, mais peut tre important, notamment pour la mise en uvre des lments de
mthodologie qui ne sont pas spcifiquement neuronaux (calcul des leviers, des intervalles de
confiance, du score de leave-one-out virtuel) ou pour celle des rseaux de neurones boucls ;
des outils de dveloppement spcifiques qui incluent une mthodologie complte, et pour lesquels
aucune programmation nest ncessaire ; cest le cas du logiciel franais NeuroOne3 ; ces logiciels
nautorisent pas linfinie varit de la programmation personnelle, mais ils permettent dobtenir rapidement des rsultats dont la qualit dpend videmment de celle des algorithmes implants. Le CD-ROM
joint cet ouvrage propose une version dvaluation de ce logiciel.
Remarque
Il faut aussi mentionner des logiciels universitaires disponibles sur le Web, qui peuvent tre utiles pour une formation, mais qui ne sont pas
conseiller pour la ralisation dapplications ralistes, destines fonctionner en environnement industriel.

Lingnieur ou le chercheur choisira donc son outil en fonction de ses objectifs, de ses mthodes de
travail, des dlais et des obligations de rsultats auxquels il est soumis, et de lampleur de lapplication
raliser ; lidal est videmment de disposer des deux types doutils qui, dans bien des cas, se rvlent trs
complmentaires. En tout tat de cause, et quel que soit loutil mis en uvre, on ne saurait trop insister
sur limportance dune bonne comprhension des bases, et sur la ncessit absolue dune approche
mthodologique raisonne.
3. dit par NETRAL S.A. ; plusieurs illustrations et exemples dapplications de ce chapitre et du prcdent ont t raliss laide
de ce logiciel.

Les rseaux de neurones


CHAPITRE 2

189

Complments thoriques et algorithmiques


Cette section prsente quelques complments thoriques (dfinitions, dmonstrations), qui ne sont pas
indispensables la comprhension du propos principal de ce chapitre, mais qui peuvent tre utiles pour la
ralisation algorithmique de certaines mthodes importantes qui y sont dcrites.

Quelques types de neurones usuels


On peut distinguer deux types de neurones, en fonction de la manire dont interviennent leurs paramtres.

Neurones variables paramtres


Les neurones les plus frquemment utiliss sont des neurones variables paramtres. Pour cette catgorie de neurones, un paramtre est associ chaque variable du neurone. Le rsultat du calcul dun
neurone n variables {xi}, i = 0 n-1, sexprime donc sous la forme
y = f ( x, w )
o x et w sont deux vecteurs de mme dimension n.
Le plus souvent, la fonction f est la composition de deux oprations :
le calcul du potentiel du neurone, qui est la somme des entres du neurone, pondres par les paramtres.
le calcul dune fonction non linaire du potentiel, dite fonction dactivation ; cette fonction est gnralement en forme de s , do le nom gnrique de sigmode .
La figure 2-93 reprsente la sortie dun neurone 3 variables (x0 = 1, x1, x2) muni des paramtres w = 0,
w1 = 1, w2 = 1 : elle a donc pour quation : y = th(x1 x2).

1
Figure 2-93.
Sortie
dun neurone
3 variables
{x0=1, x1, x2}
munies
des paramtres
{w0=0, w1=+1,
w2=-1}, dont
la fonction
dactivation
est une tangente
hyperbolique :
y=th(x1-x2)

0,5

-0,5

-1
5

x2

5
0
-5

-5

x1

Lapprentissage statistique

190

Mentionnons deux variations sur ce type de neurones :


les neurones dordre suprieur , dont le potentiel nest pas une fonction affine des entres, mais une
fonction polynomiale ; ils sont les anctres des machines vecteurs supports (Support Vector
Machines ou SVM) utiliss pour la classification et dcrits dans le chapitre 6 ;
les neurones de Mac Culloch et Pitts , ou sparateurs linaires seuil , ou encore Perceptrons ,
qui sont les anctres des neurones utiliss actuellement ; leur utilisation pour la discrimination sera
largement dveloppe dans le chapitre 6.

Les neurones non-linarit paramtre


Les paramtres de ces neurones sont attachs la non-linarit de ceux-ci : ils interviennent directement
dans la fonction f. Ainsi, cette dernire peut tre une fonction radiale (RBF pour Radial Basis Function), ou encore une ondelette.
Exemple : fonction radiale (RBF gaussienne isotrope) :
n
2
( xi wi )

y = exp i =1
2 wn2+1

Les paramtres {wi, i = 1 n} sont les coordonnes du centre de la gaussienne dans lespace des variables,
et le paramtre wn+1 est son cart-type. La figure 2-94 reprsente une RBF gaussienne avec w1 = w2 = 0,
w3 = 1 / 2 ; elle a donc pour quation :

((

y = exp x12 x22

))

Remarque
Les fonctions radiales de base tirent leur nom du fait que ces fonctions radiales, si elles sont convenablement choisies, forment une base
de fonctions. Dans la pratique des rseaux de neurones, les RBF ne sont jamais choisies de faon former une base.

1
0,8
0,6

Figure 2-94.
RBF gaussienne
isotrope

0,4
0,2
0
2
1

2
1

-1

-1
-2

-2

Les rseaux de neurones


CHAPITRE 2

191

Algorithme de Ho et Kashyap
Lalgorithme de Ho et Kashyap permet de dterminer, en un nombre fini ditrations, si deux ensembles
dexemples sont linairement sparables ; dans laffirmative, cet algorithme fournit une solution (parmi
une infinit de solutions possibles). Contrairement certains algorithmes dvelopps dans le chapitre 6, il
ne fournit pas une solution optimise. Son intrt essentiel est donc de dterminer si deux classes sont
linairement sparables, ou si elles ne le sont pas ; dans laffirmative, on utilisera, pour trouver une bonne
solution, un des algorithmes prsents dans le chapitre 6.
Considrons deux ensembles dexemples, appartenant deux classes A et B, en nombre na et nb ; si les
exemples sont dcrits par n descripteurs, chacun deux peut tre reprsent par un vecteur dans un espace
de dimension n. On dsigne par xkA le vecteur reprsentatif de lexemple k de la classe A (k = 1 na), et
par w le vecteur des paramtres du sparateur linaire ; si un tel sparateur existe, il doit obir aux
conditions :
xkA w > 0 pour tout lement de la classe A,
xkB w < 0 pour tout lment de la classe B.
Soit M la matrice dont les lignes sont les vecteurs reprsentatifs des exemples de A et les opposs des
vecteurs reprsentatifs des vecteurs de B. Un sparateur linaire existe si et seulement si il existe un
vecteur w tel que
Mw > 0
soit encore sil existe un vecteur y > 0 et un vecteur w tels que M w = y.
On a alors w = M* y, o M* est la matrice pseudo-inverse de la matrice M : M* = M T (M M T)1, qui peut
tre calcule par la mthode de Choleski [PRESS 1992].
Lalgorithme de Ho et Kashyap est le suivant :

Initialisation (itration 0) : w(0) = M* y(0) o y(0) est un vecteur positif quelconque


Itration i

(i) = M w(i) y(i)


y(i+1) = y(i) + ((i)+|(i)|) o est un scalaire positif infrieur 1
w(i+1) = w(i) + ((i)+|(i)|)
Si y(i) < 0 alors les exemples ne sont pas linairement sparables.
Si M w(i) >0 alors les exemples sont linairement sparables et w(i) est une solution.
Cet algorithme converge en un nombre fini ditrations.

Complment algorithmique : mthodes doptimisation


de Levenberg-Marquardt et de BFGS
Cette prsentation est extraite de [OUSSAR 1998]. On trouvera galement des descriptions de ces algorithmes dans [PRESS 1992].

192

Lapprentissage statistique

Algorithme de BFGS
Lalgorithme de BFGS consiste modifier les paramtres, litration i de lalgorithme, par la relation
w ( i ) = w ( i 1) i Mi J ( w ( i 1))
o i est une constante positive, et o Mi est une approximation, calcule itrativement, de linverse de la
matrice hessienne ; elle est value chaque itration par la relation :
T M T
T M + Mi 1 i 1 iT1
Mi = Mi 1 + 1 + i 1T i i 1 iT1 i 1 i 1 i 1 i 1T
i 1 i 1
i 1 i 1 i 1 i 1

o i 1 = J ( w ( i )) J ( w ( i 1)) et i 1 = w ( i ) w ( i 1). On prend pour valeur initiale M0 la matrice


identit. Si, lors dune itration, la matrice calcule nest pas dfinie positive, elle est rinitialise la
matrice identit.
Lapproximation nest exacte quau voisinage dun minimum. Il est donc recommand dutiliser la
mthode du gradient simple (ou la mthode du gradient stochastique, qui est expose dans le paragraphe
consacr lapprentissage adaptatif) au dbut de lapprentissage, puis de mettre en uvre la mthode de
BFGS lorsquon estime tre suffisamment proche dun minimum.

Algorithme de Levenberg-Marquardt
Lalgorithme de Levenberg-Marquardt consiste modifier les paramtres, litration i, par la relation :
w ( i ) = w ( i 1) H ( w ( i 1)) + i I J ( w ( i 1)).
1

Pour de petites valeurs du pas i, la mthode de Levenberg-Marquardt sapproche de celle de Newton.


Inversement, pour de grandes valeurs de i, lalgorithme de Levenberg-Marquardt est quivalent lapplication de la rgle du gradient simple avec un pas de 1/i.

Lapplication de cet algorithme ncessite linversion de la matrice H ( w ( i 1)) + i I . Lexpression


exacte de la matrice hessienne de la fonction de cot totale J(w) est :
N
N
2 ek
e
ek
e,
H ( w ( i )) = k
+

w w=w(i ) k =1 wwT w=w(i ) k


k =1 w w = w( i )
T

avec ek = ykp g(xk, w).


Remarque
Ce qui vient dtre expos sapplique au cas dun modle une sortie ; lextension un modle plusieurs sorties ne prsente pas de
difcult.

Le second terme de cette expression tant proportionnel lerreur, on peut le ngliger en premire
approximation, ce qui fournit une expression approche :
T
N
N
g ( xk , w )
ek
( w ( i ) ) = ek
=
H

w
w w=w(i ) k =1
k =1 w w = w( i )

g ( xk , w )
.

w w=w(i )

w = w( i )
T

Dans le cas dun modle linaire par rapport aux paramtres, g(xk, w) est une fonction linaire de w, donc
le second terme de lexpression de H est nul : lexpression qui t approche devient exacte.

Les rseaux de neurones


CHAPITRE 2

193

+ i I .
Plusieurs techniques sont envisageables pour linversion de la matrice H
Inversion indirecte
Un lemme dinversion permet de calculer rcursivement la matrice inverse. En effet, soient A, B, C et D,
quatre matrices. On a la relation suivante :

( A + BCD )1 = A1 A1 B ( C 1 + DA1 B)

DA1

g ( xk , w )
en dfinisPar ailleurs, en posant k =
, on peut construire rcursivement la matrice H
w w=w(i )

k , de dimension (k, k) par :


sant des matrices partielles H
k = H
k 1 + Z k Z Tk , k = 1,, N
H
= H
N.
On a bien H
, B = z , C = I, et
Si lon applique le lemme dinversion la relation prcdente en choisissant A = H
k
D = kT , on obtient la relation suivante :
k 1 1 k Tk H
k 1 1
H
k 1 = H
k 1 1 ---------------------------------H

1
T
1 + k H
k 1 k
0 = i I , on obtient, ltape N : H
N1 = [ H
+ i I ] 1 .
En prenant, la premire tape (k = 1), H
Inversion directe
Plusieurs mthodes directes dinversion existent. Comme lalgorithme est itratif, et que la procdure de
recherche du pas ncessite souvent plusieurs inversions de matrice, on a intrt utiliser une mthode
qui nengage pas trop de calculs. Comme lapproximation de la matrice hessienne augmente de i I
reste une matrice symtrique dfinie comme positive, il est avantageux dutiliser la mthode de
Cholesky [PRESS 1992].
Comme pour lalgorithme du gradient simple et celui de BFGS, le pas i doit tre ajust chaque itration. Une mthode de recherche unidimensionnelle peut tre utilise cet effet, comme indiqu dans la
section suivante.
Il faut noter que lexpression de la matrice hessienne de la fonction de cot ne sapplique que si la fonction optimiser est la fonction de cot des moindres carrs ; contrairement la mthode de BFGS, la
mthode de Levenberg-Marquardt ne peut donc pas sappliquer loptimisation de nimporte quelle fonction de cot, notamment la minimisation de la fonction de cot dentropie croise pour la classification.

Complment algorithmique : mthodes de recherche


unidimensionnelle pour le paramtre dapprentissage
litration i dune mthode doptimisation, une direction de dplacement est calcule ; par exemple,
dans la mthode de BFGS, on calcule di = Mi J ( w ( i 1)) en valuant le gradient par la mthode de
rtropropagation et en calculant la matrice Mi par la mthode indique plus haut ; dans la mthode du
gradient simple, la direction de dplacement est di = J ( w ( i 1)). Lamplitude du dplacement dans la
direction choisie est alors dtermine par la valeur de i : on voudrait trouver la valeur de i qui minimise
la valeur de la fonction de cot au point daboutissement du dplacement conscutif cette itration,
cest--dire qui minimise J(w) au point w = w(i-1) + i di de lespace des paramtres. Dans la mesure o
la seule inconnue est i, il sagit bien dun problme unidimensionnel de recherche dun minimum. Cette
recherche doit tre effectue chaque itration de lalgorithme dapprentissage : elle doit donc tre rapide
tout en tant efficace ; la valeur de i ntant pas cruciale lorsquon met en uvre une mthode du second

194

Lapprentissage statistique

ordre, on peut se contenter dune mthode assez rudimentaire. La mthode de Nash permet dobtenir des
rsultats satisfaisants : elle recherche un pas qui satisfasse une borne suprieure de la valeur de la fonction
de cot atteinte lissue de litration courante.
Plus prcisment, cette technique recherche un pas qui vrifie la condition de descente :
J ( w ( i 1)) + i di J ( w ( i 1)) + m i diT J ( w ( i 1)),
o m est trs infrieur 1 (par exemple, m = 103). La recherche se fait dune manire itrative : on initialise i une valeur positive arbitraire. On teste la condition de borne suprieure. Si elle est vrifie, on
accepte lajustement des paramtres. Sinon, on multiplie le pas par un facteur infrieur 1 (par exemple
0,2) et lon teste nouveau la condition. On rpte cette procdure jusqu ce quune valeur satisfaisante
du pas soit trouve. Si le pas atteint une valeur trop petite, par exemple de lordre de 1016, sans que la
condition ne soit satisfaite, ou si le nombre de recherches successives excde une valeur fixe lavance,
on considre que lon ne peut pas trouver de pas satisfaisant et lon arrte la procdure.
Voici une stratgie plus simple, couramment utilise pour la mthode de Levenberg-Marquardt [BISHOP
1995] : soit r > 1 (gnralement gal 10) un facteur dchelle pour k. Au dbut de lalgorithme, on
choisit une grande valeur 0 ([BISHOP 1995] propose 0,1). litration i de lalgorithme :
1. Calculer J(w(i)) avec i dtermin ltape prcdente.
2. Si J(w(i)) < J(w(i 1)), alors accepter le changement de paramtres et diviser i par r.
3. Sinon, rcuprer w(i 1) et multiplier i par r. Rpter cette dernire tape jusqu ce quune valeur
de i correspondant une dcroissance de J soit trouve.
Cette procdure prsente lavantage de ncessiter peu dinversions de matrice chaque itration de lalgorithme. En revanche, le choix du pas initial a une influence sur la vitesse de convergence de lalgorithme.
Cet inconvnient peut tre supprim, au prix dun nombre plus lev dinversions de matrice :
1. Initialiser 0 une valeur quelconque.
2. Calculer J(w(i)) avec i dtermin ltape prcdente.
3. Si J(w(i)) < J(w(i 1)), alors rcuprer w(i 1), diviser i par r et aller ltape 1.
4. Sinon rcuprer w(i 1) et multiplier i par r. Rpter cette dernire tape jusqu ce quune valeur de
i correspondant une dcroissance de J soit trouve.

Complment thorique :
distance de Kullback-Leibler entre deux distributions gaussiennes
On cherche la distance de Kullback-Leibler entre deux gaussiennes (1, 1) et (2, 2).
On rappelle les relations suivantes :
+

1
2

( x )2

exp

dx = 1

2 2

1
2

( x )2

x exp

dx =

2 2

1
2

( x )2

2
2
x ) exp
(

dx =

2 2

Les rseaux de neurones


CHAPITRE 2

195

La divergence de Kullback-Leibler scrit :


D ( p1 p2 ) =

p1 ( x )
dx
p2 ( x )

p1 ( x ) Log

Cette expression ntant pas symtrique par rapport aux indices, on prfre calculer la quantit :

D ( p1 , p2 ) + D ( p2 , p1 )
2

Or
+

1
D ( p1 , p2 ) =
1 2
=

2
2
( x 1 )2

1 ( x 1 ) ( x 2 )

Log
+

dx
exp

2 12
2 22
2
2 12

1
1 2

+
2
2
2
2
2
+
+

exp ( x 1 ) Log 1 dx exp ( x 1 ) ( x 1 ) dx + exp ( x 1 ) ( x 2 ) dx

2 12 2 12
2 12 2 22
2
2 12

Les deux premiers termes valent Log(2/1) (1/2).


Pour le troisime terme on crit :

( x 2 )2 = ( x 1 + 1 2 )2 = ( x 1 )2 + ( 1 2 )2 + 2 ( x 1 )( x 2 )
Do :
+

1
2

( x 1 )2 ( x 2 )2

12
=
dx
exp

2 22
2 12 2 22

1
2

( x 1 )2 2 ( x 1 ) ( 1 2 )

dx = 0
exp

2 22
2 12

On obtient donc finalement :


1
2 ( )
D ( p1 , p2 ) = Log 2 1 12 + 1 2 2
2 2
2
1 2
On peut alors calculer :

2
1

+ 22

12 22 + ( 1 2 )2

4 12 22

Lapprentissage statistique

196

Complment algorithmique : calcul des leviers


Soit Z une matrice de dimensions (N, q) (avec N q), dont la colonne i est note zi. On cherche calculer
les termes diagonaux de la matrice de projection orthogonale H = Z (ZT Z)-1 ZT :

hkk = zkT ZT Z

zk

En tant qulments diagonaux dune matrice de projection orthogonale, les termes hkk, k = 1, , N ne
sont dfinis que dans le cas o Z est de rang plein, cest--dire si ZT Z est inversible. Dans ce cas, ils vrifient les proprits suivantes :
0 hkk 1 k

Trace ( H ) = hkk = rang ( Z )


k =1

Une premire mthode de calcul des leviers consiste calculer la matrice ZT Z, linverser par une
mthode classique (Cholesky, dcomposition LU...), puis la multiplier droite et gauche par les
vecteurs zk et zkT. Cette mthode ne donne cependant de bons rsultats que si la matrice ZT Z est suffisamment bien conditionne pour que son inversion se droule sans problme. Dans le cas contraire, ce calcul
donne des valeurs suprieures 1, voire ngatives.
Une meilleure solution consiste dcomposer la matrice Z sous la forme :
Z = U W VT
avec :
U matrice (N, p) telle que UT U = I,
W matrice (p, p) diagonale, dont les termes diagonaux, appels valeurs singulires de Z, sont positifs ou
nuls, et classs par ordre dcroissant,
V matrice (p, p) telle que VT V = V VT = I.
Cette dcomposition, connue sous le nom de dcomposition en valeurs singulires ou dcomposition
SVD (Singular Value Decomposition), est prcise et trs robuste, mme si la matrice Z est mal conditionne ou de rang infrieur q (voir [PRESS 1992], et chapitre 3 sur les complments de mthodologie)
On obtient donc :
ZT Z = V W UT U W VT = V W 2 VT
Puis :
(ZT Z)-1 = V W -2 VT
Cette dcomposition permet donc le calcul direct de la matrice (ZT Z)1, dont les lments scrivent :

( Z Z)
T

lj

VlkVjk

k =1

Wkk2

On peut alors calculer lexpression de hkk sous la forme :

hkk = zkT ZT Z

z k = Z kl Z kj ZT Z
k =1 j =1

lj

Les rseaux de neurones


CHAPITRE 2

197

soit, finalement :
1
hkk =
i =1 Wij
p

Z kjVji
j =1
p

Cette mthode permet de calculer les leviers sans devoir procder explicitement aux calculs des termes de
la matrice (ZT Z)1, ce qui est important pour la prcision du calcul, dans le cas de matrices mal conditionnes. Dun point de vue numrique, tant donn que les valeurs singulires de Z sont classes par ordre
dcroissant, il est conseill de calculer les leviers en faisant varier i de q 1, et non pas de 1 q.
Cette mthode de calcul fournit des termes systmatiquement positifs ou nuls.

Bibliographie
ANTONIADIS A., BERRUYER J., CARMONA R. [1992], Rgression non linaire et applications, Economica.
BARRON A. [1993], Universal approximation bounds for superposition of a sigmoidal function, IEEE
Transactions on Information Theory, 39, p. 930-945.
BARTLETT P. L. [1997], For valid generalization, the size of the weights is more important than the size of
the network, Neural Information Processing Systems, 9, Morgan Kaufmann.
BAUM E. B., WILCZEK F. [1988], Supervised learning of probability distributions by neural networks,
Neural Information Processing Systems, p. 52-61.
BENVENISTE A., JUDITSKY A., DELYON B., ZHANG Q., GLORENNEC P.-Y. [1994], Wavelets in identification, 10th IFAC Symposium on Identification, Copenhague.
BISHOP C. [1995], Neural networks for pattern recognition, Oxford University Press.
BISHOP C. [1993], Curvature-driven smoothing : a learning algorithm for feedforward networks, IEEE
Transactions on Neural Networks, 4, p. 882-884.
BRIDLE J. S. [1990], Probabilistic interpretation of feedforward classification network outputs, with relationship to statistical pattern recognition, Neurocomputing : algorithms, architectures and applications,
p. 227-236 Springer.
BROOMHEAD D. S., LOWE D. [1988], Multivariable functional interpolation and adaptive networks,
Complex Systems, 2, p. 321-355.
BROYDEN C. G. [1970], The convergence of a class of double-rank minimization algorithms 2 : the new
algorithm, Journal of the Institute of Mathematics and its Applications, 6, p. 222-231.
CHEN S., BILLINGS S. A., LUO W., Orthogonal least squares methods and their application to non-linear
system identification, International Journal of Control, 50, p. 1873-1896.
COVER T. M. [1965], Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition, IEEE Transactions on Electronic Computers, 14, p. 326-334.
DREYFUS G., IDAN Y. [1998], The canonical form of discrete-time nonlinear models, Neural Computation, 10, p. 133-164.
DUPRAT A., HUYNH T., DREYFUS G. [1998], Towards a principled methodology for neural network design
and performance evaluation in QSAR ; application to the prediction of LogP, Journal of Chemical Information and Computer Sciences, 38, p. 586-594.

198

Lapprentissage statistique

FRASCONI P., GORI M., SPERDUTI A. [1998], A general framework for adapative processing of data structures, IEEE Transactions on Neural Networks, 9, 768-786.
GALLINARI P., CIBAS T. [1999], Practical complexity control in multilayer perceptrons. Signal
Processing, 74, p. 29-46.
GOODWIN G. C., SIN K. S. [1984], Adaptive Filtering Prediction and Control, Prentice-Hall, New Jersey.
GOULON-SIGWALT-ABRAM A., DUPRAT A., DREYFUS G. [2005], From Hopfied nets to recursive networks
to graph machines, Theoretical Computer Science, 344, p. 298-334.
GOULON-SIGWALT-ABRAM A., DUPRAT A., DREYFUS G. [2006], Graph Machines and Their Applications
to Computer-Aided Drug Design: a New Approach to Learning from Structured Data, Unconventional
Computing 2006, Lecture Notes in Computer Science, 4135, p. 1 19, Springer (2006).
GOULON-SIGWALT-ABRAM A., PICOT T., DUPRAT A., DREYFUS G. [2007], Predicting activities without
computing descriptors: graph machines for QSAR, SAR and QSAR in Environmental Resesarch, 18,
p. 141 - 153
HAMPSHIRE J. B., PEARLMUTTER B. [1990], Equivalence proofs for multilayer perceptron classifiers and
the Bayesian discriminant function, Proceedings of the 1990 connectionist models summer school,
p. 159-172, Morgan Kaufmann.
HANSCH C., LEO A. [1995], Exploring QSAR, Fundamentals and applications in chemistry and biology;
American Chemical Society.
HANSEN L.K., LARSEN J. [1996], Linear unlearning for cross-validation, Advances in Computational
Mathematics, 5, p. 269-280.
HAYKIN S. [1994], Neural Networks : a comprehensive approach, MacMillan.
HO E., KASHYAP R. L. [1965], An algorithm for linear inequalities and its applications, IEEE Transactions on Electronic Computers, 14, p. 683-688.
HOPFIELD J. J. [1987], Learning algorithms and probability distributions in feedforward and feedback
neural networks, Proceedings of the National Academy of Sciences, 84, p. 8429-433.
HORNIK K., STINCHCOMBE M., WHITE H. [1989], Multilayer feedforward networks are universal
approoximators, Neural Networks, 2, p. 359-366.
HORNIK K., STINCHCOMBE M., WHITE H. [1990], Universal approximation of an unknown mapping and
its derivatives using multilayer feedforward networks, Neural Networks, 3, p. 551-560.
HORNIK K. [1991], Approximation capabilities of multilayer feedforward networks, Neural Networks, 4,
p. 251-257.
KIM S. S., SANDERS T. H. Jr [1991], Thermodynamic modeling of phase diagrams in binary alkali silicate
systems, Journal of the American Ceramic Society, 74, p. 1833-1840.
KNERR S., PERSONNAZ L., DREYFUS G. [1990], Single-layer learning revisited : a stepwise procedure for
building and training a neural network, Neurocomputing : algorithms, architectures and applications,
p. 41-50, Springer.
KNERR S. [1991], Un mthode nouvelle de cration automatique de rseaux de neurones pour la classification de donnes : application la reconnaissance de chiffres manuscrits, Thse de Doctorat de
l'Universit Pierre et Marie Curie, Paris.
KNERR S., PERSONNAZ L., DREYFUS G. [1992], Handwritten digit recognition by neural networks with
single-layer training, IEEE Transactions on Neural Networks, 3, p. 962-968.

Les rseaux de neurones


CHAPITRE 2

199

KULLBACK S., LEIBLER R. A. [1951], On information and sufficiency, Annals of mathematical Statistics,
22, p. 79-86.
KULLBACK S. [1959], Information Theory and Statistics, Dover Publications.
KUO B. C. [1992], Digital Control Systems, Saunders College Publishing.
KUO B. C. [1995], Automatic Control Systems, Prentice Hall.
LAWRANCE A. J. [1995], Deletion, influence and masking in regression, Journal of the Royal Statistical
Society, B 57, p. 181-189.
LECUN Y., BOSER B., DENKER J.S., HENDERSON D., HOWARD R.E., HUBBARD W., JACKEL L.D. [1989],
Backpropagation applied to handwritten zip code recognition, Neural Computation, 1, p. 541-551.
LEVENBERG K. [1944], A method for the solution of certain non-linear problems in least squares, Quarterly Journal of Applied Mathematics, 2, p. 164-168.
LEVIN A., NARENDRA K.S. [1993], Control of nonlinear dynamical systems using neural networks :
controllability and stabilization, IEEE Transaction on Neural Networks, 4, p. 1011-1020.
LJUNG L. [1987], System Identification; Theory for the User, Prentice Hall.
MCCULLOCH W. S., PITTS W. [1943], A logical calculus of the ideas immanent in nervous activity, Bulletin
of Mathematical Biophysics, 5, p. 115-133.
MCKAY D. J. C. [1992], A practical bayesian framework for backpropagation networks, Neural Computation, 4, p. 448-472.
MALLAT S. [1989], A theory for multiresolution signal decomposition : the wavelet transform, IEEE
Transactions on Pattern Analysis and Machine Intelligence, 11, p. 674-693.
MARCOS S., MACCHI O., VIGNAT C., DREYFUS G., PERSONNAZ L., ROUSSEL-RAGOT P. [1992], A unified
framework for gradient algorithms used for filter adaptation and neural network training, International
Journal of Circuit Theory and Applications, 20, p. 159-200.
MARQUARDT D. W. [1963], An algorithm for least-quares estimation of nonlinear parameters, Journal of
the Society of Industrial and Applied Mathematics, 11, p. 431-441.
MINSKY M., PAPERT S. [1969] Perceptrons. MIT Press.
MONARI G. [1999], Slection de modles non linaires par leave-one-out ; tude thorique et application
des rseaux de neurones au procd de soudage par points, Thse de Doctorat de l'Universit Pierre et
Marie Curie, Paris. Disponible sur le site http://www.neurones.espci.fr.
MONARI G., DREYFUS G. [2000], Withdrawing an example from the training set : an analytic estimation
of its effect on a non-linear parameterised model, Neurocomputing, 35, p. 195-201.
MONARI G., DREYFUS G. [2002], Local overfitting control via leverages, Neural Computation, 14,
p. 1481-1506.
MOODY J., DARKEN C. J. [1989], Fast learning in networks of locally-tuned processing units, Neural
Computation, 1, p. 281-294.
NARENDRA K. S, ANNASWAMY A. M. [1989], Stable Adaptative Systems, Prentice-Hall.
NERRAND O., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G., MARCOS S. [1993], Neural networks and
non-linear adaptive filtering : unifying concepts and new algorithms, Neural Computation, 5, p. 165-197.
NERRAND O. [1992], Rseaux de neurones pour le filtrage adaptatif, l'identification et la commande de
processus, thse de doctorat de lUniversit Pierre et Marie-Curie.

200

Lapprentissage statistique

NERRAND O., URBANI D., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G. [1994], Training recurrent
neural networks : why and how ? An illustration in process modeling, IEEE Transactions on Neural
Networks 5, p. 178-184.
OSADCHY M., LECUN Y., MILLER M. [2007], Synergistic Face Detection and Pose Estimation with
Energy-Based Models, Journal of Machine Learning Research, 8, p 1197-1215.
OUKHELLOU L [1997], Paramtrisation et Classification de Signaux en Contrle Non Destructif. Application la Reconnaissance des Dfauts de Rails par Courants de Foucault, Thse de lUniversit de Paris
XI-Orsay.
OUKHELLOU L., AKNIN P., STOPPIGLIA H., DREYFUS G. [1998], A new decision criterion for feature selection: application to the classification of non destructive testing signatures, European SIgnal Processing
COnference (EUSIPCO'98).
OUSSAR Y. [1998], Rseaux dondelettes et rseaux de neurones pour la modlisation statique et dynamique de processus, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
OUSSAR Y., DREYFUS G. [2000], Initialization by selection for wavelet network training, Neurocomputing, 34, p. 131-143.
OUSSAR Y., DREYFUS G. [2001], How to be a gray box : dynamic semi-physical modeling, Neural
Networks, 14, 1161-1172.
OUSSAR Y., MONARI G., DREYFUS G. [2004], Reply to the comments on Local Overfitting Control via
Leverages in Jacobian Conditioning Analysis for Model Validation by I. Rivals and L. Personnaz,
Neural Computation, 10, p. 419-443.
PLAUT D., NOWLAN S., HINTON G. E. [1986], Experiments on learning by back propagation, Technical
Report, Carnegie-Mellon University.
PLOIX J. L., G. DREYFUS [1997], Early fault detection in a distillation column: an industrial application of
knowledge-based neural modelling, Neural Networks: Best Practice in Europe, p. 21-31, World Scientific.
POGGIO T., TORRE V., KOCH C. [1985], Computational vision and regularization theory, Nature, 317,
p. 314-319.
POLLACK J. B. [1990], Recursive distributed representations, Artificial Intelligence, 46, p. 77-105.
POWELL M. J. D. [1987], Radial basis functions for multivariable interpolation : a review, Algorithms for
approximation, p. 143-167.
PRESS W. H., TEUKOLSKY S. A., VETTERLING W. T., FLANNERY B. P. [1992], Numerical recipes in C : the
art of scientific computing, Cambridge University Press.
PRICE D., KNERR S., PERSONNAZ L., DREYFUS G. [1994], Pairwise neural network classifiers with probabilistic outputs, Neural Information Processing Systems, 7 , p. 1109-1116, Morgan Kaufmann.
PRICE P.E., WANG S., ROMDHANE I.H. [1997], Extracting effective diffusion parameters from drying
experiments. AIChE Journal, 43, p. 1925-1934.
PUSKORIUS G. V., FELDKAMP L. A. [1994], Neurocontrol of nonlinear dynamical systems with Kalman
Filter trained recurrent networks, IEEE Trans. on Neural Networks, 5, p. 279-297.
RIVALS I., PERSONNAZ L. [2000], Construction of confidence intervals for neural networks based on least
squares estimation, Neural Networks, 13, p. 463-484.

Les rseaux de neurones


CHAPITRE 2

201

RIVALS I., PERSONNAZ L. [2004], Jacobian conditioning analysis for model validation, Neural Computation, 16, p. 401-418.
RIVALS I., CANAS D., PERSONNAZ L., DREYFUS G. [1994], Modeling and control of mobile robots and
intelligent vehicles by neural networks, Proceedings of the IEEE Conference on Intelligent Vehicles,
p. 137 142.
RIVALS I. [1995], Modlisation et commande de processus par rseaux de neurones : application au pilotage dun vhicule autonome, Thse de doctorat de lUniversit Pierre et Marie Curie, Paris. Disponible
sur le site http://www.neurones.espci.fr.
ROUSSEL P., MONCET F., BARRIEU B., VIOLA A. [2001], Modlisation dun processus dynamique laide
de rseaux de neurones boucls. Application la modlisation de la relation pluie-hauteur deau dans un
rseau dassainissement et la dtection de dfaillances de capteurs, Innovative technologies in urban
drainage, 1, 919-926, G.R.A.I.E.
RUMELHART D. E., HINTON G. E., WILLIAMS R. J. [1986], Learning internal representations by error backpropagation, Parallel Distributed Processing : Explorations in the Microstructure of Cognition, p. 318362, MIT Press.
SAARINEN S., BRAMLEY R., CYBENKO G. [1993], Ill-conditioning in neural network training problems,
SIAM J. Sci. Stat. Comp., 14, p. 693-714.
SEBER G.A.F., WILD C.J. [1989], Nonlinear regression, Wiley Series in Probability and Mathematical
Statistics, John Wiley & Sons.
SINGHAL A. [1996], Pivoted length normalization. Proceedings of the 19th Annual International Conference on Research and Development in Information Retrieval (SIGIR'96), p. 21-29.
SJBERG J., ZHANG Q., LJUNG L., BENVENISTE A., DELYON B. [1995], Nonlinear blackbox modeling in
system identification: a unified overview, Automatica, 31, p. 1691-1724.
SONTAG E. D. [1993], Neural networks for control, Essays on control : perspectives in the theory and its
applications, p. 339-380, Birkhuser.
STOPPIGLIA H. [1997], Mthodes statistiques de slection de modles neuronaux ; applications financires et bancaires, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
STRICKER M. [2000], Rseaux de neurones pour le traitement automatique du langage : conception et
ralisation de filtres d'informations, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Disponible sur le site http://www.neurones.espci.fr.
STRICKER M., VICHOT F., DREYFUS G., WOLINSKI F. [2001], Training context-sensitive neural networks
with few relevant examples for the TREC-9 routing, Proceedings of the TREC-9 Conference.
TIBSHIRANI R. J. [1996], A comparison of some error estimates for neural models, Neural Computation,
8, p. 152-163.
TIKHONOV A. N., ARSENIN V. Y. [1977], Solutions of Ill-Posed Problems, Winston.
VAPNIK V. [1995], The nature of statistical learning theory, Springer.
WAIBEL, HANAZAWA T., HINTON G., SHIKANO K., and LANG K. [1989], Phoneme recognition using timedelay neural networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, 37, p. 328-339.
WERBOS P. J. [1974], Beyond regression : new tools for prediction and analysis in the behavioural
sciences, Ph. D. thesis, Harvard University.

202

Lapprentissage statistique

ZHOU G., SI J. [1998], A systematic and effective supervised learning mechanism based on jacobian rank
deficiency, Neural Computation, 10, p. 1031-1045.
WOLINSKI F., VICHOT F., STRICKER M. [2000], Using Learning-Based Filters to Detect Rule-based Filtering Obsolescence, Confrence sur la Recherche dInformation Assiste par Ordinateur RIAO'2000,
Paris.
ZIPF G. K. [1949], Human Behavior and the Principle of Least Effort. Addison-Wesley.

3
Complments de mthodologie
pour la modlisation : rduction
de dimension et r-chantillonnage
Ce chapitre propose quelques complments la mthodologie de mise en uvre des rseaux de neurones.
Il apporte des lments de rponses des questions mthodologiques que le concepteur de modles se
pose lorsquil souhaite mettre en uvre un modle statistique utilisant des rseaux de neurones. En effet,
comme nous lavons soulign dans le chapitre prcdent, la conception dun modle neuronal ne se
rduit pas au choix du nombre de neurones dans la couche cache et la bonne excution dun algorithme
dapprentissage :
avant de mettre en uvre un rseau de neurones, ou tout autre modle statistique, il peut savrer ncessaire de construire de nouvelles variables dentre afin de rduire leur nombre, tout en perdant le moins
dinformation possible sur leur rpartition ;
aprs lestimation des paramtres du modle (par lapprentissage si le modle est un rseau de
neurones), lutilisateur doit valuer le risque li lutilisation du modle construit, lequel est relatif
lerreur de gnralisation qui, par dfinition, nest pas calculable : elle doit donc tre estime. Nous
avons vu dans le chapitre prcdent une mthode destimation de lerreur de gnralisation par calcul du
score de leave-one-out virtuel ; nous prsentons ici une autre technique statistique rcente, fonde
sur le r-chantillonnage, qui permet destimer avec prcision les caractristiques statistiques de lerreur
de gnralisation.
Les lments de mthodologie prsents dans ce chapitre portent donc sur :
les pr-traitements effectuer sur les donnes,
les techniques de rduction du nombre dentres, fondes sur lanalyse en composantes principales et
lanalyse en composantes curvilignes,
lestimation de lerreur de gnralisation par les techniques statistiques de r-chantillonnage, notamment le bootstrap.
La rduction de dimension ne vise pas seulement diminuer le nombre de variables dcrivant chaque
exemple : elle permet galement de construire des reprsentations plus synthtiques des donnes, en facilitant lanalyse. La mthode classique utilise dans le cadre linaire est lanalyse en composantes principales (ACP) : cette dernire, procdant par projection, est limite aux varits linaires. Pour traiter les
reprsentations non linaires, nous prsenterons une seconde mthode, lanalyse en composantes curvilignes (ACC), qui peut tre vue comme une extension non linaire de lACP. Elle est similaire aux
cartes de Kohonen (voir chapitre 7), mais elle est plus souple, car la structure de lespace de projection
nest pas impose a priori.

204

Lapprentissage statistique

Les mthodes de r-chantillonnage sont utilises pour raliser des estimations lorsquon ne connat pas
les lois de probabilit des variables analyser. Dans les problmes poss par la rgression, notamment la
rgression par rseaux de neurones, elles permettent destimer lerreur de gnralisation, et dvaluer,
avec efficacit et robustesse, la variabilit du rseau par rapport aux donnes, lment cl du dilemme
biais-variance (prsent dans le chapitre 2) qui conditionne llaboration de tout modle statistique. Ces
techniques trs performantes sont gourmandes en temps de calcul, mais laccroissement de la vitesse des
calculateurs permet de plus en plus frquemment leur mise en uvre. Une nouvelle mthode sera
prsente, associant le bootstrap et larrt prmatur (early stopping, galement prsent dans le chapitre
prcdent), pour automatiser et contrler lapprentissage des rseaux de neurones.

Pr-traitements
Pr-traitements des entres
Nous avons mentionn, dans le chapitre prcdent, que les valeurs des variables du modle sont en
gnral exprimes dans des units diffrentes, et ont des ordres de grandeurs diffrents. Il est donc ncessaire de pr-traiter ces valeurs pour quelles aient la mme influence sur la construction du modle. Afin
duniformiser limportance de chaque entre sur les paramtres du modle, il faut les centrer et les
rduire, ou au moins les normaliser. Le pr-traitement dcrit au paragraphe Normalisation des entres
du chapitre 2 transforme les composantes dentre en variables de moyenne nulle et dcart-type unitaire.
Normaliser ou rduire
Pour des distributions dentre uniforme et centre, le rapport entre une normalisation et une rduction nest que de 3 sur lcart-type.
En effet, lcart-type dune loi uniforme sur un intervalle l est de l ( 2 3 ) et une normalisation sur le mme intervalle divise la variable
par
l2.
Variables boolennes
Les valeurs 0 et 1 des variables boolennes doivent tre respectivement transformes en 1 et +1 ; les variables qui rsultent dun codage
ou doivent subir un traitement analogue.

La figure 3-1 montre leffet du pr-traitement. Il correspond une translation du centre de gravit du
nuage des points, suivie dune normalisation de la dispersion des valeurs sur chacun des axes sans modification de la rpartition des points.
Ce pr-traitement simple, appliqu toutes les composantes, permet souvent de dtecter des
anomalies dans la base de donnes. Un cart-type trop faible peut signifier que la composante correspondante varie trop peu pour influencer le modle. Les composantes dcart-type nul doivent videmment
tre cartes dans la mesure o elles napportent aucune information dans la construction du modle. Pour
un diagnostic plus profond de ces anomalies , il faut informer lexpert du domaine.

Pr-traitement des sorties pour la classification supervise


Pour les composantes de sortie, les pr-traitements sont lis au codage des sorties et leurs caractristiques statistiques. En effet, en classification supervise (prsente en dtail dans le chapitre 6), compte
tenu du codage des sorties lies aux probabilits a posteriori, le problme du pr-traitement ne se pose
pas : le codage des probabilits a posteriori consiste reprsenter chacune des classes par un neurone de
sortie possdant une fonction dactivation logistique. Le cot adapt ce codage est celui de lentropie
croise plutt que le cot quadratique. Pour une discrimination deux classes, en notant y et y*, respectivement, la sortie logistique calcule par le rseau et la valeur dsire, lentropie croise est dfinie par :

Complments de mthodologie pour la modlisation


CHAPITRE 3

205

J = y * ln y + (1 y * ) ln(1 y)

Il faut noter que le minimum


de cette fonction est obtenu
pour y = y*, comme dans le
cas du cot quadratique. Une
gnralisation est effectue
sans difficult dans les
problmes plusieurs classes.
Par exemple, pour n classes,
la fonction logistique est
remplace par la fonction
softmax :
zi

e
y i = ------------- avec
n

zj

j=1

zi =

k wik xk + wi0 .

Pour chaque exemple, lentropie croise sexprime alors


par :
n

E =

yi ln yi + ( 1 yi ) ln ( 1 yi ).
*

Figure 3-1. Centrage et rduction de donnes.

i=1

Rgles dapprentissage
Le lecteur curieux pourra sapercevoir que cette approche, malgr les apparences, ne complique pas les calculs : bien au contraire, elle les
simplie. En fait, cela revient ne pas tenir compte des non-linarits apportes par la fonction logistique dans le calcul des gradients :

E
---------- = ( y i y k* )x k
w ik
On retrouve la rgle du Perceptron de Rosenblatt et donc aussi celle de Widrow-Hoff, introduites dans le chapitre 2, propos de lapprentissage adaptatif.

Pr-traitement des sorties pour la rgression


Dans les problmes de rgression, les sorties reprsentent les moyennes conditionnelles. Les rsidus
autour de la valeur moyenne sont supposs suivre une loi normale centre. Pour optimiser la construction
du modle, les sorties sont donc centres et rduites, les moyennes et les variances des sorties tant estimes partir de la base dexemples.
Lerreur quadratique moyenne EQMr, value dans lespace des sorties rduites, correspond lerreur
quadratique moyenne EQM calcule partir des donnes non pr-traites, divise par lestimation de la
variance.

206

Lapprentissage statistique

2
2
1
EQM r = ---- ( y k y k* ) EQM = EQM r y
N
k=1

Rduction du nombre de composantes


La construction du modle g(x,w) peut ncessiter une rduction du nombre de composantes du vecteur x.
Cest le cas notamment lorsque les composantes sont trop nombreuses pour tre exploites, ou bien
lorsquon suppose quelles ne sont pas mutuellement indpendantes. Sous cette hypothse, leur rduction
simplifie la construction du modle. On obtient ainsi une plus grande robustesse par rapport la variabilit
des donnes, et une moindre sensibilit au surajustement d un nombre excessif de paramtres (voir
chapitre 2).
Pour explorer la structure des donnes multidimensionnelles, lanalyse repose sur lobservation de la
rpartition des individus dans lespace des facteurs. Lorsque le nombre de facteurs est trop important pour
une analyse visuelle ou un traitement numrique, il est ncessaire de rduire leur nombre. En statistique,
lACP ( Analyse en composantes principales ) est utilise pour rduire le nombre de facteurs. La
mthode est fonde sur une combinaison linaire des facteurs par projection. Elle permet une reprsentation plus synthtique des donnes.
Dans cette partie, on rappellera les principes de lACP, puis on prsentera lACC ( Analyse en composantes curvilignes ) qui peut tre vue comme une extension non linaire de lACP, adapte aux reprsentations de structures de donnes plus complexes. Un parallle sera fait avec les cartes auto-organisatrices
de Kohonen, galement utilises dans les analyses non linaires de donnes.

Analyse en composantes principales


Lanalyse en composantes principales est une des plus anciennes techniques danalyse statistique. Elle a
t dveloppe pour ltude dchantillons dindividus caractriss par plusieurs facteurs. La mthode est
donc adapte lanalyse de donnes multidimensionnelles : en effet, ltude spare de chaque facteur ne
suffit pas en gnral, car elle ne permet pas de dtecter dventuelles dpendances entre facteurs.

Principe de lACP
Pour rduire le nombre de facteurs (composantes), lACP dtermine des sous-espaces vectoriels de
dimension plus rduite que le nombre de facteurs, dans lesquels la rpartition des observations (points) est
prserve au mieux. Le critre retenu sur la rpartition est linertie totale du nuage des points. LACP se
prsente donc comme une mthode de projection linaire qui maximise linertie du nuage des points.
Avant de prsenter les dveloppements thoriques, reprenons, titre dillustration simple, lexemple de la
distribution dun nuage de points dans R2 reprsent par la figure 3-1. LACP dtermine le premier axe
principal comme tant celui par rapport auquel linertie du nuage de points est maximale. Le deuxime
axe est, parmi les axes orthogonaux au prcdent, celui par rapport auquel linertie du nuage de points est
maximale. Les autres axes sont dfinis orthogonaux deux deux sur le mme critre de maximisation de
linertie.

Complments de mthodologie pour la modlisation


CHAPITRE 3

207

ACP et orthogonalisation de Gram-Schmidt


Cette procdure peut rappeler lorthogonalisation de Gram-Schmidt prsente dans le chapitre prcdent pour la slection des entres.
Cette analogie est trompeuse. LACP est une procdure qui seffectue dans lespace de reprsentation, o chaque observation est reprsente par un point dont les coordonnes sont les valeurs des facteurs correspondant cette observation ; en revanche, lorthogonalisation de Gram-Schmidt pour la slection des entres est effectue dans lespace des observations, o chaque facteur est reprsent par un
vecteur dont les composantes sont les observations de ce facteur contenues dans la base de donnes. La dimension de lespace de reprsentation est le nombre de facteurs du modle, alors que la dimension de lespace des observations est le nombre dobservations
prsentes dans la base de donnes.

La figure 3-2 montre les deux axes principaux dfinis respectivement par la 1re et la 2e bissectrice (lorthogonalit des axes est dforme par lchelle du graphique). Les composantes principales seront reprsentes par les projections des points sur les axes principaux. La transformation linaire par ACP consiste
donc effectuer, sur les donnes centres, un changement de base dfini par les axes principaux.
Figure 3-2. Changement
de base par ACP.

Montrons que la notion mcanique dinertie totale du nuage de points est quivalente la notion
statistique de variance. Le calcul de linertie des points seffectue par rapport au centre de gravit du
nuage des points. En notant g le centre de gravit et In linertie du nuage des points dfinis dans Rn :
n

1
g i = ---- x ij I n =
N
i=1

( xij g j )

j=1 i=1

Linertie In est donc gale la trace de la matrice de variance-covariance des donnes X dfinie par :
V = (X Ig)T(X Ig) o I dsigne la matrice unit.
Linertie tant invariante par translation, on peut centrer les donnes par X = X Ig, et obtenir une relation
simple entre linertie et la matrice de variance-covariance sur les nouvelles donnes centres X :

208

Lapprentissage statistique

In = Trace(XT X).
Pour des donnes centres et rduites Trace(XT X) = n.
En considrant le sous-espace de dimension q < n et en notant Vnq la matrice associe au projecteur
sur Rq, le nuage des points projets sur Rq est reprsent par la matrice XV, dont linertie est :
Iq = Trace(VTXTXV).
LACP dfinit la projection linaire qui maximise Iq, valeur de linertie des points calcule dans Rq. Ce
problme est rsolu en recherchant un premier axe sur lequel linertie est maximale, puis un deuxime
orthogonal au premier pour poursuivre la maximisation de linertie, et ainsi de suite jusquau pime axe.
Les axes obtenus correspondent aux vecteurs propres de la matrice XTX, ordonns en fonction de leurs
valeurs propres, de la plus grande 1 la plus petite n. Les valeurs propres j, j = 1, , n sont positives
ou nulles, car la matrice XTX est une symtrique dfinie positive. En notant Vnq la matrice des vecteurs
propres, la transformation effectuer sur des donnes centres pour obtenir les composantes principales
sexprime par :
x Rn VTnq x Rq < n.
Les rgles utilises pour retenir les composantes principales (q parmi p) dpendent dune analyse qui
seffectue sur les valeurs propres. Avant de les prsenter, il nous semble utile de rappeler une technique
similaire lACP et largement utilise en algbre linaire, qui porte sur la dcomposition en valeurs
singulires, note SVD pour Singular Value Decomposition [CICHOKI 93]. Cette technique, trs utile dans
les problmes de rsolution de systmes linaires, a t mentionne dans le chapitre prcdent comme
outil de calcul des leviers pour des modles non linaires.
Thorme

Pour toute matrice A Rn p, il existe deux matrices orthogonales U Rn p et V Rn p telles que :


1 0  0
U T AV = S = 0 2  0
0
0  0 m
avec 1 2 m 0 ou m = min(p, n).
La matrice diagonale S est compose par les valeurs singulires j ordonnes par valeurs dcroissantes.
Les valeurs singulires j sont les racines carres des valeurs propres j de la matrice symtrique dfinie
positive ATA ou de la matrice AAT si m < n. La matrice V associe au changement de base est reprsente
par les vecteurs propres de la matrice ATA.
ACP et SVD
Sur des donnes centres, il y a donc quivalence entre une analyse en composantes principales et une dcomposition en valeurs singulires.

Contrairement aux techniques de diagonalisation des matrices carres, la dcomposition en valeurs singulires sapplique tout type de matrice. Lindice de la 1re valeur singulire gale 0 dtermine le rang de
la matrice ; son conditionnement, au sens de la norme L2, est gal au rapport des valeurs singulires
extrmes 1p.
partir de lorthogonalit des matrices U et V, il vient :
UT AV = S A = USVT.

Complments de mthodologie pour la modlisation


CHAPITRE 3

209

Dans une application de modlisation, si A reprsente la matrice des observations (dfinie dans le chapitre
prcdent) centres, la matrice US = AV dcrit les mmes exemples dans une reprsentation
orthogonale : les nouvelles entres obtenues aprs transformation sont non corrles linairement. La
mme technique est utilise en traitement du signal pour blanchir les signaux [DAVAUD 91]. Pour
rduire les nouvelles entres, il suffit de retenir la matrice U comme nouvelle base dexemples. La transformation linaire devient S-1VTx au lieu de VTx.
La dcomposition en valeurs singulires, applique aux donnes centres de la matrice X, permet
dexprimer linertie en fonction des valeurs singulires j ou en fonction des valeurs propres j de la
matrice XTX :
p

Ip = Trace(XTT) Ip =

j Ip =

j=1

j .
2

j=1

Ce rsultat est bien connu en algbre linaire puisque linertie du nuage de points correspond la norme
matricielle de Frobenius qui sexprime en fonction des valeurs singulires :
X

xij
2

i, j

j .
2

La matrice de projection ppq associe aux q premiers axes est donc reprsente par les q premiers
vecteurs de la matrice Vpq. La contribution relative linertie de chaque axe principal est donne par le
rapport entre 2j et la somme 12 + 22 + + p2. La contribution relative des q premiers axes est :
qn

Iq =

j Iq
2

j=1

j=1
-.
= I n ------------n

j=1

17
16

% de la variance explique

La qualit de la rduction est directement lie la


valeur de q. Il ny a pas de rgle gnrale pour dterminer la meilleure valeur. On peut citer quelques
rgles utilises pour dterminer le nombre q de
composantes [SAPORTA 1990] :
La part de linertie explique pour reprsenter au
moins un pourcentage fix sur linertie,
La rgle de Kaiser qui retient les valeurs propres
suprieures la moyenne des valeurs propres (sur
des donnes centres rduites, cela revient
retenir celles qui sont suprieures 1, puisque la
somme des valeurs propres est gale n),
Le test de lboulis (scree-test) qui, partir de
la courbe Iq fonction de q = 1, 2, , n, retient la
valeur de q qui correspond la 1re rupture de
pente, comme le montre lexemple donn par la
figure 3-3 avec une rupture de pente partir de la
4e valeur propre.

15
14
13
12
11
10

3
4
5
6
Rang de la valeur propre

Figure 3-3. Pourcentage de variance explique.

Avant dappliquer lACP de faon systmatique, il


faut se rappeler que la composante dite principale est dfinie par rapport au critre qui porte sur linertie

Lapprentissage statistique

210

du nuage de points. Dans certains problmes, la composante principale nest pas llment le plus informatif, bien au contraire. Par exemple, sur une srie de visages provenant de diffrentes parties du monde,
la reconnaissance de leur origine portera davantage sur la seconde composante et les suivantes, la
premire composante reprsentant plutt les caractristiques moyennes des visages.

Analyse en composantes curvilignes


La rduction de dimension pour des distributions plus complexes peut ncessiter des traitements non
linaires. Lanalyse en composantes curvilignes a t propose par [DEMARTINES 1995] pour analyser les
distributions non linaires et en rduire les dimensions. Elle peut tre interprte comme une extension non
linaire de lanalyse en composantes principales. LACC utilise un critre plus local que lACP, qui lui
permet de prserver la topologie locale de la distribution des points dentres. Une analyse de cette mthode
ainsi que des exemples dapplications peuvent tre trouvs dans [HRAULT 1993] et [VIGNERON 1997].
La figure 3-4 illustre lapplication de lACC la rduction de dimension sur des structures de donnes non
linaires : on a reprsent, au-dessus, un ensemble de points dfinis dans R3, et, au-dessous, une reprsentation plus rduite dans R2. La rduction de dimension peut donc tre vue comme une projection non
linaire qui prserve la proximit entre points, et donc la topologie locale de la distribution.

1
0.5
0
0.5
1

0.5
0
1

0.5
1

0.5

0
0

0.5
1 1

0.5

0.5

0.5

0.5

0
0.5
1

3.5
0.5

3
2.5

2
1.5

0.5
1
0.5

0
1.5

0.5

0.5

Figure 3-4. Projection par ACC dune demisphre.

0.5
1 0.5

0.5

1.5

2.5

Figure 3-5. Projection par ACC dune


sphre.

Sur des structures fermes, telles quune sphre ou un cylindre, la rduction de dimension introduira
ncessairement des distorsions locales. Cest le cas illustr par la figure 3-4, qui montre une projection

Complments de mthodologie pour la modlisation


CHAPITRE 3

211

dune sphre sur le plan. Lide centrale de lACC est un contrle graduel de la distorsion locale, effectu
au cours de lapprentissage.
Ayant pour objectif une rduction de dimension qui prserve la topologie locale, lACC est adapte la
reprsentation de varits non linaires. Une varit dans Rp peut tre grosso modo dfinie comme un
ensemble de points dont la dimension locale est infrieure p. Lenveloppe dune sphre dfinie dans
R3 est un exemple : la varit est de dimension 2. De faon plus rigoureuse, une varit de dimension q
dans Rq est un sous-ensemble de Rn obtenu par application dune fonction dfinie de Rq dans Rq. En un
point, le rang de la diffrentielle de lapplication dtermine la dimension locale de la varit.
Par rapport lACP, la mthode permet donc de reprsenter des structures de donnes distribues dune
faon non linaire. Elle se rapproche des mthodes fondes sur les cartes auto-adaptatives de Kohonen,
mais son principe est diffrent. En effet, aucune contrainte nest impose sur les points dans lespace de
projection ; il ny a pas de voisinage dfini a priori entre les points dans lespace de projection. Cela
permet de reprsenter toutes sortes de varits.

Formalisation de lanalyse en composantes curvilignes


Les coordonnes des p points sont dfinies :
par xi Rn, i = {1, , p} dans lespace dorigine,
par yi Rn < n, i = {1, , p} dans lespace rduit.
Notons Xij et Yij les distances entre les points i et j, calcules respectivement dans lespace dorigine et
dans lespace rduit :
n

espace dorigine

X ij =

( xik x jk )

k=1
n

espace rduit

Y ij =

( yik y jk )

k=1

La transformation des composantes engendre une distorsion sur la varit. En gardant la mme mtrique
(distance euclidienne), une mesure de la distorsion peut tre donne en comparant les distances Xij aux
distances Yij
p
n
2
distorsion due la rduction ( X ij Y ij ) .
i = 1 j = i+1

Un parallle peut tre fait avec lACP, qui dfinit la projection linaire en minimisant la fonction
objectif :

X ij
2

i, j

Y ij
2

Cette fonction traduit lcart entre la moyenne des distances X ij calcules

i, j

dans lespace dorigine et la moyenne des distances Y ij calcules dans lespace rduit. La fonction de
cot retenue par lACC prserve davantage les carts de distance Xij Yij, et permet donc de reprsenter
des varits non linaires avec un minimum de dformation.
Attention

Pour pouvoir dplier des varits, Demartines a introduit, dans la fonction de cot, un terme de pondration F(Yij, ), fonction positive monotone dcroissante de la distance Yij.

212

Lapprentissage statistique

Le terme F(Yij) favorise les petites distances dans lespace de projection. Le paramtre joue le mme
rle que le paramtre rayon, dfini dans les cartes de Kohonen : dans lespace de sortie, les distances suprieures ne seront plus prises en compte. La dcroissance du paramtre au cours de ladaptation
permet de dplier et mme de couper certaines varits non linaires. La projection dune sphre de R3
dans R2 (figure 3-4) montre lexemple dune varit pour laquelle la projection ncessite une coupure. La
fonction permet donc de dplier certaines varits en prservant au maximum la topologie locale.
La fonction objectif , vise par ACC, se prsente
alors sous la forme suivante :
p

E=

( X ij Y ij ) F ( Y ij, ) .

Figure 3-6.
F(Yij)
Fonction de
pondration
des distances.

dcroissant

i = 1 j = i+1

Algorithme danalyse en
composantes curvilignes
Yij

Lalgorithme consiste minimiser la fonction de cot


par rapport aux coordonnes de chaque point de la base
dexemples dans lespace rduit. Comme il en va pour effectuer un apprentissage, on peut utiliser
nimporte lequel des algorithmes doptimisation prsents dans le chapitre 2. Nous prsentons ici la minimisation de la fonction de cot par lalgorithme du gradient stochastique.
On calcule donc les drives partielles de la fonction de cot par rapport chacun des paramtres ; en
notant yik la k-ime coordonne du point i, il vient :
E Y
E
--------- = --------- --------ij
Y ij y ik
y ik
ji
X Y
E
--------- = -----ij------------ij- [ 2 F ( Y ij ) ( X ij Y ij ) F ( y ij ) ] ( y ik y jk ) .
Y ij
y ik
ji
La modification des paramtres scrit alors, en appelant le pas de gradient :
X Y
y i = -----ij------------ij- [ 2 F ( Y ij ) ( X ij Y ij ) F ( y ij ) ] ( y i y j ) .
Y ij
ji
Une condition doit tre assure afin dassurer la convergence de ladaptation. Il faut en effet que le terme
ij = 2F(Yij) (Xij Yij)F(Yij) soit positif. En effet, si Yij est trop grand par rapport au terme Xij, le point
j doit tre rapproch du point i. Les fonctions F(Yij) doivent tre choisies de faon assurer la condition
ij > 0. Cette condition est difficile remplir : par exemple, pour F(Yij) = e Y ij , la stabilit de ladaptation implique > (Yij Xij)2. Cette condition ne peut pas tre toujours vrifie en raison de la dcroissance du rayon au cours de lapprentissage. Une solution qui permet dassurer la condition, et qui
simplifie la rgle dadaptation, est la fonction chelon translate du rayon et vrifiant (presque partout)
la condition ij = 2 > 0. La rgle dadaptation se simplifie :
X Y
y i = -----ij------------ij- ( y i y j ) si Yij < et 0 sinon.
Y ij
ji

Complments de mthodologie pour la modlisation

213

CHAPITRE 3

La contribution des n 1 points j sur le point i entrane un effet de


moyenne. Dans certaines situations, cela peut mener des blocages.
La figure 3-7 prsente ci-aprs en donne un exemple.
Dans lespace dentre (a), le point i = 1 se situe au milieu des trois
autres. Dans lespace de sortie (b), les conditions initiales lont plac
lextrieur des trois points. Avec la rgle exacte, le point 3 dans
lespace de sortie sera bloqu par les points 2 et 3. Le point 1 ne
pourra donc pas atteindre la position optimale au milieu des trois
autres.

y1

b
x2

x3
y2

y3

x1
x4

y4

Figure 3-7. Exemple dun blocage.

Pour rsoudre ces problmes de blocage, Demartines a propos une


rgle empirique simple. Au lieu dadapter le point i en fonction des autres points, la nouvelle rgle
consiste adapter tous les autres points en fonction du point retenu i :
X Y
y j = -----ij------------ij- ( y j y i ) si Yij < et 0 sinon.
Y ij
Cette version stochastique du gradient permet, dans une certaine mesure, de pallier les problmes des
minima locaux, tout en assurant en moyenne une minimisation de la fonction de cot.

Mise en uvre de lanalyse en composantes curvilignes


La mise en uvre de la mthode requiert que lon choisisse
les pr-traitements sur les donnes xij,
les valeurs initiales des composantes yij,
une loi de dcroissance sur le paramtre .
Compte tenu de la mtrique utilise pour le calcul des distances, et pour les mmes raisons que dans le cas
de lACP, les pr-traitements adapts correspondent une rduction de chaque composante afin duniformiser leur importance dans le calcul des distances. Bien que cela ne soit pas vraiment ncessaire, on
pourra galement centrer les donnes pour avoir des reprsentations graphiques autour de lorigine.
Comme dans les cartes de Kohonen, les composantes yij des units dans lespace de sortie sont initialises
alatoirement. Pour uniformiser leur rpartition, on utilise sur chaque composante une loi uniforme dans
lintervalle [-1,1]. Compte tenu du calcul comparatif des distances euclidiennes Xij et Yij values
respectivement dans des espaces de dimensions diffrentes, p et q, la comparaison des distances est
biaise. Pour pallier ce problme, notamment pour des taux de rduction de dimension importants, la
rgle prconise consiste valuer des distances moyennes par rapport la dimension de lespace :
p

( xik x jk )

X ij =

k--------------------------------=1
-

( yik y jk )

Y ij =

k--------------------------------=1
-

Le choix du paramtre a une influence importante sur la qualit de la projection. Au cours des premires
itrations, tous les points yi dans lespace de sortie doivent contribuer au critre. La rgle consiste fixer
la valeur initiale du paramtre au maximum des distances Yij :
(0) = Max ij Y ij .
La valeur finale du rayon doit correspondre la plus petite valeur souhaite sur les Yij, cest--dire la plus
petite des valeurs Xij :

214

Lapprentissage statistique

(tmax) = Min ij X ij .
Le paramtre suit une loi dcroissante en fonction du nombre t ditrations de la valeur initiale (0) la
valeur finale (tmax) :
( t max )
(t) = (0) ---------------(0)

t t max

Qualit de la projection
Un des points forts des travaux de Demartines porte sur le critre qui permet le contrle de la projection.
Ce critre est fond sur la comparaison des valeurs Xij et Yij correspondant aux distances entre points,
distances calcules respectivement dans lespace dorigine et dans lespace rduit. Les distances sont
reprsentes dans un plan dx-dy par un point dabscisse dx = Yij et dordonne dy = Xij. Les points proches
de la droite dx = dy correspondent des distances voisines. La dformation due la rduction est donc
proportionnelle la distance moyenne des points la droite dx = dy. La figure 3-8 montre la distribution
moyenne des distances pour lexemple de la demi-sphre et sur celui de la sphre.
Sur des varits non
linaires illustres par ces
exemples, la projection va
ncessairement
loigner
certains points. Cest le cas
de la carte du globe terrestre
obtenue par la projection de
Mercator. La projection
occidentale spare les
ctes du dtroit de Bring.
Dans le plan dy dx, le
nuage des points a une
forme en cloche : des points
proches dans lespace Figure 3-8. Distribution des distances dans le plan (dy dx) pour la demi-sphre et la sphre.
dorigine (dx petit) vont se
trouver loigns (dy grand) dans lespace de projection. La forme en cloche apparat nettement dans le cas de
la projection de la sphre, o le dpliage a spar les points situs sur le grand diamtre (figure 3-5). Le contrle
de la projection consiste vrifier que cette forme en cloche prserve au maximum la topologie locale : si deux
points sont proches dans lespace rduit, ils le sont ncessairement dans lespace dorigine.

Difficults prsentes par lanalyse en composantes curvilignes


Avant de passer lapplication, notons nanmoins les problmes poss par lutilisation de lACC. Le
premier problme est celui du temps de calcul. Les distances entre points doivent tre calcules. Si le
nombre de points est trop important, lACC ne peut pas tre applique directement aux donnes. Une
tape de quantification pralable est ncessaire pour rduire le nombre dexemples.
Le second problme porte sur lutilisation en ligne de lACC. Contrairement lACP, les composantes
rduites ne peuvent pas tre calcules directement. Elles sont obtenues dune manire itrative par une
descente de gradient. Prcisons le mode opratoire de lACC. Notons x0 une nouvelle entre ; cherchons
dterminer les composantes y0 associes. Lalgorithme consiste initialiser les composantes y0 par le

Complments de mthodologie pour la modlisation


CHAPITRE 3

215

barycentre des 3 ou 4 points yk correspondant aux points xk les plus proches de x0. Le calcul de la projection y0 est obtenu par le mme algorithme :
X Y
y 0 = -----i--0------------i----0 ( y 0 y j ) si Yi0 < et 0 sinon.
Yi 0
ji
Cette mthode dinitialisation des composantes du point projet parat trs efficace ; la convergence est
obtenue en quelques itrations (moins dune dizaine) [PILATO 1998].

Application en spectromtrie
Lapplication prsente ci-aprs a t ralise au Centre dtudes de Saclay [PILATO 1998]. Elle porte sur
la mesure de la concentration de matires radioactives. Le contrle dinstallations nuclaires (centrales,
usines de retraitement) exige que lon mesure des concentrations de certaines matires radioactives. Des
mesures de concentration sont effectues sur des solutions issues des circuits deau des installations. Une
des techniques utilises est la fluorescence X, qui permet de raliser des analyses rapides et non destructives directement partir de cruchons de prlvement ou sur canalisations. La fluorescence X consiste
exciter la matire concerne, puis analyser les spectres des photons issus des dsactivations.
La figure 3-9 montre un exemple de
spectre obtenu par fluorescence X sur un
cruchon contenant de luranium 235 et du
thorium. Les pics caractrisent la prsence
et la concentration de ces deux lments.
Dans notre application, chaque spectre est
quantifi sur 4096 valeurs dnergie.
Chaque valeur en ordonne correspond au
nombre de photons qui sont compts sur
un niveau dnergie donn.

40000
35000
30000
25000
20000
15000

10000
Les mthodes classiques danalyse de spectres reposent sur des modles physiques, qui
5000
tablissent des corrlations entre la proportion dun lment et lintgrale autour des
0
0
500 1000 1500 2000 2500 3000 3500 4000 4500
pics correspondant certaines raies de
llment analyser. La physique ici est
Figure 3-9. Exemple de spectre.
relativement complexe : chevauchement des
pics, effets parasites ou bruit de mesures. La mthode est fonde sur une analyse locale des phnomnes. Lestimation des concentrations est effectue partir de calculs effectus sur des donnes du spectre centres autour
des raies.

Lapproche par ACC est diffrente. Elle repose sur une analyse globale de la courbe. Le spectre est considr en tant qulment dun espace 4096 composantes. Dans cet espace R4096, les surfaces de rpartition des points spectres ont une dimension intrinsque gale 2. En effet, la varit des spectres est
obtenue en ne faisant varier que deux paramtres : la concentration duranium et celle du thorium. Une
rduction de dimension de R4096 R2 sest avre adapte au problme : linformation perdue par
projection nest pas discriminante pour la mesure des concentrations.
La base dexemples comprend 60 spectres. Chaque spectre comprend 4096 composantes. La matrice de
lchantillon des donnes est de dimension 60 4096. La rduction par ACC consiste donc transformer
cet chantillon en une matrice 60 2.

216

Lapprentissage statistique

La figure 3-10 visualise, dans lespace rduit deux dimensions, lensemble des exemples. Nous avons
volontairement maill la reprsentation en visualisant la topologie spatiale de la quantification ralise par
les exprimentateurs sur les valeurs des concentrations duranium et de thorium.

Lexemple illustre lintrt de lACC : en dpit de


combinaisons non linaires de plusieurs effets sur
les spectres, la rduction permet de faire apparatre
la dimension intrinsque des donnes, celle de la
variation par rapport la concentration du thorium
et celle relative luranium. partir des spectres
rduits, lestimation des concentrations en
uranium et en thorium nest plus un problme
difficile : une rgression laide dun petit rseau
de neurones, voire une simple interpolation
linaire, suffisent amplement.
Applique des problmes plus complexes,
lorsque la dimension intrinsque nest pas aussi
vidente, on peut procder dune manire itrative
en augmentant, si cest ncessaire, le nombre de
composantes de lespace de projection, tout en
contrlant la prservation de la topologie locale
sur la bissectrice pour les petites distances.

Concentration Thorium

La projection obtenue par ACC a la mme topologie que la quantification exprimentale. Les concentrations duranium et de thorium ont t quantifies sur le produit cartsien [(u1, u2, , u6) (t1, t2, , t10)].
En ralit, on constate, en y regardant de plus prs, quil manque un essai. En effet, la base ne comportait
que 59 spectres. On retrouve figure 3-10 la donne manquante dans la projection ACC.

100

10

1
1

10
Concentration Uranium

50
40
30
20
10
0

Le bootstrap et les rseaux


de neurones

-10
-20

-30
Cette dernire partie prsente une nouvelle approche
-30
-20
-10
0
10
20
30
40
qui permet dautomatiser la construction et lapprenFigure 3-10. Quantification exprimentale
tissage des rseaux de neurones. Elle sarticule
Reprsentation par ACC.
autour de la mthode statistique du bootstrap et de la
technique de larrt prmatur ou early stopping
(cette dernire technique est prsente dans le chapitre 2). Lorientation prise est donc celle qui consiste
utiliser des rseaux suffisamment complexes, puis les rgulariser par arrt de lapprentissage. Avec bootstrap,
il est possible dvaluer avec efficacit la variabilit du rseau, et de son erreur par rapport aux donnes. Associ
larrt prmatur, il permet le contrle de lapprentissage en optimisant automatiquement le nombre de cycles
ncessaire, tout en fournissant les caractristiques statistiques de lerreur de gnralisation.

Le bootstrap, propos par [EFRON 1993], est une technique aujourdhui trs tudie dans le cadre de
linfrence statistique, notamment pour les tests dhypothses et lestimation des intervalles de confiance.
Elle ne ncessite aucune hypothse a priori sur les lois de distribution. Appliqu la rgression, le bootstrap permet destimer les caractristiques statistiques de lcart entre lerreur dapprentissage et celle de
gnralisation. Lapproche est particulirement adapte aux problmes pour lesquels les chantillons
dexemples sont de petite taille. Cest le cas notamment du calcul scientifique et de la simulation de

Complments de mthodologie pour la modlisation


CHAPITRE 3

217

systmes complexes. partir dune base de calculs, des fonctions analytiques sont construites par rgression ou interpolation, afin dtre utilises en lieu et place de modules plus coteux en temps de calcul.
Dans le chapitre prcdent, nous avons soulign limportance de la validation des modles (estimation de
lerreur de modlisation, dintervalles de confiance, etc.) dans le cadre gnral de la modlisation, notamment non linaire. Dans le type dapplications susmentionnes (remplacement dun code de calcul complexe
par une rgression partir de donnes engendres par ce code), la problmatique est exactement la mme,
ceci prs que les donnes issues de calculs ne sont gnralement pas bruites. On va donc prsenter cette
approche qui peut tre substitue celles qui ont t dveloppes dans le chapitre prcdent.

Principe du bootstrap
Nous allons illustrer le principe du bootstrap sur lexemple du calcul de lintervalle de confiance de
lesprance dune variable alatoire. Lexemple tir de [WONNACOOT 1990] a simplement pour objet de
montrer clairement le principe du bootstrap. En effet, pour cet exemple, lintervalle de confiance de
lesprance dune variable alatoire est parfaitement dtermin partir de la moyenne et de la variance
calcules sur lchantillon (vu au chapitre 2). Ce rsultat dcoule du thorme de la limite centrale, selon
lequel la distribution de la moyenne dun chantillon converge assez rapidement vers une loi normale.
On considre un chantillon de la variable alatoire compos de n = 10 observations : x = (16, 12, 14, 6,
10

43, 7, 0, 54, 25, 13). La moyenne de lchantillon est X =


10

S=

( xi 19.0 )  9
i=1
2

------i
i = 1 10

= 19.0 et son cart-type est

= 17.09 . Lintervalle de confiance de lesprance 95 % est :

s
17.09
= X t .025 ------- = 19.0 2.26 ------------ 19 12 7 < < 31
n
10
Lintervalle de confiance peut tre galement calcul par bootstrap. Il est alors obtenu par lalgorithme
suivant.
partir de lchantillon initial, on simule de nouveaux chantillons, appels rpliques , de taille n, par
tirages alatoires avec remise. Prenons par exemple lchantillon initial dfini prcdemment x = (16, 12,
14, 6, 43, 7, 0, 54, 25, 13). Par tirages alatoires avec remise, on obtient ainsi la rplique suivante x* = (54,
0, 16, 7, 43, 54, 0, 25, 25, 6), dans laquelle certaines valeurs de lchantillon initial ne figurent pas, et o
dautres apparaissent plusieurs fois. Plusieurs chantillons sont ainsi simuls. Pour chaque chantillon
simul, une moyenne est calcule. Lintervalle de confiance 95 % est dfini sur cet ensemble de
moyennes. La simulation donne :
9 < < 26
On note que lintervalle obtenu par bootstrap est pratiquement identique lintervalle de confiance 95 %
calcul prcdemment et issu du thorme central limite.
Gnralit du bootstrap

Le bootstrap ne fait appel aucune hypothse sur la distribution statistique sous-jacente ; do sa


gnralit et sa puissance.

Lapprentissage statistique

218

Le bootstrap peut donc tre appliqu tout estimateur autre que la moyenne, tel que la mdiane, le coefficient de corrlation entre deux variables alatoires ou la valeur propre principale dune matrice de variancecovariance. Pour ces estimateurs, il nexiste pas de formule mathmatique qui dfinisse lerreur standard ou
lintervalle de confiance. Les seules mthodes applicables sont les mthodes dites de r-chantillonnage qui
procdent par simulation dchantillons comme le bootstrap ou le jackknife [EFRON 1993].

Algorithme du bootstrap pour calculer un cart-type


Soit une variable alatoire X obissant une loi de distribution F. On souhaite estimer un paramtre de
F. Le paramtre est estim partir dun n-chantillon x = (x1, x2, , xn). On note F la distribution
empirique, et = s(x) lestimation de ralise partir de lchantillon x. En voici lalgorithme :
Algorithme du bootstrap pour calculer un cart-type
1. Slectionner B n-chantillons bootstraps x*1, x*2, x*B, chacun tant obtenu partir de lchantillon initial x par n tirages alatoires avec remise.
2. Calculer pour chaque n-chantillon bootstrap, une rplique de lestimation de par
( b ) = s (x*B) b = 1,2, , B.
3. Estimer lcart-type partir de lerreur standard calcule sur lensemble des rpliques :
B

*
(.) =

*(b)B

b=1
B

2
B =

( ( b ) ( . ) )
*

B 1.

b=1

Un des thormes dmontrs par Efron porte sur la consistance de lestimateur bootstrap. Lestimation
*
B converge vers lcart-type F ( ) du paramtre valu sur la distribution de lchantillon :
lim B = F
B

Cet algorithme peut sappliquer tout estimateur. Prenons lexemple du calcul de la valeur propre principale lors dune ACP. Elle correspond la plus grande valeur propre de la matrice de variance-covariance
XTX des observations Xnp. Le bootstrap consiste simuler des rpliques X*np obtenues par n tirages alatoires des lignes de la matrice Xnp. Puis la statistique (moyenne et cart-type) pourra tre tablie sans
difficult. On voit ici la puissance de la mthode et sa facilit de mise en uvre. On comprend aussi que
cette mthode nait pas t trs utilise par le pass, en raison du nombre de calculs ncessaires : 50 200
rpliques suffisent estimer une moyenne, mais plusieurs milliers de rpliques sont ncessaires si lon
souhaite dterminer des intervalles de confiance.

Lerreur de gnralisation estime par bootstrap


Nous avons insist, dans le chapitre prcdent, sur la ncessit destimer lerreur de gnralisation, et
nous avons prsent lestimation par leave-one-out. La technique du bootstrap autorise galement une
estimation de cette erreur. Le principe en est le mme : il consiste simuler B bases bootstrapes .
Chaque base simule peut contenir plusieurs fois le mme exemple, en raison du tirage avec remise.
Loi binomiale des bases bootstrapes
chaque tirage, tous les exemples ont la mme probabilit p=1/n, en notant n le nombre dexemples. Le nombre dapparitions dun
exemple dans une base bootstrape suit donc une loi binomiale B(n, p = 1n). La probabilit quun exemple apparaisse k fois est donne
par P(k) = Ckn pk (1 p)n k [SAPORTA 90].

Complments de mthodologie pour la modlisation


CHAPITRE 3

219

La probabilit quun lment napparaisse pas dans la base bootstrape est donc P(0) = (1 1n)n. Pour
n suffisamment grand P(0)n = e 1 0.368. En moyenne, 37 % des exemples ne seront pas utiliss en
apprentissage.
Statistique de lerreur de gnralisation

Lcart entre lerreur dapprentissage calcule sur la base bootstrape et lerreur de test value sur la
base initiale est considr comme une variable alatoire reprsentative de lcart entre lerreur
dapprentissage et lerreur de gnralisation.

Une statistique est faite sur lensemble de ces carts (un par base bootstrape) afin destimer la loi de
distribution de lcart entre lapprentissage et lerreur de gnralisation.
Soient B la base initiale des exemples et B*b, b = 1, , N lensemble des rpliques. Dsignons par *b
lerreur dapprentissage du rseau entran sur la rplique k, et par b lerreur du mme rseau calcule sur
la base initiale B. Lcart b = b *b entre les deux erreurs peut alors tre considr comme une variable
alatoire reprsentative du phnomne de surapprentissage. Cet cart peut tre considr comme le biais
qui apparat sur lestimation de lerreur de gnralisation par lerreur dapprentissage. Lesprance et
la variance du biais peuvent alors tre estimes sur lensemble des valeurs b :
B

b = b b*

1
= --- b
B
b=1

2
2
1
= ------------ ( b ) .
B1
b=1

La mthode NeMo
Lalgorithme propos prcdemment a t programm dans le logiciel NeMo. Le bootstrap y est associ
larrt prmatur de lapprentissage early stopping) afin dautomatiser le contrle de lapprentissage du
rseau.
Outil NeMo
NeMo est un outil dvelopp au Centre dtudes de Saclay au dpartement de modlisation de systmes et structures partir du simulateur SNNS (Stuttgart Neural Network Simulator) disponible sur http://www-ra.informatik.uni-tuebingen.de/SNNS, visant simplier les tches dapprentissage et de test des rseaux de neurones.

Lutilisateur fixe a priori le nombre de cycles dapprentissage Nc et le nombre B de rpliques. NeMo


effectue un nombre B dapprentissages en sauvegardant chaque cycle lerreur quadratique moyenne
dapprentissage et de test. Cet outil analyse ensuite les profils respectifs des erreurs dapprentissage et de
test pour choisir la valeur du nombre de cycles la plus approprie.
Lerreur quadratique moyenne EQMr est calcule sur les variables de sortie (estimes et dsires) centres
et rduites. Lanalyse de lerreur porte donc sur la part de la variance non explique par le modle ou coefficient dindtermination introduit au chapitre sur les pr-traitements des sorties.
Avant de donner le dtail de la mthode, dsignons par j le rang de la rplique et par i litration sur le
nombre de cycles ; les erreurs quadratiques moyennes dapprentissage et de test sont reprsentes par les
deux tableaux suivants :

Lapprentissage statistique

1*1 1*2  1*B

11 12  1B

2*1

21 22  2B

2*B

  
*1 *2  *B
Nc
Nc
Nc

  
1 2  B
Nc
Nc
Nc

2*2

220

erreur dapprentissage

erreur de test

Aprs cette phase, NeMo dtermine le nombre de cycles selon une heuristique rappelant la thorie des
jeux. Un premier joueur pessimiste se place, pour chaque valeur du nombre de cycles, dans la pire des
situations sur lerreur de test :
Max

= Max b { i } .

Le second joueur dtermine alors le nombre de cycles de faon minimiser la pire des situations obtenues, cest--dire celle qui correspond lerreur de test maximale :
optimal

Nc

= Arg i { Min i } .
optimal

Cette stratgie sur le choix de N c


peut tre assouplie en ne retenant quune fraction de lensemble
des B apprentissages. Pour la rendre plus robuste, il suffit en effet dexclure les cas extrmes ( outliers ),
cest--dire les situations dapprentissage trs diffrentes de la moyenne. Par dfaut, NeMo dtermine le
nombre de cycles optimal sur le 90e percentile de lerreur de test.
Percentile

Le me percentile correspond lintervalle constitu des valeurs pour lesquelles la fonction de rpartition est infrieure : une fraction (1 ) des valeurs maximales est exclue.
Lestimation du nombre optimal de cycles peut galement tre faite par la mthode du tri mdian, plus
stable mais plus risque car rejetant a priori 25 % des cas : le dernier quartile correspond aux erreurs de
test les plus importantes.
Quartile

En notant F la fonction de rpartition, les 1er et 3e quartile Q1 et Q3 et la mdiane Q2 sont respectivement dfinis par F(Q1) = 0,25, F(Q2) = 0,5, F(Q3) = 0,75.
Tri mdian

Le tri mdian correspond 0,25 Q1 (1er quartile) + 0,5 Q2 (2e quartile ou mdiane) + 0,25 Q3 (3e quartile).
Aprs avoir dtermin le nombre de cycles optimal selon une des stratgies, NeMo lance un nouvel
apprentissage fond sur la totalit des exemples, avec, pour nombre de cycles, le nombre de cycles optioptimal
mis N c
dfini ltape prcdente. Pour ce dernier apprentissage, les mmes paramtres dapprentissage sont utiliss : la valeur initiale et la loi de dcroissance du pas dadaptation. En notant a lerreur
moyenne calcule sur la base initiale, et la valeur moyenne du biais, lerreur de gnralisation est
estime par :
g = a + .

Complments de mthodologie pour la modlisation


CHAPITRE 3

221

Dune faon plus gnrale, la fonction de rpartition de lerreur de gnralisation est estime par la fonction empirique de rpartition du biais translate de la valeur a. On remarque lapport du bootstrap associ
au early stopping par rapport la validation croise :
une certaine automatisation dans la construction du rseau en adaptant le nombre de cycle du early stopping,
une plus grande estimation de la variabilt du modle par rapport au jeu de donnes,
estimation des intervalles de confiance (marges, incertitudes),
lutilisation de lensemble des exemples pour construire le rseau.
Notons enfin que NeMo peut contrler ladquation du modle aux donnes : si le nombre de cycle optimis est trop proche du nombre de cycle maximal fix par lutilisateur, lerreur de test ne passe pas par un
minimum ; lutilisateur devra alors accrotre la complexit du rseau (nombre de neurones cachs) ou
augmenter le nombre de cycles dapprentissage.

Test de la mthode NeMo


Dans ce qui suit, nous montrons les rsultats dune exprience visant valider la mthode. Le test consiste
comparer lerreur moyenne estime par NeMo lerreur relle. Lerreur relle est approche selon le
principe de la mthode de Monte-Carlo, cest--dire en effectuant un trs grand nombre de calculs de
lerreur quadratique moyenne, puis en effectuant sa moyenne. Nous avons mis en uvre NeMo sur
lapproximation de deux fonctions analytiques non linaires :
8(x) fonction de R8 R
12(x) fonction de R12 R
Nous avons choisi ces superviseurs de faon valuer la mthode sur des problmes dapproximations de
fonctions suffisamment complexes (grande dimension de lespace dentre). laide de ces deux superviseurs, nous avons cr plusieurs bases dexemples en faisant varier le nombre dexemples de 100 1500
par pas de 100. La loi de distribution retenue pour les entres a t la loi uniforme sur lintervalle [-1,1].
Les rseaux modles retenus sont des rseaux non boucls 1 couche cache. Les units dentre et de
sortie sont associes la fonction dactivation identit, et les units caches la fonction dactivation
logistique. Pour les bases cres par le premier superviseur 8, 5 rseaux modles ont t proposs
NeMo comprenant respectivement 4, 6, 8, 10 et 12 units cachs. Pour les bases engendres par le second
superviseur 12 (espace dentre plus complexe), 6 rseaux ont t tests comprenant respectivement 10,
14, 18, 22, 26 et 30 units en couche cache.
Grande dimension
noter la trs faible densit des points dans R12 ; 1500 points dans R12 correspondent un nombre moyen infrieur 2 par axe :
d 12 = 1 500 d 1,8.

Lerreur relle est obtenue partir de 106 tirages alatoires en utilisant la mme loi de gnration des
entres (loi uniforme) et en calculant lerreur moyenne quadratique rduite EQMr entre la sortie dsire
et la sortie estime.
Ci-aprs, les figures prsentent la comparaison (en chelle log-log) de lerreur EQMr vraie (en
abscisse) lerreur estime (en ordonne) par NeMo. Les points visualiss correspondent aux diffrents
rseaux lves construits sur lensemble des bases dexemples. Chaque rseau a t entran 15 fois sur
des bases dexemples comprenant respectivement 100, 200, , 1500 exemples.
Lanalyse de lensemble des rsultats illustrs par les figures 3-11 et 3-12 fait apparatre les proprits
essentielles de la mthode NeMo :

222

Lapprentissage statistique

lerreur de gnralisation est estime avec prcision, mme dans les cas complexes (grand nombre
dentres + faible nombre dexemples) ;
le bootstrap permet dautomatiser la rgularisation du rseau aux donnes par contrle de larrt de
lapprentissage.
Les figures 3-11 et 3-12 font en effet apparatre des estimations de lerreur de gnralisation trs proches
des valeurs exactes. Les faibles valeurs de lerreur correspondent aux apprentissages raliss avec les
bases dexemples qui en comportent suffisamment. Pour ces cas, lerreur estime en ordonne est quasi
gale lerreur vraie en abscisse.
Il faut noter une lgre surestimation sur 4 cas parmi 75 entre les valeurs 0,01 et 0,02 pour le cas 8 (figure
3-11) et une moindre prcision sur le cas plus complexe 12 (figure 3-12). Pour ce dernier cas, la rgression porte sur une relation de R12 R avec un maximum de 1500 points pour reprsenter la relation. Il
apparat une surestimation de lerreur pour les faibles valeurs et une sous-estimation pour les valeurs
suprieures 0,2. Nanmoins, malgr la grande dimension de lespace dentres, la relation de R12 dans
R est correctement modlise partir de quelques centaines dexemples.
1

Erreur estime par NeMo

Figure 3-11.
Gnrateur 8.

R8_4_1
R8_6_1
R8_8_1
R8_10_1
R8_12_1

0.1

0.01

0.001
0.001

0.01

Erreur fonctionnelle

0.1

Complments de mthodologie pour la modlisation


CHAPITRE 3

223

1
R12_10_1
R12_14_1
R12_18_1
R12_22_1
R12_26_1
R12_30_1

Erreur estime par NeMo

Figure 3-12.
Gnrateur 12.

0.1

0.01
0.01

0.1
Erreur fonctionnelle

Conclusions
Plusieurs points peuvent tre tirs de cette tude.
Les rseaux construits automatiquement sont suffisamment bien rgulariss, mme dans les cas les plus
difficiles lorsque le nombre dexemples est faible. La statistique apporte par le bootstrap permet le
contrle automatique de larrt prmatur de lapprentissage et fournit une statistique robuste de lerreur
de gnralisation.
Le deuxime point est li au problme de la dimension de lespace dentre. Mme dans lexemple de
la relation de R12 dans R, quelques centaines de points suffisent la reprsentation de la relation. Dans
de nombreux problmes, des relations non linaires peuvent ainsi tre facilement approches partir
dune densit dexemples faible. noter qu partir dun certain niveau de complexit, les rseaux construits et rgulariss sur un mme chantillon semblent quivalents. Des rseaux diffrents peuvent tre
adapts pour reprsenter la mme relation.
Dans le cadre de la thorie de lapprentissage statistique, la rgularisation des modles peut tre contrle
et donc optimise par bootstrap. Cette voie est approcher des mthodes plus formelles fondes sur la
thorie propose par [VAPNIK 1995], lenjeu tant ladaptation des capacits calculatoires (dimension VC)
du modle aux donnes. Dans ce cadre, les mthodes statistiques de r-chantillonnage apportent de
relles solutions par leur facilit de mise en uvre et surtout, reconnaissons-le, par les puissances de
calculs aujourdhui disponibles sur nos bureaux.

224

Lapprentissage statistique

Bibliographie
CICHOKI A., UNBEHAUEN R. [1993], Neural Networks for Optimization and Signal Processing, Wiley,
1993.
DEMARTINES P. [1995], Analyse de donnes par rseaux de neurones auto-organises, thse de lInstitut
national polytechnique de Grenoble.
DAVAUD Patrick [1991], Traitement du signal. Concepts et applications, Herms, 1991.
EFRON Bradley, TIBSHIRANI Robert J. [1993], An Introduction to the Bootstrap, Chapman & Hall, 1993.
HRAULT Jeanny, JUTTEN Christian [1993], Rseaux de neurones et traitement du signal, Herms, 1993.
PILATO Vincent [1998], Application des rseaux de neurones aux mthodes de mesure bases sur linteraction rayonnement matire, thse Universit Paris-Sud, 4.11.1998.
SAPORTA Gilbert [1990], Probabilits. Analyse des donnes et statistique, ditions Technip, 1990.
VAPNIK Vladimir N. [1995], The Nature of Statistical Learning Theory, Springer, 1995.
VIGNERON Vincent [1997], Mthodes dapprentissage statistiques et problmes inverses Applications
la spectrographie, thse Universit dvry-Val-dEssonne, 5.5.1997.
WONNACOOT Thomas H., WONNACOTT Ronald J. [1990], Statistique conomie-gestion-sciences-mdecine, Economica, 4e dition, 1990.

4
Identification neuronale de systmes
dynamiques commands et rseaux
boucls (rcurrents)
La modlisation de processus dynamiques commands, ou identification de processus , constitue une
des applications importantes des rseaux de neurones. Elle a t aborde dans le chapitre 2 ; elle est ici
dveloppe dune manire plus systmatique, et compare des mthodes similaires labores depuis de
nombreuses annes pour lidentification des processus, notamment linaires.
Nous commencerons par prsenter plusieurs exemples de systmes dynamiques commands. Nous
montrerons notamment comment ladjonction dun bruit dtat, pour modliser les incertitudes de la
modlisation, permet de considrer le modle dvolution de ltat comme une chane de Markov. Lidentification neuronale des processus non linaires est pour lessentiel une gnralisation non linaire de
la mthodologie bien connue de la rgression linaire. Cette dernire est dabord rappele dans la section
Identification de systmes dynamiques commands par rgressions , o nous montrons, sur des exemples concrets, son application la dtermination des coefficients dun modle auto-rgressif. Lidentification neuronale des systmes dynamiques commands apparat ainsi naturellement comme une technique
didentification par rgression non linaire. La section suivante est consacre lidentification adaptative
( en ligne ) des systmes dynamiques. partir de lidentification rcursive de modles linaires qui
constituent une gnralisation de la loi des grands nombres, nous dvelopperons la mthode de lerreur de
prdiction rcursive, qui en est la gnralisation non linaire. Les algorithmes adaptatifs didentification
seront ensuite exposs, et appliqus aux algorithmes didentification par rseaux de neurones.
Dans la plupart des applications, ltat du systme ne peut tre compltement connu, parce que certaines
variables dtats ne sont pas accessibles la mesure, et que dinvitables erreurs de mesure, ou bruit de
mesure, interviennent. Cest le rle du filtrage de reconstruire ltat dun processus dynamique partir
du rsultat des mesures. La technique du filtrage par innovation, et notamment du filtrage optimal de
Kalman, fait lobjet de la section Filtrage par innovation dans un modle dtat . Elle est employe pour
construire un algorithme dapprentissage neuronal qui peut tre utilis pour lidentification adaptative de
processus dynamiques. Enfin, les sections Rseaux neuronaux rcurrents ou boucls et Apprentissage
des rseaux de neurones rcurrents ou boucls sont consacres lutilisation et lapprentissage de
rseaux neuronaux rcurrents. Les principaux modles de rseaux boucls (Elman, Hopfield) sont cits, et
nous montrerons comment ils peuvent tre mis sous forme canonique. Nous verrons enfin comment ces
rseaux sont utiliss dans lidentification de systmes dynamiques commands.

226

Lapprentissage statistique

Formalisation et exemples de systmes dynamiques


commands temps discret
Formalisation dun systme dynamique command par lquation dtat
Le modle mathmatique dun systme dynamique est dfini par la donne dun ensemble E appel
lespace dtat du systme, et dune quation dvolution dcrivant compltement la trajectoire du
systme dans lespace dtat, une fois que ltat initial du systme est donn. Dans la plupart des
problmes qui nous intressent, lvolution est autonome, ce qui signifie que la loi de lvolution est
stationnaire. Nous nous en tiendrons ce point de vue pour simplifier les notations. Dans les problmes
de commande, la valeur de ltat au temps t + t dpend non seulement de celle de ltat au temps t mais
aussi de la valeur, au temps t, dun signal externe appel entre ou commande du systme. Dans
ce cas, nous ne dirons plus que le systme dynamique est autonome, mais quil est command.
Lensemble des commandes est not F. Conservant les notations classiques, nous noterons
ltat du systme au temps t par x(t)E
la valeur de la commande au temps t par u(t)F
Ainsi, pour dfinir compltement la trajectoire dun systme contrl du temps 0 au temps , il faut se
donner ltat initial du systme x(0) et la trajectoire de commande [u(t)]t [0, ]. Le systme de commande
a pour rle dlaborer une commande qui rapproche ltat du systme dun objectif atteindre, ou minimise le cot dune trajectoire.
Remarquons que si lon adopte une loi de commande en boucle ferme, cest--dire si le contrleur
calcule la commande en fonction de ltat du systme (ou de lobservation qui en est faite), alors
lensemble (systme de commande-systme dynamique command) forme un systme dynamique autonome. La synthse de lois de commande en boucle ferme et la mise au point de commandes neuronales
feront lobjet du chapitre suivant.
Dans la mesure o la majorit, voire la totalit, des applications des rseaux de neurones, met en uvre
des ordinateurs ou des circuits numriques, nous nous limiterons, dans tout cet ouvrage, aux systmes
dynamiques temps discret. Il est possible de transformer un systme dynamique temps continu en
systme dynamique temps discret en chantillonnant la trajectoire dtat du systme. Comme nous
lavons fait dans le chapitre 2, nous dsignerons par T la priode dchantillonnage, et, pour abrger, nous
noterons k le temps t = kT. Lvolution du systme dynamique command est donc dcrite par une quation dvolution du type suivant :
x(k + 1) = f[x(k), u(k)]
o f est lapplication de E F dans E permettant de passer de ltat au temps kT ltat au temps (k + 1)T.
Ce formalisme gnral englobe des problmes varis pour lesquels il existe des techniques spcifiques.
Le modle le plus classique est le modle linaire, dans lequel les espaces dtat et de commandes sont
des espaces vectoriels, A une application linaire de E dans E, B une application linaire de F dans E et
o lquation dvolution a la forme suivante :
x(k + 1) = Ax(k) + Bu(k).
Comme les modles mathmatiques ne sont quune approximation plus ou moins grossire de lvolution
physique, on peut tenir compte, dans le modle, de limperfection de cette approximation, en introduisant
dans lvolution un terme alatoire. Ce terme est souvent appel un bruit dtat.

Identification neuronale
CHAPITRE 4

227

Par exemple, dans le modle linaire stationnaire, on reprsente lerreur de modle par un bruit additif
gnralement blanc et gaussien, et lquation dvolution a la forme
x(k + 1) = Ax(k) + Bu(k) + v(k+1)
o les v(k) sont des vecteurs alatoires gaussiens indpendants normaux centrs (esprance 0) de matrice
de variance-covariance G.
Dans ce cas, la trajectoire dtat est alatoire et sappelle un processus stochastique. On va maintenant
donner quelques exemples de systmes dynamiques commands qui nous serviront dillustrations tout au
long de ce chapitre.

Exemple dun systme dynamique espace dtat discret


Considrons dabord lexemple dun systme dynamique espace
dtat discret. On a reprsent sur la figure 4-1 limage dun labyrinthe 18 cases possibles.
Lespace dtat peut donc tre lespace 18 lments {12, 13, 14, 15,
21, 22, 24, 32, 33, 34, 35, 41, 42, 44, 52, 53, 54, 55}. Lensemble des
commandes peut tre lespace des quatre directions {N, O, S, E} et la
dynamique donne par lapplication naturelle qui, la position et
une commande de cap, associe ltat correspondant sil est accessible,
et ltat initial sil ne lest pas :
f (12, N) = 12, f (13, N) = 13, , f (21, N) = 21, f (22, N) = 12,,
f (12, O) = 12, f (13, O) = 12,, f (21, O) = 21, f (22, O) = 21,,
f (12, S) = 22, f (13, S) = 13,, f (21, S) = 21, f (22, S) =32,,
f (12, E) = 13, f (13, E) = 14,, f (21, E) = 22, f (22, E) = 22,,

11

12 E 13

14

15

21

22

23

24

25

31

32

33

34 N

35

O
41

42

43

44

45

51

52

53

54

55

Figure 4-1. Schma de labyrinthe.

Dautres rgles peuvent tre choisies, auxquelles correspondent des reprsentations dtat diffrentes du
problme. Il peut tre raliste de considrer que ltat dun robot est caractrise non seulement par sa
position, mais aussi par son cap. Dans notre exemple, lespace dtat aurait alors 18 4 = 72 lments et
lon dfinirait un ensemble de commandes trois lments (A : Avance, G : Cap gauche, D : Cap
droite).
Les logiciels de recherche dans des bases de donnes et sur le rseau doivent rsoudre ainsi de plus en plus
de problmes que lon peut formaliser comme des problmes de navigation dans un graphe o lespace
dtat discret est constitu par lensemble des sommets du graphe.

Exemple dun oscillateur linaire


Considrons maintenant loscillateur harmonique classique, gouvern par lquation diffrentielle du
second ordre :
d2x
= x .
dt 2

On remarque dabord que lquation diffrentielle ne nous fournit pas une reprsentation dtat car elle
est du second ordre. La reprsentation dtat temps continu associe lquation prcdente est :
d x1 x 2
=

dt x 2 x1

Lapprentissage statistique

228

o ltat comporte la position du mobile x1 et sa vitesse x2. Pour obtenir une volution temps discret,
nous devons intgrer lquation diffrentielle sur la priode dchantillonnage T. Ici, lquation diffrentielle linaire sintgre exactement et la fonction f qui associe ltat au temps t ltat au temps t + T peut
tre crite analytiquement. Comme ce ne sera gnralement pas le cas dans les modles considrs ici ou
dans la plupart des applications, il faudra tendre vers lvolution en utilisant un algorithme approch de
rsolution de lquation diffrentielle (algorithme de Runge-Kutta par exemple [DEMAILLY 1991]).
Pour commander le systme, nous ajoutons une commande scalaire additive de vitesse u.
Par exemple, pour fixer les ides, dans le cas prcdent, on obtient facilement lexpression de la drive
seconde de ltat par :
d2
dt 2

x1 x1
x = x
2 2

cela permet dcrire lapproximation de Taylor au second ordre de lvolution de ltat :


x1
x1
0
d x1
T 2 d 2 x1

x (t + T ) = x (t ) + T (t ) +
(t ) +
2
u(t )
2 dt x 2
dt x 2
2
2

On obtient ainsi le systme dynamique linaire command temps discret :


x1(k + 1)
x2(k + 1

=f

x1(k)
x2(k)

x1(k) + Tx2(k)
=
x2(k) Tx1(k)

T2
x (k)
2 1

T2
x (k) + u (k)
2 2

dont les trajectoires approchent lchantillonnage de celles du systme dynamique temps continu.

Exemple du pendule invers


Considrons maintenant le systme dynamique non linaire que lon
appelle pendule invers car on considre sa position dquilibre instable
comme position de rfrence. Le schma du montage est reprsent sur la
figure 4-2.
Lquation diffrentielle de ce systme contrl est :
d
d 2
--------2 = g sin ( ) k ------ + u
dt
dt
Sa reprsentation dtat temps continu est :

Figure 4-2.
Schma du
pendule
invers.

x2
0
d x1
=
+ .
dt x 2 g sin x1 kx 2 u

On remarque que lespace dtat nest pas vraiment un espace vectoriel puisque langle nest dfini qu
2 prs. En fait, le problme physique na de sens que dans un certain domaine de viabilit qui est un intervalle. On nexplicite pas le schma de discrtisation donn par un des solveurs dquation diffrentielle qui
sont largement disponibles. Les simulations de ce chapitre ont t effectues avec le logiciel Matlab.

Identification neuronale
CHAPITRE 4

229

Exemple dun oscillateur non linaire : loscillateur de Van der Pol


Un autre exemple doscillations indsirables dans les systmes physiques est celui doscillations stables
en rgime libre. Il sagit dun phnomne dynamique typiquement non linaire bien modlis par lquation de Van der Pol, qui est une quation diffrentielle non linaire :
d2x
dx
dx
2 z 0
+ 0 2 x + 3kx 2
= u.
dt
dt
dt 2

Le paramtre z mesure lamortissement du systme et 0 est la frquence propre de loscillateur. La reprsentation dtat de la dynamique est deux dimensions :
x2
0
d x1
= 2 z x 2 x + 3kx 2 x + .
u
dt x 2
0 2
0 1
1 2

On remarque que le systme est linaire par rapport la commande. La dynamique du systme libre
(u = 0) dans lespace dtat deux dimensions a pour attracteur un cycle limite : cela signifie que, quel
que soit ltat initial, la trajectoire senroule autour dune trajectoire priodique privilgie : le cycle
limite. Ce phnomne est illustr par la figure 4-3.
Figure 4-3.
Trajectoire
dun oscillateur
de Van der Pol.
Dans la figure
(a), on observe
un cycle limite.
Dans la figure
(b), la trajectoire est
perturbe par
une entre
alatoire.

Trajectoire de lquation de Van Der Pol


commande par une entre alatoire

Cycle-limite de lquation de Van Der Pol


non commande

2 1.5 1 0.5

0.5

1.5

2.5

2 1.5 1 0.5

0.5

1.5

2.5

Introduction dun bruit dtat dans un systme dynamique espace


dtat discret : notion de chane de Markov
Revenons sur les systmes dynamiques temps discret, et considrons dabord le systme dynamique
simple et non contrl de la marche sur un triangle. Lespace dtat a trois lments a, b et c, et la dynamique est donne par la fonction f dfinie par :
f(a) = b, f(b) = c, f(c) = a.
Introduisons maintenant une incertitude dans le modle dynamique. Supposons que le systme de
commande ait une probabilit 0,1 de se tromper chaque tape, par exemple
P[f(a) = b] = 0,9, P[f(a) = c] = 0,1
et ainsi de suite.
Le schma de cette dynamique alatoire est reprsent la figure 4-4.

230

Lapprentissage statistique

La trajectoire dtat nest plus dterministe :


1
cest un processus stochastique appel chane
a
a
de Markov . Le comportement aux temps
longs dune chane de Markov est bien diffrent
de celui dun processus dterministe : ltat aux
0.9
0.9
temps longs ne dpend plus du tout ici de ltat
0.9
0.9
0.1
initial, et lon peut montrer que la probabilit de
0.9
ltat au temps k tend vers la loi de probabilit
0.1
0.1
b
c
uniforme sur {a, b, c} quand k tend vers linfini. b
0.1
0.1
Cette loi de probabilit est appele la
distribution stationnaire de la chane de
Figure 4-4. Schmas de dynamiques alatoires sur les
sommets dun triangle. (a) Dynamique cyclique perturbe par
Markov. Une reprsentation commode des
un bruit dtat. (b) Dynamique attracteur perturbe par un
chanes de Markov espace dtat discret est la
bruit dtat.
reprsentation matricielle. On ordonne les tats,
et lon reprsente, sur chaque ligne dune matrice appele matrice de transition (note ici P), le vecteur
ligne des probabilits darriver au temps suivant sur ltat correspondant. Avec le formalisme des probabilits conditionnelles, on crit
ij = P[ x ( k + 1) = j x ( k ) = i]

Par exemple, dans le cas de la marche alatoire sur le triangle, la matrice de transition est
0, 9 0,1
0 0, 9

0, 9 0,1 0
0

P = 0,1

On peut vrifier que la distribution stationnaire est invariante par la matrice de transition qui structurellement possde toujours une valeur propre de plus grand module gale 1 (dans le cas dun espace dtat
fini). Ainsi, dans lexemple prcdent, les valeurs propres de la matrice P sont (approximativement) 1,
0,5 + 0.6928i et 0,5 0,6928i. On vrifie facilement que la loi de probabilit uniforme qui attribue une
gale probabilit chaque tat est invariante :
0 0, 9 0,1
(1 / 3 1 / 3 1 / 3) 0,1 0 0, 9 = (1 / 3 1 / 3 1 / 3)
0, 9 0,1 0

La probabilit invariante est lobjet alatoire correspondant ltat dquilibre de la dynamique dterministe. Elle porte dailleurs ce nom dtat dquilibre dans la terminologie de la physique statistique
(tat de Gibbs).
Voici un autre exemple de dynamique sur le triangle qui brise la symtrie entre les sommets.
Ici, la dynamique de rfrence est :
f ( a) = a, f (b) = a, f (c) = a

La matrice de transition de la chane de Markov est alors


0
0
0 0,1

0, 9 0,1 0
1

P = 0, 9

ses valeurs propres sont 1 et 0,1 et sa distribution stationnaire est (1, 0, 0). Dans ce cas, ltat dquilibre
est dterministe mme si la dynamique est alatoire.

Identification neuronale
CHAPITRE 4

231

Comme prcdemment, on peut introduire un bruit dtat dans le systme dynamique command. Dans
ce cas, la probabilit de transition de ltat x(k) ltat x(k+1) dpend aussi du contrle u(k) appliqu au
temps k.
Par exemple, dans le cas du labyrinthe prsent au dbut de ce paragraphe, f(13, N) = 13. Si nous introduisons un bruit dtat selon lequel le systme de commande peut se tromper avec la probabilit 0,1,
uniformment rpartie sur les autres commandes admissibles, f(13, N) est une variable alatoire prenant
les valeurs 13, 12 et 14 avec les probabilits respectives 0,9, 0,05, 0,05.

Introduction dun bruit dtat dans un systme dynamique tats


continus : modle linaire gaussien
Les ingnieurs sont plus habitus traiter des bruits dtat introduits dans des systmes dynamiques
tats continus. Dans ce cas, le calcul des probabilits est plus complexe et ne peut gnralement pas tre
rsolu sous une forme analytique, sauf dans le cas du modle linaire bruit dtat additif gaussien, dont
nous allons indiquer rapidement le comportement en raison de son importance ultrieure dans le filtrage
de Kalman.
Considrons le systme dynamique linaire command dont lquation dvolution est
x(k + 1) = Ax(k) + Bu(k) + Cv(k + 1)
o (v(k)) est un bruit blanc gaussien centr rduit (suite indpendante de vecteurs gaussiens de moyenne
0 et de matrice de covariance identit).
Si x(k) est un vecteur gaussien de moyenne m(k) et de variance P(k), alors les proprits lmentaires du
vecteur gaussien pour la transformation linaire entranent que x(k + 1) est un vecteur gaussien de
moyenne
m(k + 1) = Am(k) + Bu(k)
et de matrice de covariance
P(k + 1) = AP(k)AT + CCT
o AT et CT sont les matrices respectivement transposes de A et de C.
On rappelle que, si P est la matrice de covariance du vecteur alatoire x valeurs dans un espace vectoriel
E et si A est une application linaire dfinie sur E dont nous confondons lcriture avec celle de sa matrice
dans une base de rfrence, alors la matrice de covariance du vecteur alatoire Ax est APAT. Ce point sera
particulirement important pour la section consacre au filtrage de Kalman.
Lquation prcdente sappelle quation de propagation de la covariance. On peut alors connatre le
comportement temps long du processus stochastique gaussien (x(k)). Si la matrice A est stable, cest-dire si toutes ses valeurs propres sont de module infrieur 1, le processus gaussien converge aux temps
longs vers une distribution stationnaire gaussienne centre dont la matrice de covariance P est lunique
solution de lquation
P = AP AT+CCT.
En revanche, si la matrice A possde une valeur propre de module suprieure ou gale 1, il nexiste pas
de rgime stationnaire pour le processus qui diverge aux temps longs. Le modle linaire est dit instable.

Modles auto-rgressifs
Le fichier du nombre de taches solaires de Wolf est un exemple de donnes astronomiques qui est trs
utilis pour prouver les mthodes didentification et de prdiction ; il est maintenu depuis plus de deux
sicles ; ses variations sont reprsentes sur la figure 4-5.

232

Lapprentissage statistique

Cette courbe prsente une certaine rgularit, avec des cycles manifestes denviron 11 ans. Il est donc naturel de
chercher une loi capable de prdire
lvolution du phnomne [TONG 1995].
De labondante littrature consacre
cette question, on peut extraire le
modle suivant, labor en 1984 par
Subba et Gabr sur les donnes pralablement centres :
x(k+1) = 1,22x(k) 0,47x(k 1) 0,14
x(k 2) + 0,17 x(k-3) 0,15
x(k 4) + 0,05x(k 5) 0,05
x(k 6) 0,07 x(k 7)
+ 0,011 x(k 8) + v(k + 1)
o (v(k)) est une suite de variables alatoires
gaussiennes
indpendantes
centres, dcart-type 14.2. Ce modle
sappelle un modle auto-rgressif ou
modle AR.

Figure 4-5. Fichier du nombre de taches solaires de Wolf de 1700


1997.

Les modles auto-rgressifs AR(p) se dfinissent donc par


x(k + 1) = a1 x(k) ++ ap x(k p + 1) + v(k + 1)
o (v(k)) est un bruit blanc numrique (suite de variables alatoires centres indpendantes et de mme
loi). On voit que le signal dintrt peut tre considr comme la rponse dun filtre linaire rponse
impulsionnelle infinie un bruit blanc [DUVAUT 1994].
Remarque
Un ltre rponse impulsionnelle innie, ou ltre rcursif , est caractris par le fait que sa rponse linstant k + 1 dpend de sa
rponse linstant k et des instants prcdents, et du signal dentre (qui, ici, est un bruit) au mme instant. En revanche, un ltre
rponse impulsionnelle nie , ou ltre transverse , est caractris par le fait que sa rponse linstant k + 1 ne dpend pas de sa
rponse aux instants prcdents, mais ne dpend que du signal dentre au mme instant et des instants prcdents.

Par ailleurs, la modlisation des signaux comme rponse un bruit blanc des filtres rponse impulsionnelle finie du type :
x(k + 1) = b0 v(k + 1) + b1 v(k)+ bq v(k q + 1)
est aussi connue depuis longtemps sous le nom de processus moyenne mobile MA(q).
La synthse naturelle de ces deux modles est le modle linaire ARMA(p,q) ou modle auto-rgressif
moyenne mobile dordre (p, q) (ARMA est lacronyme de Auto-regressive Moving-Average)
x(k + 1) = a1x(k) + + apx(k p + 1) + b0v(k + 1) + b1v(k) + bq v(k q + 1).
Bien que les modles ARMA aient des proprits dapproximation universelle, il est plus explicatif et plus
conomique de modliser par des quations dvolution non linaires les phnomnes ou les signaux qui
sy prtent ([TONG 1995]). On introduit alors les modles NARMA, dont lquation dvolution est
x(k + 1) = f[x(k), , x(k p + 1), v(k + 1), v(k), v(k q + 1)].
On remarque que ces modles sont des cas particuliers des modles de systmes dynamiques dont il a t
question aux paragraphes prcdents ; ils admettent des reprsentations dtat videntes mais volumineuses. Par exemple, dans le modle NARMA dordre (p, q) prcdent, ltat du systme au temps k est

Identification neuronale
CHAPITRE 4

233

le vecteur x(k), p + q dimensions, de composantes [x1(k) = x(k),, xp(k) = x(k p + 1), xp+1(k) = v(k),
xp+q(k) = v(k q + 1)], et lquation dtat est :
x1(k + 1) = f[x1(k),, xp(k), v(k + 1), xp+1(k), ), xp+q(k)]
x2(k + 1) = x1(k)
...
xp(k + 1) = xp-1(k)
xp+1(k + 1) = v(k + 1)
xp+2(k + 1) = xp+1(k)
...
xp+q(k + 1) = xp+q-1(k).
De mme que nous avons envisag, outre les systmes dynamiques autonomes, des systmes dynamiques
commands, de mme, la thorie des sries temporelles envisage des modles auto-rgressifs avec
variables exognes, ou modles ARMAX et NARMAX. Dans ces modles, lquation dvolution prend
en considration des variables exognes au temps courant ou dans le pass, qui sont connues et sont
lquivalent du signal de commande. On obtient ainsi les modles ARMAX (p, q, r)
x(k + 1) = a1x(k) + + apx(k p + 1) + b0v(k + 1) + b1v(k)+ bqv(k q + 1) + c1u(k) + + cru(k r + 1)
et NARMAX (p, q ,r)
x(k + 1) = f[x(k), , x(k p + 1), v(k + 1), v(k), v(k q + 1), u(k), , u(k r + 1)].

Limites des modlisations des incertitudes sur le modle par un bruit


dtat
On a vu ici intervenir le bruit dtat (v(k)), qui modlise les incertitudes sur les variables dtat du modle
par des variables alatoires. Cette modlisation na dintrt que si elle sert quelque chose, cest--dire si
les incertitudes de modles obissent des lois statistiques comme la loi des grands nombres, qui permettent
daccder une connaissance sur ces incertitudes et den tirer des procdures pour amliorer les prdictions
et les commandes effectues sur le processus. Or, ce nest pas toujours le cas, et lexistence dincertitudes et
dinconnues mal reprsentes par des variables alatoires est une limitation intrinsque de tout algorithme
statistique. Un bon exemple de cette situation est fourni par la poursuite dune cible non cooprative, quand
les commandes du mobile poursuivi sont modlises par un processus alatoire : lintention du pilote poursuivi est un lment de cette commande qui se prte videmment trs mal une modlisation statistique.
En labsence dinformations complmentaires, la modlisation alatoire nest donc quun pis-aller. Dans
ce cas, il importe de sattacher rduire la part de lalatoire, en introduisant la connaissance physique
dont on dispose dans le modle, plutt que de reprsenter ce qui est non identifi par un processus alatoire vectoriel de grande dimension. On rduit ainsi le nombre de paramtres identifier. Ces considrations justifient lutilisation, parmi dautres modles, des rseaux neuronaux comme rgresseurs non
linaires parcimonieux, comme nous lavons vu dans le chapitre 2.

Identification de systmes dynamiques commands par rgression


Identification dun systme dynamique command par rgression linaire
Principe de lalgorithme
Nous avons vu, dans le chapitre 2, que le principe de la rgression linaire consiste trouver, partir
dune suite finie de N vecteurs dentre de Rn (vecteurs lignes (1,n) ) (x1, , xk, , xN) et dune suite finie

234

Lapprentissage statistique

de N variables scalaires de sortie (y1,, yk,, yN), le vecteur colonne (n, 1) w = (w1 ; ; wn) qui minimise
la fonction de cot des moindres carrs :
N

J = ( yk x k w ) 2
k =1

ou, dune manire quivalente, la moyenne quadratique des rsidus :


N (w) =

1 N
( yk x k w)2.
2 N k =1

On se limite ici au cas classique dune sortie scalaire : le cas des sorties vectorielles napporte aucun changement dans le principe. Comme il sagit dun problme doptimisation cot quadratique (le cot
minimiser est une fonction du second degr par rapport lensemble fini des variables), on sait que la
solution est unique et dtermine par la formule matricielle
1

= ( X T X ) X TY
w
o la matrice (N, n) X = (x1 ; ; xk ; ; xN) et le vecteur colonne (N,1) Y = (y1 ; ; yk ; ; yN) sont
obtenus par concatnation des donnes dentre et de sortie condition que le problme soit bien pos,
cest--dire que la matrice (XTX) soit inversible.
Cet algorithme sapplique pour identifier les modles auto-rgressifs de la section prcdente. Pour identifier le modle ARX :
x(k + 1) = a1x(k) + + apx(k p + 1) + b0v(k + 1) + c1u(k) + + cr u(k r + 1).
On a donc ici w = [a1, , ap, b0, c1, , cr]T.
Quand une trajectoire de commande [u(1), , u(k), , u(N)] et une trajectoire de sortie [x(1),, x(k), , x(N)]
sont notre disposition, nous pouvons construire les vecteurs dentre (1, p+r) xk = [x(k) ; ; x(k p+1) ;
u(k) ; ; u(k r + 1)] pour k variant de max(p, r)+1 (N 1) et nous prendrons comme sortie correspondante yk = x(k + 1).
De trs bons rsultats peuvent tre obtenus pourvu que le modle sur lequel est construit lestimateur soit
bien reprsentatif des donnes exprimentales traites. Le cas suivant de simulation illustre cette affirmation.

Application un cas type


Considrons le modle ARX dordre (2,2) :
x(k + 1) = a1x(k) + a2x(k 1) + b0v(k + 1) + c1u(k) + + c2u(k 1)
avec les valeurs suivantes des paramtres :
a1 = 1,2728, a2= 0,81, b0 = 0,5, c1 = 0,5, c2 = 0,5
o la trajectoire de commande (uk) cre par loprateur est un bruit blanc.
Construisons les vecteurs dentre x(k) = [x(k) ; x(k 1) ; u(k) ; u(k 1)] pour k variant de 2 N 1.
Lidentification faite sur une centaine de valeurs fournit les valeurs estimes suivantes des paramtres :
a 1 = 1,29, a 2 = 0,83, c 1 = 0,49, c 2 = 0,51.
Si les valeurs des commandes ne sont pas fournies lalgorithme, les vecteurs dentre de la rgression
sont deux dimensions x(k) = [x(k) ; x(k 1)]. Lidentification, qui est simplement celle dun modle AR,
fournit les estimations dgrades suivantes :
a 1 = 1,17, a 2 = 0,71.

Identification neuronale
CHAPITRE 4

235

Ces rsultats moins bons sexpliquent par une mauvaise modlisation : la trajectoire de commande tant,
dans cette exprience, un bruit blanc, lestimateur dun modle AR a t utilis pour traiter des donnes
produites, en ralit, par un modle ARMA bruit vectoriel (uk, vk).
Si, au lieu de simuler le modle prcdent, un bruit de mesure est introduit dans la simulation qui perturbe
lobservation de ltat sans entraner de consquences ultrieures sur la dynamique (ce point sera dvelopp au dbut de la section consacre au filtrage), les donnes sont produites par simulation du modle
suivant :
x ( k + 1) = a1 x ( k ) + a2 x ( k 1) + c1u( k ) + c2 u( k 1)
.

y( k ) = x ( k ) + b0 w( k )

Dans ce cas, lapplication de la procdure didentification ARX produit de mauvais rsultats malgr la
connaissance de la trajectoire de commande. On obtient :
a 1 = 0,61, a 2 = 0,36, c 1 = 0,49, c 2 = 0,11.
Cette exprience montre limportance dune modlisation correcte des bruits pour lestimation par rgression linaire. Nous avons dj trait ce problme dans le cadre de la modlisation dynamique par rseaux
de neurones (chapitre 2), et nous le retrouverons plus loin dans ce chapitre. Laddition dun bruit de
mesure ajoute un problme nouveau, celui du filtrage qui sera trait dans ce chapitre.

Justification mathmatique
Lanalyse statistique linaire des sries temporelles est bien connue et sort du cadre de cet ouvrage. Pour
un expos permettant daccder aux mthodes statistiques classiques didentification et de prvision, on
se reportera [CHATFIELD 1994] pour un expos pratique et [GOURIROUX 1995], [AZENCOTT 1984],
pour les justifications mathmatiques. Esquissons la justification de la procdure des moindres carrs dans
le cas le plus simple, celui dun modle auto-rgressif linaire stable, en rgime stationnaire, et dun bruit
gaussien centr. On note en majuscules les inconnues qui sont considres comme des variables alatoires.
Considrons le processus gaussien stationnaire du second ordre produit par le modle auto-rgressif
AR(p) :
X(k + 1) = a1X(k) + + apX(k p + 1) + b0V(k + 1)
o le modle est stable (cest--dire o le polynme P( z ) = 1 a1z ... a p z p a ses racines lextrieur
du disque unit) et o le bruit blanc (Vk) est gaussien centr. Dans ce cas, en notant rj = Cov(Xk, Xk-j), on
obtient les relations de Yule-Walker en prenant la covariance des deux membres de lquation prsente
ci-avant avec les variables (Xk-i)i = 0...p1 :
r1 = a1r0 + ... + a p rp

................................. .
r = a r + ... + a r
1 p 1
p 0
p

Les mmes relations relient approximativement (aux erreurs de troncatures prs, tendant vers 0 avec le
p
rapport ---- ) les estimateurs empiriques des moindres carrs de la covariance :
N
ri =

1 k=N
x(k ) x(k i)
N p k =i +1

et les estimateurs des moindres carrs des coefficients de la rgression a i . Dautre part, les estimateurs r i
sont consistants, sans biais et asymptotiquement normaux avec une variance de lordre de 1/N. On peut

Lapprentissage statistique

236

alors en dduire que les estimateurs a i sont consistants, asymptotiquement sans biais et asymptotiquement normaux avec une variance de lordre de 1/N, ce qui permet de faire des tests dadquation du
modle.
Remarque
Un estimateur est dit consistant si sa variance tend vers zro lorsque le nombre dchantillons tend vers linni.

Notons que, dans le cas des systmes linaires, les mthodes prsentes ici sont tout fait lmentaires et
ont t considrablement amliores tant par les automaticiens que par les statisticiens. Les principales
amliorations portent sur lintroduction du point de vue spectral, cest--dire par lidentification de la
fonction de transfert des filtres sous-jacents aux modles ARMA. On trouvera facilement ces techniques
dans les livres de base, notamment ceux cits en rfrence. Leur expos dpasse le cadre de cet ouvrage,
puisque les rseaux de neurones se situent dans le cadre des modles non linaires.

Application un systme dynamique linaire : loscillateur harmonique


Appliquons la procdure prcdente lidentification de loscillateur harmonique dcrit dans la section
prcdente, en supposant que nous connaissions seulement la trajectoire de commande et la trajectoire des
angles indiquant la position de loscillateur. Sur une trajectoire dune centaine de pas, lidentification par
le modle ARX dordre (2, 2) donne des rsultats parfaits. En effet, le modle est bien linaire dordre 2
puisque ltat se reconstruit avec une trs bonne approximation par la donne de deux observations
successives de la position.
En revanche, lidentification par un modle ARX dordre (2, 1) dgrade sensiblement les rsultats de
lestimation. Cest facilement explicable : la commande seffectuant sur lincrment de vitesse, elle est
bien dordre 2.

Application au problme des taches solaires


Enfin, si nous appliquons
la procdure prcdente,
200
200
sans pr-traitement des
Prdiction un pas
Trajectoire mesure
donnes, la srie des
Trajectoire estime
Trajectoire estime
150
150
taches solaires (introduite
dans la section prc100
100
dente), avec une rgression
linaire fonde sur le
50
50
modle AR(9), on obtient,
sur un ensemble de test de
0
0
0
10
20
30
40
50
0
10
20
30
40
50
60
50 observations, les prdictions reprsentes dans
Figure 4-6. Prdiction des taches solaires par rgression linaire sur un modle AR(9)
(a) Prdiction un pas (b) Prdiction sur un horizon de 50 pas.
la figure 4-6. Aprs avoir
effectu la rgression sur
un ensemble dapprentissage de 150 observations, on a reprsent en (a) la diffrence entre la srie
observe au temps k et la prdiction de la srie au temps k au vu des 9 dernires observations ayant
prcd. On voit que la prdiction est relativement bonne. On a reprsent en (b) la diffrence entre la
srie observe et la srie estime daprs le modle sur lhorizon total partir des seules donnes ncessaires pour initialiser le modle. On observe, bien entendu, un amortissement des oscillations. Cet amortissement est normal puisque le modle identifi est stable et que lestimation est effectue en labsence
de nouvelles mesures aprs les mesures dinitialisation. On voit que le modle estim a assez bien captur
la priodicit du phnomne.
(a)

Prdiction un pas

(b)

Prdiction sur un horizon


de 50 pas de temps

Identification neuronale
CHAPITRE 4

237

Identification dun systme dynamique non linaire par rseaux


de neurones non boucls
Limites de la rgression linaire
Lidentification des systmes dynamiques commands par rgression linaire devient trs imprcise et
exige des modles beaucoup trop importants, comme le montre la figure 4-7.

3
2
1
0
1
2
3

Comparaison des positions

3
2
1
0
1
2
3

8 10 12
Time (sec)
Comparaison des vitesses

Systme cible
Rgression linaire

14

16

18

20

3
2
1
0
1
2
3

Systme cible
Rgression linaire

Comparaison des positions

10 12
Time (sec)

14

16

18

20

14

16

18

20

Comparaison des vitesses

2
0
2
0
2
(a)

8 10 12
Time (sec)

14

16

18

20

4
0

(b)

8 10 12
Time (sec)

Figure 4-7. Identification de loscillateur de Van der Pol par rgression linaire (prdiction mille pas)
(a) Initialisation sur le cycle limite (b) Initialisation loin du cycle limite.

Dans lexemple de loscillateur de Van der Pol dcrit dans la section prcdente (qui, rappelons-le, est un
oscillateur non linaire), aucun modle linaire doscillateur ne peut prsenter un quilibre instable et un
cycle limite stable. On voit que lalgorithme de rgression linaire a bien captur la frquence de loscillateur. Le comportement non linaire ne peut tre dcrit par un modle linaire.

Rseau retard (modle NARX)


Lexemple le plus simple didentification neuronale
dun systme dynamique command sinspire directement des algorithmes de rgression. Le modle quon
cherche identifier est un modle de rgression non
linaire auto-rgressive avec entre exogne (la
commande), en abrg NARX. Le modle stochastique NARX(p, r) scrit :
X(k + 1) = f [X(k), , X(k p + 1), V(k + 1), u(k), ,
u(k r + 1)]
lordre de rgression tant p sur ltat et r sur la commande.
Le schma de rseau le plus simple utilis pour lidentification du systme dynamique command par rgression non
linaire est reprsent sur la figure 4-8.

Sortie du processus
linstant k +1
x (k + 1)
Systme
dynamique
command

g (k + 1)
+

q -1

RN

u(k)
.....

.....

u (k) u (k r + 1) x (k) x (k 1) x (k p +1)


Entre
(Commande)

Figure 4-8. Apprentissage dun modle neuronal non


boucl pour identifier un modle, fond sur lhypothse
NARX, dun systme dynamique command (voir aussi
figure 2-31 du chapitre 2).

238

Lapprentissage statistique

La fonction RN est ralise par un rseau de neurones non boucl. Lentre du rseau est constitue des
signaux que lon cherche identifier (cest--dire les sorties du processus) du temps k au temps k p + 1
(o p est lordre du modle) et des commandes du temps k au temps k r + 1 (o r est lhorizon sur la
commande). Lestimation des paramtres est ralise partir de lerreur de modlisation, cest--dire la
diffrence entre la sortie du processus x(k + 1) et la prdiction effectue par le modle g(k + 1). Cest donc
exactement le schma destimation des paramtres que nous avons prsent dans le paragraphe sur la
modlisation dynamique avec hypothse bruit dtat et reprsentation entre-sortie, dans le chapitre 2.
Comme nous lavons dj indiqu, une base dapprentissage est forme de lentre qui est un vecteur du
type xk = [x(k) ;; x(k p + 1) ; u(k) ;; u(k r + 1)] et de la sortie qui est la variable gk = x(k + 1). Cette
base dapprentissage peut tre ralise de deux manires.
Si lon utilise un simulateur du procd que lon cherche commander, on constituera la base en faisant
fonctionner le simulateur sur un chantillonnage reprsentatif de lespace des entres (maillage rgulier),
ou sur une distribution privilgiant les points les plus courants, ou au contraire les points limites au voisinage desquels on veut scuriser la performance du rseau. Cette situation est frquente lorsquon cherche
raliser une modlisation semi-physique ou bote grise, comme nous lavons indiqu dans le chapitre 2.
Si, en revanche, la base est construite par utilisation en temps rel dun dispositif exprimental, on na
gnralement pas la possibilit de raliser un tel chantillonnage des entres : la base dapprentissage est
construite partir de lchantillonnage de trajectoires exprimentales des entres et des sorties du systme.
Il importe alors que la ou les trajectoires chantillonnes visitent avec une rgularit suffisante lespace des
entres du rseau (produit de lespace dtat par lespace des commandes). Dans le cas dun systme dynamique command, ce rsultat est gnralement obtenu en excitant le systme par des commandes alatoires. La question du choix dune telle trajectoire de commande est une question dlicate, qui dpend
fortement du systme quon cherche identifier. Dans le cas dun systme linaire, les excitations sont, par
exemple, harmoniques, et lon cherche identifier ainsi la fonction de transfert du processus. Dans le cas
du systme non linaire, on choisit ordinairement une trajectoire alatoire. Il peut tre cependant judicieux
de choisir pour trajectoires de commandes des bruits filtrs dans des plages de frquence variable. Le
chapitre 2 fournit quelques lments qui permettent de construire des plans dexprience.

3
2
1
0
1
2
3
0

3
2
1
0
1
2
3

Systme cible
Modle neuronal

Comparaison des positions

8 10 12
Time (sec)

14

16

18

Comparaison des vitesses

Systme cible
Modle neuronal

Comparaison des positions

3
2
1
0
1
2
20 3 0

8 10 12 14
Time (sec)

16

18

20

16

18

20

Comparaison des vitesses

6
4
2
0

0
2
(a)

8 10 12
Time (sec)

14

16

18

2
4
0
20
(b)

8 10 12
Time (sec)

14

Figure 4-9. Comparaison de loscillateur de Van der Pol command et de son identification par rgression non linaire :
(a) Trajectoire de commande nulle (b) Trajectoire de commande alatoire.

Identification neuronale
CHAPITRE 4

239

La figure 4-9 prsente un exemple didentification de loscillateur de Van der Pol, o lapprentissage a t
effectu sur une base de 153 = 3375 exemples, obtenus par lchantillonnage de la trajectoire de loscillateur excit par une commande alatoire. Cette base a dj t utilise pour la rgression linaire dont les
rsultats sont reprsents sur la figure 4-7. Les rsultats sont ici bien meilleurs.
Ces rsultats sont obtenus avec une architecture trois entres, dix neurones cachs et deux neurones de
sortie. Si lon effectue lapprentissage avec une base dapprentissage de mme dimension, obtenue par un
maillage rgulier de lespace dtats et de lensemble des commandes admissibles, lapprentissage ne
peut se faire convenablement dans les mmes conditions (sans pr-traitement particulier de la base
dentre). Limportance du choix de la base dapprentissage est ainsi illustre. Comme nous lavons dj
indiqu dans le chapitre 2, il est important de constituer la base dapprentissage par un chantillonnage
reprsentatif de la densit avec laquelle le systme visite lespace dtats et lespace des commandes. Ce
point sera prcis dans la section suivante sur lapprentissage en ligne. On retiendra en particulier limportance, pour lapprentissage, dune commande alatoire permettant une visite effective de ce domaine
(politique dexploration), notamment dans le cas o le systme dynamique possde un attracteur stable
(oscillateur de Van der Pol). On reviendra, dans le chapitre suivant, sur limportance de la politique
dexploration dans le cadre de la programmation neuro-dynamique.
Le choix de lordre du systme est important puisquil conditionne le nombre de paramtres de configuration du rseau identifier. Cest un paramtre plus sensible que dans le cas linaire. Le choix de lordre
des modles est une question en thorie mal rsolue en rgression non linaire. Pratiquement, on combine
une approche empirique et ladaptation de critres dinformation mis au point pour les modles linaires
[GOURIEROUX 1995], ou bien lon utilise une approche par test dhypothses [URBANI 1993]. Comme
nous lavons vu dans le chapitre 2, lidentification non adaptative par rseau de neurones partir dune
base dapprentissage reprsentative de tout le domaine des entres ne pose pas de problme particulier au
concepteur de modle neuronal, sous rserve de lutilisation dune mthodologie srieuse et dalgorithmes dapprentissage efficaces.
Ces problmes se posent toujours dans le cas de lidentification adaptative, o lon veut traiter les
donnes obtenues par lobservation du systme dynamique en flux, cest--dire au fur et mesure de leur
production. En revanche, le caractre adaptatif de lalgorithme les situe dans un cadre nouveau que nous
allons aborder dans la section suivante.

Identification adaptative (en ligne) et mthode de lerreur


de prdiction rcursive
Estimateur rcursif de la moyenne empirique
Considrons dabord le problme lmentaire de calcul de moyenne, qui peut se formuler comme un
problme de rgression linaire dordre 0 : xk = a + vk
o (vk) est un bruit blanc numrique, et o le paramtre a appartient R. On cherche dterminer a. Il
sagit donc en fait de dterminer la moyenne inconnue dune suite de variables alatoires indpendantes
et de mme loi.
1 N
2
La minimisation par rapport a de la fonction de cot JN(a) =
( x k a) a pour solution la moyenne
2N

empirique a N =

xk
k =1

k =1

240

Lapprentissage statistique

Cet estimateur possde toutes les proprits gnrales des estimateurs de rgression linaire nonces
prcdemment : consistant, sans biais, et de variance minimale parmi les estimateurs sans biais. Sa
consistance, cest--dire sa convergence vers a, est appele la loi des grands nombres, exprimant intuitivement que la moyenne arithmtique dune suite de rsultats dexpriences alatoires, indpendantes,
permet dapprocher lesprance mathmatique de la variable alatoire modlisant le rsultat de lexprience.
Une simple rcriture de la formule de dfinition prcdente nous permet dobtenir une formulation
rcursive :
N

( N + 1)a N +1 = x k + x N +1 = Na N + x N +1

do
a N +1 = a N +

k =1

1
( x k +1 a N ) .
N +1

Lintrt de cette formulation rcursive est quelle permet


une estimation adaptative. Une seule observation est
ncessaire pour initialiser lestimation. Par la suite, la mise
jour de lestimation ne demande pas la disposition de
lensemble des mesures : il suffit de disposer de lestimation prcdente et de la mesure au temps courant. Le coefficient + 1=1/(N + 1) sappelle le gain de lalgorithme ou
le taux dapprentissage.
Un autre avantage de lestimateur rcursif de moyenne
empirique est quil permet de poursuivre les variations
lentes du paramtre quon estime dans le cas dun modle
non stationnaire. Pour que lestimateur soit adaptatif, il
faut remplacer le gain en 1/N lentement dcroissant vers 0
de la formule prcdente par un petit gain constant. Dans
ce cas, lestimateur est identique un filtre (ici un filtre du
premier ordre). Pour comparer les filtres du premier ordre
et les estimateurs rcursifs de la moyenne, on a reprsent,
figure 4-10, le comportement dun tel estimateur pour
poursuivre des variations quasi priodiques de la moyenne
du signal avec un rapport signal/bruit de 1/5. Le signal
trait est reprsent dans le graphique (a). Dans le
graphique (b), on compare le rsultat pour diffrentes
valeurs du gain : on remarque que, gain bas, le bruit est
plus attnu, mais la capacit de poursuite du filtre plus
basse. Dans le graphique (c), on compare les performances destimateurs rcursifs dont les exposants de
dcroissance des gains sont respectivement 1 (moyenne
empirique) et 0,55. On remarque que les capacits de
poursuite de lestimateur moyenne empirique ne sont pas
suffisantes dans cet exemple.
Figure 4-10. Comportement de lestimateur de moyenne empirique :
(a) Signal utilis, (b) Estimation du paramtre par filtrage IIR gain
constant, (c) Estimation du paramtre par filtrage gain dcroissant.

Signal

(a) 20
15
10
5
0
5
10
15
20
(b)

10

15

Estimation du paramtre : gain constant


8
Paramtre source
Estimation (gain = 0.007)
Estimation (gain = 0.025)

6
4
2
0
2
4
(c)

10

15

Estimation du paramtre : gain dcroissant


12
Paramtre source
Estimation (exposant = 1)
Estimation (exposant = 0.55)

10
8
6
4
2
0
2
4

10

15

Identification neuronale
CHAPITRE 4

241

On peut remarquer que lestimateur de la moyenne empirique est un estimateur fond sur la minimisation
du critre quadratique par une descente de gradient. En effet, dans le cas du modle stationnaire, les
donnes sont un chantillon de la loi de probabilit de la variable alatoire X. On cherche minimiser la
1
2

fonction de cot thorique J(a) = E ( X a) 2 ; notons quil nest pas possible de calculer cette fonction,
puisquelle fait intervenir lesprance mathmatique dune variable alatoire dont la loi de probabilit est
inconnue de lutilisateur. Le gradient de J (ici sa drive) est : J(a) = E(X-a). Un algorithme de descente
de gradient est
ak+1 = ak +1J(ak)
o k + 1 est une quantit positive.
Pour obtenir lestimateur moyenne empirique rcursive, on remplace dans lalgorithme J(ak) par
(Xk+1-ak) :
ak+1= ak +1(Xk+1 ak).
On reconnat ici lalgorithme de gradient stochastique, que nous avons mentionn dans le chapitre 2. On
peut remarquer que la grandeur alatoire (Xk+1 ak) a J(ak) pour esprance. Cest pour cette raison que
cet algorithme est dit de gradient stochastique : le vrai gradient de la fonction de cot des moindres carrs
a t remplac par un terme alatoire qui a pour moyenne ce gradient. Tandis que le gradient total J(ak)
dpend de la loi de X que lon ne connat pas, et quil faudrait pralablement estimer, le gradient stochastique est, lui, connu chaque moment.
Ainsi, lalgorithme rcursif aborde directement loptimisation sans passer par ltape didentification du
modle : il effectue en mme temps les tapes destimation et doptimisation. En revanche, lalgorithme
destimation traditionnel commence par une phase destimation o le critre minimiser

J(a)= 1 E ( X a) 2
2

JN(a) =

est dabord estim par la fonction de cot empirique des moindres carrs

1 N
2
( x k a) avant deffectuer loptimisation sur le critre estim. Il se trouve que les deux
2 N k =1

dmarches aboutissent au mme rsultat dans cet exemple, car le modle est linaire par rapport au paramtre estimer a. La programmation des deux algorithmes est pourtant diffrente : lalgorithme de
gradient stochastique est rcursif.

Estimateur rcursif de la rgression linaire


Les principes de base du gradient stochastique, que nous avons vus luvre dans le cas de lestimateur
de la moyenne empirique, se gnralisent la rgression linaire et non linaire. En ce qui concerne la
rgression linaire, on retrouve lalgorithme dit LMS (Least Mean Squares, galement appel algorithme de Widrow-Hoff) bien connu en thorie du signal pour calculer de faon adaptative une rgression
linaire, et que nous avons introduit dans le chapitre 2.

Considrons le problme de rgression consistant minimiser J(w) = 1 E (Y Xa b) 2 o X est un


2
vecteur alatoire (1, n) du second ordre (cest--dire possdant une esprance et une matrice de covariance), o le vecteur w est la concatnation du vecteur (n,1) des paramtres a et du scalaire b, et o Y est
une variable alatoire relle du second ordre.
On a : J(a, b) = E[(Y Xa b)X,(Y Xa b)] .

242

Lapprentissage statistique

On dispose, pour rsoudre le problme, dchantillons (X1, Y1), , (Xk, Yk) fournis en ligne (cest-dire pendant lestimation des paramtres), indpendants de la loi du vecteur alatoire des entres-sorties.
On peut alors mettre en uvre un algorithme de gradient stochastique pour estimer ces paramtres.
Lestimateur rcursif du gradient stochastique est donc dfini par lalgorithme
a k +1 = a k + k +1 (Yk +1 X k +1a k bk )X k +1 .

bk +1 = bk + k +1 (Yk +1 X k +1a k bk )
On a le rsultat de convergence suivant :
Sous les conditions suivantes sur le gain de lalgorithme

k =1

k =1

k = , k 2 < ,

lalgorithme converge

(avec quasi-certitude) vers les coefficients de la rgression linaire de Y en X.


Les conditions sur le gain, nonces ci-dessus, sont gnrales ; nous les appellerons dans la suite
conditions de lapproximation stochastique relatives au gain .

Identification rcursive dun modle AR


Considrons le problme de lidentification du modle AR(p)
X(k + 1) = a1X(k) + + apX(k p + 1) + V(k + 1).
Nous supposons que les donnes sont recueillies en rgime stationnaire et nous cherchons un estimateur
rcursif du paramtre q = (a1 ; ; ap) qui minimise le critre des moindres carrs
J(w) = 1 [(X(k + 1) a1X(k) apX(k p + 1))2].

2
Le gradient de la fonction de cot est :
J(w) = {[X(k + 1) a X(k) a X(k p + 1)].[ X(k ; ; X(k p + 1)]}.
1
p
Lestimateur rcursif du gradient stochastique est donc dfini par lalgorithme
(k) + k+1(k + 1) [X(k) ;; X(k p + 1)]
w (k+1)= w
avec (k + 1) = X(k + 1) a1X(k) apX(k p + 1).
On retrouve la rgle delta ou rgle de Widrow. Sous les conditions de lapproximation stochastique relatives au gain, lestimateur est consistant.
Cette fois-ci, les entres-sorties ne sont plus indpendantes entre elles comme dans la loi des grands
nombres ou la rgression classique mais elles sont produites par le modle linaire markovien suivant :
X(k + 1) = A[w] X(k) + V(k + 1)
o A[w] dpend linairement de w et o (Vk) est un bruit blanc vectoriel en posant
a1
1

X(k) = [X(k) ;; X(k-p+1)] et A[w] = 0


.

a2
0
1
.
0

.
.
.
.
.

. ak
. 0

. 0 .
. 0

1 0

La thorie de lapproximation stochastique sapplique aussi dans ce cadre markovien plus gnral, et
fournit le rsultat dsir sur la convergence presque sre de lestimateur rcursif.

Identification neuronale
CHAPITRE 4

243

Les algorithmes doptimisation du second ordre (rgle de Newton) ont aussi des versions rcursives qui
fournissent des estimateurs consistants. Leur convergence se dmontre dans le cadre de lapproximation
stochastique. Ils sont particulirement employs dans les modles linaires o ils acclrent la convergence. Rappelons (chapitre 2) que la formule de Newton peut scrire
1

= w * HJ [ w * ] J [ w * ]
w
o HJ[w*] est la matrice hessienne de la fonction de cot, matrice symtrique forme par les drives
partielles secondes, relativement aux composantes de la variable vectorielle. Cette relation suggre la
relation rcursive suivante :
(k + 1) = w
(k) H[ w
(k)]1 [ w
(k)]. Dans le cas dune fonction strictement convexe et notamw
ment dun critre quadratique, cette matrice est dfinie positive et donc inversible. Dans lexemple du
modle AR(p), il sagit de la matrice de variance-covariance du vecteur alatoire stationnaire Xk. Lalgorithme rcursif du second ordre enchane donc optimisation du second ordre du critre J et estimation
(k)- de la matrice de variance-covariance :
rcursive R
(k)-1X(k) R
(k + 1) = R
(k) + k+1X(k + 1)X(k + 1)t.
(k + 1) = w (k) + k+1(k + 1) R
w
Cette mthode appele mthode de lerreur de prdiction rcursive est amplement dveloppe dans
[LJUNG 1983], qui insiste sur les applications lidentification de la mthode dapproximation stochastique. Elle se gnralise au cas non linaire, et peut ainsi sappliquer lapprentissage adaptatif des
rseaux de neurones quand les donnes ncessaires lapprentissage sont fournies en ligne par un
processus ou une simulation.

Mthode gnrale de lerreur de prdiction rcursive


La mthode gnrale de lerreur de prdiction rcursive est une application algorithmique, pour lestimation des paramtres dun modle, dune thorie probabiliste appele approximation stochastique .
Cette thorie a t dveloppe depuis 1950 notamment par Robins et Monroe, Kushner et Clarke
[KUSHNER 1978]. Elle a t rapidement utilise dans lapprentissage adaptatif de rseaux de neurones.
Elle prsente lavantage dtre rcursive, et donc de ne pas ncessiter le stockage dune base dapprentissage de grande taille. Cet avantage est cependant compens par sa lenteur de convergence. Les hypothses
dapplication de la mthode dans le cadre non linaire sont complexes. Pour des noncs mathmatiques
plus prcis, on renvoie [LJUNG 1983], [BENVENISTE 1987], [DUFLO 1996]. On se place dans le cadre de
lidentification du modle NARX(p, r) prcdent X(k + 1) = f [X(k), , X(k p + 1), V(k + 1), u(k),,
u(k r + 1)]. Il sagit dun modle markovien quand on le met sous sa forme dtat X(k + 1) = f [X(k),
V(k + 1), u(k)]. On suppose que ce modle est stable et quil converge vers un rgime stationnaire. La
fonction f est bien sr inconnue, et le bruit dtat {V(k)} nest pas accessible. En revanche, on suppose que
ltat X(k) peut tre connu avec prcision au temps k. On cherche identifier ce modle en ligne par le
schma de prdiction non linaire paramtrique : X(k + 1) = g [X(k), u(k),
]en minimisant lerreur
quadratique de prdiction. On dfinit lerreur de prdiction, pour un couple entre-sortie (x, u, y) et pour
une valeur
du vecteur des paramtres, par : J(y, x, u, ) = y g(x, u,
).

Minimiser lerreur quadratique de prdiction signifie quon veut dterminer la valeur du paramtre
minimise lerreur quadratique moyenne de prdiction

w) =

J(

1
E f ( x, V , u) g( x, u, w)
2

w qui

o lesprance est prise pour la loi de probabilit du bruit dtat, puis est moyenne pour le rgime stationnaire du couple (tat-commande).

244

Lapprentissage statistique

Pour appliquer la mthode du gradient stochastique, on calcule le gradient, par rapport , de la fonction
1 ( x, y, w) 2 . Ce gradient est donc : g (y, x, u, ) J(y, x, u, ).
(
w
2
On le notera dans la suite G(y, x, u, ). Nous noterons de mme G(k+1) = G[X(k+1), X(k), u(k), (k)].

On considre les algorithmes suivants.

Algorithme du gradient stochastique :

w(k + 1) = w(k) k+1 G(k + 1) = w(k) + k+1 wg [X(k + 1), X(k ), u(k ), w(k)]J(k + 1)
Algorithme de Gauss-Newton stochastique :

R(k+1) = R(k) + k+1 g [X( k + 1), X( k ), u( k ), w( k )] g [X( k + 1), X( k ), u( k ), w( k )]T


w

w(k + 1) = w(k)-k+1 R(k + 1)-1G(k + 1)

Sous les conditions habituelles de lapproximation stochastique relatives au gain, et si lalgorithme reste born,
ces algorithmes convergent vers une valeur du paramtre qui est un minimum local du critre quadratique.
Lhypothse pour lalgorithme de rester born est impossible assurer a priori dans les cas pratiques.
Aussi, dans [LJUNG 1983], en suivant les thories antrieures de lapproximation stochastique, on impose
de plus lalgorithme une projection non linaire assurant quil reste dans un domaine born. Cette
projection respecte la proprit de convergence.
Comme nous lavons vu en dtail dans le chapitre 2, linversion de la matrice hessienne, ncessaire dans
lalgorithme de Gauss-Newton, peut tre approche par dautres algorithmes classiques du second ordre
(quasi-Newton, Gradient conjugu, Levenberg-Marquardt). Un bon expos empirique de la mthode de
lerreur de prdiction pour lapprentissage des rseaux de neurones pour lidentification est donn dans
[NORGAARD 2000].
Si le gain est constant et petit, les capacits de poursuite de lalgorithme sont analogues celles dune
technique particulire de commande appele rgime glissant [BENVENISTE 1987].

Application lidentification neuronale dun systme dynamique


command
La figure 4-11 prsente lapplication de lalgorithme de lerreur de
prdiction rcursive, qui vient
dtre expos dans le paragraphe
prcdent, lidentification en
ligne.
Ngligeons pour le moment le bruit
de mesure. Le systme dynamique
est symbolis dans la figure 4-11
par :
le bloc dvolution dont lentre
est ltat au temps courant et la
commande, et dont la sortie est
ltat au temps suivant et,
le bouclage de loprateur retard
qui entretient la dynamique.

q -1
Bruit dtat
x(k)
Entre
(Commande)

Bruit de mesure

Sortie
(Mesure)

volution
x(k+1)

u(k)

y(k+1)

Apprentissage
x(k)

Rseau de
neurones non
boucl

u(k)

Figure 4-11. Identification dun modle neuronal interne dun systme


dynamique command (apprentissage forc).

Identification neuronale
CHAPITRE 4

245

Ltat et la commande au temps courant sont envoys en entre au rseau de neurones dans sa configuration courante.
Notons que ltat est suppos tre entirement mesur. Dans le cas dun modle auto-rgressif, le signal
courant et la commande courante sont utiliss pour reconstruire ltat courant par des lignes retard reprsentes dans la figure 4-8. Le rseau calcule sa prdiction de ltat au temps suivant qui est compar
ltat du processus. Lerreur de prdiction calcule par cette comparaison est renvoye au rseau pour
rtropropagation, calcul du gradient et mise en uvre de lalgorithme. Cet apprentissage est dirig (il est
appel en thorie de la commande teacher forcing ) car ltat compltement connu peut tre impos
comme sortie dsire au rseau aprs chaque pas de calcul. Rappelons que cet algorithme a t prsent
dans le cadre de lapprentissage des systmes dynamiques non linaires, au chapitre 2.

Problmes poss par la mesure


Si lon doit prendre en considration un bruit de mesure, comme on la vu dans le cas linaire, lidentification par rgression en utilisant un rseau non rcurrent (en boucle ouverte) et un algorithme dapprentissage forc donne de mauvais rsultats. Une dmonstration exprimentale trs claire en a t prsente
au chapitre 2, dans le paragraphe consacr aux systmes dynamiques.
Quand ltat du systme ne peut tre considr comme compltement connu, on doit se poser le problme
de la reconstruction de cet tat. Ce nest pas un problme statistique ordinaire puisqu un instant donn,
on ne dispose que dune observation de ltat. Pour incorporer dans la connaissance quon a de ltat
prsent les mesures opres sur ltat pass du systme, on utilise des algorithmes de filtrage que nous
exposons dans la section suivante.

Filtrage par innovation dans un modle dtat


Lestimation de ltat dun systme dynamique command partir dune suite de mesures, quand les
modles dvolution et de mesure sont supposs connus, sappelle le filtrage. Prdire ltat dans le cas o
ces modles ne sont pas connus constitue un problme diffrent du prcdent, et plus difficile rsoudre.
Dans ce dernier cas, il sagit dun problme didentification, qui peut se rsoudre en particulier par des
techniques dapprentissage neuronal.
Nous exposons dans cette section la problmatique du filtrage et la technique de filtrage optimal, ou
filtrage de Kalman, pour les raisons suivantes :
on introduira cette occasion des concepts fondamentaux : quation de mesure, bruit dtat, bruit de
mesure, innovation ;
la technique du filtrage de Kalman tendu est la technique la plus employe actuellement dans les
problmes simples didentification paramtrique ;
le filtrage de Kalman fournit une technique efficace dapprentissage des rseaux neuronaux.

Introduction dune quation de mesure et problme du filtrage


Observation des systmes dynamiques linaires
On rappelle la forme de lquation dtat dun systme dynamique command, vue plus haut en section
Identification de systmes dynamiques commands par rgression sous sa forme dterministe :
x(k + 1) = f[x(k), u(k)].

246

Lapprentissage statistique

On suppose le systme stationnaire pour simplifier les notations. Dans le cas linaire, cette quation prend
la forme particulire :
x(k + 1) = Ax(k) + Bu(k).
On suppose maintenant que ltat nest plus compltement observ. On introduit alors une quation de
mesure (ou quation de sortie, ou quation dobservation) de la forme :
y(k) = h[x(k)]
ou, pour le modle linaire stationnaire :
y(k) = H x(k).
Pour identifier la trajectoire dtat partir des mesures, il faut donc trouver ltat initial x(0) dont la
connaissance dterminera toute la trajectoire dtats. partir des quations :
k 1

y(k) = HAk-1-j Bu(j) + HAkx(0)


j =0

o la squence des commandes u(k) est connue, on obtient le systme linaire dinconnue x(0) suivant
quand k varie de 0 n o n est la dimension de lespace dtat :
HAkx(0) = y(k)

k 1

HAk-1-j Bu(j).

j =0

Ce systme linaire dtermine sans ambigut ltat initial x(0) pourvu que le rang de la matrice concatne [H ; ; HAn] soit n . On dit dans ce cas que le couple (H, A) est compltement observable.
Cette notion peut stendre au cas des systmes dynamiques mesurs non linaires ([SONTAG 1990],
[SLOTINE 1991]) en introduisant des concepts de gomtrie diffrentielle (crochets de Lie) qui dpassent
le cadre de cet ouvrage.

Filtrage du bruit dtat et reconstruction de la trajectoire


En prsence dincertitude sur lvolution, cette dernire est modlise par un vecteur alatoire v(k)
valeurs dans lespace dtat que lon appelle bruit dtat. Le modle dtat a donc la forme
x(k + 1) = f[x(k), u(k), v(k + 1)].
Dans le cas linaire, cette quation prend la forme particulire :
x(k + 1) = Ax(k) + Bu(k) + v(k + 1).
On a vu dans la section Identification de systmes dynamiques commands par rgression que, dans
ce cas, le modle de lvolution de ltat du systme est un processus stochastique particulier : une chane
de Markov. On suppose maintenant que ltat nest plus parfaitement observ. On introduit alors une
quation de mesure de la forme :
y(k) = h[x(k)]
ou, pour le modle linaire stationnaire :
y(k) = H x(k).
Dans la suite de cette section, nous supposerons que le systme est linaire, jusquau moment o on envisagera explicitement lextension au cas non linaire.
Pour identifier la trajectoire dtat, il faudrait rsoudre de proche en proche lquation linaire en v(k+1)
(ce qui nest pas possible de faon exacte)
Hv(k + 1) = y(k + 1) HAx(k) HBu(k).

Identification neuronale
CHAPITRE 4

247

Le second membre de cette quation


j (k + 1) = y(k + 1) HAx(k) HBu(k )
sappelle linnovation au temps k. Cest une erreur de prdiction de lobservation y(k + 1) qui nous
apporte une information nouvelle pour estimer a posteriori ltat x(k + 1).
Si le systme est compltement observable, on montre quon peut choisir une suite de gains matriciels
(Kk), appels gains dinnovation , telle que lestimation de ltat donne par la formule rcursive
suivante :
x (k + 1) = A x (k) + Bu(k) + Kk+1j(k + 1)
converge. Ce modle sappelle lobservateur dtat de Luenberger.
Le choix des gains dinnovation Kk+1 est soumis la contrainte de stabilit pour viter la divergence du
filtre. Par exemple, dans le cas o nous souhaitons prendre un gain dinnovation constant K pour obtenir un
filtre stationnaire, toutes les valeurs propres de la matrice A KHA doivent tre de module infrieur 1.

Approche variationnelle du filtrage optimal


La dtermination complte du gain dinnovation pourrait se faire en fixant un critre doptimalit qui
serait la somme quadratique des incertitudes du modle, cest--dire, pour chaque temps k, la grandeur
2

positive v k . Cependant, dans beaucoup de situations, il nest pas raliste de considrer que le processus
de mesure est lui-mme exempt derreurs. On choisit donc, chaque temps k + 1, de minimiser, par
rapport la variable vectorielle v(k + 1), la fonction de cot
j(vk + 1) =

vk + 1 2

+ yk + 1 HAx(k) HBu(k) Hv(k + 1)

Ce critre des moindres carrs ralise un quilibre ajustable entre lincertitude sur le modle, pondre par
le paramtre de pnalisation , et lincertitude sur la mesure, pondre par le paramtre de pnalisation .
On peut alors calculer chaque tape le gain dinnovation en rsolvant le problme doptimisation
quadratique, ce qui donne immdiatement, en annulant le gradient de la fonction de cot :
0 = 2 (I + HTH) vk+1 2HT[ y(k) HAx(k 1) HBu(k-1)].
On dtermine ainsi le gain dinnovation optimal :
Kk+1 = (I + HTH)-1 HT = HT(I + HTH)-1.
Notons que nous aurions pu faire dpendre les pnalisations et du temps k, ou choisir des pnalisations
matricielles. Mais le problme reste davoir une interprtation de ces pnalisations qui nous aide les
choisir dans les problmes pratiques. Par ailleurs, il faut sassurer que le choix du gain laisse stable le
processus destimation rcursive. Ces questions sont rsolues par linterprtation probabiliste de la
thorie du filtrage de Kalman, qui fait lobjet de la suite de cette section.

Filtrage de Kalman
Dfinition du filtre de Kalman dun systme linaire stationnaire
Les algorithmes partir desquels on peut identifier ltat partir des mesures sont appels des filtres.
Cette terminologie est justifie par lide que ces algorithmes permettent la restitution de ltat en liminant les incertitudes et les bruits qui perturbent linformation que nous avons sur cet tat. Les filtres du
type prcdent sont fonds sur des schmas du type prdicteur-correcteur, utilisant linformation dinno-

248

Lapprentissage statistique

vation pour corriger la prdiction de ltat sur la base de lestimation antrieure. Ce fonctionnement est
illustr par la figure 4-12. On les appelle, pour cette raison, des filtres dinnovation.
Le principe du filtrage de Kalman
[ANDERSON 1979], [HAYKIN 1996],
consiste se placer dans une modlisation probabiliste des incertitudes de
modlisation et des bruits de mesure
pour calculer le gain dinnovation. La
reconstruction de ltat au vu des
mesures est alors un problme destimation baysienne : on dtermine la loi de
probabilit de ltat a posteriori au vu des
mesures disponibles, et lon choisit
lestimateur des moindres carrs ou celui
du maximum de vraisemblance (estimateur MAP). Il peut cependant tre trs
difficile rsoudre pratiquement dans le
cas gnral. Dans le cas du modle
linaire gaussien, il fournit simplement
un algorithme de filtrage rcursif qui
concide avec celui du filtrage optimal du
paragraphe prcdent. Cela provient de
la proprit fondamentale suivante, bien
connue en calcul des probabilits.

q -1

volution
Mesure

Contrleur

quation
dvolution
(prdicteur)

Innovation

Mesure
(Prdicteur)

Gain
dinnovation

+
q -1

Figure 4-12. Schma dun filtre dinnovation. Le filtre dinnovation


est du type prdicteur-correcteur : la correction est apporte au filtre
par linformation de mesure en provenance du dispositif rel. Le filtre
est rcursif et lestimation est rinjecte dans le filtre, ce qui pose le
problme de la stabilit du filtre.

Proprit fondamentale

La loi conditionnelle dun vecteur gaussien par une statistique linaire est gaussienne. Donc, lestimateur MAP concide avec lestimateur des moindres carrs et avec la rgression linaire.
Plaons-nous dabord dans ce cadre avec le modle dtat stochastique markovien :
X(k + 1) = AX(k) + Bu(k) + V(k + 1)
et lquation de mesure :
Y(k) = HX(k) + W(k).
On note maintenant les grandeurs vectorielles dtat et de mesure en majuscules car ce sont des variables
alatoires dans ce modle. La suite de vecteurs alatoires [V(k)] est un bruit blanc vectoriel gaussien
temps discret, cest--dire une suite de vecteurs alatoires indpendants gaussiens centrs de matrice de
variance-covariance Q qui modlise le bruit dtat (cest--dire lincertitude sur le modle). La suite de
vecteurs alatoires [W(k)] est aussi un bruit blanc vectoriel gaussien temps discret de variance-covariance R, et modlise le bruit de mesure. Les bruits dtat et de mesure sont indpendants.
Le problme du filtrage est de reconstruire ltat au vu des mesures prsentes ou antrieures linstant k + 1,
soit le vecteur y(k+1) = [y(1), , y(k+1)]. Le critre est la minimisation de lcart quadratique moyen
entre lestimateur X (k + 1) et ltat X(k + 1).
Cest un problme destimation classique dans un modle linaire gaussien. On a vu que, dans ce modle,
la solution optimale X (k + 1) est la rgression linaire de ltat alatoire X(k + 1) sur le vecteur alatoire
Y(k + 1) = [Y(1) ; ; Y(k + 1)] qui reprsente lensemble des mesures disponibles.

Identification neuronale
CHAPITRE 4

249

Pour obtenir cette rgression linaire, nous allons dcomposer le vecteur Y(k + 1) des mesures disponibles au temps k + 1 en la somme de deux vecteurs alatoires dcorrls : le vecteur Y(k) des mesures
disponibles au temps k et le rsidu de la rgression de Y(k + 1) sur ce vecteur. La rgression linaire cherche est alors la somme des deux rgressions linaires sur les deux termes de cette somme (thorme de
la projection orthogonale). Calculons donc la rgression de la dernire mesure Y(k + 1) sur le vecteur Y(k)
des mesures prcdentes.
On a :
Y(k + 1) = HX(k + 1) + W(k + 1) = HAX(k) + HBu(k) + HV(k + 1) + W(k + 1).
Comme HAX(k) est le seul terme de la somme qui dpende du pass, la rgression cherche est HA X (k)
+ HBu(k) o lestimateur optimal X (k) est, par dfinition, la rgression linaire de ltat alatoire X(k)
sur le vecteur alatoire des mesures accumules jusqu linstant k : Y(k) =[Y(1) ; Y(k)].
Le rsidu de la rgression de Y(k + 1) sur Y(k) est donc :
Y(k + 1) HA X (k) HBu(k) = HA[X(k) X (k)] + HV(k + 1) + W(k + 1).
On retrouve prcisment lexpression de linnovation apparue au paragraphe prcdent dans la formulation dterministe et variationnelle de la reconstruction de ltat en fonction des mesures. On notera dsormais linnovation au temps k+1 par
J(k + 1) = Y(k+1) HA X (k) HBu(k)
linnovation au temps k + 1 est une variable alatoire indpendante de Y(k).
Lestimateur de ltat au temps k+1 peut donc se dcomposer en la somme de deux termes :
un terme de prdiction qui dpend des mesures disponibles linstant k
A X (k) + Bu(k) ;
un terme de correction qui est le terme (k + 1) dpendant linairement de linnovation au temps k + 1,
que lon peut donc crire
Kk+1(k + 1) = Kk+1 [Y(k + 1) HAX(k) HBu(k)]
o Kk+1 est appel le gain de Kalman du filtre au temps k + 1.La dfinition du filtre est donc rcursive et
scrit
X (k + 1) = A X (k) + Bu(k) + Kk+1(k + 1).
On retrouve la forme prcdente du filtrage optimal par innovation. Le gain de Kalman est le coefficient
matriciel de la rgression linaire de ltat X(k + 1) au temps k + 1 sur linnovation. Ce coefficient est
connu (la rgression linaire est rappele au chapitre 2) et sobtient partir des matrices de covariance et
de variance :
Kk+1 = Cov[X(k + 1), J(k + 1)] Var[J (k + 1)]-1.
Pour calculer le gain de Kalman, il est donc ncessaire de calculer la dynamique des erreurs. Ce calcul est
effectu en complment. On en expose ci-aprs les rsultats :
Si on note Pk la matrice de variance-covariance de lerreur destimation X(k) X (k) et Pk+1 la matrice de
variance-covariance de lerreur de prdiction X(k+1) A X (k) Bu(k), le gain de Kalman est donn par
la formule suivante
Kk+1 = Pk+1HT[HPk+1HT + R]-1
o la dynamique des matrices Pk et Pk+1 est dfinie par les quations suivantes, appeles quations de
propagation de la covariance :
Pk+1 = A Pk AT + Q
Pk+1 = (I - Kk+1H) (APkAT + Q) (I Kk+1H)T + Kk+1RKk+1T.

250

Lapprentissage statistique

Ainsi lvolution des matrices de variance-covariance de lerreur est-elle fixe une fois pour toutes par le
modle et lerreur initiale. Ces matrices peuvent tre prcalcules avant le droulement du processus,
ainsi que la suite des gains de Kalman. Cette proprit est fort intressante dans la pratique et elle est
utilise dans les applications embarques du filtrage de Kalman.

Proprits du filtre de Kalman


Les consquences des calculs du paragraphe prcdent sont fort importantes et certaines dentre elles
peuvent tre tendues des modles plus gnraux. Nous citerons les principales proprits du filtre de
Kalman :
En comparant les deux formules qui dterminent le gain dinnovation dans la formulation variationnelle
et dans le calcul de la rgression, nous constatons que le filtrage de Kalman est un filtrage optimal au
sens du principe variationnel prcdent. Les pnalisations sont variables avec le temps, matricielles, et
peuvent tre prcalcules. Ce sont les variances respectives des erreurs de mesure pour pnaliser lincertitude du modle et des erreurs de prdiction pour pnaliser lerreur de mesure.
On montre que le filtrage de Kalman est un algorithme inconditionnellement stable destimation de
ltat. La dynamique de lerreur converge vers un rgime stationnaire optimal mme quand le systme
dynamique lui-mme est instable (pour une dmonstration, voir [ANDERSON 1977] ou [HAYKIN 1996]).
Rsultant de rgressions linaires successives, la suite des innovations est dcorrle et indpendante
dans le modle gaussien. Le blanchiment de linnovation est une caractristique de loptimalit du filtre
qui peut tre observe et teste.

Filtrage de Kalman dun systme linaire non stationnaire


Le filtrage de Kalman sapplique au cas des systmes linaires non stationnaires avec les modles suivants
pour lvolution de ltat :
X(k + 1) = A(k)X(k) + B(k)u(k) + V(k + 1)
et pour la mesure :
Y(k) = H(k)X(k) + W(k)
o les bruits dtat V(k) et de mesure W(k) ont des matrices de variance-covariance qui peuvent varier avec
le temps, notes respectivement Q(k) et R(k).Lquation du filtre est :
X (k + 1) = A(k) X (k) + B(k)u(k) + Kk+1J(k + 1)
avec J(k + 1) = Y(k + 1) H(k + 1)A(k) X (k) H(k + 1)B(k)u(k).
Une itration de lalgorithme de mise jour des covariances et du gain de Kalman scrit ici :
Pk+1 = A(k) Pk A(k)T + Q(k+1)
Kk+1 = Pk+1H(k + 1)T[H(k + 1)Pk+1H(k + 1)T + R(k + 1)]-1
Pk+1 = [I Kk+1H(k + 1)][A(k)PkA(k)T + Q(k + 1)][I Kk+1H(k + 1)]T + Kk+1R(k + 1)Kk+1T.
La suite des innovations est toujours dcorrle. En revanche, il nexiste videmment pas de rgime
stationnaire, et la stabilit de lalgorithme nest plus ncessairement assure.
Nous avons donn ici le principe de lalgorithme. Dans la pratique, notamment dans le cas o la dimension du vecteur dtat est grande, des difficults peuvent surgir, dues la complexit du calcul et aux
phnomnes de propagation des erreurs dans le calcul de la covariance (inversion de matrice, contrainte
de positivit sur les matrices de variance-covariance). Ces problmes techniques calculatoires peuvent se
produire dans lapplication aux rseaux de neurones. On pourra se reporter pour plus de dtails
[ANDERSON 1977] ou [HAYKIN 1996]).

Identification neuronale
CHAPITRE 4

251

Extension du filtre de Kalman


Cas des systmes non linaires
Le filtrage des systmes dynamiques non linaires est un sujet difficile et qui fait lobjet de recherches
actives. Les rseaux neuronaux sont un moyen parmi dautres de rpondre certains problmes poss.
Pour une introduction au filtrage non linaire, rigoureuse et adapte aux problmes de lingnieur, nous
renvoyons par exemple au manuel dj ancien et antrieur au dveloppement du filtrage numrique
[JAZWINSKI 1970]. La contribution [LEVIN 1997] donne une introduction beaucoup plus courte et destine
justifier la mise en uvre neuronale. Nous nallons pas ici aborder le sujet dans sa gnralit, en particulier la question de lobservabilit du modle, si importante en pratique, ne sera pas voque.
Ce paragraphe a pour objet de donner un cadre formel commode pour prsenter lapplication de la technique la plus couramment employe, le filtre de Kalman tendu, que nous appliquerons la fin de cette
section lapprentissage dun rseau neuronal. Considrons donc un modle non linaire stationnaire de
systme dynamique mesur dquation dtat avec bruit dtat additif :
X(k + 1) = f[X(k),u(k)] + V(k + 1)
et dquation de mesure :
Y(k) = h[X(k)] + W(k).
Les matrices de variance-covariance des bruits blancs gaussiens dtat et de mesure, notes respectivement Q(x) et R(x), sont ainsi les matrices de variance-covariance des lois gaussiennes de Xk+1 et de Yk
conditionnes par la donne de Xk. Ce modle est markovien.
Pour appliquer la technique du filtre de Kalman, on remplace le modle non linaire dvolution par son
approximation linaire au voisinage de lestimation X (k), et le modle non linaire de mesure par son
approximation linaire au voisinage de ltat prdit f[ X (k), u(k)] dans le but de calculer la propagation
des covariances.
On note donc A(k) le gradient de f par rapport x au point [ X (k), u(k)], et H(k + 1) le gradient de h au
point f[ X (k), u(k)].
Lquation du filtre scrit naturellement selon le schma usuel prdicteur-correcteur
X (k + 1) = f[ X (k), u(k)] + Kk+1(k + 1)
avec J(k+1) = Y(k) h{f[ X (k), u(k)]}.
Litration de lalgorithme de mise jour des covariances et du gain de Kalman scrit alors, en tenant
compte des linarisations pour la mise jour [ANDERSON 1977] :
Pk+1 = A(k)Pk A(k)T + Q(k + 1)
Kk+1 = Pk+1H(k + 1)T[H(k + 1)Pk+1H(k + 1)T + R(k + 1)]-1
Pk+1 = [I Kk+1H(k + 1)][A(k)PkA(k)T + Q(k + 1)][I Kk+1H(k + 1)]T + Kk+1R(k + 1)Kk+1T.
Le calcul du gain rsultant dune approximation, il nest plus question que le filtre de Kalman tendu
garantisse une quelconque optimalit. La validit de lapproximation peut nous assurer une sous-optimalit (cest--dire lobtention dune solution proche de la solution optimale). La stabilit du filtre de
Kalman linaris au voisinage de lestimation est beaucoup plus difficile garantir que celle du filtre de
Kalman linaire dpendant du temps. Par ailleurs, les calculs du gain doivent imprativement tres
excuts en ligne, ce qui limite leur emploi dans les calculateurs embarqus et les applications en temps
rel. Dans ce cas, la linarisation au voisinage dune trajectoire de rfrence prcalcule est prfre, et
lon est ramen lalgorithme de filtrage de Kalman dans les modles linaires non stationnaires de la
section prcdente. Nanmoins, le filtre de Kalman tendu est souvent utilis, notamment dans les

252

Lapprentissage statistique

problmes didentification. Dans le paragraphe suivant, nous allons aborder cette application laide
dune mthode dextension dtat.

Utilisation du filtre de Kalman tendu pour lidentification


Considrons le modle dtat suivant dun systme dynamique observ :
X(k +1) = A(q)X(k) + B(k)u(k) + V(k + 1)
Y(k) = H(q)X(k ) + W(k)
o le modle dpend dun paramtre inconnu q quil faut estimer. Selon les applications, q peut tre fixe
ou varier lentement. Plusieurs mthodes ont t proposes pour estimer en ligne la fois ltat X(k) et le
paramtre q. Dans la mthode du filtre de Kalman tendu, le paramtre q est incorpor dans ltat. Lquation dvolution de ltat tendu du modle devient :
X(k + 1) =A[q(k)]X(k) + B(k)u(k) + V1(k + 1)
q(k + 1) = q(k) + V2(k + 1)
Y(k) = H[q(k)]X(k) + W(k).
Le bruit dtat [V2(k)] attribu aux variations des paramtres est artificiel dans le cas dun modle
stationnaire ; il amliore cependant le fonctionnement du filtre en contribuant viter la divergence de
lalgorithme [HAYKIN 1999]. On suppose ici, pour simplifier, lindpendance et la stationnarit de [V1(k)]
et de [V2(k)], ce qui nest pas toujours justifi.Daprs le paragraphe prcdent, lapplication des techniques de linarisation donne les quations suivantes pour le filtre de Kalman tendu :
X (k + 1) = A[ (k)] X (k ) + B(k)u(k) + K1,k+1J(k + 1) (k + 1) = (k) + K2,k+1J(k + 1)
avec la mme notation pour linnovation que dans le cas linaire :
J(k+1) = Y(k + 1) H[ (k)]{A[ (k)] X (k) + B(k)u(k)}.
On remarque que le paramtre et ltat sont mis jour simultanment en utilisant la mme innovation et
avec des gains de Kalman diffrents. Litration de lalgorithme de mise jour des covariances et du gain
de Kalman du paragraphe prcdent sapplique ici pour calculer le gain de Kalman.
Bien que sa mise en uvre sur un calculateur numrique soit relativement simple tant que la dimension
dtat nest pas trop grande, lutilisation du filtre de Kalman pour lidentification conjointement au filtrage
de ltat prsente des inconvnients (manque de stabilit, importance de linitialisation) qui lui font
prfrer des mthodes plus sophistiques mais en principe plus sres. Ces mthodes enchanent gnralement des techniques de filtrage de Kalman pour lestimation de ltat et des techniques destimation baysienne ou par maximum de vraisemblance a posteriori pour lestimation du ou des paramtres du modle.

Apprentissage adaptatif dun rseau de neurones par la mthode


du filtrage de Kalman
La figure 4-13, que lon comparera la figure 4-12, donne le schma dapplication du filtrage de Kalman
lapprentissage dun rseau neuronal.
Il sagit dun algorithme type Kalman tendu, utilis pour lidentification. Ltat du systme que lon
cherche estimer est donc lensemble des paramtres du rseau de neurones, suppos tre un modle du
dispositif qui produit la base dapprentissage. Les entres-sorties du rseau neuronal fournissent le
processus de mesure qui permet destimer lvolution de la configuration. Ainsi, cet algorithme est bien
adapt la poursuite des variations lentes dun processus, ce qui, comme nous lavons dj mentionn, est
la meilleure justification de la mise en uvre dun apprentissage adaptatif.

Identification neuronale
CHAPITRE 4

Lapprentissage du rseau correspond lvolution de lestimation de ltat. Le fonctionnement du rseau correspond la simulation de la
mesure. Lerreur dinnovation est lerreur faite
au moment de la prsentation dune entre.
Lquation dtat linaire X(k + 1) = AX(k) +
Bu(k) + V(k + 1) scrit, avec les notations
habituelles pour lapprentissage dun rseau de
neurones, sous la forme suivante :
w(k + 1) = w(k) + V(k + 1)

q -1
Dispositif
(volution)
Dispositif
(fonctionnement)

Entres

o w(k) est le vecteur des poids du rseau de


neurones au temps k.
Lquation de mesure non linaire Y(k) = h[X(k)]
+ W(k) scrit, avec les notations habituelles pour
lapprentissage dun rseau de neurones, sous la
forme implicite suivante : y(k) = g[x(k), w(k)] +
W(k). Linnovation de ce modle est : J(k + 1) =
y(k + 1) g[x(k + 1), w(k)].

253

Innovation

Rseau de neurones
(fonctionnement)

Rseau de neurones
(apprentissage)

Gain
dinnovation

q -1

Figure 4-13. Apprentissage dun rseau de neurones par un

algorithme du type Kalman tendu.


Il sagit l de lerreur dapprentissage que nous
avons considre plusieurs reprises dans le
chapitre 2. Pour mettre jour les covariances et calculer rcursivement le gain de Kalman en appliquant
les quations du paragraphe prcdent, il suffit de linariser lquation de mesure. Compte tenu de lquation dvolution (marche alatoire) et du fait que les matrices de variance-covariance des bruits sont prises
constantes, ces quations se simplifient. Si H(k + 1) dsigne le gradient de la sortie du rseau g relativement au vecteur des poids w au point [x(k + 1), w(k)], on obtient :

Pk+1 = Pk + Q
Kk+1 = Pk+1H(k + 1)T[H(k + 1)Pk+1H(k + 1)T + R]-1
Pk+1 = [I - Kk+1H(k+1)] Pk+1 [I - Kk+1H(k+1)]T + Kk+1RKk+1T
o Q et R sont les notations classiques en filtrage de Kalman pour les covariances de bruit dtat et de mesure.
(k + 1) = w (k) + Kk+1J(k +1) avec J(k + 1) = y(k + 1) g[x(k + 1), w
(k)].
Lquation du filtre est w
Il faut bien insister sur le fait que le rseau de neurones est un objet mathmatique, et que, en consquence,
(k). La confila seule configuration existante est la configuration courante que lalgorithme construit : w
guration idale que lon cherche identifier ou poursuivre nexiste pas physiquement : cest une reprsentation approche du dispositif rel. On reconnat dans lquation du filtre un algorithme de type des algorithmes doptimisation non adaptative du second ordre vus dans le chapitre 2, o la direction de descente
nest pas le gradient de lerreur quadratique qui est H(k + 1)TJ(k + 1). Le gradient peut tre calcul par la
mthode de rtropropagation. La technique dapprentissage par filtrage de Kalman tendu est elle-mme une
mthode du second ordre, mais, la diffrence des algorithmes vus dans le chapitre 2, cest une mthode
adaptative ; lestimation de la courbure de la surface derreur est faite par la mise jour des covariances. Les
difficults de mise en uvre sont celles des mthodes du second ordre (inversion dune grande matrice,
contrainte de positivit) et peuvent tre surmontes par des techniques algorithmiques analogues.
La mise jour de la matrice de variance-covariance pouvant tre trop complexe dans le cas dun rseau
de neurones, en raison de la dimension de lespace de configurations, on propose dans la littrature un
filtre de Kalman dcoupl (DEKF, Decoupled Extended Kalman Filter) o les paramtres sont regroups

254

Lapprentissage statistique

en ensembles supposs dcorrls (par exemple, les poids affrents un mme neurone). La matrice de
covariance garde alors une structure en blocs qui simplifie sa mise jour et son inversion approche
[PUSKORIUS 1994], [HAYKIN 1999].
La mthode du filtre de Kalman est encore peu utilise en pratique cause de la complexit relative de sa
mise en uvre. Elle ouvre nanmoins des perspectives trs intressantes, dans la mesure o il sagit dune
mthode du second ordre qui est naturellement adaptative, contrairement aux autres mthodes du second
ordre utilises communment pour acclrer lapprentissage. Le caractre qui semble arbitraire des
matrices de covariance, peut permettre dinjecter une forme de connaissance empirique sur les perturbations et les bruits du systme quon cherche modliser, et ainsi de rgler les capacits de poursuite du
processus de modlisation. Cette mthode est applique la commande par rseaux de neurones, que
nous dcrirons plus prcisment la fin du chapitre suivant.

Rseaux neuronaux rcurrents ou boucls


Simulateur neuronal dun systme dynamique command en boucle
ouverte
Considrons un rseau neuronal construit par les mthodes du paragraphe sur lidentification neuronale dun
systme dynamique non linaire comme modle de prdiction un pas dune srie temporelle. Nous avons
prsent sur la figure 4-11 le schma dapprentissage pour un modle entre-sortie selon lhypothse NARX,
dont nous avons montr dans le chapitre 2 de cet ouvrage, au paragraphe concernant la modlisation dynamique bote noire , section intitule Hypothse bruit dtat, reprsentation entre-sortie , quelle est
optimale en prsence dun bruit dtat : la sortie du modle linstant k est reconstruite partir des valeurs
passes de la sortie du processus et de valeurs passes de la commande. Si, une fois lapprentissage termin,
la sortie du rseau est boucle sur lentre dtat par le moyen dun oprateur retard dune unit de temps, on
obtient un rseau de neurones entre-sortie rcurrent, en ce sens que le graphe des connexions prsente un
circuit ferm. Ce rseau rcurrent ou boucl, construit en utilisant le rseau non boucl qui ralise la fonction
RN, peut tre utilis pour prdire la sortie du processus sur un horizon fini.
La figure 4-14 reprsente un rseau de neurones rcurrent
g(k)
entre-sortie : lentre dtat du rseau est constitu de valeurs
g(k-n +1)
passes de la sortie. Si les paramtres du rseau de neurones
.....
....
ont t estims en boucle ouverte selon le schma dapprentisg(k-1)
RN
sage de la figure 4-11, et si ce rseau est utilis pour prdire la
q -1
sortie du processus plus dun pas de temps dans le futur
(cest--dire sil est utilis en simulateur), alors cette utilisa.....
..... g(k-n)
....
g(k -2)
u(k-1) u(k -m)
tion nest pas optimale, comme nous lavons indiqu dans le
Entres de
chapitre 2 : la qualit de prdiction se dtriore au fur et
g(k-1) Entres dtat
commande
mesure que lhorizon se droule par suite de lintervention du
bruit dtat chaque pas de temps. En revanche, si le bruit qui
Figure 4-14. Rseau neuronal rcurrent
intervient dans le processus est un bruit de sortie, et si le
entre-sortie, modle dun systme
dynamique command en boucle ouverte.
processus a t identifi laide dun algorithme semi-dirig,
dans lequel, pendant lapprentissage, les entres dtat du
modle sont ses propres sorties passes (et non celles du processus), la qualit de la prdiction est optimale,
comme nous lavons montr thoriquement et illustr pratiquement dans le chapitre 2.
Nous supposons ici que la commande u(k) ne dpend pas de ltat (qui est ici la sortie) du processus
command : cela revient donc implicitement supposer que le processus est command en boucle

Identification neuronale
CHAPITRE 4

255

ouverte. Nous allons voir dans le paragraphe suivant quil est galement possible de modliser, par une
combinaison de rseaux de neurones, un systme command en boucle ferme.

Simulateur neuronal dun systme dynamique command en boucle


ferme
De mme quon a considr le modle dun systme
dynamique command par un rseau de neurones non
boucl, admettant comme entre un couple tatcommande et comme sortie un tat, on peut considrer
un contrleur comme une application de lespace
dtat dans lensemble des commandes, qui associe
ltat courant la commande calcule par ce contrleur.
Le schma de la figure 4-15 reprsente la mise en
cascade de ces deux rseaux de neurones.
Dans ce schma, ltat dentre alimente, dune part, le
modle du processus, et, dautre part, le contrleur qui
calcule la commande. La commande ainsi produite est
la deuxime entre du modle. On a ainsi construit un
nouveau rseau neuronal qui reprsente la dynamique
du systme command en boucle ferme.

g(k)
.....
g(k-1)

g(k - n +1)
....

RN
q -1
g(k-1)
g(k -2)
Entres de
commande .....
g(k- n) ....
u(k -1)
u(k- m)
Entres dtat
RN
g(k -2) ..... g(k-n)
g( k-1)

Figure 4-15. Rseau neuronal rcurrent modle

dun systme dynamique contrl en boucle ferme.


Si nous bouclons ltat de sortie sur ltat dentre
Lensemble du rseau RN et du rseau RN constitue
comme dans le cas prcdent, nous obtenons un simuun modle du systme command en boucle ferme.
lateur neuronal du systme dynamique command en
boucle ferme. Comme dans le cas prcdent, cette
architecture peut tre utilise pour prdire le comportement du systme sur un horizon fini.

Ltude des systmes commands est dveloppe dans le chapitre 5 de cet ouvrage.

Quelques rseaux boucls particuliers


Dans les deux cas prcdents, on a vu des exemples de rseaux de neurones boucls de type entre-sortie,
constitus dun rseau de neurones non boucl, dont la sortie est ramene lentre avec un retard dune
unit de temps. Comme nous lavons vu au chapitre 2, les modles dtat sont plus gnraux et plus parcimonieux que les modles entre-sortie : ils sont utiles, dune part, dans le cadre de la modlisation bote
noire et, dautre part, lorsquon dsire raliser une modlisation bote grise (dveloppe dans le
chapitre 2), dans laquelle on tient compte dquations algbro-diffrentielles, rsultant dune analyse
physique ou physico-chimique du processus, pour structurer le rseau.
Rappelons dabord que, dans un rseau de neurones rcurrent, des retards doivent tre obligatoirement
spcifis sous peine dentraner une ambigut dans le comportement du rseau. Limportance de la spcification des retards est dveloppe laide dun exemple en complment de ce chapitre. Plus prcisment,
rappelons la rgle nonce dans le chapitre 2.
Rappel

Pour quun rseau de neurones boucl soit causal, il faut que tout cycle dans le graphe du rseau
possde un retard non nul.

256

Lapprentissage statistique

Nous avons vu galement, dans le chapitre 2, plusieurs exemples de rseaux de neurones boucls, de
structures plus ou moins complexes. Nous prsentons ici deux types de rseaux boucls particuliers,
dintrt plus historique que pratique.

Rseau de Elman
Le rseau de Elman est un rseau de
Sorties g (k)
neurones couches, propos lorigine, comme beaucoup de structures
particulires de rseaux rcurrents la
fin des annes 1980, pour modliser
des phnomnes de contexte dans les
x(k+1)
.....
applications des rseaux de neurones
lanalyse linguistique [ELMAN 1990].
q -1
La particularit dun contexte relativement la modlisation dtat dun
.....
systme physique est que ce contexte
na aucune raison dtre connu, voire
Entres externes u(k)
dtre dtermin par une loi physique
donne (quation diffrentielle, prinEntres dtat x (k)
cipe variationnel) dont il faut identiFigure 4-16. Rseau de Elman appliqu la modlisation dun systme
fier les paramtres. Les modles de
dynamique.
Markov cachs se rvlaient efficaces
malgr leur complexit dans les
problmes danalyse de la parole. Le modle de rseau de Elman se rattache ces ides : il a comme particularit de proposer de reprsenter le contexte (ou ltat du systme) dans une couche cache du rseau.
En effet, il est inutile de le prsenter la sortie du rseau puisquon sera dans lincapacit de la comparer
une mesure. La figure 4-16 montre un schma du rseau rcurrent de Elman.
Dfinition

Le rseau de Elman est un rseau une couche de neurones cachs dont la sortie constitue ltat :
lordre du modle est donc gal au nombre de neurones cachs. Les entres dtat (appeles units
de contexte par Elman) sont donc les sorties des neurones cachs linstant prcdent. La sortie du
rseau un instant donn est donc une fonction non linaire de lentre externe et de la sortie des
neurones cachs linstant prcdent.
On distingue bien dans le rseau de Elman les composantes essentielles dun systme dynamique
observ : les entres qui sont associes la commande dun systme, les units de contexte associes
ltat du systme et les units de sortie associes la mesure de ltat. Lassociation effectue entre la
couche dentre et la couche cache correspond lquation dvolution dun systme dynamique
command qui associe ltat et aux entres du systme ltat au temps suivant.

Rseau de Hopfield
Les rseaux de Hopfield ont jou un rle historique important pendant quelques annes, partir de 1982.
Motivs par les progrs de la physique statistique des milieux dsordonns et leur application aux
systmes complexes, Hopfield propose en 1982 [HOPFIELD 1982] un rseau neuronal en rupture dlibre
avec le perceptron (qui est tudi en dtail dans le chapitre 6 de cet ouvrage). Il insiste sur le caractre

Identification neuronale
CHAPITRE 4

257

dynamique des rseaux de neurones naturels provoqu par la rcurrence des connexions. Un rseau
neuronal rcurrent est un systme dynamique ; il a donc des attracteurs qui sont des tats dquilibre.
Un rseau de Hopfield est constitu de neurones binaires, cest--dire de neurones dont la fonction dactivation est un chelon : la sortie y dun neurone est donne par la relation :
y=H

w x
j

ij j

o H(x) = 1 si

w x 0 et H(x) = 0 sinon,
j

ij j

et o les xj sont les entres du neurone i, cest--dire les sorties des autres neurones du rseau. Ainsi,
chaque neurone porte une information binaire, et ltat du rseau, cest--dire le vecteur constitu des
sorties des neurones, constitue un vecteur binaire qui peut tre considr comme le code dune information.
Il faut noter tout dabord quun rseau de Hopfield est dpourvu
dentres externes : son comportement est autonome, dict uniquement par sa dynamique propre. Pour assurer quun tel rseau est
stable (cest--dire que, quel que soit son tat initial, il volue jusqu
ce quil ait atteint un tat dquilibre, indpendant du temps), et pour
calculer facilement ces tats dquilibre, Hopfield introduit une rgle
qui na rien de biologique : la symtrie des connexions. Les
connexions sont symtriques : le poids wji de la connexion reliant le
neurone i au neurone j est gal au poids wij de la connexion qui relie
le neurone j au neurone i ; de plus, chaque connexion est associ un
retard gal une unit de temps. La figure 4-17 est le schma dun
rseau de Hopfield six neurones binaires, avec des connexions
compltes et symtriques (les symboles q-1 reprsentant le retard unit
de chaque connexion ont t omis). Pour Hopfield, ces tats dquilibre correspondent des codes dinformation, et le processus dynamique allant dun tat initial un tat dquilibre est interprt comme
le processus de rappel dune mmoire associative : ltat initial peut
tre le code binaire dune information incomplte ou partiellement
errone, et ltat final est le code binaire de linformation exacte.

Figure 4-17. Rseau de Hopfield


compltement connect connexions
symtriques (pour simplifier la figure,
les retards units associs chaque
connexion ont t omis).

Lapprentissage du rseau consiste alors calculer les paramtres du rseau de telle manire que les codes
des informations que lon souhaite mmoriser soient des tats stables du rseau. Pour cela, Hopfield
propose que la matrice des connexions soit la matrice de corrlation du codage des mmoires. Plus prcisment, supposons que le rseau comporte N neurones. Les informations que lon veut coder sont au
nombre de p, reprsentes par des vecteurs xi = (ij). La matrice des poids est note w = (wjl) avec
wjl =

1 p j l
i i si j l et wjj =0. On remarque que la matrice de connexion est bien symtrique. Cette
p i =1

rgle dapprentissage est une version trs simpliste de la rgle de Hebb, propose pour rendre compte de
certains phnomnes dapprentissage dans les systmes biologiques. Dautres rgles dapprentissage,
sans aucune vraisemblance biologique, ont permis de garantir que tout ensemble donn de vecteurs en
nombre infrieur N/2) (ou tout ensemble de squences dtats) peut tre mmoris comme un point fixe
(ou comme un cycle) de la dynamique du rseau.
En conclusion, vingt ans aprs leur invention, on peut faire un bilan actuel des rseaux de Hopfield :
En tant que modle du fonctionnement biologique, le modle de Hopfield a lavantage de mettre en
lumire, aprs dautres modles plus anciens mais moins connus, le rle de la dynamique dans les fonc-

258

Lapprentissage statistique

tions cognitives des rseaux de neurones et le lien tabli par la rgle de Hebb entre apprentissage et
corrlation. Des modles plus biologiquement plausibles lui ont succd, qui intgrent des
proprits nouvelles : codage temporel de linformation par les potentiels daction (spikes), caractre dilu et htrogne des connexions qui excluent toute ide de symtrie des poids synaptiques
malgr la rgle de Hebb. Ces proprits nouvelles excluent tout prolongement direct des mthodes
employes par Hopfield malgr la richesse des innovations conceptuelles quon a cites.
En tant que prototype de mmoires associatives, et malgr le dveloppement, dans les annes 1980, de
nouvelles variantes (rseaux de Hopfield de champ moyen fonctions dactivation continues, rseaux
de Hopfield stochastiques et machines de Boltzmann), et la publication dune littrature considrable,
les performances faibles des rseaux de Hopfield ont entran, juste titre, labandon des recherches
leur sujet, notamment celles qui concernent leur applications potentielles en reconnaissance des formes
et la correction derreurs. Les rseaux de neurones qui font lobjet de lessentiel de ce livre sont beaucoup plus efficaces, et ont une bien plus grande richesse de comportement, que les rseaux de Hopfield.
On a rapproch assez vite le modle de Hopfield de lalgorithme de recuit simul mis au point la mme
poque par Kirkpatrick, Gelatt et Vecchi [KIRKPATRICK 1983]. Ce rapprochement est lorigine dune
importante branche de recherche, lapplication des rseaux de neurones loptimisation, traite au
chapitre 8 de ce livre.

Mise sous forme canonique des rseaux boucls


Les exemples de rseaux de neurones rcurrents donns dans la section prcdente montrent que ces
rseaux sont des systmes dynamiques originaux. Considrs comme systme, les rseaux neuronaux
sont soumis des entres et dlivrent des signaux observs en sortie. Il est donc commode de leur donner
une reprsentation dtat. Cette reprsentation dtat pourra tre utilise pour donner un traitement unifi
qui ne soit pas tributaire de larchitecture de tel ou tel rseau rcurrent, ou non, retards ou non. Cette
forme, dite forme canonique, est dcrite dans le chapitre 2.
Rappel

Tout rseau de neurones boucl, aussi complexe soit-il, peut tre mis sous une forme dtat minimale,
dite forme canonique , laquelle les algorithmes dcrits dans les paragraphes prcdents sappliquent directement.
Le paragraphe intitul Mise sous forme canonique des modles dynamiques du chapitre 2, ainsi que les
complments de ce dernier sont consacrs ce problme ; plusieurs exemples illustratifs y sont prsents.

Apprentissage des rseaux de neurones rcurrents ou boucls


E. Sontag [SONTAG 1996] a prouv que les rseaux de neurones rcurrents constituent des approximateurs
universels pour les systmes dynamiques, contrls, mesurs, observables et dterministes. Remarquons
que, comme pour le thorme de Hornik dans le cas statique, ces thormes dapproximation universelle
ne sont pas constructifs, et ne donnent dindication ni sur le choix de larchitecture ni sur lalgorithme
dapprentissage.
La principale difficult de lapprentissage des rseaux neuronaux rcurrents (non linaires) par une
mthode de gradient, du premier ou du second ordre, provient de ce que linfluence de la valeur dun poids
sur la sortie du rseau, donc sur la fonction de cot minimiser durant lapprentissage, nest pas limite
une tape de temps : elle se rpercute sur toute une priode (horizon de calcul) qui thoriquement peut

Identification neuronale

259

CHAPITRE 4

tre infinie. En toute rigueur, pour effectuer le calcul du gradient de la fonction de cot, il faudrait, pour
chaque instance de la base dexemples et pour chaque tape dapprentissage, effectuer le calcul sur tout
lhorizon de prdiction, calculer la correction du rseau et recommencer. Lapprentissage des rseaux
boucls sans modification par rapport aux rseaux classiques serait donc une procdure trs lourde, trs
gourmande en temps de calcul et en espace mmoire ; de plus il serait impossible de la mettre en uvre
dans toutes les applications o le temps rel est requis, et o le retour en arrire et la reproduction de
conditions exprimentales exactes sont impossibles. Ds que les architectures neuronales rcurrentes ont
t appliques lidentification et au contrle de systmes dynamiques, le problme de lapprentissage a
reu plusieurs solutions approches, notamment dans larticle fondamental de [WILLIAMS 1989].
Dans le cas o ltat du systme que lon veut identifier est compltement connu par mesure chaque
instant, il ny a pas en ralit de difficult particulire : on peut mettre en uvre un algorithme dirig
(teacher forcing), dans lequel les entres dtat du rseau reoivent les sorties du processus. Rappelons
que, comme nous lavons indiqu dans le chapitre 2, cette technique ne doit tre mise en uvre que dans
le cas o le systme modliser prsente un bruit dtat ; nous avons montr thoriquement, et dmontr
exprimentalement, quelle peut donner de trs mauvais rsultats pour modliser un processus ayant un
bruit de sortie (ou bruit de mesure).
Dans le cas gnral o la connaissance que lon a de ltat rel du systme un instant donn est incomplte ou corrompue par un bruit de mesure, il faut en pratique choisir entre deux approximations :
soit calculer le gradient effectif par rapport aux poids courants mais en tronquant la priode de calcul et
en la limitant une fentre glissante de petite taille (rtro-propagation travers le temps) ;
soit approcher le gradient des tats antrieurs par rapport aux poids courants par la valeur de ces
gradients par rapport aux anciens poids (algorithme RTRL).
Nous allons maintenant exposer ces mthodes plus en dtail.

Apprentissage dirig (teacher forcing)


Processus

Instant initial
k =0

Processus

Processus

Instant k

Instant k +1

tat prdit

Rseau non boucl

de la forme canonique

Entres d'tat
mesures
Entre
de commande

tat prdit

Rseau non boucl

de la forme canonique

tat prdit

Rseau non boucl

de la forme canonique

Entres d'tat
mesures

Entre
de commande

tat prdit

de la forme canonique

Entre
de commande

Entres d'tat
mesures

Entres d'tat
mesures

Entre
de commande

Processus

Rseau non boucl

Figure 4-18.
Apprentissage
dirig dun
rseau boucl.

Instant N

Dans la mthode dite de lapprentissage dirig (teacher forcing), toutes les entres de la forme canonique
du rseau sont connues pendant lapprentissage, puisque ce sont les quantits (sorties ou variables dtat)
qui sont mesures sur le processus. La mtaphore lorigine de la dnomination de cet algorithme pittoresque est que le professeur rectifie le comportement de llve chaque instant au lieu dobserver son
comportement pendant une certaine dure avant de le rectifier . Lingnieur, quant lui, dit simplement
que le modle est cal chaque instant sur les donnes exprimentales. Lapprentissage du rseau se
rsume donc une rgression non linaire de la sortie du rseau sur son entre (NARX) comme on la vu
dans la section Identification de systmes dynamiques commands par rgression de ce chapitre, ainsi
que dans le chapitre 2. Le schma de cet apprentissage est prsent dans la figure 4-18.

260

Lapprentissage statistique

On utilise pour lapprentissage une trajectoire dans lespace des tats (ensemble de N couples entre-tat).
Les tats intermdiaires (temps k) sont utiliss la fois comme sortie pour valuer les performances du
rseau calculant lvolution du temps k 1 au temps k, et comme entre pour calculer lvolution du
temps k au temps k + 1. La pratique de cette mthode simple exige que lentre du rseau chaque tape
de temps soit connue et donc interdit son application directe dans le cas gnral de systme dynamique
mesur command.

Dpliement de la forme canonique et rtropropagation


travers le temps
Dans cette mthode pour prendre en considration le caractre rcurrent du rseau, on construit un rseau
non boucl qui reproduit lvolution du rseau sur sa trajectoire temporelle. Comme nous lavons vu au
chapitre 2, ce rseau est obtenu en reproduisant le rseau non boucl de la forme canonique en autant
dexemplaires, ou copies, que dinstants dans la squence utilise pour lapprentissage. Les entres dtat
de la copie correspondant linstant k sont les sorties dtat de la copie correspondant linstant k+1.
Contrairement au cas prcdent, les mesures effectues sur le processus ne sont pas utilises en entres du
rseau pendant lapprentissage : le rseau nest pas cal sur les donnes tout instant : il ne lest qu
linstant initial, si ltat du processus est mesur (sil ne lest pas, les entres dtat sont initialises des
valeurs vraisemblables compte tenu des connaissances que lon possde sur le processus, ou, si lon na
aucune connaissance sur le processus, elles sont initialises zro). Cest pour cette raison que lapprentissage est dit semi-dirig. Le dpliement de la forme canonique dun rseau boucl est reprsent sur la
figure 4-19. On obtient ainsi un rseau de neurones non boucl, dont lapprentissage peut se faire par
rtropropagation, sous la contrainte que les poids de toutes les copies soient identiques : on doit utiliser la
technique des poids partags expose dans le chapitre 2.

Instant initial

Instant

Instant

k +1

Instant

Sortie

prdite

Rseau non boucl

de la forme canonirque

Entre de

Sortie

Rseau non boucl

de la forme canonirque

Entre de

commande

Sortie

Rseau non boucl


k

de la forme canonirque

Entre de

commande

Sortie
k =0

+
-

prdite

Rseau non boucl

de la forme canonirque

Entre de

Sortie
mesure

commande

Sortie
mesure

Sortie
mesure

prdite

Sortie
mesure

Processus

Processus

Processus

prdite

Processus

commande

Figure 4-19.
Dpliement
temporel de la
forme canonique dun
rseau boucl
sur toute la
longueur de la
squence
dapprentissage.

Si les squences dapprentissage sont longues, ou si lon dsire effectuer un apprentissage adaptatif
(cest--dire un apprentissage qui se poursuit continuellement durant le fonctionnement du rseau), on ne
peut pas utiliser lensemble des donnes partir de linstant initial, car le temps de calcul augmenterait
indfiniment. On est alors conduit tronquer les squences dapprentissage, cest--dire ne prendre en
considration, chaque tape de lapprentissage, quun horizon limit dans le pass un nombre fini p
dinstants. Ainsi, linstant n, on ne prend en considration que les instants n p + 1 n. Cela conduit
introduire un changement de notation : nous dsignerons dsormais par k le numro de la copie par
rapport lorigine de lhorizon considr ltape n ; k varie donc dornavant de 1 p. Le schma
dapprentissage est exactement le mme que celui qui est reprsent sur la figure 4-19, avec nanmoins
les diffrences suivantes :
la squence ne stend pas sur n instants, mais sur p instants ;

Identification neuronale
CHAPITRE 4

261

les entres dtat au premier de ces p instants peuvent tre fixes de deux manires diffrentes :
si ltat du processus est mesur, on peut affecter ces entres les valeurs mesures sur le processus :
lalgorithme est alors semi-dirig ;
si ltat du processus nest pas mesur, on doit affecter ces entres la dernire valeur calcule de la
copie correspondante (cest--dire celle qui a t calcule lors des calculs qui ont t effectus
ltape n 1 de lapprentissage) : lalgorithme est alors dit non dirig, puisque ltat mesur du processus nest jamais pris en considration durant lapprentissage. Dans ce dernier cas, cette affectation
intgrant rcursivement les informations de tout le pass jusquau temps n p + 1 et ayant t rvise
par p tapes prcdentes peut tre considre comme fiable. Cependant, elle introduit la fois une
cause derreur et un risque dinstabilit. On peut montrer [LION 2000] en introduisant une projection
et en utilisant la thorie de lapproximation stochastique que cette approximation est contrle et
nentrave pas la convergence du systme vers un minimum (local puisquon est dans un cadre non
linaire et non ncessairement convexe).
Il y a donc ici deux indices temporels ne pas confondre, celui de ltape dapprentissage not n et celui
de ltape de temps dans le rseau dpli ltape n, not k avec 1 k p. Une copie du rseau est caractrise par les deux fonctions de transfert g et h qui dterminent respectivement ltat et la sortie du rseau
ltape k (voir mise sous forme canonique) en fonction de ltat du rseau, de son entre et de ses paramtres de configuration ltape prcdente. On va dtailler les oprations ncessaires pour calculer le
gradient par rtropropagation travers le temps pendant ltape dapprentissage n + 1. Tous les paramtres de configuration du rseau pris leur valeur courante sont stocks dans le vecteur w.
Pour la n-ime tape dapprentissage, on va utiliser le vecteur des donnes dentre de composantes
k1

u n + 1 = unp+k, pour k variant de 1 p,


et celui des donnes de sortie de composantes

n + 1 = ynp+k+1, pour k variant de 1 p.


k

Si on est dans la situation o ltat du rseau nest pas mesur en apprentissage non dirig, on choisit
comme tat initial du rseau dpli ltape dapprentissage n + 1 lestimation de ltat obtenu ltape
prcdente
0

x n + 1 = x n p + 1 = x n .
ltape dapprentissage n + 1, on va effectuer travers le rseau dpli, configur ltape dapprentissage prcdente, les oprations suivantes :
calcul de ltat et de la sortie pour k variant de 1 p,
k

k1

k1

k1

k1

x n + 1 = g ( u n + 1, x n + 1, w )
y n + 1 = h ( u n + 1, x n + 1, w )
comparaison avec les sorties dsires pour k variant de 1 p,
k

n + 1 = n + 1 yn + 1
calcul du rseau dpli adjoint obtenu en inversant le sens de propagation des signaux, en remplaant les
nuds par des additionneurs et les fonctions dactivation non linaires par leurs drives, rtropropagation de lerreur travers le rseau adjoint dpli, pour k variant de 1 p,
k1

n + 1 = g * ( n + 1, n + 1, w )

262

Lapprentissage statistique

La figure 4-20 prsente la construction du rseau


adjoint dans un cas simple.

2
(a)

(b)
y2

Figure 4-20. Rseau adjoint dun rseau couche en boucle


ouverte. (a) Rseau initial, lindication f symbolise loprateur de passage travers la fonction dactivation non linaire, (b)
rseau adjoint, lindication f symbolise la multiplication
linaire par la drive de cette fonction au point de fonctionnement du rseau direct prcdent.

f
y1

On a reprsent dans le schma (a) un rseau couches


f
f

avec trois entres, une premire couche avec deux


neurones dont un de sortie, et une seconde couche avec
un neurone de sortie. Le rseau reprsente donc une

application non linaire de R3 dans R2 . En (b), le rseau


adjoint reprsente une application linaire de R2 dans
x
R3. Les entres du rseau adjoint sont les signaux

derreur associs aux sorties du rseau initial. La dfinition mathmatique est simple : ladjoint de lapplication y = g(x) est lapplication linaire x = [Dg(x)]Te,
o [Dg(x)]T est la matrice transpose de la matrice jacobienne de g en x, cest--dire la matrice des drives partielles. Il sagit donc l simplement dune reprsentation graphique de lalgorithme de rtropropagation utilis pour lvaluation du gradient de la fonction de cot par rapport aux paramtres.
Une fois obtenus les signaux derreur dans le rseau adjoint, le calcul du gradient de lerreur quadratique
seffectue par la rgle classique de rtropropagation. Il faut nanmoins tenir compte du fait que le rseau
est un rseau dpli et donc de ce que la mme valeur numrique du poids est partage par plusieurs
connexions gomtriquement situes dans des endroits diffrents du rseau dpli par la rplication du
rseau p fois (o p est la profondeur de la fentre temporelle).
Calcul du gradient

La composante du gradient de lerreur quadratique relative un poids de connexion du rseau rcurrent est en fait la somme des valeurs calcules des composantes du gradient relativement toutes les
connexions du rseau dpli qui partagent cette valeur.
Ce rsultat a t dmontr dans le chapitre 2, dans le paragraphe consacr la technique des poids
partags.
Remarque
Le lecteur qui dsirerait programmer lui-mme un des algorithmes sus mentionns trouvera, prsentes de manire synthtique, toutes les
formules ncessaires dans le chapitre 3 de la thse de Yacine Oussar Rseaux dondelettes et rseaux de neurones pour la modlisation
statique et dynamique de processus , pages 64 69 (modles entre-sortie) et 72 81 (modles dtat). Cette thse est disponible en version
pdf lURL http://www.neurones.espci.fr. Une discussion technique trs complte, quil serait trop long de reproduire ici, y est prsente.

Apprentissage en temps rel des rseaux boucls


La mthode dapprentissage en temps rel repose sur une autre approximation que la troncature temporelle. Rcrivons lquation de lvolution du rseau rcurrent mis sous sa forme canonique de linstant n
linstant n + 1 :
x(n + 1) = g[u(n), x(n), w(n)]
y(n + 1) = h[u(n), x(n), w(n)].

Identification neuronale
CHAPITRE 4

On cherche calculer en w(n) le gradient de lapplication 1


de calculs ( partir dune donne initiale dtermine x(0)) :

n+1

Pour k variant de 0 n,
x(k+1) = g[u(k),
y = h[u(n), x(n), w]
et

x(k),

qui w associe y = 1

n+1

263

(w) par la suite

w]

On en dduit par drivation :


w 1

n+1

[w(n)] = wh[u(n), x(n), w(n)] + xh[u(n), x(n), w(n)].w 1 [w(n)]


n

o lapplication 1 est dfinie comme lapplication qui w associe x = 1 (w) par la suite de calculs
suivante :
Pour k variant de 0 n-1,

x(k+1)=g[u(k),x(k),w] et x=x(n)
n

La question est de dterminer w 1 [w(n)] alors que la valeur w(n) ntait pas disponible aux instants
antrieurs n et que, fonctionnant en temps rel, on ne veut pas revenir dans le pass comme dans la
mthode BPTT. Par exemple, ltape n 1, on a effectu le calcul :
x(n) = g[u(n-1), x(n-1), w(n-1)]

au lieu du calcul :
x(n) = g[u(n-1), x(n-1), w(n)]

et avec une trajectoire dtats diffrente qui est calcule en temps rel avec une trajectoire de poids w(k)
au lieu dtre recalcule avec une configuration constante w(n).
w n1 de n1 [w(n)] par la formule rcursive
Lide est de mettre jour une approximation note
w

w n1 = [u(n 1), x(n 1), w(n 1)] .


w n1 1

g
Cette approximation peut tre justifie mathmatiquement par lapproximation stochastique dans le cadre
de la thorie des chanes de Markov contrles [BENVENISTE 1987] sous des hypothses que nous ne
dtaillerons pas.
Remarque
Sur le plan pratique de lenchanement des calculs, on remarquera que la mthode dapprentissage en temps rel nutilise pas le rseau
adjoint, en effet contrairement la rtropropagation, on ne se contente pas de calculer la sensibilit ou la part dans lerreur attribue
chaque variable, mais on doit calculer effectivement le gradient. Le calcul se fait donc dans le sens du temps et non pas dans le sens rtrograde.

Application des rseaux neuronaux boucls lidentification


de systmes dynamiques commands mesurs
Les applications des rseaux de neurones rcurrents lidentification par la pratique dalgorithmes
dapprentissage non dirigs ou hybrides sont souvent limites des exemples acadmiques, la stabilit
des algorithmes dapprentissage non dirigs tant plus difficile assurer que dans le cas des modles
linaires [LJUNG 1996].
En ce qui concerne lidentification par des modles non linaires, il est donc conseill dessayer en priorit les algorithmes dapprentissage dirigs. Si, dans [HAYKIN 1999], on montre que lidentification par un
modle neuronal NARX de la srie temporelle sin(n + sin(n2)) est suprieure lidentification par un

264

Lapprentissage statistique

apprentissage semi-dirig avec une architecture de complexit comparable, on peut exhiber de nombreux
contre-exemples dans des applications relles : en effet, il est trs frquent, dans un processus bien conu,
que le bruit soit essentiellement du bruit de sortie, ce qui ncessite absolument lutilisation dun algorithme semi-dirig ou non dirig, comme nous lavons montr sur des exemples dans le chapitre 2. De
plus, de nombreux rsultats dapprentissages dirigs mme publis dans la littrature internationale ne
rsistent pas la comparaison avec le prdicteur stupide , comme nous lavons indiqu dans le
chapitre 2.
Pour les rseaux non boucls, les questions qui constituent la mthodologie de conception sont
la slection des entres,
la slection du modle, cest--dire essentiellement la slection du nombre de neurones constituant la
couche cache.
Pour les rseaux boucls, trois questions supplmentaires se posent :
le choix de la reprsentation (reprsentation entre-sortie ou reprsentation dtat),
le choix de lordre du modle,
dans le cas dun apprentissage par rtropropagation tronque : lhorizon de troncature.
Pour le choix de lordre, une identification linaire pralable (o les tests structurels sont mieux matriss)
peut tre trs utile. La recherche de lhorizon de troncature dans la mthode BPTT est aussi un problme
dlicat : en thorie, un dpliement de lordre de lindice rendant observable le modle est suffisant ; en
pratique, les trop grands ordres de dpliement peuvent alourdir la rtropropagation.
Une des difficults dans lapprentissage de rseaux rcurrents est la difficult de capturer des dpendances
temporelles longue porte quand on remonte dans le temps. Cette difficult est tudie dans [BENGIO
1994]. Nanmoins, pour de vraies applications pratiques, on recherche rarement des dpendances temporelles trs longues, car les processus que lon cherche modliser sont eux-mmes rarement stables sur de
trs longues priodes : il existe des drives lentes qui ncessitent de refaire un calage priodique du
modle laide des mthodes adaptatives dveloppes dans ce chapitre. En cas de grande difficult, lutilisation de procdures dapprentissage volutives et guides, augmentant progressivement la profondeur
temporelle de lapprentissage, et de mthodes doptimisation robustes, peuvent permettre de surmonter ces
problmes. La solution efficace pour des applications non acadmiques consiste mettre en uvre la technique de modlisation bote grise que nous avons prsente au chapitre 2, ce qui permet de mettre
profit toutes les connaissances disponibles sur le processus modliser, notamment la forme mathmatique
des quations du modle, son ordre, etc. On rduit ainsi le nombre de degrs de libert dont dispose le
concepteur, qui peut ainsi concentrer son attention sur un nombre rduit de problmes.
Bien entendu, les pr-traitements des donnes, lapprentissage par des mthodes non linaires des rsidus
danalyse par des mthodes linaires, permettent souvent, en dcouplant les difficults, damliorer la
prcision des mthodes non linaires didentification.
Les rseaux de neurones boucls peuvent aussi tre utiliss dans la synthse de contrleurs, comme nous
allons le voir dans le chapitre suivant.

Complments algorithmiques et thoriques


Calcul du gain de Kalman et propagation de la covariance
Plaons-nous dans le cadre du modle dtat stochastique markovien :
X(k + 1) = AX(k) + Bu(k) + V(k + 1)

Identification neuronale
CHAPITRE 4

265

munis de lquation de mesure :


Y(k) = HX(k) + W(k).
On note X ( k ) lestimateur optimal des moindres carrs, cest--dire, la rgression linaire de ltat alatoire X(k) sur le vecteur alatoire des mesures accumules jusqu linstant k : Y(k) = [Y(1) ; Y(k)] et
J(k + 1) linnovation au temps k+1 dfinie par
J(k + 1) = Y(k + 1) - HA X ( k ) HBu(k).
Lquation rcursive du filtre dinnovation est donne par
X ( k + 1 ) = A X ( k ) + Bu(k) + Kk+1J(k + 1)
o le gain dinnovation se dduit de la formule de calcul de la rgression linaire :
Kk+1 = Cov[X(k + 1), J(k+1)] Var[J(k + 1)]-1.
On note Pk la matrice de variance-covariance de lerreur destimation X(k) X ( k ) et Pk+1 la matrice de
variance-covariance de lerreur de prdiction X(k+1) - A X ( k ) - Bu(k) . Calculons la variance de lerreur
de prdiction. On a
X(k + 1) A X ( k ) Bu(k) = A[X(k) X ( k ) ] + V(k + 1).
Comme V(k+1) est dcorrl de X(k) - X ( k ) , on obtient simplement lquation de propagation de la
variance de lerreur de prdiction par dveloppement quadratique :
Pk+1 = A Pk AT + Q.
De lexpression de lerreur dinnovation
J(k + 1) = Y(k + 1) HA X ( k ) HBu(k) = H{A[X(k) X ( k ) ]+ V(k + 1)}+ W(k + 1)
on dduit de mme la valeur de sa matrice de variance-covariance en fonction de celle de lerreur de
prdiction au temps k
Var[J(k+1)] = HPk+1HT + R.
Calculons afin de conclure la covariance de ltat X(k+1) et de linnovation J(k+1) :
Cov[X(k + 1), Y(k+1) HA X ( k ) HBu(k)]
= Cov{AX(k) + V(k + 1), HA[X(k) X ( k ) ] + HV(k + 1) + W(k + 1)}
= Cov{AX(k), HA[X(k) X ( k ) ]} + Cov[V(k + 1), HV(k + 1) + W(k + 1)]
= ACov[X(k),X(k ) X ( k ) ]AT HT + Var[V(k + 1)] HT.
Or, daprs la dcorrlation de X ( k ) et de X(k) X ( k ) , on a :
Cov[X(k), X(k) X ( k ) ] = Var[X(k) X ( k ) ] = Pk.
Donc :
Cov[Y(k + 1) HA X ( k ) HBu(k), X(k + 1)] = (A PkAT + Q) HT = Pk+1HT.
Soit finalement :
Kk+1 = Pk+1HT[HPk+1HT + R]-1.
Pour itrer lalgorithme qui est rcursif, calculons enfin la matrice de covariance de lerreur destimation
au temps k+1. De lexpression de cette erreur :
X(k + 1) X ( k + 1 ) = A[X(k) X ( k ) ] + V(k+1) Kk+1[Y(k + 1) HA X ( k ) HBu(k)]
X(k + 1) X ( k + 1 ) = (I Kk+1H){A[X(k) X ( k ) ] + V(k + 1)} Kk+1 W(k + 1)

266

Lapprentissage statistique

soit pour la matrice de variance covariance :


Pk+1 = (I Kk+1H) (APkAT + Q) (I Kk+1H)T + Kk+1RKk+1T.

Importance de la distribution des retards dans un rseau rcurrent


Dans ce chapitre, on a vu des exemples de
(a)
3
(b)
3
(c)
3
(d)
3
rseaux de neurones boucls de type entresortie, constitus dun rseau de neurones
z 1
non boucl, dont la sortie est ramene
z 1
lentre avec un retard dune unit de temps.
2
2
2
2
4
4
On peut concevoir des modles de rseaux
rcurrents plus gnraux, notamment
1
1
1
1
4
4
lorsquon dsire raliser une modlisation
bote grise (dveloppe dans le chapitre
Figure 4-21. Importance du retard pour la mise jour dun
rseau de neurones.
2), dans laquelle on tient compte dquations
algbro-diffrentielles,
rsultant
dune
analyse physique ou physico-chimique du processus, pour structurer le rseau. Observons dabord que,
dans un rseau de neurones rcurrent, des retards doivent tre obligatoirement spcifis sous peine
dentraner une ambigut dans le comportement du rseau. Plus prcisment, rappelons la rgle nonce
dans le chapitre 2 : pour quun rseau de neurones boucl soit causal, il faut que tout cycle dans le graphe
du rseau possde un retard non nul.
La figure 4-16 compare limportance de la spcification des retards pour un rseau dont le graphe orient
ne comporte pas de circuit ferm (rseau non boucl) et pour un rseau rcurrent ou boucl dont le graphe
comporte des circuits.
Dans les schmas (a) et (b) on a reprsent le graphe dun rseau lmentaire quatre units fonctionnant
en boucle ouverte. Dans les schmas (c) et (d), on a adjoint un bouclage qui ferme le rseau. Les architectures statiques (connexions et poids des connexions) sont les mmes pour les rseaux (a) et (b) dune part,
(c) et (d) dautre part. Ces couples de rseaux diffrent par un oprateur retard introduit dans les graphes
des rseaux (b) et (d). tudions leffet de cet oprateur sur ltat du rseau dans les deux cas et en supposant que les entres des rseaux soient statiques.
Dans le cas (a), ltat de lunit 3 est dtermin au temps 1 par ltat initial des units 2 et 4, tandis que
ltat de lunit 4 est dtermin par ltat de lunit 1. Au temps 2, ltat de lunit 3 est dtermin par
ltat des units 2 et 4 donc en dfinitive par ltat des entres 1 et 2. Dans le cas (b) ltat de lunit 3
nest dtermin quau temps 2 et a le mme tat ce moment que dans le cas (a).
Remarque
En dnitive, dans les rseaux en boucle ouverte nourris par des entres statiques, ltat de toutes les units du rseau se stabilise sur un
tat nal qui ne dpend que de ltat initial des entres quelle que soit la distribution des retards et donc lordre de mise jour des units
(qui est suppos synchrone).

De plus, limportance de lordre de mise jour et des retards nest pas prise en compte dans un rseau
couche avec une propagation unilatrale de linformation et des connexions, qui concerne uniquement des
units dune couche vers les units des couches suivantes. Dans le schma de la figure 4-14, mme si le
rseau fonctionne en boucle ouverte avec connexion uniquement de ltat au temps k vers le contrleur et
le modle interne, on voit quune certaine ambigut existe quant lordre de mise jour. La rgle applique dans ce cas est celle dune mise jour synchrone des units dune mme couche, et squentielle dans
le sens de la propagation de linformation. Ainsi les units de la premire couche cache du rseau du
modle interne attendront-elles, pour se mettre jour, que le rseau simulant le contrleur ait dlivr

Identification neuronale
CHAPITRE 4

267

lentre commande du modle interne. Cette rgle est dautant plus importante que, dans ce cas, les
entres sont destines voluer avec le temps.
Remarque
Il faudra dailleurs distinguer dans ce cas la reprsentation du temps (un pas de temps pour la simulation de lensemble du rseau
compos du modle de contrleur et du modle interne) de celle des tapes de mise jour des diffrentes couches du rseau total lintrieur dun pas de temps de lalgorithme.

Examinons maintenant les cas (c) et (d) de la figure 4-16. Les schmas reprsentent larchitecture dun
rseau rcurrent. Cette architecture est identique relativement aux caractristiques statiques, et diffrente
par ladjonction dun oprateur retard dans le cas (d). Au temps 2, ltat de lunit 3 est diffrent dans les
cas (c) et (d), dpendant dans le cas (c) des tats initiaux des units 2 et 4, et dans le cas (d) des units 2
et 1. Cette diffrence se propage au temps suivant ltat de lunit 4 puis ltat de lunit 1 et ainsi de
suite, en introduisant chaque cycle des diffrences supplmentaires.
Remarque
Ltat des units des rseaux rcurrents ne se stabilise pas en gnral mme si le rseau est soumis des entres statiques. La
dynamique de cet tat dpend fortement de la distribution des retards et de lordre de mise jour des units du rseau.

Bibliographie
Une bibliographie commune aux chapitres 4 et 5 est donne en fin de chapitre 5 (p. 255).

5
Apprentissage dune commande
en boucle ferme
Le chapitre prcdent tait consacr la modlisation, par apprentissage (notamment par apprentissage
de rseaux de neurones), des systmes dynamiques commands ; le prsent chapitre prolonge cet expos,
en abordant le problme de la synthse, par apprentissage, dun systme de commande en boucle ferme.
La commande non linaire est une discipline en plein essor depuis une vingtaine dannes, sans que lon
puisse dire quil existe un corpus unifi et synthtique des mthodes employes, comparable celui dont
on dispose pour la commande linaire. On compte au contraire plthore de mthodes ; certaines tudes
sont trs thoriques et tablissent des thormes de commandabilit, dexistence dune commande stabilisante, de validit des techniques de linarisation, quil ne peut tre question dvoquer compltement
dans le cadre de cet ouvrage.
Nous rappellerons cependant certains lments de la thorie de la commande, en insistant sur le rapport entre
systme linaire et non linaire, dans la section suivante. En effet, comme cest souvent le cas pour lutilisation des rseaux de neurones dans les sciences de lingnieur, les techniques de commande neuronale
prolongent les techniques classiques de lautomatique non linaire en les appliquant un modle du systme
prcdemment identifi par apprentissage. Ces techniques sont exposes dans la section Synthse dune
commande neuronale par inversion du modle du processus , o lon aborde successivement linversion
directe simple mais souvent inefficace , la mthode du modle de rfrence la plus couramment
employe, et lutilisation des rseaux rcurrents dune pratique plus dlicate. Les sections suivantes sont
consacres lexpos des problmes de dcision optimale dans le cadre classique de la programmation
dynamique (section Programmation dynamique et commande optimale ), puis sa contrepartie en thorie
de lapprentissage (section Apprentissage par renforcement et programmation neuro-dynamique ). Les
techniques exposes ont t dcouvertes antrieurement lutilisation des rseaux de neurones, dans le cas
des espaces dtats discret, sous le nom dapprentissage par renforcement . Lutilisation de lapprentissage neuronal pour trouver de bonnes approximations a permis dtendre le champ dapplication de ces
mthodes en vitant lexplosion combinatoire qui limite trop souvent lemploi de lapprentissage par renforcement classique. Cet ensemble de techniques plus modernes, sur lexpos duquel sachve ce chapitre, a
reu rcemment le nom de programmation neuro-dynamique .

Gnralits sur la commande en boucle ferme


des systmes non linaires
Principe de la commande en boucle ferme
Le principe de la commande en boucle ferme ou par rtroaction (feedback) est dliminer les effets des
perturbations apportes au systme en fermant la boucle de commande, cest--dire en asservissant le

270

Lapprentissage statistique

signal de commande ltat du systme. Cette opration est effectue en construisant un systme de
commande, ou correcteur, ou encore contrleur, cest--dire un dispositif qui, prenant en entre ltat du
processus que lon cherche commander (ou plus gnralement la sortie du processus si ltat de celui-ci
nest pas compltement connu), lui associe la valeur du signal de commande appliquer au systme
linstant suivant. Considrons un systme dynamique command tel quil est dfini dans le chapitre 4 :
x(k + 1)=f[x(k), u(k)]
o x(k) est le vecteur dtat du modle linstant k, et u(k) est le vecteur des signaux de commande linstant
k. Le systme de commande calcule la valeur de la commande partir de ltat selon une fonction :
u(k) = [x(k)].
Cette fonction est appele la loi de commande.
Lobjectif le plus simple assign un systme de commande consiste maintenir le processus dans un tat
dsir en dpit des perturbations (on dit que la commande rejette les perturbations ) : on ralise alors
un asservissement . Un autre objectif possible est que la trajectoire dtat du systme commande soit
asservie une trajectoire dtats dsire : on ralise alors un systme de poursuite (tracking system).
Dans ces cas qui reviennent dans toutes les applications, ltat dsir au temps courant sappelle la
consigne et la forme naturelle de la loi de commande est celle dune fonction de la diffrence entre ltat
courant et la consigne.
Un tel dispositif de commande en boucle ferme est
schmatis dans la figure 5-1.
Dans le cas o ltat ne serait pas compltement
connu, la commande ne pourrait en gnral tre dtermine quen fonction de lobservation. Les quations
dun tel systme sont donc formes de lquation
dtat, de celle de mesure et de la loi de commande :
x(k + 1) = f[x(k), u(k)]
y(k) = g[x(k)]
u(k) = [ y(k)].

Consigne
(objectif dsir)

Commande

Processus

Sortie
Erreur

q -1

Figure 5-1. Principe de la commande en boucle ferme.

Il est clair que, dans tous les cas, un systme dynamique command muni dune commande en boucle
ferme se comporte comme un systme dynamique non command, et nous serons amen tudier sa
stabilit. Le fait quon introduise des bruits dans les quations sous la forme de processus stochastiques
ne change rien ce principe.
Nous avons dcrit, dans cette prsentation, une loi de commande qui ne dpend que de ltat ou de
lobservation au temps courant. On dit alors que cest une loi de commande statique. En fait, la loi de
commande peut exploiter toutes les informations passes disponibles : il sagit alors dune loi de
commande dynamique. Plus que dans dautres applications, la complexit de la loi de commande est
toutefois limite par les contraintes de temps de calcul : en effet, le calcul de la commande en boucle
ferme doit en principe tre excut pendant la priode dchantillonnage du contrleur pour permettre au
signal de commande dtre appliqu en temps rel.

Commandabilit
La commande du systme ne permet pas toujours datteindre lobjectif souhait. La proprit, pour le
systme command, de pouvoir atteindre lobjectif souhait sappelle la commandabilit. Mme les
modles les plus simples de systmes dynamiques commands, comme les modles linaires, ne
possdent pas ncessairement la proprit de commandabilit quand leur ordre est suprieur 1 (rappelons que lordre est la dimension du vecteur dtat