Vous êtes sur la page 1sur 471

Algorithmes

G. Dreyfus, J.-M. Martinez, M. Samuelides


M. B. Gordon, F. Badran, S. Thiria

Apprentissage
Sous la direction de Grard Dreyfus

statistique
Rseaux de neurones Cartes topologiques
Machines vecteurs supports
CD-R
r le

om
Su

li v r e
Cinq exemples de modles, offe
avec donnes et code source t a
vec ce
r
Neuro One 6.10.7*, outil
de cration de modles neuronaux
Compilateur C pour Windows.
Bibliothque non linaire
MonaEx70.dll, niveau 0.
* Version dvaluation de 6 semaines
pour MS-Windows NT, 2000, 2003, XP

Prvision
Data mining
Bio-ingnierie
Reconnaissance de formes
Robotique et commande de processus
Apprentissage
statistique
CHEZ LE MME DITEUR

Dans la mme collection

P. Nam, P.-H. Wuillemin, P. Leray, O. Pourret, A. Becker. Rseaux baysiens.


N11972, 3e dition, 2007, 424 pages (collection Algorithmes).

G. Fleury, P. Lacomme et A. Tanguy. Simulation vnements discrets.


Modles dterministes et stochastiques Exemples dapplications implments en Delphi et en C++.
N11924, 2006, 444 pages avec CD-Rom.

J. Richalet et al. La commande prdictive.


Mise en uvre et applications industrielles.
N11553, 2004, 256 pages.

P. Lacomme, C. Prins, M. Sevaux Algorithmes de graphes.


N11385, 2003, 368 pages, avec CD-Rom.

J. Dro, A. Ptrowski, P. Siarry, E. Taillard Mtaheuristiques pour loptimisation difficile.


Recuit simul, recherche tabou, algorithmes volutionnaires et algorithmes gntiques, colonies de fourmis
N11368, 2003, 368 pages.

A. Cornujols, L. Miclet. Apprentissage artificiel.


Concepts et algorithmes.
N11020, 2002, 638 pages.

Y. Collette, P. Siarry Optimisation multiobjectif.


N11168, 2002, 316 pages.

C. Guret, C. Prins, M. Sevaux. Programmation linaire.


65 problmes doptimisation modliss et rsolus avec Visual XPress.
N9202, 2000, 365 pages, avec CD-ROM.

Autres ouvrages

I. Hurbain, avec la contribution dE. Dreyfus. Mmento Unix/Linux.


N11954, 2006, 14 pages.

C. Jacquet. Mmento LaTeX.


N12244, 2007, 14 pages.
Apprentissage
statistique
G. Dreyfus, J.-M. Martinez, M. Samuelides
M. B. Gordon, F. Badran, S. Thiria
Sous la direction de Grard Dreyfus
DITIONS EYROLLES
61, bd Saint-Germain
75240 Paris Cedex 05
www.editions-eyrolles.com

Cet ouvrage est la troisime dition, avec mise jour et nouveau titre,
de louvrage paru lorigine sous le titre
Rseaux de neurones Mthodologie et applications
(ISBN: 978-2-212-11464-5)

Le code de la proprit intellectuelle du 1er juillet 1992 interdit en effet expressment la


photocopie usage collectif sans autorisation des ayants droit. Or, cette pratique sest
gnralise notamment dans les tablissements denseignement, provoquant une baisse
brutale des achats de livres, au point que la possibilit mme pour les auteurs de crer des
uvres nouvelles et de les faire diter correctement est aujourdhui menace.
En application de la loi du 11 mars 1957, il est interdit de reproduire intgralement ou
partiellement le prsent ouvrage, sur quelque support que ce soit, sans autorisation de lditeur ou du Centre
Franais dExploitation du Droit de Copie, 20, rue des Grands-Augustins, 75006 Paris.
Groupe Eyrolles, 2002, 2004, 2008, ISBN : 978-2-212-12229-9
Remerciements

Je tiens exprimer ma chaleureuse gratitude la direction de lcole Suprieure de Physique et de Chimie


Industrielles (Jacques Prost, Directeur, et Claude Boccara, Directeur Scientifique) et leurs prdcesseurs
Pierre-Gilles de Gennes et Jacques Lewiner, qui, ds 1982, une poque o le sujet ntait gure popu-
laire, ont apport un soutien continu aux recherches menes sur lapprentissage artificiel dans mon labo-
ratoire.
Je remercie galement, de la manire la plus vive, mes collaborateurs, prsents ou passs, dont les travaux
ont contribu faire progresser ce sujet difficile.
Mes remerciements vont aussi aux managers, ingnieurs et chercheurs des socits franaises et tran-
gres qui font ou ont fait confiance aux mthodes que nous avons dveloppes. Je tiens mentionner
spcialement Netral S.A., qui a accept de contribuer au contenu du CD-Rom qui accompagne cet
ouvrage.
Enfin, je suis heureux de remercier amicalement lditeur de ce livre, Muriel Shan Sei Fan, qui en a assur
la bonne fin avec une nergie et une bonne humeur inpuisables, ainsi que tous les auteurs : ils ont apport
leurs contributions avec enthousiasme et ponctualit, et ils ont accept de bonne grce les contraintes de
vocabulaire, de style et de notation quimposait notre volont commune de rdiger un ouvrage didactique,
accessible aux ingnieurs comme aux tudiants et aux chercheurs.
Grard Dreyfus

Je tiens remercier Jean-Baptiste Thomas et Patrick Raymond, responsables la Direction de lnergie


Nuclaire du CEA au Centre dtudes de Saclay, pour la confiance et le soutien quils mont accords sur
les activits rseaux de neurones artificiels. Je voudrais galement remercier chaleureusement mes
anciens thsards : Fabrice Gaudier, Manuel Dominguez, Lionel Montoliu et Vincent Vigneron qui ont
contribu largement aux travaux de recherche et dveloppement des rseaux de neurones dans mon labo-
ratoire.
Jean-Marc Martinez

Je remercie la direction scientifique de lONERA et le chef de projet Jean-Louis Gobert pour le soutien
accord des recherches dordre gnral sur les rseaux de neurones notamment dans le cadre du projet
fdrateur de contrle actif des coulements.
Je tiens remercier parmi mes tudiants en thse actuels ou passs, ceux qui ont directement contribu
faire progresser notre comprhension collective du contrle neuronal savoir : Emmanuel Dauc
(Universit dAix-Marseille), Alain Dutech (INRIA, Nancy), Marc Lion (ingnieur informaticien),
Laurent Perrinet (ONERA-DTIM). Il faut aussi mentionner les tudiants de Suparo dont jai guid les
projets lan dernier et dont les ractions mont aides amliorer le contenu des chapitres 4 et 5.
Enfin, je voudrais ajouter mes remerciements personnels Grard Dreyfus pour le dialogue scientifique
qui sest instaur entre nous travers ces changes trs enrichissants pour moi. Bien conscient que les
justifications mathmatiques ne suffisent pas valuer lintrt dun algorithme, jai donc attach un
grand prix lexprience pratique que Grard ma transmise par ses observations.
Manuel Samuelides
Lapprentissage statistique
II

Je remercie mes tudiants du DEA de Sciences Cognitives de Grenoble. Au fil des annes, ils ont
contribu faire voluer mon cours par leurs remarques et leurs questions. Ils ont apport des corrections
mes notes, dont une partie a servi de base la rdaction du chapitre 6.
Le travail avec mes tudiants de thse : Juan Manuel Torres Moreno, Arnaud Buhot, Sebastian Risau
Gusman, Christelle Godin, ma apport la joie de la recherche partage, et a enrichi ma comprhension
du domaine de lapprentissage. Je les en remercie chaleureusement.
Enfin, je tiens remercier mon collgue Bernard Amy pour sa relecture critique, amicale et pleine de
remarques pertinentes.
Mirta B. Gordon

Le chapitre qui est prsent est le rsultat de nombreux efforts, il reprsente une collaboration fructueuse
entre informaticiens, physiciens et mathmaticiens. Nous tenons remercier amicalement tous les cher-
cheurs qui, par leur travail ou lintrt quils lui ont port, ont permis la ralisation de ce travail et tout
particulirement : Mziane Yacoub, Carlos Mejia, Michel Crpon, Awa Niang, Ludvine Gross, F. Anouar,
Philippe Daigremont et Dominique Frayssinet.
Fouad Badran, Sylvie Thiria

Je tiens remercier tous les collaborateurs du CEA et les tudiants qui ont particip ces travaux de
recherche. Sans tre exhaustif, je tiens exprimer toute ma gratitude Caroline Privault, Dominique
Derou-Madeline, Muriel Pitiot, Jol Feraud, Jean-Marc Bollon, Georges Gonon, Claire Jausions, Pierre
Puget et enfin Jean-Jacques Niez, qui a initi les recherches en rseaux de neurones au CEA-LETI.
Laurent Hrault
Sommaire

Avant-propos et guide de lecture XI

Guide de lecture XII


Dtail des contributions XIII

1 Lapprentissage statistique : pourquoi, comment ? 1

Introduction 1
Premier exemple : un problme lmentaire dapprentissage statistique 2
Point de vue algorithmique 3
Point de vue statistique 4
Quelques dfinitions concernant les modles 5
Modles statiques 5
Modles dynamiques 6
Deux exemples acadmiques dapprentissage supervis 7
Un exemple de modlisation pour la prdiction 7
Un exemple de classification 11
Conclusion 16
lments de thorie de lapprentissage 16
Fonction de perte, erreur de prdiction thorique 17
Dilemme biais-variance 22
De la thorie la pratique 25
Remplacer des intgrales par des sommes 26
Bornes sur lerreur de gnralisation 27
Minimisation du risque structurel 30
Conception de modles en pratique 30
Collecte et prtraitement des donnes 30
Les donnes sont prexistantes 30
Les donnes peuvent tre spcifies par le concepteur 30
Prtraitement des donnes 31
Slection des variables 31
Apprentissage des modles 32
Slection de modles 32
Slection de modles 32
Validation simple (hold-out) 32
Lapprentissage statistique
IV

Validation croise ( cross-validation ) 33


Leave-one-out 34
Slection de variables 35
Cadre thorique 36
Mthode de la variable sonde 37
Rsum : stratgies de conception 47
Conception de modles linaires par rapport leurs paramtres (rgression linaire) 48
Slection de variables pour les modles linaires en leurs paramtres 48
Apprentissage de modles linaires en leurs paramtres : la mthode des moindres carrs 49
Proprits de la solution des moindres carrs 51
Estimation de la qualit de lapprentissage 52
Interprtation gomtrique 53
Dilemme biais-variance pour les modles linaires 54
Slection de modles linaires 56
Moindres carrs par orthogonalisation de Gram-Schmidt 59
lments de statistiques 60
Quest-ce quune variable alatoire ? 60
Esprance mathmatique dune variable alatoire 62
Estimateur non biais 63
Variance dune variable alatoire 64
Autres distributions utiles 65
Intervalles de confiance 66
Tests dhypothse 68
Conclusion 70
Bibliographie 70

2 Les rseaux de neurones 73

Introduction 73
Rseaux de neurones : dfinitions et proprits 73
Les neurones 74
Les rseaux de neurones 75
Proprit fondamentale des rseaux de neurones statiques (non boucls) :
lapproximation parcimonieuse 82
quoi servent les rseaux de neurones non boucls apprentissage supervis ?
Modlisation statique et discrimination (classification) 84
quoi servent les rseaux de neurones apprentissage
non supervis ? Analyse et visualisation de donnes 87
Sommaire
V

quoi servent les rseaux de neurones boucls apprentissage supervis ? Modlisation


dynamique bote noire
et semi-physique ; commande de processus 87
Quand et comment mettre en uvre des rseaux
de neurones apprentissage supervis ? 88
Quand utiliser les rseaux de neurones ? 88
Comment mettre en uvre les rseaux de neurones ? 89
Conclusion 93
Rseaux de neurones apprentissage supervis
et discrimination (classification) 93
Quand est-il opportun dutiliser un classifieur statistique ? 93
Classification statistique et formule de Bayes 95
Classification et rgression 96
Modlisation et classification de donnes structures :
les graph machines 103
Dfinitions 104
Apprentissage 105
Deux exemples acadmiques 106
Exemples dapplications 107
Introduction 107
Reconnaissance de formes :
la lecture automatique de codes postaux 107
Une application en contrle non destructif :
la dtection de dfauts dans des rails par courants de Foucault 111
Fouille de donnes : le filtrage de documents 112
Aide la dcouverte de mdicaments : prdiction de proprits chimiques et dactivits
thrapeutiques de molcules 116
Une application en formulation :
la prdiction de la temprature de liquidus de verres 118
Modlisation dun procd de fabrication : le soudage par points 118
Application en robotique :
modlisation de lactionneur hydraulique dun bras de robot 121
Modlisation semi-physique dun procd manufacturier 122
Contrle de lenvironnement : hydrologie urbaine 123
Une application en robotique mobile :
le pilotage automatique dun vhicule autonome 124
Techniques et mthodologie de conception de modles statiques (rseaux non boucls) 125
Slection des variables 126
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl 126
Lapprentissage statistique
VI

Slection de modles 143


Techniques et mthodologie de conception de modles dynamiques
(rseaux boucls ou rcurrents) 156
Reprsentations dtat et reprsentations entre-sortie 157
Les hypothses concernant le bruit et leurs consquences sur la structure, lapprentissage
et lutilisation du modle 158
Apprentissage non adaptatif des modles dynamiques sous forme canonique 166
Que faire en pratique ? Un exemple rel de modlisation bote noire 172
Mise sous forme canonique des modles dynamiques 175
Modlisation dynamique bote grise 179
Principe de la modlisation semi-physique 179
Conclusion : quels outils ? 188
Complments thoriques et algorithmiques 189
Quelques types de neurones usuels 189
Algorithme de Ho et Kashyap 191
Complment algorithmique : mthodes doptimisation de Levenberg-Marquardt
et de BFGS 191
Complment algorithmique : mthodes de recherche unidimensionnelle
pour le paramtre dapprentissage 193
Complment thorique : distance de Kullback-Leibler entre deux distributions gaussiennes 194
Complment algorithmique : calcul des leviers 196
Bibliographie 197

3 Complments de mthodologie pour la modlisation :


rduction de dimension et r-chantillonnage 203

Pr-traitements 204
Pr-traitements des entres 204
Pr-traitement des sorties pour la classification supervise 204
Pr-traitement des sorties pour la rgression 205
Rduction du nombre de composantes 206
Analyse en composantes principales 206
Principe de lACP 206
Analyse en composantes curvilignes 210
Formalisation de lanalyse en composantes curvilignes 211
Algorithme danalyse en composantes curvilignes 212
Mise en uvre de lanalyse en composantes curvilignes 213
Qualit de la projection 214
Difficults prsentes par lanalyse en composantes curvilignes 214
Sommaire
VII

Application en spectromtrie 215


Le bootstrap et les rseaux de neurones 216
Principe du bootstrap 217
Algorithme du bootstrap pour calculer un cart-type 218
Lerreur de gnralisation estime par bootstrap 218
La mthode NeMo 219
Test de la mthode NeMo 221
Conclusions 223
Bibliographie 224

4 Identification neuronale de systmes dynamiques


commands et rseaux boucls (rcurrents) 225

Formalisation et exemples de systmes dynamiques commands temps discret 226


Formalisation dun systme dynamique command par lquation dtat 226
Exemple dun systme dynamique espace dtat discret 227
Exemple dun oscillateur linaire 227
Exemple du pendule invers 228
Exemple dun oscillateur non linaire : loscillateur de Van der Pol 229
Introduction dun bruit dtat dans un systme dynamique espace dtat discret :
notion de chane de Markov 229
Introduction dun bruit dtat dans un systme dynamique tats continus :
modle linaire gaussien 231
Modles auto-rgressifs 231
Limites des modlisations des incertitudes sur le modle par un bruit dtat 233
Identification de systmes dynamiques commands par rgression 233
Identification dun systme dynamique command par rgression linaire 233
Identification dun systme dynamique non linaire par rseaux de neurones non boucls 237
Identification adaptative (en ligne) et mthode de lerreur de prdiction rcursive 239
Estimateur rcursif de la moyenne empirique 239
Estimateur rcursif de la rgression linaire 241
Identification rcursive dun modle AR 242
Mthode gnrale de lerreur de prdiction rcursive 243
Application lidentification neuronale dun systme dynamique command 244
Filtrage par innovation dans un modle dtat 245
Introduction dune quation de mesure et problme du filtrage 245
Filtrage de Kalman 247
Extension du filtre de Kalman 251
Lapprentissage statistique
VIII

Apprentissage adaptatif dun rseau de neurones par la mthode du filtrage de Kalman 252
Rseaux neuronaux rcurrents ou boucls 254
Simulateur neuronal dun systme dynamique command en boucle ouverte 254
Simulateur neuronal dun systme dynamique command en boucle ferme 255
Quelques rseaux boucls particuliers 255
Mise sous forme canonique des rseaux boucls 258
Apprentissage des rseaux de neurones rcurrents ou boucls 258
Apprentissage dirig (teacher forcing) 259
Dpliement de la forme canonique et rtropropagation travers le temps 260
Apprentissage en temps rel des rseaux boucls 262
Application des rseaux neuronaux boucls lidentification de systmes dynamiques
commands mesurs 263
Complments algorithmiques et thoriques 264
Calcul du gain de Kalman et propagation de la covariance 264
Importance de la distribution des retards dans un rseau rcurrent 266
Bibliographie 267

5 Apprentissage dune commande en boucle ferme 269

Gnralits sur la commande en boucle ferme des systmes non linaires 269
Principe de la commande en boucle ferme 269
Commandabilit 270
Stabilit des systmes dynamiques commands 271
Synthse dune commande neuronale par inversion du modle du processus 273
Inversion directe 273
Utilisation dun modle de rfrence 276
Commande avec modle interne 277
Commande prdictive et utilisation des rseaux rcurrents 278
Programmation dynamique et commande optimale 280
Exemple de problme dterministe espace dtats discret 280
Exemple de problme de dcision markovienne 281
Dfinition dun problme de dcision markovienne 282
Programmation dynamique horizon fini 286
Programmation dynamique horizon infini et cot actualis 287
Problmes de dcision markovienne partiellement observs 288
Apprentissage par renforcement et programmation neuro-dynamique 289
valuation dune politique par la mthode de Monte-Carlo et apprentissage
par renforcement 289
Sommaire
IX

Prsentation de lalgorithme TD dvaluation dune politique 290


Apprentissage par renforcement : mthode du Q-learning 292
Apprentissage par renforcement et approximation neuronale 294
Bibliographie 297

6 La discrimination 301

Apprentissage de la discrimination 302


Erreurs dapprentissage et de gnralisation 303
Surfaces discriminantes 304
Sparation linaire : le perceptron 305
Gomtrie de la classification 306
Algorithmes dapprentissage pour le perceptron 309
Algorithme Minimerror 317
Exemple dapplication : la classification de signaux de sonar 318
Algorithmes dapprentissage adaptatifs ( en ligne ) 320
Interprtation de lapprentissage en termes de forces 320
Au-del de la sparation linaire 321
Perceptron sphrique 321
Heuristiques constructives 322
Algorithme constructif NetLS 323
Machines vecteurs supports (Support Vector Machines) 325
SVM marge dure 327
Machines noyaux (Kernel machines) 329
SVM marge floue (Soft margin SVM) 331
SVM pratique 333
Problmes plusieurs classes 334
Questions thoriques 335
Formulation probabiliste de lapprentissage et infrence baysienne 335
Thorie statistique de lapprentissage 340
Prdiction du comportement typique des classifieurs 342
Complments 344
Bornes du nombre ditrations de lalgorithme du perceptron 344
Nombre de dichotomies linairement sparables 345
Bibliographie non commente 345

7 Cartes auto-organisatrices et classification automatique 349

Notations et dfinitions 351


Lapprentissage statistique
X

Mthode des k-moyennes 352


Prsentation de lalgorithme 352
Version stochastique des k-moyennes 354
Interprtation probabiliste des k-moyennes 357
Carte topologique auto-organisatrice 360
Les cartes auto-organisatrices 360
Lalgorithme doptimisation non adaptative des cartes topologiques 363
Lalgorithme de Kohonen 369
Discussion 370
Architecture neuronale et carte topologique 371
Architecture et carte topologique volutive 372
Interprtation de lordre topologique 373
Carte topologique probabiliste 375
Classification et carte topologique 378
tiquetage de la carte par donnes expertises 378
Recherche dune partition adapte aux classes recherches 379
tiquetage et classification 381
Applications 382
Une application en tldtection satellitaire 383
Carte topologique et recherche documentaire 407
Extension des cartes topologiques aux donnes catgorielles 409
Codage et analyse des donnes catgorielles 409
Cartes topologiques et donnes binaires 410
Cartes topologiques probabilistes et donnes catgorielles (CTM) 413
Discussion 416
Exemples dapplication 417
Le modle BTM 417
Analyse des correspondances multiples 418
Le modle CTM 419
Bibliographie 424

Bibliographie commente 427

Outils pour les rseaux de neurones et contenu du CD-Rom 431

Installer Neuro One 431


Prsentation des exemples 436
Exemple 1 436
Sommaire
XI

Exemple 2 436
Exemple 3 437
Exemple 4 437
Exemple 5 437
Installation des exemples 437
Compiler le code source 438
Excuter le code source 438
Excuter le code source Visual Basic 439
Visualiser les modles 440
La librairie NDK (Neuro Developer Kit) 440
Programme de dmonstration de la librairie 440
Les compilateurs C 441
Licence 442

Index 443
Avant-propos et guide de lecture

En une vingtaine dannes, lapprentissage artificiel est devenu une branche majeure des mathmatiques
appliques, lintersection des statistiques et de lintelligence artificielle. Son objectif est de raliser des
modles qui apprennent par lexemple : il sappuie sur des donnes numriques (rsultats de mesures
ou de simulations), contrairement aux modles de connaissances qui sappuient sur des quations
issues des premiers principes de la physique, de la chimie, de la biologie, de lconomie, etc. Lapprentis-
sage statistique est dune grande utilit lorsque lon cherche modliser des processus complexes,
souvent non linaires, pour lesquels les connaissances thoriques sont trop imprcises pour permettre des
prdictions prcises. Ses domaines dapplications sont multiples : fouille de donnes, bio-informatique,
gnie des procds, aide au diagnostic mdical, tlcommunications, interface cerveau-machines, et bien
dautres.
Cet ouvrage reflte en partie lvolution de cette discipline, depuis ses balbutiements au dbut des
annes 1980, jusqu sa situation actuelle ; il na pas du tout la prtention de faire un point, mme partiel,
sur lensemble des dveloppements passs et actuels, mais plutt dinsister sur les principes et sur les
mthodes prouvs, dont les bases scientifiques sont sres. Dans un domaine sans cesse parcouru de
modes multiples et phmres, il est utile, pour qui cherche acqurir les connaissances et principes de
base, dinsister sur les aspects prennes du domaine.
Cet ouvrage fait suite Rseaux de neurones, mthodologies et applications, des mmes auteurs, paru
en 2000, rdit en 2004, chez le mme diteur, puis publi en traduction anglaise chez Springer.
Consacr essentiellement aux rseaux de neurones et aux cartes auto-adaptatives, il a largement contribu
populariser ces techniques et convaincre leurs utilisateurs quil est possible dobtenir des rsultats
remarquables, condition de mettre en uvre une mthodologie de conception rigoureuse, scientifique-
ment fonde, dans un domaine o lempirisme a longtemps tenu lieu de mthode.
Tout en restant fidle lesprit de cet ouvrage, combinant fondements mathmatiques et mthodologie de
mise en uvre, les auteurs ont largi le champ de la prsentation, afin de permettre au lecteur daborder
dautres mthodes dapprentissage statistique que celles qui sont directement dcrites dans cet ouvrage.
En effet, les succs de lapprentissage dans un grand nombre de domaines ont pouss au dveloppement
de trs nombreuses variantes, souvent destines rpondre efficacement aux exigences de telle ou telle
classe dapplications. Toutes ces variantes ont nanmoins des bases thoriques et des aspects mthodolo-
giques communs, quil est important davoir prsents lesprit.
Le terme dapprentissage, comme celui de rseau de neurones, voque videmment le fonctionnement du
cerveau. Il ne faut pourtant pas sattendre trouver ici dexplications sur les mcanismes de traitement des
informations dans les systmes nerveux ; ces derniers sont dune grande complexit, rsultant de
processus lectriques et chimiques subtils, encore mal compris en dpit de la grande quantit de donnes
exprimentales disponibles. Si les mthodes dapprentissage statistique peuvent tre dune grande utilit
pour crer des modles empiriques de telle ou telle fonction ralise par le systme nerveux, celles qui
sont dcrites dans cet ouvrage nont aucunement la prtention dimiter, mme vaguement, le fonctionne-
ment du cerveau. Lapprentissage artificiel, notamment statistique, permettra-t-il un jour de donner aux
ordinateurs des capacits analogues celles des tres humains ? Se rapprochera-t-on de cet objectif en
perfectionnant les techniques actuelles dapprentissage, ou bien des approches radicalement nouvelles
sont-elles indispensables ? Faut-il sinspirer de ce que lon sait, ou croit savoir, sur le fonctionnement du
cerveau ? Ces questions font lobjet de dbats passionns, et passionnants, au sein de la communaut
scientifique : on nen trouvera pas les rponses ici.
Lapprentissage statistique
XII

Les objectifs de ce livre sont, plus modestement :


de convaincre les ingnieurs, chercheurs, et dcideurs, de lintrt et de la grande efficacit de lappren-
tissage statistique ;
de leur permettre de le mettre en uvre de manire simple et raisonne dans des applications.

Guide de lecture
La varit des motivations qui peuvent amener le lecteur aborder cet ouvrage justifie sans doute un guide
de lecture. En effet, les applications de lapprentissage statistique ne ncessitent pas toutes la mise en
uvre des mmes mthodes.
Le premier chapitre ( Lapprentissage statistique : pourquoi, comment ? ) constitue une prsentation
gnrale des principes de lapprentissage statistique et des problmes fondamentaux rsoudre. partir
dexemples acadmiques trs simples, le lecteur est amen dcouvrir les problmes que pose la concep-
tion de modles par apprentissage. Ces problmes sont ensuite formaliss par la prsentation de quelques
lments de la thorie de lapprentissage. La conception des modles les plus simples les modles
linaires en leurs paramtres est dcrite. Enfin, les diffrentes tapes de la conception dun modle par
apprentissage statistique sont dtailles : slection de variables, apprentissage, slection de modle, test
du modle slectionn.
Le chapitre 2 est entirement consacr aux rseaux de neurones, qui constituent une des familles de
modles les plus utiliss. Les lecteurs qui sintressent un problme de modlisation statique liront ce
chapitre jusqu la section Techniques et mthodologie de conception de modles statiques (rseaux
non boucls) incluse. Ils tireront galement profit de la lecture du chapitre 3 ( Complments de mtho-
dologie pour la modlisation : rduction de dimension et validation de modle par r-chantillonnage ).
Les lecteurs qui se posent un problme de modlisation dynamique liront le chapitre 2 en entier, le
chapitre 3 et le chapitre 4 ( Identification neuronale de systmes dynamiques commands et rseaux
boucls (rcurrents) . Sils veulent utiliser ce modle au sein dun dispositif de commande de processus,
ils liront ensuite le chapitre 5 ( Apprentissage dune commande en boucle ferme ).
Les lecteurs qui sintressent un problme de classification supervise (ou discrimination) liront le
chapitre 1, la section Rseaux de neurones apprentissage supervis et discrimination du chapitre 2,
puis le chapitres 3 ( Complments de mthodologie pour la modlisation : rduction de dimension et
validation de modle par r-chantillonnage ) et surtout le chapitre 6 ( Discrimination ), qui introduit,
de manire originale, les machines vecteurs supports.
Enfin, les lecteurs qui cherchent rsoudre un problme qui relve de lapprentissage non supervis
passeront du chapitre 1 au chapitre 3, puis au chapitre 7 ( Cartes auto-organisatrices et classification
automatique ).
Avant-propos
XIII

Dtail des contributions

Chapitres 1 et 2 Grard Dreyfus est professeur lcole Suprieure de Physique et de Chimie Indus-
trielles (ESPCI-Paristech), et directeur du Laboratoire dlectronique de cet tablis-
sement. Il enseigne lapprentissage statistique lESPCI, ainsi que dans plusieurs
masters et mastres. Depuis 1988, il organise chaque anne deux sessions de forma-
tion continue pour ingnieurs, consacres lapprentissage statistique et ses appli-
cations industrielles et financires. Depuis 1982, les recherches de son laboratoire
sont entirement consacres la modlisation et lapprentissage, pour lingnierie
et la neurobiologie.
ESPCI, Laboratoire dlectronique, 10 rue Vauquelin, F 75005 Paris France
Chapitre 3 Jean-Marc Martinez, ingnieur au Centre dtudes de Saclay, effectue des recher-
ches dans le domaine des mthodes adaptes la supervision de la simulation. Il
enseigne les mthodes dapprentissage statistique lINSTN de Saclay et vry en
collaboration avec le LSC, unit mixte CEA Universit.
DM2S/SFME Centre dtudes de Saclay, 91191 Gif sur Yvette France
Lapprentissage statistique
XIV

Chapitres 4 et 5 Manuel Samuelides, professeur lcole Nationale Suprieure de lAronautique et


de lEspace (Suparo), et chef du dpartement de Mathmatiques Appliques de cette
cole, enseigne les probabilits, loptimisation et les techniques probabilistes de
lapprentissage et de la reconnaissance des formes. Il effectue des recherches sur les
applications des rseaux de neurones au Dpartement de Traitement de lInformation
et Modlisation de lONERA.
cole Nationale Suprieure de lAronautique et de lEspace, dpartement Mathma-
tiques Appliques, 10 avenue douard Belin, BP 4032, 31055 Toulouse Cedex
France
Chapitre 6 Mirta B. Gordon, physicienne et directrice de recherches au CNRS, est responsable
de lquipe Apprentissage: Modles et Algorithmes (AMA) au sein du laboratoire
TIMC-IMAG (Grenoble). Elle effectue des recherches sur la modlisation des
systmes complexes adaptatifs, et sur la thorie et les algorithmes dapprentissage.
Elle enseigne ces sujets dans diffrentes coles doctorales.
Laboratoire TIMC IMAG, Domaine de la Merci Bt. Jean Roget, 38706 La Tranche
France
Chapitre 7 Fouad Badran, professeur au CNAM (CEDRIC), y enseigne les rseaux de
neurones.
Mustapha Lebbah est matre de confrences luniversit de Paris 13.
Laboratoire dInformatique Mdicale et Bio-Informatique (LIMBIO), 74, rue Marcel
Cachin 93017 Bobigny Cedex France
Sylvie Thiria est professeur luniversit de Versailles Saint-Quentin-en-Yvelynes,
chercheur au LODYC (Laboratoire dOcanographie DYnamique et de Climato-
logie). Elle effectue des recherches sur la modlisation neuronale et sur son applica-
tion des domaines comme la gophysique.
Laboratoire dOcanographie Dynamique et de Climatologie (LODYC), case 100,
Universit Paris 6, 4 place Jussieu 75252 Paris cedex 05 France
1
Lapprentissage statistique :
pourquoi, comment ?

Introduction
Une des tches essentielles du cerveau consiste transformer des informations en connaissances : identi-
fier les lettres qui constituent un texte, les assembler en mots et en phrases, en extraire un sens, sont des
activits qui nous paraissent naturelles une fois lapprentissage ncessaire accompli avec succs.
Lobjectif de lapprentissage statistique est dimiter, laide dalgorithmes excuts par des ordinateurs,
la capacit quont les tres vivants apprendre par lexemple. Ainsi, pour apprendre un enfant la lecture
des lettres ou des chiffres, on lui prsente des exemples de ceux-ci, crits dans des styles et avec des
polices diffrents. On ne fournit gnralement pas lenfant une description analytique et discursive de la
forme et de la topologie des caractres : on se contente de lui montrer des exemples. la fin de lappren-
tissage, on attend de lenfant quil soit capable de lire non seulement tous les chiffres et lettres qui lui ont
t prsents durant son apprentissage, mais galement tous les chiffres et lettres quil est susceptible de
rencontrer : en dautres termes, on attend de lui quil ait une capacit de gnralisation partir des exem-
ples qui lui ont t prsents. De mme, lissue de lapprentissage dun modle statistique partir
dexemples, celui-ci doit tre capable de gnraliser, cest--dire de fournir un rsultat correct, dans des
situations quil na pas connues pendant lapprentissage.
Considrons deux exemples simples de tches qui peuvent tre accomplies par apprentissage artificiel :
Dans les centres de tri postal, la lecture automatique des codes postaux, et des autres lments de
ladresse des lettres et paquets, est frquemment effectue laide de modles obtenus par apprentissage
statistique, partir dexemples de chacune des classes de chiffres. Il sagit l dun problme de
classification : chaque chiffre inconnu doit tre attribu une classe parmi les 10 classes de chiffres
possibles (ou tre attribu une classe dite de rejet si le chiffre est trop mal crit pour tre reconnu
par la machine : lobjet postal doit alors tre trait manuellement).
Dans lindustrie pharmaceutique, on cherche prdire lactivit thrapeutique dune molcule partir
de sa structure, avant mme de synthtiser cette molcule, afin dviter quune synthse coteuse risque
de se rvler finalement inutile. Cette prdiction est frquemment effectue par des modles, construits
par apprentissage statistique, partir de bases de donnes de molcules dont les activits thrapeutiques
sont connues.
Ces deux problmes, quoique trs diffrents, ont une caractristique commune essentielle : ils ne peuvent
pas tre rsolus par lapplication de connaissances existant a priori. Il nexiste pas dquation mathma-
tique, issue des connaissances des chimistes et des pharmaciens, qui permette de prdire prcisment
lactivit dune molcule connaissant sa structure ; de mme, il nexiste pas dquation qui dcrive les
proprits topologiques des chiffres manuscrits. Cest dans de telles conditions que le recours lappren-
Lapprentissage statistique
2

tissage statistique partir dexemples se rvle trs fructueux. Nous prsenterons bien dautres exemples
dapplications dans ce chapitre et les suivants.
Cet ouvrage prsente trois grandes familles de modles statistiques obtenus par apprentissage artificiel
les rseaux de neurones, les machines vecteur supports et les cartes auto-adaptatives qui connaissent
un grand succs, depuis plusieurs annes ; ils font lobjet de trs nombreuses applications.
Lobjectif de ce chapitre est de prsenter les bases de la conception dun modle par apprentissage, de
manire aussi intuitive que possible, mais avec la rigueur ncessaire pour une mise en uvre raisonnable
et lobtention de rsultats fiables. On prsente tout dabord un exemple trs lmentaire de modlisation
par apprentissage, qui montre la dualit entre lapproche algorithmique, traditionnelle en apprentissage,
dune part, et lapproche statistique, qui en est devenue indissociable, dautre part. La notion fondamen-
tale tant celle de modle, on prsente ensuite quelques dfinitions qui prcisent ce que lon entend par
modle dans cet ouvrage ; on introduit notamment la distinction entre modles linaires et modles non
linaires en les paramtres, ainsi que la distinction entre modles statiques et modles dynamiques. La
section suivante dcrit deux problmes acadmiques dapprentissage, lun dans le domaine de la classifi-
cation, lautre dans celui de la prdiction ; ces exemples simples permettent de mettre en vidence le
dilemme biais-variance, qui constitue un problme central pour la pratique de lapprentissage statistique.
On prsente ensuite, de manire plus formelle, les lments de la thorie de lapprentissage : fonction de
perte, erreur de prdiction thorique, classifieur de Bayes, dilemme biais-variance. Il sagit l essentielle-
ment de rsultats asymptotiques, valables dans lhypothse o le nombre dexemples est infini. La
cinquime section est plus proche de la pratique, en ce sens que les rsultats qui y sont prsents tiennent
compte du fait que les donnes sont en nombre fini : ce sont les bornes sur lerreur de prdiction, fournies
par la thorie de V. Vapnik. Les quatre sections suivantes sont de nature entirement pratique : elles expo-
sent les diffrentes tches accomplir pour concevoir un modle par apprentissage collecte des donnes,
prtraitements, slection des variables, apprentissage, slection de modles. Ces deux dernires tches
font lobjet de deux sections suivies dun rsum de la stratgie de conception de modles. On prsente
ensuite a conception des modles les plus simples : les modles linaires en leurs paramtres. Enfin, la
dernire section du chapitre fournit les lments de statistiques ncessaires une bonne comprhension
de la mise en uvre des mthodes dcrites tout au long de louvrage.

Premier exemple : un problme lmentaire


dapprentissage statistique
Comme indiqu plus haut, lobjectif de lapprentissage statistique est de raliser, partir dexemples, un
modle prdictif dune grandeur numrique, de nature quelconque (physique, chimique, biologique,
financire, sociologique, etc.).
La dmarche de conception dun modle par apprentissage ncessite de postuler une fonction, dont les
variables (galement appeles facteurs) sont susceptibles davoir une influence sur la grandeur
modliser ; on choisit cette fonction parce que lon pense quelle est susceptible
dapprendre les donnes existantes, cest--dire de les reproduire le mieux possible,
de gnraliser, cest--dire de prdire le comportement de la grandeur modliser dans des circons-
tances qui ne font pas partie des donnes dapprentissage.
Cette fonction dpend de paramtres ajustables : lapprentissage artificiel consiste en lajustement de ces
paramtres de telle manire que le modle ainsi obtenu prsente les qualits requises dapprentissage et
de gnralisation.
Lapprentissage statistique : pourquoi, comment ?
3
CHAPITRE 1

Dans cet ouvrage, toutes les variables seront regroupes en un vecteur not x, et tous les paramtres en un
vecteur not w. Un modle statique sera dsign par g(x, w) : aprs apprentissage, cest--dire estimation
des paramtres w, la valeur que prend la fonction, lorsque les variables prennent un ensemble de valeurs
x, constitue la prdiction effectue par le modle. Les modles dynamiques seront dfinis dans la section
suivante, intitule Quelques dfinitions concernant les modles .
titre dexemple trs simple de modle statique, supposons que lon ait effectu N mesures (p1, p2, ,
pN) du poids dun objet, avec des balances et dans des lieux diffrents. Nous cherchons estimer le poids
de cet objet. Nous observons que les rsultats des mesures sont tous peu prs identiques, des fluctua-
tions prs qui peuvent tre dues limprcision des mesures, aux rglages diffrents des balances, ou
des variations locales de lacclration de la pesanteur. On peut donc supposer raisonnablement que la
masse de lobjet est constante ; en consquence, la premire tape de conception dun modle prdictif
consiste postuler un modle de la forme
g ( x, w ) = w ,
o w est un paramtre constant dont la valeur est lestimation du poids de lobjet. La deuxime tape consiste
estimer la valeur de w partir des mesures disponibles : cest ce qui constitue lapprentissage proprement
dit. Une fois lapprentissage termin, le modle fournit une estimation du poids de lobjet, donc une prdic-
tion du rsultat de la mesure de celle-ci, quels que soient la balance utilise et le lieu de la mesure.
Cet exemple contient donc, sous une forme trs simplifie, les tapes que nous avons dcrites plus haut :
On sest fix un objectif : prdire la valeur dune grandeur ; dans cet exemple trs simple, cette valeur
est constante, mais, en gnral, la valeur prdite dpend de variables x.
On a postul un modle g(x, w), o x est le vecteur des variables du modle, et w est le vecteur des para-
mtres du modle ; dans cet exemple, il ny a pas de variable puisque la grandeur prdire est constante,
et il y a un seul paramtre w. Le modle postul est donc simplement la fonction constante g(x, w) = w.
Il reste alors estimer lunique paramtre du modle, cest--dire effectuer lapprentissage du modle
partir des donnes disponibles.
Cet apprentissage peut tre considr sous deux points de vue, qui suggrent deux mthodes destimation
diffrentes ; elles conduisent videmment au mme rsultat.

Point de vue algorithmique


Nous cherchons la valeur du paramtre w pour laquelle la prdiction du modle est aussi proche que
possible des mesures. Il faut donc dfinir une distance entre les prdictions et les mesures ; la distance
la plus frquemment utilise est la fonction de cot des moindres carrs
N

( )
J ( w ) = pk g ( x k , w ) ,
2

k =1

cest--dire la somme des carrs des diffrences entre les prdictions g(xk, w) et les mesures pk. xk dsigne
le vecteur des valeurs que prennent les variables lors de la mesure k. Puisque nous avons postul un
modle constant, cette fonction de cot scrit
N
J ( w ) = ( pk w ) .
2

k =1

Pour trouver la valeur de w pour laquelle cette fonction est minimale, il suffit dcrire que sa drive est
nulle :
Lapprentissage statistique
4

dJ ( w )
= 0,
dw
ce qui donne :

1 N
w= pk .
N k =1
Le meilleur modle prdictif, au sens de la distance des moindres carrs que nous avons choisie, et
compte tenu des donnes dont nous disposons, sous lhypothse que la masse de lobjet est constante, est
donc

1 N
g ( x, w ) = pk .
N k =1
Le poids prdit est donc simplement la moyenne des poids mesurs.

Point de vue statistique


Prenons prsent le problme sous langle des statistiques. Puisque lon a de bonnes raisons de penser
que le poids p0 de cet objet est constant, il est naturel, dun point de vue statistique, de modliser les rsul-
tats de ses mesures comme des ralisations dune variable alatoire P. Celle-ci est la somme dune
variable alatoire certaine P0, desprance mathmatique p0, et dune variable alatoire B, desprance
mathmatique nulle (le lecteur qui nest pas familier avec ces notions en trouvera les dfinitions dans la
dernire section de ce chapitre) :
P = P0 + B

de sorte que lon a :


EP = p0
o EP dsigne lesprance mathmatique de la variable alatoire P.
La variable alatoire B modlise lensemble des perturbations et bruits de mesure. Le vrai poids
(inconnu) de lobjet tant p0, lapprentissage a donc pour objectif de trouver une valeur du paramtre w
qui soit aussi proche que possible de p0. Dans cet exemple, lobjectif de lapprentissage est donc destimer
lesprance mathmatique de la variable alatoire P connaissant des ralisations pk (k = 1 N) de celle-ci.
Or la moyenne est un estimateur non biais de lesprance mathmatique, cest--dire quelle tend vers p0
lorsque le nombre de mesures tend vers linfini (ce rsultat est dmontr dans la dernire section de ce
chapitre, intitule lments de statistiques ). La meilleure estimation de p0 que nous puissions obtenir,
partir des donnes disponibles, est donc la moyenne des mesures :

1 N
pk .
N k =1

1 N
On retrouve donc le modle prdictif obtenu par lapproche algorithmique : g ( x, w ) = pk .
N k =1
Ayant ainsi dtermin le modle par apprentissage, il est trs important destimer la confiance que lon
peut avoir en cette prdiction : pour cela, on calcule un intervalle de confiance sur la prdiction fournie.
Lapprentissage statistique : pourquoi, comment ?
5
CHAPITRE 1

Le calcul de lintervalle de confiance sur la moyenne dobservations est dcrit dans la dernire section de
ce chapitre.
Ces deux points de vue, algorithmique et statistique, ont longtemps t spars. Les tout premiers dve-
loppements de la thorie de lapprentissage, apparus dans les annes 1980, taient essentiellement
inspirs par le point de vue algorithmique, ce qui nintressait gure les statisticiens. Ce nest que dans les
annes 1990 quune vritable synergie sest cre entre les deux approches, permettant le dveloppement
de mthodologies efficaces et fiables pour la conception de modles par apprentissage.

Quelques dfinitions concernant les modles


Dans tout cet ouvrage, on dsignera sous le terme de modle une quation paramtre (ou un ensemble
dquations paramtres) permettant de calculer la valeur de la grandeur (ou des grandeurs) modliser
partir des valeurs dautres grandeurs appeles variables ou facteurs. On distinguera les modles statiques
des modles dynamiques, et les modles linaires en leurs paramtres des modles non linaires en leurs
paramtres.

Modles statiques
Un modle statique est une fonction paramtre note g ( x, w ), o x est le vecteur dont les composantes
sont les valeurs des variables, et o w est le vecteur des paramtres du modle.

Modles statiques linaires en leurs paramtres


Un modle statique est linaire en ses paramtres sil est une combinaison linaire de fonctions non para-
mtres des variables ; il est de la forme
p
g ( x, w ) = wi fi ( x ),
i =1

o fi est une fonction connue, non paramtre, ou paramtres connus. Ce modle peut encore scrire
sous la forme dun produit scalaire :
g ( x, w ) = w f ( x ),
o f (x) est le vecteur dont les composantes sont les fonctions fi(x).
Les polynmes, par exemple, sont des modles linaires en leurs paramtres : les fonctions fi(x) sont les
monmes des variables x. Les polynmes sont nanmoins non linaires en leurs variables.
On appelle modle linaire un modle qui est linaire en ses paramtres et en ses variables. Les modles
linaires sont donc de la forme :
p
g ( x, w ) = wi xi = w x .
i =1

Un modle affine est un modle linaire qui contient une constante additive :
p 1
g ( x, w ) = w0 + wi xi .
i =1
Lapprentissage statistique
6

Remarque
Un modle afne peut donc tre considr comme un modle linaire dont une des variables est constante, gale 1. Il est donc inutile,
en gnral, de faire une distinction entre modles linaires et modles afnes.

Modles statiques non linaires en leurs paramtres


On peut imaginer une grande varit de modles non linaires en leurs paramtres. Nous tudierons parti-
culirement dans cet ouvrage les modles non linaires en leurs paramtres qui sont de la forme
p
g ( x, w ) = wi fi ( x, w )
i =1

o les fonctions fi sont des fonctions non linaires, paramtres par les composantes du vecteur w. Le
vecteur w a donc pour composantes les paramtres wi (i = 1 p) et les composantes de w. Les rseaux de
neurones, qui sont largement tudis dans cet ouvrage, constituent un exemple de modles non linaires
en leurs paramtres et non linaires en leurs variables.

Modles dynamiques
Dans les modles dcrits dans la section prcdente, le temps ne joue aucun rle fonctionnel : si les varia-
bles x sont indpendantes du temps, la valeur fournie par le modle (ou sortie du modle) est indpen-
dante du temps. Les modles dynamiques, en revanche, ont une forme de mmoire : la sortie du modle
un instant donn dpend de ses sorties passes. En consquence, elle peut voluer dans le temps, partir
dun tat initial, mme si les variables x sont constantes, voire nulles.
La trs grande majorit des applications des modles statistiques sont ralises laide dordinateurs, ou
de circuits lectroniques numriques. Dans les deux cas, les mesures des variables sont effectues inter-
valles rguliers, dont la dure est appele priode dchantillonnage. De mme, les prdictions du modle
ne sont pas fournies de manire continue, mais intervalles rguliers, gnralement caractriss par la
mme priode dchantillonnage que les mesures des variables. De tels systmes sont dits temps discret,
par opposition aux systmes physiques naturels, qui sont des systmes temps continu.
Ces derniers sont dcrits par des modles dynamiques temps continu, qui sont des quations (ou des
systmes dquations) diffrentielles du type :

dy
= g ( y, x, w )
dt
o t dsigne le temps, y la prdiction effectue par le modle, x et w les vecteurs des variables et des para-
mtres respectivement.
Pour les modles temps discret, le temps nest plus une variable continue :

t = kT
o T dsigne la priode dchantillonnage et k est un nombre entier positif. La prdiction de la valeur prise
par la grandeur modliser linstant kT, connaissant les prdictions effectues aux n instants prcdents,
et les valeurs des variables aux m instants prcdents, peut alors tre mise sous la forme :

y ( kT ) = g y (( k 1) T ) , y (( k 2 ) T ) ,...y (( k n ) T ) , x (( k 1) T ) , x (( k 2 ) T ) ,...x (( k n ') T ) , w


Lapprentissage statistique : pourquoi, comment ?
7
CHAPITRE 1

o n et n sont des entiers positifs ; n est appel ordre du modle. Cette forme de modle est assez natu-
relle, mais nous verrons, dans les sections du chapitre 2 consacres la modlisation dynamique bote
noire , et dans les chapitres 4 et 5, quil existe des formes plus gnrales de modles dynamiques.
Comme pour les modles statiques, la fonction g(y, x, w) peut tre soit linaire, soit non linaire, par
rapport ses variables et ses paramtres. Dans la suite de ce chapitre, nous ne considrerons que des
modles statiques ; les modles dynamiques seront abords dans les chapitres 2, 4 et 5.

Deux exemples acadmiques dapprentissage supervis


On considre prsent deux exemples acadmiques, qui permettent de mettre en vidence les problmes
fondamentaux qui se posent dans le domaine de lapprentissage statistique. Ces deux exemples entrent
dans la catgorie de lapprentissage supervis, dans lequel un professeur dtermine la rponse que devrait
fournir le modle : dans un problme de classification, le professeur fournit, pour chaque exemple, une
tiquette indiquant quelle classe appartient lobjet ; dans un problme de prdiction, le professeur
associe chaque exemple une mesure de la grandeur modliser. Lapprentissage supervis nest pas le
seul type dapprentissage ; le chapitre 7 de cet ouvrage sera consacr un outil trs important de
lapprentissage non supervis, les cartes topologiques.

Un exemple de modlisation pour la prdiction


+10 Considrons une grandeur yp, engendre par un
processus de nature quelconque physique, chimique,
biologique, sociologique, conomique, , que lon
cherche modliser afin den prdire le
comportement ; elle dpend dune seule variable x.
Un ensemble dapprentissage est constitu de NA = 15
mesures ykp (k = 1 NA), effectues pour diverses
yp

valeurs xk (k = 1 NA) de la variable x. Elles sont repr-


sentes par des croix sur la figure 1-1. Nous cherchons
tablir un modle g(x, w) qui permette de prdire la
valeur de la grandeur modliser pour une valeur quel-
conque de x dans le domaine considr (2 x +3).
-4 Il sagit dun problme acadmique en ce sens que le
-2 x +3
processus par lequel ont t cres ces donnes est
Figure 1-1. Un problme acadmique de modlisation connu, ce qui nest jamais le cas pour un problme
raliste dapprentissage statistique : on sait que chaque
lment k de lensemble dapprentissage a t obtenu
en ajoutant la valeur de 10 sin(xk)/xk une ralisation dune variable alatoire obissant une loi normale
(gaussienne de moyenne nulle et dcart type gal 1).
Comme indiqu plus haut, il faut dabord postuler une fonction g(x, w). Puisque la grandeur modliser
ne dpend que de la variable x, le vecteur x se rduit un scalaire x. En labsence de toute indication sur
la nature du processus gnrateur des donnes, une dmarche naturelle consiste postuler des fonctions
de complexit croissante, dans une famille de fonctions donnes. Choisissons la famille des polynmes ;
dans cette famille, le modle polynomial de degr d scrit :
g ( x, w ) = w 0 + w 1 x + w 2 x 2 + + w d x d
Lapprentissage statistique
8

Cest donc un modle d+1 paramtres w0, w1, , wd. Le modle le plus simple de cette famille est le
modle constant g(x, w) = w0, mis en uvre dans la section intitule Premier exemple .

Pour effectuer lapprentissage de ces modles, on peut utiliser la mthode des moindres carrs, dj
mentionne. Les dtails en seront dcrits plus loin, dans la section intitule Conception de modles
linaires par rapport leur paramtres ; pour linstant, il est intressant dobserver les rsultats de ces
apprentissages, reprsents sur la figure 1-2 pour d = 1 (fonction affine), d = 6 et d = 10 ; le mme
graphique comporte galement une reprsentation de la fonction 10 sin x / x.

20

d=1

d=6
Figure 1-2.
Trois modles
d = 10 polynomiaux

10 sinx / x

-5
-2 x +3

Le modle affine (d = 1) ne rend pas du tout compte des observations car il na pas la souplesse souhai-
table pour sadapter aux donnes ; dans le jargon de lapprentissage statistique, on dira que la complexit
du modle est insuffisante. linverse, le modle polynomial de degr 10 est suffisamment complexe
pour passer trs prcisment par tous les points dapprentissage ; on observe nanmoins que cette prci-
sion sur lensemble dapprentissage est obtenue au dtriment des qualits de gnralisation du modle :
cest le phnomne de surajustement. En effet, au voisinage de x = 2 comme au voisinage de x = +3, ce
modle fournit des prdictions trs loignes de la ralit reprsente en trait plein. En revanche, le
modle polynomial de degr 6 prsente un bon compromis : la courbe ne passe pas exactement par tous
les points ce qui est normal puisque ces points rsultent en partie dun tirage alatoire mais elle est
assez proche de la vraie fonction 10 sinx / x.

Afin de rendre ces considrations plus quantitatives, on a constitu, outre lensemble dapprentissage, un
deuxime ensemble de donnes, dit ensemble de test, indpendant du prcdent, mais dont les NT
Lapprentissage statistique : pourquoi, comment ?
9
CHAPITRE 1

lments sont issus de la mme distribution de probabilit. On dfinit lerreur quadratique moyenne sur
lensemble dapprentissage (EQMA) et lerreur quadratique moyenne sur lensemble de test (EQMT) :

1 NA p NT

(
yk g ( x k , w ) ) 1
( y g ( xk , w ) )
2 2
EQMA = EQMT = p
k .
N A k =1 NT k =1

Lensemble de test, comprenant NT = 1000 lments, est reprsent sur la figure 1-3. De plus, 100 ensem-
bles dapprentissage de NA = 15 lments chacun ont t constitus.

+10

Figure 1-3.
Ensemble de test
yp

-4
-2 x +3
100 modles ont t crs partir de ces ensembles dapprentissage, et, pour chacun de ces modles,
lEQMA et lEQMT ont t calcules. La figure 1-4 montre lvolution des moyennes des EQMA et
EQMT, en fonction de la complexit (degr) du modle polynomial postul.
Remarque 1
Le fait de prsenter des moyennes des EQMA et EQMT, sur 100 modles obtenus partir de 100 ensembles dapprentissage diffrents,
permet dviter lobservation de phnomnes lis une ralisation particulire du bruit prsent dans les observations dun ensemble
dapprentissage donn. Dans la pratique, on ne dispose videmment que dun seul ensemble dapprentissage.

Remarque 2
Dans la pratique, si lon disposait dun ensemble de 1 000 exemples, on utiliserait beaucoup plus que 15 exemples pour effectuer lappren-
tissage. Par exemple, on utiliserait 500 exemples pour lapprentissage et 500 pour tester le modle. Dans cette section, nous nous plaons
volontairement dans un cadre acadmique, pour mettre en vidence les phnomnes importants. La mthodologie adopter pour la
conception de modles est prsente dans la section de ce chapitre intitule La conception de modle en pratique , et elle est large-
ment dveloppe dans le chapitre 2.
Lapprentissage statistique
10

6
EQMT EQMA

5
Figure 1-4.
Erreurs
quadratiques
4 moyennes
sur lensemble
dapprentissage
et sur lensemble
3 de test

0
0 2 4 6 8 10 12 14
Degr du modle polynomial

On observe que lerreur dapprentissage (EQMA) diminue lorsque la complexit du modle augmente :
le modle apprend de mieux en mieux les donnes dapprentissage. En revanche, lerreur sur lensemble
de test (EQMT) passe par un optimum (d = 6) puis augmente : laugmentation de la complexit du modle
au-del de d = 6 se traduit par une dgradation de ses capacits de gnralisation.
Remarque
Les brusques variations de lEQMA et de lEQMT observes lorsque lon passe du degr 3 au degr 4 sont dues la nature particulire de
lexemple tudi : en effet, dans le domaine de variation de x considr, la fonction sin x / x prsente deux points dinexion (points o la
drive seconde de la fonction est nulle). Or un polynme de degr d a au plus d 2 points dinexion : pour que le modle polynomial
puisse reproduire les deux points dinexion de la fonction gnratrice des donnes, il faut donc quil soit au moins de degr 4.

On observe galement que lEQMT reste toujours suprieure lcart-type du bruit (qui vaut 1 dans cet
exemple), et que lEQMT du modle qui a la meilleure gnralisation est voisine de lcart-type du bruit.
Ainsi, le meilleur modle ralise un compromis entre la prcision de lapprentissage et la qualit de la gn-
ralisation. Si le modle postul est trop peu complexe, lapprentissage et la gnralisation sont peu prcis ;
si le modle est trop complexe, lapprentissage est satisfaisant, mais la gnralisation ne lest pas. Ce
compromis entre la qualit de lapprentissage et celle de la gnralisation, gouvern par la complexit du
modle, est connu sous le terme de dilemme biais-variance : un modle qui a un biais faible apprend trs
bien les points dapprentissage, mais il peut avoir une variance leve car il peut tre fortement tributaire de
dtails de lensemble dapprentissage (modle surajust). En revanche, un modle peut avoir un biais lev
Lapprentissage statistique : pourquoi, comment ?
11
CHAPITRE 1

(il napprend pas parfaitement les lments de lensemble dapprentissage) mais une variance faible (il ne
dpend pas des dtails de lensemble dapprentissage). Le phnomne observ dans cet exemple est absolu-
ment gnral, comme nous le dmontrerons dans la section intitule Dilemme biais-variance .
Dans la section intitule lments de thorie de lapprentissage , on donnera une expression quantita-
tive de la notion de complexit. On montrera notamment que, pour les modles polynomiaux, la
complexit nest rien dautre que le nombre de paramtres du modle, soit d + 1 pour un polynme de
degr d ; on montrera galement que le dilemme biais-variance est gouvern par le rapport du nombre de
paramtres au nombre dexemples disponibles.
Retrouvons prsent le mme phnomne sur un second exemple acadmique, qui est cette fois un
problme de classification.

Un exemple de classification
3 Rappelons quun problme de classification
consiste affecter un objet inconnu une classe
parmi plusieurs. Considrons un problme deux
2
classes A et B. On souhaite que soit attribue tout
lment de la classe A une tiquette yp = +1, et
1 tout lment de B une tiquette yp = 1. On dispose
dun ensemble dapprentissage, constitu dexem-
ples de chacune des classes, dont la classe est
connue : des tiquettes exactes leur ont t affec-
x2

0
tes. Dans le problme considr ici, chaque
objet est dcrit par un vecteur x deux
-1
composantes : on peut donc le reprsenter par un
point dans le plan des variables (x1, x2). La figure 1-5
-2 reprsente un ensemble dapprentissage compre-
nant 80 exemples par classe. Les exemples de la
classe A sont reprsents par des croix, ceux de la
-3
-3 -2 -1 0 1 2 3 classe B par des cercles. On cherche la frontire
1
x entre ces classes, cest--dire une ligne, dans ce
plan, qui spare les exemples avec un nombre
Figure 1-5. Ensemble dapprentissage pour un problme derreurs minimal : on souhaite que la plupart des
acadmique de classification exemples dune classe (voire tous) soient dun ct
de la frontire, et que la plupart des exemples de
lautre classe (voire tous) soient de lautre ct ; on dit quil y a une erreur de classification lorsquun
exemple est situ du mauvais ct de la frontire.
Comme dans lexemple de modlisation, on prsente ici un problme acadmique : le processus gnra-
teur des donnes est connu, ce qui nest pas le cas pour un problme rel. Les exemples de lensemble
dapprentissage ont t tirs de deux distributions gaussiennes isotropes dcart-type gal 1, dont les
centres sont respectivement le point (x1 = + 0,5 ; x2 = 0,5) pour la classe A, et (x1 = 0,5 ; x2 = + 0,5)
pour la classe B. On dmontrera, dans la section intitule Classifieur de Bayes , que la diagonale du
carr, qui est laxe de symtrie du problme, est la frontire pour laquelle le risque derreur de classifica-
tion est minimal. On voit que cette frontire thorique idale ne spare pas parfaitement bien tous les
exemples dapprentissage : le taux derreur sur lensemble dapprentissage nest pas nul si lon choisit
cette frontire, mais nous montrerons que le taux derreur sur lensemble de tous les objets, engendrs par
le mme processus gnrateur, mais nappartenant pas lensemble dapprentissage, est minimal.
Lapprentissage statistique
12

Le classifieur de Bayes prsente donc une gnralisation optimale ; malheureusement, on ne peut le dter-
miner que si les distributions des exemples sont connues, ce qui nest gnralement pas le cas dans un
problme rel. On peut seulement sefforcer de trouver un classifieur qui en soit proche. Cest ce qui va
tre tent par les deux mthodes dcrites ci-dessous.

La mthode des k plus proches voisins


Une approche nave consiste considrer que des points voisins ont une grande chance dappartenir une
mme classe. Alors, tant donn un objet inconnu dcrit par le vecteur x, on peut dcider que cet objet
appartient la classe de lexemple dapprentissage qui est le plus proche de lextrmit de x. De manire
plus gnrale, on peut dcider de considrer les k plus proches voisins de lobjet inconnu, et daffecter
celui-ci la classe laquelle appartient la majorit des k exemples les plus proches (on prend de prf-
rence k impair). Cette approche, appele mthode des k plus proches voisins, revient postuler une fonc-
1 k
tion g ( x, k ) = yip, o la somme porte sur les k exemples les plus proches de x, et mettre en uvre
k i =1
( ( ))
la rgle suivante : lobjet dcrit par x est affect la classe A si sgn g x , k = +1, et il est affect la
classe B dans le cas contraire1. On construit ainsi un modle constant par morceaux, gal la moyenne
des tiquettes des k exemples les plus proches. Le seul paramtre du modle est donc k, le nombre de plus
proches voisins pris en considration dans la moyenne.

Pour visualiser les rsultats, le calcul est effectu pour 10 000 points disposs rgulirement sur une grille
de 100 100 points. La figure 1-6 montre les rsultats obtenus pour k = 1, k = 7, k = 21 et k = 159 (cette
dernire valeur est la valeur maximale de k puisque lensemble dapprentissage comporte en tout
160 exemples) ; les points affects la classe A par le classifieur sont reprsents en gris fonc, ceux qui
sont affects la classe B en gris clair.

Pour k = 1, on observe que la frontire est trs irrgulire, et dfinit des lots de lune des classes dans
lautre classe. Ce phnomne sexplique facilement : comme chaque point de lensemble dapprentissage
est son propre plus proche voisin, il est forcment bien class. La frontire dpend donc compltement de
lensemble dapprentissage choisi : un autre tirage alatoire de points dans les mmes distributions gaus-
siennes aurait produit une frontire trs diffrente. Cest un modle qui a un biais faible (tous les exemples
de lensemble dapprentissage tant bien appris, le taux derreur sur lensemble dapprentissage est nul)
et une variance leve (la frontire varie beaucoup si lon change lensemble dapprentissage). La capa-
cit de gnralisation est donc certainement trs faible, le modle tant compltement surajust
lensemble dapprentissage disponible. La croix en traits pais (x1 = 2, x2 = 2,5), qui nappartient pas
lensemble dapprentissage, est mal classe.

Lorsque lon augmente k, la frontire devient plus rgulire, et plus proche de la frontire optimale (k = 7,
k = 21). La croix en traits pais est correctement classe dans lensemble des croix. Pour k = 159, on
observe en revanche que la frontire devient trs rgulire, mais quelle est trs loigne de la solution
optimale (la diagonale du carr). La croix en traits pais est nouveau mal classe.

On passe ainsi de modles de faible biais et grande variance (faibles valeurs de k) des modles de faible
variance mais de biais lev (grandes valeurs de k). Comme dans lexemple prcdent, on voit apparatre
la ncessit de trouver un compromis satisfaisant entre le biais et la variance ; ce compromis dpend la
valeur de 1 / k.

1. La fonction sgn(u) est dfinie de la manire suivante : sgn(u) = +1 si u > 0, sgn(u) = 1 si u 0


Lapprentissage statistique : pourquoi, comment ?
13
CHAPITRE 1

3 3

2 2

1 1
x2

x2
0 0

-1 -1

-2 -2

-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x1 x1

k=1 k=7
3 3

2 2

1 1
x2

x2

0 0

-1 -1

-2 -2

-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x1 x1

k = 21 k = 159
Figure 1-6. Classification par la mthode des k plus proches voisins
Lapprentissage statistique
14

Pour caractriser quantitativement ce phnomne, 30

on peut procder comme pour lexemple prc-


28
dent : on constitue un ensemble de test de 1000

Taux derreur de classification (%)


points, et 100 ensembles dapprentissage de tailles 26
Ensemble de test

identiques (100 exemples par classe), tirs des


mmes distributions de probabilits. Pour diff- 24 Limite de Bayes
rentes valeurs de k, on construit un modle partir
de chaque ensemble dapprentissage par la 22
Ensemble dapprentissage
mthode des plus proches voisins, soit 100
20
modles pour chaque valeur de k. Pour chaque
modle, on calcule le taux derreur de classification 18
(rapport du nombre dexemples mal classs au
nombre total dexemples) sur lensemble dappren- 16
1/199 1/31 1/3
tissage et sur lensemble de test ; on calcule enfin la 1/k
moyenne de ces taux derreur sur les 100 ensem- Figure 1-7. Erreurs dapprentissage et de test
bles dapprentissage considrs. La figure 1-7 pour la mthode des k plus proches voisins
prsente les taux moyens derreur de classification
sur lensemble dapprentissage (+), et lerreur sur
lensemble de test (x), pour k variant de 3 199. Pour les faibles complexits (k grand), le taux derreur
sur les ensembles dapprentissage et de test sont grands, et du mme ordre de grandeur ; pour les
complexits leves (k petit), le taux derreur sur lensemble dapprentissage tend vers zro, tandis que le
taux derreur sur lensemble de test crot. Ce comportement est donc tout fait analogue celui qui a t
observ pour la prdiction (figure 1-4). Le taux derreur sur lensemble de test passe par un minimum,
appel limite de Bayes , qui, dans le cas particulier de deux distributions gaussiennes, peut tre calcul
si lon connat les moyennes et carts-types de ces distributions (voir la section Classifieur de Bayes ) ;
avec les valeurs numriques considres ici, ce taux thorique est de 23,9 %, ce qui est bien le rsultat
observ dans cette exprience numrique (la valeur du taux derreur thorique est tablie dans la section
de ce chapitre intitule Classification : rgle de Bayes et classifieur de Bayes ).
Ainsi, le dilemme biais-variance, illustr dans lexemple de modlisation, se retrouve ici sous une forme
diffrente : laugmentation du nombre de plus proches voisins, donc la diminution de la complexit ,
entrane une augmentation du nombre derreurs de classification dans lensemble dapprentissage, mais
une diminution du nombre derreurs en-dehors de lensemble dapprentissage, donc une meilleure gn-
ralisation.
Le tableau 1-1 rsume les aspects du dilemme biais-variance, pour la classification par la mthode des
plus proches voisins dune part, et pour la prdiction dautre part.
Classification Prdiction
(k plus proches voisins) (modles linaires)

Nombre dexemples Nombre de paramtres


Dilemme biais-variance gouvern par -------------------------------------------------------------------------- ------------------------------------------------------
Nombre de plus proches voisins Nombre dexemples

Limite infrieure de lerreur de gnralisation Limite de Bayes Variance du bruit


Tableau 1-1. Dilemme biais-variance pour la classification par la mthode des plus proches voisins et pour la prdiction par
des modles linaires ou polynomiaux

Classification linaire ou polynomiale


Rappelons que la mthode des k plus proches voisins consiste calculer, pour tout objet dcrit par x, la
fonction
Lapprentissage statistique : pourquoi, comment ?
15
CHAPITRE 1

1
g(x) = ykp
k k plus proches
voisins de x

( ( )) = +1 lobjet dcrit par x est affect la classe A,


et utiliser la rgle de dcision suivante : si sgn g x
( ( ))
si sgn g x = 1 il est affect la classe B.
Cette approche peut tre gnralise de la manire suivante : on cherche estimer, par apprentissage,
les paramtres dune fonction g ( x, w ) telle que sgn ( g ( x, w )) = +1 pour tous les objets de la classe A et
1 + sgn g ( x, w )
( ( ))
sgn g x , w = 1 pour tous les objets de la classe B. La fonction ( x, w ) =
2
, qui vaut
+1 pour tous les lments de A et 0 pour tous les lments de B, est appele fonction indicatrice.
3 Au lieu de postuler une fonction constante par
morceaux comme on le fait dans la mthode des k
plus proches voisins, postulons prsent une fonc-
2
tion polynomiale. La plus simple dentre elles est
la fonction affine g ( x, w ) = w0 + w1 x1 + w2 x2 , que
1 lon peut encore crire g ( x, w ) = x w , o le
symbole reprsente le produit scalaire ; x est le
vecteur de composantes {1, x1, x2} et w est le
x2

0 vecteur de composantes {w0, w1, w2}. Pour chaque


exemple k de lensemble dapprentissage, on crit
-1
( )
que g x k , w = ykp , o ykp = +1 pour tous les exem-
ples de la classe A et ykp = 1 pour tous les exem-
ples de la classe B. On met alors en uvre la
-2 mthode des moindres carrs, dcrite plus loin
dans la section Apprentissage de modles
linaires , pour estimer le vecteur des paramtres
-3 w. Pour lensemble dapprentissage reprsent sur
-3 -2 -1 0 1 2 3
x1 la figure 1-5, le rsultat obtenu est reprsent sur la
Figure 1-8. Sparation linaire figure 1-8. On observe que la frontire ainsi dfinie
est proche de la premire diagonale du carr,
laquelle garantit la meilleure gnralisation.
Comme dans le cas de la modlisation que nous avons tudi plus haut, le dilemme biais-variance est
gouvern par le rapport du nombre de paramtres du modle (1 + degr du polynme) au nombre dexem-
ples disponibles. La figure 1-9 montre lvolution du taux derreur de classification, sur lensemble
dapprentissage et sur lensemble de test, complexit donne (3 paramtres), en fonction du nombre
dexemples.
Lorsque le nombre dexemples est faible, le taux derreur sur lensemble dapprentissage est trs petit
(biais faible) et le taux derreur sur lensemble de test est trs grand (variance importante). En revanche,
lorsque le nombre dexemples augmente, les deux taux derreur convergent vers le taux derreur de Bayes
(qui, rappelons-le, peut tre calcul analytiquement dans ce cas, et vaut 23,9 %).
Lapprentissage statistique
16

40

35
Ensemble de test Figure 1-9.
Taux derreur
Taux derreur de classification (%)

en fonction
30 du nombre
dexemples,
complexit fixe

25
Limite de Bayes

20

15
Ensemble dapprentissage

10

5
0 4 8 12 16 20
Nombre dexemples par classe

Conclusion
Dans cette section, deux problmes acadmiques simples dapprentissage supervis ont t prsents : un
exemple de prdiction et un exemple de classification. Ces deux exemples ont permis de mettre en
vidence un problme central de lapprentissage artificiel : le dilemme biais-variance, cest--dire la
ncessit de trouver le meilleur compromis possible entre la capacit du modle apprendre les exemples
dapprentissage et sa capacit gnraliser des situations non apprises. Ces observations empiriques
vont prsent tre justifies de manire plus rigoureuse.

lments de thorie de lapprentissage


Cette section prsente quelques rsultats thoriques fondamentaux concernant lapprentissage supervis,
pour la prdiction et la classification. On prsentera tout dabord un formalisme gnral pour la modli-
sation par apprentissage. On introduira ensuite le classifieur de Bayes, et lon en dmontrera les
proprits. Enfin, on prouvera que le dilemme biais-variance est un phnomne gnral.
Lapprentissage statistique : pourquoi, comment ?
17
CHAPITRE 1

Fonction de perte, erreur de prdiction thorique


Puisque lapprentissage cherche reproduire les donnes, il faut dfinir une distance entre les prdic-
tions du modle et les donnes : on dfinit donc une fonction dite fonction de perte

y p , g ( x, w ) 0,
o yp est la valeur souhaite et g(x, w) est la valeur prdite par le modle, dont les paramtres sont les
composantes du vecteur w, tant donn le vecteur de variables x. Pour une tche de prdiction, yp est la
valeur mesure de la grandeur prdire ; pour une tche de classification deux classes, yp vaut +1 pour
un objet dune classe et 1 (ou 0) pour un objet de lautre classe.
Exemples
Une distance naturelle, trs frquemment utilise, est lerreur quadratique de modlisation :

y p , g ( x ,w ) = y p g ( x ,w ) .
2

Il arrive aussi que lon utilise la valeur absolue de lerreur :

y p , g ( x ,w ) = y p g ( x ,w ) .

Comment dcrire mathmatiquement la qualit du modle ? Comme dans la premire section de ce


chapitre, on peut modliser les rsultats des mesures yp comme des ralisations dune variable alatoire
Yp, et les vecteurs des variables x comme des ralisations dun vecteur alatoire X. Alors les valeurs de la
fonction de perte deviennent elles-mmes des ralisations dune variable alatoire , fonction de Yp et
de X, et il est naturel de caractriser la performance du modle par lesprance mathmatique de , ou
erreur de prdiction thorique, que nous noterons P2 (cette quantit est toujours positive, daprs la dfi-
nition de ) :

P 2 = E = ( y , g ( x, w )) p
p
Y p ,X
dy p dx

o pY p ,X est la probabilit conjointe de la variable alatoire Yp et du vecteur alatoire X ; les intgrales


portent sur toutes les valeurs possibles de la grandeur modliser et des variables qui la gouvernent. Cette
erreur de prdiction est bien une erreur thorique : en pratique, on ne dispose que dun ensemble de
donnes de taille finie, et les distributions de probabilits sont inconnues. On ne peut donc jamais calculer
cette erreur, mais seulement lestimer partir de lensemble de donnes dont on dispose.
Notons que, pour les modles dont les paramtres w sont dtermins par apprentissage, ces derniers
dpendent aussi des ralisations de YP prsentes dans lensemble dapprentissage : les paramtres du
modle peuvent donc aussi tre considrs comme des ralisations de variables alatoires. Nous utilise-
rons cette remarque dans la section intitule Dilemme biais-variance .
Lerreur de prdiction thorique peut alors scrire :

P 2 == E X EY p X ( )

o EY p X ( ) dsigne lesprance mathmatique de la variable alatoire Y p X , cest--dire lesp- ( )
rance mathmatique de la fonction de perte pour les prdictions effectues par le modle pour un vecteur
de variables x donn.
Dmonstration
( )
La probabilit conjointe peut scrire pY p ,X = pY p y p x p X . Lerreur de prdiction thorique scrit donc
Lapprentissage statistique
18

( ) (
P 2 = y p , g ( x ,w ) pY p y p x p X dy p d x )
( ) (
= y p , g ( x ,w ) pY p y p x dy p p X d x )
= E X EY p X ( ) .

Considrons un exemple caractris par le vecteur de variables x. En ce point, le meilleur modle est le
modle pour lequel lerreur de prdiction thorique est minimum. Appliquons cette proprit successive-
ment deux tches : la prdiction et la classification.

Prdiction
Comme indiqu plus haut, la fonction de perte la plus frquemment utilise pour la prdiction est

y p , g ( x, w ) = y p g ( x, w )
2

Alors le meilleur modle possible est la fonction de rgression de la grandeur modliser :

f ( x ) = EY p X

Dmonstration
Rappelons que lesprance mathmatique de la fonction de perte est donne par :

( )
EY p X ( ) = y P g ( x ,w ) pY p y p x dy p . ( )
2

Son minimum est obtenu pour le modle f(x) tel que


dEY p X
0=
dg ( x ,w )
g ( x ,w )= f ( x )

( )
d y P g ( x ,w ) 2 p p y p x dy p
=
Y

( )
dg ( x ,w )
g ( x ,w )=f ( x )

( ) (
= 2 y P f ( x ) pY p y p x dy p )
= 2 y pY p P
( y x ) dy
p p
(
2f ( x ) pY p y p x dy p . )
La premire intgrale nest autre que lesprance mathmatique de Yp tant donn x ; la seconde est gale 1 par dnition de la densit
de probabilit. On obtient ainsi : EY p X = f ( x ).
La distribution de probabilit des observations tant inconnue, la fonction de rgression est inconnue.
Pour connatre sa valeur en x, il faudrait raliser une infinit de mesures de la grandeur yp pour une valeur
donne des variables x et faire la moyenne des rsultats de ces mesures, ce qui nest videmment pas
raliste.

Classification : rgle de Bayes et classifieur de Bayes


Considrons prsent un problme de classification deux classes A et B. Affectons ltiquette yp = +1
tous les exemples de la classe A et ltiquette yp = 1 tous les exemples de la classe B. Comme nous
lavons fait plus haut, nous cherchons une fonction g(x, w) qui permettra daffecter la classe A tous les
lments pour lesquels sgn[g(x, w)] = +1, et la classe B tous les lments pour lesquels sgn[g(x, w)] = 1.
Lapprentissage statistique : pourquoi, comment ?
19
CHAPITRE 1

Cette fonction doit tre telle que lerreur de prdiction thorique soit minimale (on trouvera dans le
chapitre 6 un traitement beaucoup plus dtaill de ce problme).
Rgle de dcision de Bayes
Pour la prdiction, considre dans la section prcdente, on a mis en uvre, pour dfinir lerreur tho-
rique, la fonction de perte des moindres carrs. Pour la classification, on ne cherche pas approcher les
valeurs des rsultats de mesures, mais classer correctement des objets. On utilise donc une autre fonc-
tion de perte, mieux adapte ce problme :

y p ,sgn ( g ( x, w )) = 0 si y p = sgn ( g ( x, w ))
y p , sgn ( g ( x, w )) = 1 si y p sgn ( g ( x, w ))

Ainsi, la fonction de perte vaut 1 si le classifieur commet une erreur de classement pour lobjet dcrit par
x, et 0 sinon. Contrairement au cas de la prdiction, cette fonction est valeurs discrtes. Lesprance
mathmatique de la variable alatoire discrte nest autre que la probabilit pour que le classifieur
considr commette une erreur de classification pour un objet dcrit par x ; en effet :

E ( x ) = 1 Pr (1 x ) + 0 Pr ( 0 x )
= Pr (1 x ) .

Cette quantit est inconnue : pour lestimer, il faudrait disposer dune infinit dobjets dcrits par x, dont
les classes sont connues, et compter la fraction de ces objets qui est mal classe par le classifieur consi-
dr.
La variable alatoire est fonction de Yp. Son esprance mathmatique peut donc scrire :

( ) (
E ( x ) = +1,sgn ( g ( x, w )) PrY p ( +1 x ) + 1,sgn ( g ( x,w )
w )) PrY p ( 1 x ) .

La probabilit dappartenance dun objet une classe C connaissant le vecteur de variables x qui dcrit
cet objet, note PrY p ( C x ), est appele probabilit a posteriori de la classe C pour lobjet dcrit par x.
On remarque que E ( x ) ne peut prendre que deux valeurs :

E ( x ) = PrY p ( +1 x ) si sgn ( g ( x, w )) = 1,
E ( x ) = PrY p ( 1 x ) si sgn ( g ( x, w )) = +1.

Supposons que la probabilit a posteriori de la classe A au point x soit suprieure celle de la classe B :

PrY p ( +1 x ) > PrY p ( 1 x ) .

Rappelons que lon cherche la fonction g ( x, w ) pour laquelle la probabilit derreur de classification au
point x, cest--dire E ( x ), soit minimum. La fonction g ( x, w ) pour laquelle E ( x ) est minimum est
donc telle que sgn ( g ( x, w )) = +1, puisque, dans ce cas, E ( x ) = PrY p ( 1 x ), qui est la plus petite des deux
valeurs possibles.
linverse, si PrY p ( 1 x ) > PrY p ( +1 x ), la fonction g ( x, w ) qui garantit le plus petit taux derreur en x est
telle que sgn ( g ( x, w )) = 1.
Lapprentissage statistique
20

En rsum, le meilleur classifieur possible est celui qui, pour tout x, affecte lobjet dcrit par x la classe
dont la probabilit a posteriori est la plus grande en ce point.

Cette rgle de dcision (dite rgle de Bayes) garantit que le nombre derreurs de classification est
minimal ; pour pouvoir la mettre en uvre, il faut calculer (ou estimer) les probabilits a posteriori des
classes.

Classifieur de Bayes

Le classifieur de Bayes utilise, pour le calcul des probabilits a posteriori, la formule de Bayes : tant
donn un problme c classes Ci (i = 1 c), la probabilit a posteriori de la classe Ci est donne par la
relation

pX ( x Ci ) PrCi
Pr ( Ci x ) =
( x C ) Pr
c

p X j Cj
j =1

( )
o pX x C j est la densit de probabilit du vecteur x des variables observes pour les objets de la classe
Cj (ou vraisemblance du vecteur x dans la classe Cj), et PrC j est la probabilit a priori de la classe Cj,
cest--dire la probabilit pour quun objet tir au hasard appartienne la classe Cj.

Si toutes les classes ont la mme probabilit a priori 1/c, la rgle de Bayes revient classer lobjet inconnu
x dans la classe pour laquelle x a la plus grande vraisemblance : cest une application de la mthode du
maximum de vraisemblance.

Ainsi, si lon connat analytiquement les vraisemblances, et si lon connat les probabilits a priori des
classes, on peut calculer exactement les probabilits a posteriori.

Exemple : cas de deux classes gaussiennes de mmes variances

Reprenons le cas considr plus haut, dans la section intitule un exemple de classification : deux
classes A et B dans un espace deux dimensions, telles que les vraisemblances des variables sont gaus-
siennes, de mme variance , de centres xA (x1A, x2A) et xB (x1B, x2B) :

( x x )2 ( x x )2
pX ( x A ) =
1
exp 1 21A exp 2 22 A
2 2 2
( x x )2 ( x x )2
pX ( x B ) =
1
exp 1 21B exp 2 22 B .
2 2 2

Supposons que les probabilits a priori des classes soient les mmes, gales 0,5.
Dans lexemple considr plus haut, chaque classe tait reprsente par le mme nombre dexemples. Si la probabilit a priori des classes
est estime par la frquence des exemples, cest--dire le rapport du nombre dexemples dune classe au nombre total dexemples, on est
dans le cas o les deux probabilits a priori sont gales 0,5.
Lapprentissage statistique : pourquoi, comment ?
21
CHAPITRE 1

Alors la formule de Bayes permet de calculer les probabilits a posteriori :

1 ( x x )2 ( x x )2
exp 1 21A exp 2 22 A
0, 5
2 2 2
Pr ( A x ) =
1 (x x )
2
(x x ) 2
1 ( x x )2 ( x x )2
0, 5 exp 1 21A exp 2 22 A + 0, 5 exp 1 21B exp 2 22 B
2 2 2 2 2 2

1 ( x1 x1B )2 ( x 2 x 2 B )2
0, 5 exp exp
2
2 2 2 2
Pr ( B x ) = .
0, 5
1
exp
( x1 x1A )
2

exp
( x2 x2 A )
2

+ 0, 5
1
exp
( x1 x1B )
2
( x 2 x 2 B )2
exp
2 2 2 2 2 2 2 2 2 2

La rgle de classification de Bayes affecte lobjet dcrit par x la classe dont la probabilit a posteriori est
la plus grande (ou, puisque les probabilits a priori sont gales, la classe pour laquelle la vraisemblance
de x est la plus grande).
La frontire entre les classes est donc le lieu des points, dans lespace des vecteurs x, o les vraisem-
blances sont gales : cest le lieu des points tels que

( x x )2 ( x x )2 ( x x )2 ( x x )2
exp 1 21A exp 2 22 A = exp 1 21B exp 2 22 B .
2 2 2 2
soit encore

( x1 x1A )2 + ( x2 x2 A )2 = ( x1 x1B )2 + ( x2 x2 B )2 .
La frontire optimale entre les classes est donc le lieu des points quidistants des centres des
distributions : cest la mdiatrice du segment de droite qui joint ces centres.
Dans lexemple considr plus haut, les centres des gaussiennes taient symtriques par rapport la
diagonale du carr reprsent sur la figure 1-6 et la figure 1-8, donc la meilleure frontire possible entre
les classes tait la diagonale de ce carr. Le rsultat le plus proche du rsultat thorique tait le sparateur
linaire de la figure 1-8 ; en effet, on avait postul un modle linaire, et celui-ci tait vrai au sens
statistique du terme, cest--dire que la solution optimale du problme appartenait la famille des fonc-
tions dans laquelle nous cherchions une solution par apprentissage. On tait donc dans les meilleures
conditions possibles pour trouver une bonne solution par apprentissage.
Connaissant la surface de sparation fournie par le classifieur de Bayes, et sachant que les classes ont le
mme nombre dlments, il est facile de trouver le taux derreur de ce classifieur : cest la probabilit de
trouver un lment de la classe A (classe des +) dans le demi-plan suprieur gauche (ou, par symtrie, la
probabilit de trouver un lment de B (classe des o) dans le demi-plan complmentaire) :
+

1 ( x x )2 ( x x )2
exp 1 21A exp 2 22 A dx1dx2,
2
2
x2 > x1 2
Lapprentissage statistique
22

avec = 1 dans lexemple considr.


Cette expression se calcule trs simplement en effectuant une rotation des axes de 45 dans le sens trigonomtrique, suivie dune transla-
tion, de manire que la frontire entre les classes devienne verticale et que le centre de la classe A soit lorigine (gure 1-10). Le taux
derreur est alors la probabilit cumule dune variable normale entre et 2 2 . On trouve facilement cette dernire valeur laide
dun logiciel de statistiques, ou sur le Web (par exemple http://www.danielsoper.com/statcalc/calc02_do.aspx) : elle vaut environ 24 %,
comme indiqu plus haut.

Frontire de Bayes Centre de


entre classes la distribution
de probabilit
des exemples Centre de
Centre de
la distribution + 0,5 de la classe B la distribution
de probabilit
de probabilit des exemples
des exemples
-0,5 0,5
+ +0 de la classe A
Figure 1-10.
de la classe B 2 Rotation
Centre de 2 et translation
-0,5 + la distribution 2 des axes
de probabilit
des exemples Frontire de Bayes
de la classe A entre classes

Dilemme biais-variance
Les deux exemples acadmiques considrs en dbut de chapitre ont permis de mettre en vidence le
dilemme biais-variance. Muni des lments thoriques de la section prcdente, on peut prsent forma-
liser ce problme.
Considrons le cas de la prdiction par un modle dont les paramtres sont dtermins par apprentissage ;
comme indiqu plus haut, la fonction de perte la plus frquemment utilise dans ce cas est le carr de
lerreur de modlisation :

y p , g ( x, w ) = y p g ( x, w )
2

et lerreur de prdiction thorique est

P 2 = E X EY p X y p g ( x, w ) .
2


Cherchons lerreur de prdiction en un point x de lespace des variables

P 2 ( x ) = EY p X y p g ( x, w ) ,
2


en supposant que les observations yp effectues en ce point x sont des ralisations de la variable alatoire
Y p = f (x) +
o est une variable alatoire desprance mathmatique nulle et de variance 2, et o f(x) est une fonc-
tion certaine ; lesprance mathmatique de Yp est donc f(x), la fonction de rgression de yp, dont on a vu
plus haut que cest le meilleur modle possible au sens de la fonction de perte choisie.
Supposons enfin que le modle soit obtenu par apprentissage : les paramtres w du modle doivent donc
tre considrs comme des ralisations dun vecteur alatoire W qui dpend des ralisations de Yp
Lapprentissage statistique : pourquoi, comment ?
23
CHAPITRE 1

prsentes dans lensemble dapprentissage ; de mme, les prdictions g(x, w) peuvent tre considres
comme des ralisations dune variable alatoire G(x, W) qui dpendent de Yp. Pour rendre les quations
plus lisibles, on remplace ici la notation varX par var (X) et EX par E(X).
Lerreur de prdiction thorique au point x est alors donne par :

P 2 ( x ) = 2 + var G ( x, W ) + E f ( x ) G ( x, W ) ,
2

o le phnomne alatoire est la constitution de lensemble dapprentissage.

Dmonstration
Rappelons que, pour une variable alatoire Z, on a la relation

E Z 2 = varZ + [E Z ] .
2

Le modle tant construit par apprentissage, ses paramtres, donc les prdictions du modle, sont eux-mmes des ralisations de varia-
bles alatoires W et G(x, W) par lintermdiaire de Yp. On peut donc crire :

P 2 ( x ) == E Y p G ( x ,W ) = var Y p G ( x ,w ) + E Y p G ( x ,W )
2 2


= var Y p f ( x ) + f ( x ) G ( x ,W ) + E Y p f ( x ) + f ( x ) G ( x ,W )
2

= var + f ( x ) G ( x ,W ) + E + f ( x ) G ( x ,W ) .
2

La fonction f(x) tant certaine (elle ne dpend pas de W, donc de lensemble dapprentissage), sa variance est nulle. Dautre part, lesp-
rance mathmatique de est nulle : on a donc nalement :

P 2 ( x ) = 2 + var G ( x ,W ) + E f ( x ) G ( x ,W ) .
2

Le premier terme de la somme est la variance du bruit de mesure. Le deuxime est la variance de la prdic-
tion du modle au point x, qui reprsente la sensibilit du modle lensemble dapprentissage. Le troi-
sime est le biais du modle, cest--dire le carr de lesprance mathmatique de lcart entre les prdic-
tions fournies par le modle et celles qui sont fournies par le meilleur modle possible (la fonction de
rgression f(x)).
Cette relation trs importante appelle plusieurs commentaires :
La qualit dun modle ne peut tre value que par comparaison entre son erreur de prdiction et la
variance du bruit sur les mesures. Un modle qui fournit des prdictions en dsaccord de 10 % avec les
mesures est un excellent modle si les mesures ont elles-mmes une prcision de 10 % ; mais si la prci-
sion sur les mesures est de 1 %, le modle est trs mauvais : il faut chercher lamliorer. Si la prcision
sur les mesures est de 20 %, la performance de 10% annonce pour le modle est trs suspecte : son esti-
mation doit tre remise en cause. Les trois termes de la somme tant positifs, lerreur de prdiction tho-
rique ne peut tre infrieure la variance des observations en x, cest--dire la variance du bruit qui
affecte les mesures ; en dautres termes, on ne peut pas esprer quun modle, conu par apprentissage,
fournisse des prdictions plus prcises que les mesures partir desquelles il a t construit. Cest ce qui
a t observ sur la figure 1-4, o le minimum de la racine carre de lerreur de prdiction thorique,
estime par lEQMT, tait de lordre de lcart-type du bruit.
On retrouve par cette relation le fait que le meilleur modle est la fonction de rgression : en effet, si
g(x, w) = f(x), la variance est nulle puisque le modle ne dpend pas de w, et le biais est nul ; lerreur de
prdiction est donc la plus petite possible, gale la variance du bruit.
Lapprentissage statistique
24

Si le modle ne dpend pas de paramtres ajustables, la variance est nulle, mais le biais peut tre trs
grand puisque le modle ne dpend pas des donnes. Par exemple, si g(x, w) = 0, la variance est nulle et
le biais vaut f ( x ) .
2

Dans les exemples acadmiques de prdiction et de classification que nous avons prsents, nous avons
observ que le biais et la variance varient en sens inverse en fonction de la complexit du modle : un
modle trop complexe par rapport aux donnes dont on dispose possde une variance leve et un biais
faible, alors quun modle de complexit insuffisante a une variance faible mais un biais lev. Comme
lerreur de gnralisation fait intervenir la somme de ces deux termes, elle passe par un optimum qui est
au moins gal la variance du bruit. Cest exactement ce que nous avons observ sur la figure 1-4 :
lerreur quadratique moyenne sur lensemble de test, qui est une estimation de lerreur de gnralisation,
passe par un minimum pour un polynme de degr 6, qui prsente donc la complexit optimale compte
tenu des donnes dapprentissage dont on dispose.
La relation qui vient dtre tablie fournit lerreur de prdiction thorique en un point x. Lerreur de
prdiction thorique est

P 2 = E X P 2 ( x ) = P 2 ( x ) pX dx

= 2 + E X var G ( x, W ) + E X E f ( x ) G ( x, W ) .
2

Remarque
Lesprance mathmatique EX na pas le mme sens que lesprance mathmatique E : la premire porte sur toutes les conditions expri-
mentales possibles, tandis que la seconde porte sur toutes les ralisations possibles de lensemble dapprentissage.

Pour vrifier numriquement cette relation, reprenons lexemple de la modlisation par apprentissage
partir de donnes qui ont t cres artificiellement en ajoutant la fonction 10 sin(x)/x un bruit pseudo-
alatoire de variance gale 1, en NA = 15 points xk. Pour estimer le biais et la variance en un point x, 100
ensembles dapprentissage diffrents ont t crs, en tirant au hasard, dans une distribution normale
centre, 100 valeurs de yp pour chaque valeur de xk ; on a fait lapprentissage de 100 modles diffrents
g(x, wi), i = 1 100, cest--dire que 100 vecteurs de paramtres ont t estims par la mthode des moin-
dres carrs (qui sera dcrite plus loin). Un ensemble de test de 1 000 points a t cr, et, en chaque point
de cet ensemble, le biais et la variance du modle de paramtres wi ont t estims :
2
1 100 sin xktest
estimation du biais du modle g(x, wi) au point x test
k :
100 i =1 xk
( )
10 test g xktest , wi

estimation de la variance du modle g(x, wi) au point xktest :
2
1 100

99 i =1
( )
g xktest , w i
1 100

100 j =1
( )
g xktest , w j .

( )
Lerreur de prdiction P 2 xktest est estime par :

( )) .
100
1
(
yktest g xktest ,wi
2

100 i =1
Finalement, les esprances mathmatiques de ces trois quantits sont estimes par la moyenne de chacune
delles sur les 1 000 points de test.
Lapprentissage statistique : pourquoi, comment ?
25
CHAPITRE 1

9 La figure 1-11 montre, en fonction de la complexit


8
du modle, les estimations du biais du modle, de
la variance du modle, ainsi que la valeur de la
7 variance du bruit. La somme de ces trois quantits
6 (reprsente par des cercles) est en excellent
accord avec lestimation de lerreur de prdiction
5
(courbe en trait plein). On observe clairement que
4 le biais et la variance varient en sens opposs, et
que la somme passe par un minimum pour les poly-
3
nmes de degr 6.
2
Les rsultats ci-dessus ont t tablis pour la
1 prdiction. Pour la classification, ils prennent une
0
forme analogue, comme illustr numriquement
0 2 4 6 8 10 12 sur la figure 1-7. De manire gnrale, on peut
Complexit du modle (degr du polynme) rsumer la problmatique du dilemme biais-
Figure 1-11. Dilemme biais-variance pour la rgression
variance comme reprsent sur la figure 1-12 : le
x : estimation de lesprance mathmatique de la meilleur modle, au sens statistique du terme,
variance ; constitue un compromis entre lignorance
+ : estimation de lesprance mathmatique du biais (modles incapables dapprendre) et la stupidit
o : variance du bruit + variance de la prdiction + biais (modles surajusts, qui apprennent trs bien et
de la prdiction ; sont incapables de gnraliser).
trait plein : estimation de lesprance mathmatique
de lerreur de prdiction;
tirets : variance du bruit Meilleur modle
compte tenu des donnes disponibles
Erreur de prdiction

sur un ensemble
de donnes indpendant
de lensemble dapprentissage

sur lensemble
dapprentissage

Complexit du modle

Figure 1-12. Reprsentation symbolique Modles ignorants Modles stupides


du dilemme biais-variance (surajusts)

De la thorie la pratique
Les rsultats qui ont t prsents dans la section prcdente sont des rsultats asymptotiques, cest--dire
quils sont exacts si lon dispose dune quantit infinie de donnes. Ils sont trs utiles, car ils expliquent
les grandes lignes des phnomnes que lon observe, et mettent en vidence les problmes quil faut
rsoudre. Nanmoins, dans une situation relle de mise en uvre des mthodes dapprentissage artificiel,
on dispose toujours dune quantit finie de donnes, insuffisante pour estimer de manire trs prcise les
Lapprentissage statistique
26

intgrales ncessaires au calcul des esprances mathmatiques ou des variances ; de plus, les distributions
de probabilits auxquelles obissent les donnes sont galement inconnues. Dans cette section, on
prsente des rsultats thoriques sur lesquels il est possible de sappuyer pour trouver des mthodes prati-
ques de conception de modles par apprentissage. Le lecteur qui ne cherche pas approfondir la thorie
de lapprentissage peut sans dommage omettre de lire cette section et passer directement la section inti-
tule La conception de modles en pratique .

Remplacer des intgrales par des sommes


Rappelons que lobjectif de la modlisation par apprentissage est de trouver des fonctions paramtres qui
sont susceptibles de rendre compte des donnes disponibles, et de fournir des prdictions aussi prcises
que possible concernant des donnes dont on ne dispose pas lors de lapprentissage. Lobjectif thorique
est donc de trouver le vecteur de paramtres w pour lequel lerreur de prdiction thorique

P 2 = E = ( y , g ( x, w )) p
p
Y p ,X
dy p dx

est minimale. Lintgrale ntant pas calculable, il convient donc de lestimer laide des donnes dispo-
nibles. On estime donc lerreur de prdiction thorique par lerreur de prdiction empirique (galement
appele risque empirique)

1 N
P *2 = (
ykp , g ( xk , w )
N k =1
)
( )
o ykp , g ( xk , w ) est la fonction de perte choisie.
Lapport fondamental de la thorie de lapprentissage, par rapport aux statistiques classiques, rside dans
ltude de la manire dont lerreur empirique converge (ou ne converge pas) vers lerreur thorique. Ainsi,
en statistique, on montre que la moyenne est un estimateur non biais de lesprance mathmatique ; la
thorie de lapprentissage, pour sa part, sintresse la faon dont la moyenne converge vers lesprance
mathmatique lorsque le nombre dexemples augmente. Ainsi on peut valuer le nombre dexemples
ncessaires pour estimer lesprance mathmatique avec une prcision donne, ou bien valuer lerreur
que lon commet en estimant lesprance mathmatique par la moyenne, pour un nombre dexemples
donn.
Comme indiqu plus haut, la fonction de perte la plus utilise dans le cas de la prdiction est le carr de
lerreur, et lerreur de prdiction empirique est donne par

1 N p
(
yk g ( xk , w ) )
2
P *2 =
N k =1

o la somme porte sur un ensemble de donnes convenablement choisies parmi les donnes disponibles.
La premire tche consiste estimer les paramtres w, cest--dire effectuer lapprentissage proprement
dit. Pour cela, on choisit, parmi les donnes disponibles, un ensemble dapprentissage, de cardinal NA, et
lon cherche, laide dalgorithmes appropris, le vecteur w pour lequel la fonction de cot
NA

(
J = ykp g ( xk , w ) )
k =1

est minimale. Rappelons que, dans le cas o est le carr de lerreur, la fonction
Lapprentissage statistique : pourquoi, comment ?
27
CHAPITRE 1

NA

(
J = ykp g ( xk , w ) )
2

k =1

est appele fonction de cot des moindres carrs.

Supposons donc que lon ait trouv le minimum de la fonction de cot choisie ; la valeur de ce minimum
est-elle reprsentative de la qualit des prdictions que fournira le modle, muni des paramtres ainsi
dtermins, pour des valeurs de x qui ne font pas partie de lensemble dapprentissage ? Les exemples
prcdents montrent que la rponse est gnralement ngative. Ainsi, la figure 1-4 montre que lerreur
quadratique moyenne sur lensemble dapprentissage (EQMA), qui vaut J , est trs infrieure lerreur
quadratique moyenne sur lensemble de test pour des modles trop complexes (de degr suprieur ou gal
7). De mme, la figure 1-9 montre que lerreur sur lensemble dapprentissage est trs optimiste, cest-
-dire trs infrieure lerreur sur lensemble de test, lorsque le nombre dexemples est petit. Dautre part,
lerreur sur lensemble de test elle-mme nest quune estimation, laide dun nombre fini dexemples,
de lerreur de prdiction thorique. On peut donc en tirer deux enseignements :
dune part, il ne faut gnralement pas estimer la performance dun modle partir des rsultats de
lapprentissage ;
dautre part, il faut estimer le mieux possible lerreur de prdiction.

Les deux sections suivantes dcrivent, dune part, des lments thoriques qui permettent de borner
lerreur que lon commet en estimant les capacits de gnralisation partir des estimations obtenues
laide de donnes en nombre fini, et, dautre part, des lments mthodologiques qui permettent de dfinir
les bonnes pratiques pour la conception de modles par apprentissage.

Bornes sur lerreur de gnralisation


Les rsultats thoriques prsents dans la section Dilemme biais-variance sont des rsultats asympto-
tiques, qui sont exacts dans la limite o les exemples sont en nombre infini. Dans le cas, plus raliste, o
les exemples sont en nombre fini, on ne peut plus tablir de rsultats exacts ; en revanche, on peut obtenir
des rsultats en probabilit. Le cadre thorique le plus frquemment utilis est celui de la thorie de
lapprentissage tablie par V. Vapnik [VAPNIK 1998].

Le rsultat le plus remarquable de cette thorie consiste en une expression quantitative de la notion de
complexit du modle : tant donne une famille de fonction g(x, w), la complexit de cette famille peut
tre caractrise par une grandeur, appele dimension de Vapnik-Chervonenkis. Le fait quil suffise dune
seule grandeur pour dfinir la complexit dune famille de fonctions quelconque est trs remarquable ; il
faut nanmoins admettre que le calcul de la dimension de Vapnik-Chervonenkis pour une famille de fonc-
tions nest pas toujours simple.

Pour la famille des polynmes de degr d, la dimension de Vapnik-Chervonenkis est gale au nombre de
paramtres du modle, soit d+1.

En classification, la dimension de Vapnik-Chervonenkis admet une interprtation gomtrique simple :


cest le nombre maximal de points qui peuvent tre spars sans erreur par une fonction indicatrice appar-
tenant la famille considre. On trouvera dans le chapitre 6 une justification originale et bien dveloppe
de la dimension de Vapnik-Chervonenkis, dans le cadre de la classification.
Lapprentissage statistique
28

Exemple
Considrons la famille des fonctions afnes deux varia-
bles x1 et x2. Il est facile de prouver que la dimension de
Vapnik-Chervonenkis de cette famille de fonctions est
gale 3 : la gure 1-13 montre que les points appartenant
toutes les congurations possibles de 3 points apparte-
nant deux classes, en dimension 2, peuvent tre spars
par une fonction afne. En revanche, la gure 1-14 montre
une conguration de 4 points qui ne sont pas sparables
par une fonction de cette famille. Cette conguration admet
Figure 1-13. Toute configuration de 3 points dans le plan,
nanmoins un sparateur quadratique (une hyperbole), ce appartenant deux classes, admet un sparateur affine.
qui prouve que la dimension de Vapnik-Chervonenkis des
fonctions afnes de deux variables est gale 3, et que
celle des fonctions quadratiques de deux variables est
suprieure 3 ; comme indiqu plus haut, elle est gale au
nombre de paramtres, soit 6 pour les polynmes du
second degr deux variables.

La dimension de Vapnik-Chervonenkis est Figure 1-14. Une configuration de 4 points qui nadmet
gnralement une fonction croissante du pas de sparateur affine, mais qui admet un sparateur
quadratique.
nombre de paramtres. Mais ce nest pas
toujours le cas. Ainsi, la fonction sgn sin wx ( )
a un seul paramtre, mais peut sparer un nombre quelconque de points : il suffit de choisir une longueur
donde 2/w suffisamment petite. Sa dimension de Vapnik-Chervonenkis est infinie (figure 1-15).

Figure 1-15. La dimension


sin(wx)

de Vapnik-Chervonenkis
x ox oo x o xx o x xo x o xx o de la fonction sin(wx) est infinie.

x
Cette dfinition de la complexit permet dtablir des bornes sur lerreur commise en remplaant lerreur
de prdiction thorique P2 par une erreur empirique P*2 estime sur lensemble dapprentissage. Ainsi,
supposons que lon effectue lapprentissage dun classifieur en cherchant la fonction indicatrice
1 + sgn g ( x, w )
( x, w ) = (de valeur 0 ou 1, comme indiqu plus haut) qui minimise une erreur empi-
2
rique P*2(w) sur un ensemble dapprentissage de cardinal NA. Soit h la dimension de Vapnik-
Lapprentissage statistique : pourquoi, comment ?
29
CHAPITRE 1

Chervonenkis de g(x, w). On a le rsultat suivant : si NA > h, alors, avec une probabilit au moins gale
1 , pour toute fonction de cette famille, la diffrence entre lerreur de gnralisation (inconnue) P2(w)
commise par cette fonction et lerreur empirique P*2(w) calcule sur les donnes dapprentissage est
borne suprieurement par la quantit

E ( N A , h, ) 4 P *2 ( w )
B ( N A , h, ) = 1 + 1 + ,
2 E ( N A , h, )

N
h ln 2 A + 1 ln
4
o E ( N A , h, ) = 4
h
.
NA
( )
De plus, pour la fonction g x , w * pour laquelle lerreur empirique est minimale (cest--dire pour le
modle de la famille considre qui est trouv par apprentissage), avec une probabilit au moins gale
1-2, la diffrence entre lerreur de gnralisation P2(w*) commise par cette fonction et la plus petite
erreur de gnralisation qui puisse tre commise par un modle de cette famille est borne suprieurement par :

-ln E ( N A , h, ) 4
B * ( N A , h, ) = + 1 + 1 + .
2NA 2 E ( N A , h, )
La figure 1-16 montre
lvolution de B*(NA, h,
) en fonction du nombre
dexemples et de la
40 dimension de Vapnik-
35
Chervonenkis ( = 10-2).
On observe que cette
30 borne crot lorsque le
nombre dexemples
)

25
B * NA ,h,

diminue, ce qui confirme


20
le fait, mis en vidence
(

15 dans les exemples


10 prsents plus haut, que
la qualit du modle est
5 dautant meilleure que le
10
0 8 kis nombre dexemples est
0 o nen grand devant la
6 erv
10 ik-C complexit du modle.
20 4 pn
Nomb Va
re de 30 2 de
xemp ion
les 40 0 imens
D
Figure 1-16. Exemple
de borne thorique

Dans la pratique, la mise en uvre de ces bornes est peu utile, car elles sont gnralement trs
pessimistes ; elles peuvent ventuellement tre utilises pour comparer des modles entre eux. Nan-
moins, lapproche possde le trs grand mrite de mettre en vidence des comportements universels de
familles de fonctions, indpendamment de la distribution des exemples, pour des nombres dexemples
Lapprentissage statistique
30

finis, et de fournir des guides pour la conception de modles utiles dans des applications difficiles. Ainsi,
les machines vecteurs supports, dcrites dans le chapitre 6, permettent un contrle sur la dimension de
Vapnik-Chervonenkis.

Minimisation du risque structurel


Les considrations dveloppes dans les sections prcdentes conduisent naturellement un lment
important de la mthodologie de conception de modle, dite mthode de minimisation du risque struc-
turel. Elle consiste :
postuler des modles de complexit croissante, par exemple des polynmes de degr croissant ;
trouver le ou les modles pour lesquels lerreur de prdiction empirique est minimale pour chaque
complexit, ventuellement en pnalisant la variance par des mthodes de rgularisation qui seront
dcrites dans le chapitre 2 ;
choisir le meilleur modle.
Les mthodes de conception de modle qui seront dcrites dans cet ouvrage entrent dans ce cadre.

Conception de modles en pratique


Les exemples qui ont t exposs, et les considrations thoriques qui ont t dcrites, illustrent les
grandes lignes de la mthodologie de conception de modles quil convient de suivre de manire rigou-
reuse pour obtenir, par apprentissage, des modles prcis et fiables, donc utiles. Dans cette section, nous
rcapitulons les tapes de conception dun tel modle.

Collecte et prtraitement des donnes


La premire tape est videmment la collecte des donnes. Deux situations peuvent se prsenter :
le modle doit tre conu partir dune base de donnes prexistante, que lon ne peut pas enrichir ;
le concepteur du modle peut spcifier les expriences qui doivent tre effectues pour amliorer le
modle.
Une fois les donnes disponibles, il convient de les traiter de manire rendre la modlisation aussi effi-
cace que possible.

Les donnes sont prexistantes


L encore, il faut distinguer deux cas :
les donnes sont peu nombreuses ; il faut alors sefforcer de tirer le meilleur parti de ces donnes, en
construisant des modles aussi parcimonieux que possible en nombre de paramtres ;
les donnes sont trs nombreuses : on peut alors mettre en uvre des mthodes dites de planification
exprimentale ou dapprentissage actif, afin de ne retenir que les exemples qui apportent une relle
information au modle. La description dtaille de ces mthodes sort du cadre de cet ouvrage, mais des
lments en seront dcrits dans les chapitres qui suivent.

Les donnes peuvent tre spcifies par le concepteur


Dans un tel cas, il est trs souhaitable de mettre en uvre des mthodes de planification exprimentale,
surtout si les expriences sont longues ou coteuses. Les plans dexprience permettent en effet de limiter
Lapprentissage statistique : pourquoi, comment ?
31
CHAPITRE 1

le nombre dexpriences, en neffectuant que celles qui sont rellement utiles pour la conception du
modle.

Prtraitement des donnes


Une fois les donnes disponibles, il faut effectuer un prtraitement qui permette de rendre la modlisation
aussi efficace que possible. Ces prtraitements dpendent de la tche effectuer et des particularits des
donnes que lon manipule. Dans tous les cas, le prtraitement minimal consiste normaliser et centrer
les donnes, de manire viter, par exemple, que certaines variables aient de trs grandes valeurs num-
riques par rapport dautres, ce qui rendrait les algorithmes dapprentissage inefficaces. Le prtraitement
le plus simple consiste donc effectuer le changement de variables suivant, pour les variables x comme
pour la grandeur modliser yp :

u u
u' = ,
su
o u dsigne la moyenne de la grandeur u considre

1 N
u = uk ,
N k =1
et su est lestimateur de lcart-type de u :

1 N
(u u ) 2
su = .
N 1 k =1

Ainsi, toutes les grandeurs sont de moyenne nulle et dcart-type unit.


Dans toute la suite, on supposera toujours que les grandeurs considres ont t pralablement normali-
ses et centres.

Slection des variables


Lorsquon modlise un processus physique ou chimique bien connu, on dtermine gnralement, par une
analyse pralable du problme, les variables qui ont une influence sur le phnomne tudi ; dans ce cas,
une tape de slection des variables nest pas toujours ncessaire. En revanche, ce nest pas le cas
lorsquon cherche modliser un processus conomique, social ou financier, ou encore un processus
physico-chimique complexe ou mal connu : les experts du domaine peuvent donner des indications sur les
facteurs quils estiment pertinents, mais il sagit souvent de jugements subjectifs quil faut mettre
lpreuve des faits. On est alors conduit retenir un grand nombre de variables candidates (appeles
galement facteurs ou descripteurs), potentiellement pertinentes. Nanmoins, la complexit du modle
crot avec le nombre de variables : par exemple, la dimension de Vapnik-Chervonenkis de polynmes de

degr d vaut ( n + d )!, o n est le nombre de variables ; elle crot donc trs rapidement avec n. Conserver
n! d !
un contrle sur le nombre de variables est donc un lment important dans une stratgie de modlisation
qui cherche matriser la complexit des modles. Nous dcrirons plus en dtail, dans ce chapitre, le
problme de la slection de variables et nous proposerons une mthode efficace pour le rsoudre.
Lapprentissage statistique
32

Les rsultats de la slection de variables sont susceptibles de remettre en cause des ides reues concer-
nant le phnomne modliser, ou, au contraire, de conforter des conjectures ou des intuitions concernant
linfluence des variables candidates sur la grandeur modliser.
On peut galement souhaiter diminuer le nombre de variables en rduisant la dimension de lespace de
reprsentation de la grandeur que lon cherche modliser. Les principales mthodes utilises dans ce but
sont lAnalyse en Composantes Principales (ACP), lAnalyse en Composantes Indpendantes (ACI, ou
ICA pour Independent Component Analysis) ou encore lAnalyse en Composantes Curvilignes (ACC).
LACP et lACC sont dcrites dans le chapitre 3 de cet ouvrage.

Apprentissage des modles


Les mthodes dapprentissage de diffrentes familles de modles seront dcrites en dtail dans les diff-
rents chapitres de cet ouvrage. Comme nous lavons dj vu, elles consistent toutes optimiser des fonc-
tions bien choisies par des mthodes appropries. Lapprentissage des modles linaires en leurs param-
tres est dcrit dans ce chapitre, dans la section Conception de modles linaires par rapport leurs
paramtres (rgression linaire) .

Slection de modles
Comme indiqu plus haut, la mthode de minimisation du risque structurel conduit concevoir des
modles de complexits diffrentes et choisir celui qui est susceptible davoir les meilleures proprits
de gnralisation.
Nous avons vu quil est impossible, en gnral, destimer la capacit de gnralisation dun modle
partir des rsultats de lapprentissage ; une telle procdure conduirait systmatiquement slectionner un
modle de biais faible et de variance leve, donc surajust. Pour slectionner le meilleur modle parmi
des modles de complexits diffrentes, il convient donc de les comparer sur la base des prdictions quils
effectuent sur des donnes qui nont pas servi lapprentissage. Nous dcrivons ci-dessous, dans la
section intitule Slection de modles , les mthodes les plus couramment utilises.

Slection de modles
Comme indiqu plus haut, la slection de modles est une tape cruciale dans la conception dun modle
par apprentissage. Nous dcrivons ici les trois mthodes les plus frquemment mises en uvre.

Validation simple (hold-out)


Lorsque lon dispose dun grand nombre de donnes, la mthode la plus simple consiste diviser les
donnes en trois ensembles (figure 1-17) :
Un ensemble dapprentissage, de taille NA, utilis pour lapprentissage du modle ; lissue de lappren-
tissage, on calcule lEQMA du modle obtenu

1 NA p
(
yk g ( x k , w ) )
2
EQMA =
N A k =1
o la somme porte sur les lments de lensemble dapprentissage.
Lapprentissage statistique : pourquoi, comment ?
33
CHAPITRE 1

Un ensemble de validation de taille NV, disjoint de lensemble dapprentissage, mais issu de la mme
distribution de probabilit, qui est utilis pour comparer les performances des modles du point de vue
de leur aptitude gnraliser. On calcule, pour chaque modle, son Erreur Quadratique Moyenne de
Validation (EQMV)
NV

( y )
1
g ( xk , w )
2
EQMV = p
k
NV k =1

o la somme porte sur les lments de la base de validation.


Un ensemble de test de taille NT, disjoint des deux prcdents, qui sert valuer la performance du
modle slectionn en calculant lErreur Quadratique Moyenne de Test (EQMT)
NT

( y )
1
g ( xk , w )
2
EQMT = p
k
NT k =1

o la somme porte sur les lments de la base de test ; ces donnes ne doivent videmment pas tre utili-
ses pendant toute la phase de slection de modle.

Apprentissage Validation Test

Ensemble des donnes disponibles


Figure 1-17. Validation simple

Parmi lensemble des modles dont on a effectu lapprentissage, on choisit videmment celui dont
lEQMV est la plus petite ; si plusieurs modles de complexits diffrentes peuvent prtendre tre
choisis car leurs EQMV sont petites, et du mme ordre de grandeur, on choisit celui dont la complexit
est la plus faible.
Une fois dtermine la famille de fonctions de complexit optimale, on effectue un dernier apprentissage
avec lensemble des donnes utilises pralablement pour lapprentissage et la validation ; la performance
du modle ainsi obtenu est estime sur les donnes rserves pour le test.

Validation croise ( cross-validation )


Si lon ne dispose pas de donnes abondantes, la validation simple risque de conduire choisir des
modles surajusts lensemble de validation. On utilise alors la validation croise. Pour une famille de
fonctions :
sparer les donnes disponibles en un ensemble dapprentissage-validation et un ensemble de test ;
subdiviser le premier ensemble en D sous-ensembles disjoints (typiquement D = 5) ;
itrer D fois, de telle manire que chaque exemple soit prsent une et une seule fois dans un sous-
ensemble de validation (figure 1-18) ;
effectuer lapprentissage sur D-1 sous-ensembles ; calculer la somme des carrs des erreurs sur le sous-
ensemble des donnes restantes ;
Lapprentissage statistique
34

(y g ( x k , wi ) )
2
Si = p
k
k sous-ensemble
de validaation i

Apprentissage
Validation

Test
Figure 1-18. Validation croise

calculer le score de validation croise


1 D
Si ;
N i =1
slectionner le modle dont le score de validation croise est le plus faible ; si plusieurs modles de
complexits diffrentes peuvent prtendre tre choisis car leurs EQMV sont petites, et du mme ordre
de grandeur, choisir celui dont la complexit est la plus faible.
Une fois dtermine la famille de fonctions de complexit optimale, on effectue lapprentissage sur
lensemble des donnes utilises pralablement pour la validation croise, et la performance du modle
ainsi obtenu est estime sur les donnes rserves pour le test.

Leave-one-out
Le leave-one-out (galement appel jackknife) est la limite de la validation croise, dans laquelle le
nombre de partitions D de lensemble dapprentissage-validation est gal au nombre de ses lments N.
Chaque sous-ensemble de validation est donc constitu dun seul exemple. Pour une famille de fonctions
de complexit donne, il faut donc raliser autant dapprentissages quil y a dexemples dans la base
dapprentissage-validation. Pour chaque exemple k exclu de lensemble dapprentissage, on calcule
lerreur de prdiction

rk k = ykp g( x, w k )

o g(x, w-k) dsigne le modle, de paramtres w-k, obtenu lorsque lexemple k est exclu de lensemble
dapprentissage.
Une fois la procdure effectue, on calcule le score de leave-one-out

1 N k
rk ( )
2
Et = .
N k =1
Comme dans les cas prcdents, on choisit le modle qui a le plus petit score de leave-one-out ; si
plusieurs modles de complexits diffrentes peuvent prtendre tre choisis car leurs scores de leave-
Lapprentissage statistique : pourquoi, comment ?
35
CHAPITRE 1

one-out sont petits, et du mme ordre de grandeur, on choisit celui dont la complexit est la plus faible.
Lapprentissage final est effectu avec lensemble des donnes disponibles.
3
Score de leave-one-out
La figure 1-19 montre le score de leave-one-out et
EQMA lEQMA en fonction du degr du modle polyno-
2,5 cart-type du bruit mial, pour lexemple tudi plus haut dans la
section intitule Un exemple de modlisation
pour la prdiction . Les rsultats sont remarqua-
2 blement voisins de ceux qui sont reprsents sur la
figure 1-4 ; mais, la diffrence de ces derniers,
lerreur de gnralisation nest pas estime sur un
1,5
ensemble de test de 1 000 exemples (il est tout
fait exceptionnel de disposer de donnes de test
1 aussi abondantes), mais avec les seuls 30 points
disponibles. La procdure conduit la slection
dun polynme de degr 6 ; il faut noter que les
0,5
0 2 4 6 8 10 12
rsultats prsents ici sont une moyenne sur
Degr du modle polynomial 100 ensembles dapprentissage.
Figure 1-19. EQMA et score de leave-one-out moyens
sur 100 bases dapprentissage comprenant chacune
30 exemples
6 Dans la pratique, on ne dispose que dun ensemble
Score de leave-one-out
dapprentissage, ce qui introduit une plus grande
EQMA
5 variabilit dans les rsultats ; ainsi, dans le cas
cart-type du bruit
reprsent sur la figure 1-20, les modles de degr
4 6 et 8 peuvent prtendre tre choisis ; compte
tenu du fait que les scores de leave-one-out sont
3
trs voisins, on choisit le modle de degr 6.
Cette technique est donc gourmande en temps de
2 calcul, en raison du grand nombre dapprentissages
ncessaires. Le calcul du PRESS, dcrit dans la
1
section Conception de modles linaires de ce
chapitre, et la mthode du leave-one-out virtuel,
qui sera dcrite dans le chapitre 2, constituent des
0
0 2 4 6 8 10 12 alternatives beaucoup plus conomiques en temps
Degr du modle polynomial de calcul.
Figure 1-20. EQMA et score de leave-one-out
pour un seul ensemble dapprentissage

Slection de variables
Comme soulign plus haut, la slection de variables constitue un lment important dans une stratgie de
conception dun modle par apprentissage ; elle contribue en effet la diminution de la complexit dun
modle. Louvrage [GUYON 2006] fournit une excellente vue densemble des approches modernes de la
slection de variables.
Lapprentissage statistique
36

La slection de variables ncessite toujours :


de dfinir un critre de pertinence des variables pour la prdiction de la grandeur modliser ;
de ranger les variables candidates par ordre de pertinence ;
de dfinir un seuil qui permette de dcider que lon conserve ou que lon rejette une variable ou un
groupe de variables.
Dans cette section, nous poserons dabord le problme de la dfinition dun critre de pertinence sous son
angle statistique, puis nous dcrirons une mthode efficace de slection de variables. Enfin, nous dcri-
rons une stratgie gnrale appliquer pour la slection de variables.

Cadre thorique
Cette section pose les bases thoriques ncessaires une apprhension gnrale du problme de slection
de variables. Le lecteur peu soucieux de ce cadre thorique peut sans dommage omettre la lecture de cette
section et passer directement la section intitule Mthode de la variable sonde .
La prsentation qui suit est inspire de lintroduction de [GUYON 2006].
Lobjectif de la slection de variables est de discerner, dans un ensemble de variables candidates {x1, x2,
xn}, qui constituent le vecteur de variables que nous avons not x dans les sections prcdentes, celles
qui sont pertinentes pour la modlisation de la grandeur yp. Comme prcdemment, ces variables peuvent
tre modlises comme des ralisations des composantes X1, X2, , Xn dun vecteur alatoire X. On
dsigne par Xi le vecteur dont les composantes sont celles de X lexception de la variable xi. Enfin, on
dsigne par Si un vecteur alatoire dont les composantes sont un sous-ensemble des composantes de Xi
(Si peut tre identique Xi). En rsum, le vecteur X modlise toutes les variables candidates, le vecteur
Xi modlise le vecteur des variables candidates dont on a supprim la variable i, et le vecteur Si modlise
le vecteur des variables candidates dont on a supprim au moins la variable i, et ventuellement dautres
variables.
Il va de soi que la variable i est certainement non pertinente pour prdire la grandeur yp si et seulement si
les variables xi et yp varient indpendamment lune de lautre lorsque toutes les autres variables sont
fixes, ce qui peut scrire :

( ) ( ) (
pX ,Y p Xi , Y p S i = p Xi Xi S i pY p Y p S i .
i
)
Une variable qui est pertinente nobit donc pas cette relation. Pour savoir si une variable est peu perti-
nente ou trs pertinente, il est donc naturel de chercher savoir si le membre de gauche de cette galit
est peu diffrent, ou trs diffrent, du membre de droite. Sagissant de distributions de probabilits, une
diffrence sexprime gnralement par la distance de Kullback-Leibler entre les distributions. La
distance de Kullback-Leibler entre deux distributions de probabilits pU et pV est dfinie par la
relation [KULLBACK 1959] :
+
pU
pV ln p du dv.
V

Elle scrit donc ici :

( )
+
p X ,Y p Xi , Y p S i
(
I Xi , Y S p i
) i
( )
= pX ,Y p Xi , Y p S i ln i

( ) (
pXi Xi S i pY p Y p S i )
dxi dy p .


Lapprentissage statistique : pourquoi, comment ?
37
CHAPITRE 1

Cette quantit nest autre que linformation mutuelle entre Xi et Yp, tant donnes toutes les autres varia-
bles. Plus elle est grande, plus la variable xi est pertinente pour la prdiction de yp, toutes les autres varia-
bles tant connues.
Puisque lon cherche un indice de pertinence qui soit indpendant des autres variables candidates, il est
naturel de proposer comme indice de pertinence, pour la variable i, la moyenne de linformation
mutuelle :

( )( )
r ( i ) = Pr S i I Xi , Y p S i .
S i

On peut alors fixer un seuil et dcider de rejeter toutes les variables telles que

r ( i ) < .
Il faut nanmoins remarquer que les intgrales qui interviennent dans lexpression de lindice de perti-
nence ne sont pas calculables, puisque lon ne dispose que dun nombre fini N de ralisations de xi et de
yp. Ce critre de slection nest donc pas applicable en pratique ; en revanche, on peut, au moins en prin-
cipe, estimer la probabilit pour que lindice de pertinence soit suprieur un seuil , et dcider que la
variable candidate doit tre rejete si la probabilit pour que son indice de pertinence soit suprieur au
seuil est infrieure une quantit :

Pr ( r ( i, N ) > ) <

o r(i, N) dsigne lindice de pertinence estim pour la variable i partir dun chantillon de N exemples.
Les mthodes qui ncessitent lestimation de densits de probabilit sont gnralement de mise en uvre
dlicate, notamment lorsque les exemples sont en nombre limit. Nous dcrivons ci-dessous une mthode
simple et robuste qui est fonde sur lestimation de corrlations.

Mthode de la variable sonde


Rappelons lobjectif de toute procdure de slection de variables : classer les variables candidates en deux
groupes, les variables que lon conserve car on les considre pertinentes, et celles que lon rejette. Suppo-
sons que lon ait dfini un indice de pertinence r(i, N) pour la variable i, partir dun chantillon de N
observations. La variable i tant modlise comme une variable alatoire, son indice de pertinence est lui-
mme une variable alatoire. La figure 1-21 reprsente symboliquement les distributions de probabilit de
lindice de pertinence pour les variables pertinentes et pour les variables non pertinentes ; ces distributions
sont videmment inconnues, puisque lon ne sait pas quelles variables sont pertinentes. Nanmoins, on
peut penser que, si lindice de pertinence est bien choisi, sa distribution, pour les variables pertinentes,
possde un pic situ des valeurs plus leves que le pic de sa distribution pour les variables non perti-
nentes. Dans la pratique, les deux distributions ne sont pas parfaitement spares : si lon choisit un seuil
comme indiqu sur la figure, il existe une probabilit non nulle de faux positif (probabilit de
conserver une variable alors quelle nest pas pertinente), et une probabilit non nulle de faux ngatif
(probabilit de rejeter une variable alors quelle est pertinente). Il faut donc choisir judicieusement ce
seuil compte tenu des donnes dont on dispose.
la fin de la section prcdente, un critre de rejet a t propos : rejeter la variable i si

Pr ( r ( i, N ) > ) < .
Lapprentissage statistique
38

Cette condition se traduit


sur la figure 1-21 par le
fait que lon choisit de
telle manire que laire
hachure en traits gras
soit infrieure la proba-
Distribution de probabilit
de lindice de pertinence

bilit que lon sest


fixe.
Variables non pertinentes Variables pertinentes
Si lon connaissait la
distribution de lindice de
pertinence pour les varia-
bles non pertinentes, le
seul paramtre que le
concepteur du modle
aurait choisir serait
probabilit probabilit
donc cette probabilit .
de faux ngatif de faux positif ()
Lintrt de la mthode
de la variable sonde est
quelle permet destimer
la densit de probabilit
Indice de pertinence de lindice de pertinence
Figure 1-21. Distributions de probabilit de lindice de pertinence des variables non perti-
pour des variables pertinentes et pour des variables non pertinentes nentes. Muni de cette
connaissance, on procde
de la manire suivante : si
les donnes sont peu nombreuses, on choisit petit , donc grand , car il convient dtre trs
slectif afin de limiter le nombre de faux positifs. En revanche, si les donnes sont nombreuses, on peut
se permettre de diminuer le seuil , donc de slectionner un plus grand nombre de variables, au risque de
conserver des variables non pertinentes.

Dfinition de lindice de pertinence


Comme indiqu dans la section prcdente ( cadre thorique ), un indice de pertinence peut naturelle-
ment tre dfini partir de la notion dinformation mutuelle, mais il est trs difficile estimer pratique-
ment, notamment dans le cas o de nombreuses variables sont candidates. Il est plus simple de dfinir un
indice de pertinence partir du coefficient de corrlation entre les variables candidates et la grandeur
modliser, que celle-ci soit binaire (classification) ou relle (rgression).
Dans ce but, on se place dans le cadre de modles linaires en leurs paramtres
p
g ( x, w ) = wi fi ( x ).
i =1

Dans cette expression, fi(x) peut tre soit la variable xi elle-mme, qui est alors appele variable
primaire , soit une fonction non paramtre des variables, alors appele variable secondaire . Pour
simplifier, on dsignera dans la suite par zi la variable candidate de numro i, quil sagisse dune variable
primaire ou dune variable secondaire :
p
g ( x, w ) = wi zi .
i =1
Lapprentissage statistique : pourquoi, comment ?
39
CHAPITRE 1

La figure 1-22 illustre la notion de variables primaire et secondaire, laide dun graphisme qui sera large-
ment utilis dans la suite de louvrage. Les cercles reprsentent des fonctions ; le cercle contenant un
signe reprsente une fonction sommation. Les carrs ne ralisent aucune fonction : ils symbolisent
simplement les variables du modle. Le modle reprsent gauche est un modle linaire en ses para-
mtres et en ses variables : les variables primaires et secondaires sont identiques. Le modle de droite est
un modle linaire en ses paramtres mais non linaire en ses variables ; les variables secondaires sont
obtenues partir des variables primaires par des transformations non linaires non paramtres. Ainsi, le
modle de droite pourrait reprsenter un polynme, les fonctions i tant des monmes des variables
primaires.

g(x, w)
g(x, w)
w1 w2 wp

z1 z2 Variables secondaires zp
w1 w2 wp

z1 z2 Variables secondaires zp 1 2 ....... p

1 x2 Variables primaires xp
...
1 x2 xm
Variables primaires

Figure 1-22. Modles linaires en leurs paramtres

Le carr du coefficient de corrlation entre deux variables alatoires U et V centres (de moyenne nulle),
dont on connat N ralisations, est estim par la quantit

(u v )
2
k k
k =1
r2
U ,V = N N
.
uk2 vk2
k =1 k =1

Cette quantit a une interprtation gomtrique simple. Considrons lespace des observations, de dimen-
sion N. Dans cet espace, la grandeur u est reprsente par un vecteur u, dont chaque composante est une
observation uk de u. Le carr du coefficient de corrlation est alors le carr du cosinus de langle uv entre
les vecteurs u et v dans cet espace :

r2
= cos uv 2
=
( u v)
2

U ,V
(u u )(v v )
Lapprentissage statistique
40

o le symbole reprsente le produit scalaire dans lespace des observations. Le coefficient de corrlation
est donc compris entre zro (observations non corrles, vecteurs reprsentatifs orthogonaux dans
lespace des observations) et 1 (observations compltement corrles, vecteurs reprsentatifs colinaires).
Ainsi, le coefficient de corrlation entre la grandeur modliser yp et la variable candidate zi est donn
par :

r2
=
(y p
k zi ) 2

Y p , Zi
(y p
k )
ykp ( zi zi )
p
o yk et zi sont les vecteurs reprsentatifs, dans lespace des observations, de la grandeur modliser et
de la variable candidate de numro i (primaire ou secondaire) respectivement.
Attention
Ne pas confondre z et zi. Le vecteur z, qui intervient par exemple dans la notation du modle g(z, w), dsigne le vecteur des variables du
modle : il est de dimension p. En revanche, le vecteur zi reprsente la variable numro i du modle dans lespace des observations : il est
de dimension N, o N dsigne le nombre dobservations.
partir de ce coefficient de corrlation, lindice de pertinence des variables candidates est dfini comme
le rang de la variable candidate dans un classement tabli par orthogonalisation de Gram-Schmidt
[CHEN 1989]. La procdure est la suivante :
calculer les coefficients de corrlation entre ykp et les p variables candidates, et choisir la variable candi-
date zi la plus corrle ykp ;
projeter le vecteur ykp et toutes les variables non slectionnes sur le sous-espace orthogonal la variable
zi ;
itrer dans ce sous-espace.
Les variables sont donc slectionnes les unes aprs les autres. chaque orthogonalisation, la contribu-
p
tion de la dernire variable slectionne au vecteur yk est supprime ; on obtient donc bien un classe-
ment des variables par ordre de pertinence dcroissante. Il est alors naturel de considrer que le rang dune
variable dans ce classement est le reflet de la pertinence de cette variable par rapport la modlisation que
lon cherche effectuer.
La figure 1-23 illustre le processus dans un cas trs
simple o lon aurait trois exemples (N = 3) et deux
variables primaires ou secondaires candidates (p =
2), reprsentes par les vecteurs z1 et z2 dans lespace yp
des observations. La premire tape a pour effet de
slectionner la variable z1, car langle entre z1 et yP z1
est plus petit que langle entre z2 et yp. La deuxime
tape consiste projeter orthogonalement yP et la
variable non slectionne z2 sur le sous-espace ortho-
gonal z1. Toutes les variables candidates tant clas-
ses, le processus sarrte alors. Sil y avait plus de z21 yp1
deux variables candidates, le mme processus serait
itr dans le sous-espace orthogonal z1.
Remarque 1 z2
En pratique, il est prfrable dutiliser une variante de lalgorithme de
Figure 1-23. Orthogonalisation de Gram-Schmidt pour
Gram-Schmidt, appele algorithme de Gram-Schmidt modi, qui le classement de deux variables candidates dans un
est plus stable numriquement [BJRCK 1967]. espace des observations de dimension trois
Lapprentissage statistique : pourquoi, comment ?
41
CHAPITRE 1

Remarque 2
Lalgorithme dorthogonalisation de Gram-Schmidt dcrit ci-dessus est un cas particulier dun algorithme dapprentissage de modles
linaires, dcrit plus loin dans la section Moindres carrs par orthogonalisation de Gram-Schmidt

Exemple important x2
Pour illustrer limportance de considrer les variables secondaires, et de ne pas se limiter aux varia-
1 2
bles primaires, considrons un problme simple de classication, illustr sur la gure 1-24.
On dispose de quatre exemples, appartenant deux classes : la classe A, reprsente par des croix,
o +
laquelle on affecte ltiquette yp = +1, et la classe B, reprsente par des cercles, laquelle on
affecte ltiquette yp = 1. Considrons comme variables candidates les variables primaires z1 = x1, z2
3 4 x1
= x2, ainsi que la variable secondaire z3 = x1 x2. Dans lespace des observations, de dimension 4, les
vecteurs reprsentatifs des variables candidates sont (les numros des observations sont indiqus + o
sur la gure 1-24)
1 +1 1 Figure 1-24.
+1 +1 +1 Exemple illustrant
z1 = ; z 2 = ; z 3 = limportance des variables
1 1 +1 secondaires

+1 1 1
et le vecteur reprsentatif de la grandeur modliser est
1
+1
y = .
p

+1

1
( ) ( )
2 2
Aucune des deux variables primaires, prise sparment, nest pertinente pour la prdiction de yp, puisque z 1 y p = 0 et z 2 y p = 0.
En revanche, le coefcient de corrlation entre z3 et yp vaut 1. Par consquent, la variable secondaire x1x2 dtermine entirement le
modle, alors que les variables primaires sont compltement inoprantes pour rsoudre ce problme de classication (connu sous le nom
de problme du OU exclusif ou problme du XOR ) avec des modles linaires en leurs paramtres. Le modle g(x, w) = x1x2
spare compltement les exemples disponibles puisque sgn(g(x, w)) = +1 pour les exemples de la classe A et sgn(g(x, w)) = 1 pour ceux
de la classe B. Il faut nanmoins remarquer que le problme peut tre rsolu avec comme variables x1 et x2 si lon met en uvre des mod-
les non linaires en leurs paramtres, des rseaux de neurones par exemple.

Dtermination du seuil de slection des variables


Disposant dune mthode de classement des variables candidates, il reste donc dterminer le rang au-
del duquel les variables candidates doivent tre rejetes. Comme indiqu dans la section Cadre
thorique , le problme serait simple si les distributions du rang des variables pertinentes et du rang des
variables non pertinentes taient connues. Ce nest videmment pas le cas, mais il est nanmoins possible
destimer la distribution du rang des variables non pertinentes en crant artificiellement des variables non
pertinentes ou variables sondes .
Prsentation intuitive
Intuitivement, on pourrait envisager la procdure suivante :
crer une variable sonde dont les valeurs observes seraient alatoires, sans relation avec la grandeur
modliser : cette variable est donc, par construction, non pertinente ;
lors du classement par orthogonalisation de Gram-Schmidt, faire participer cette variable au mme titre
que les autres variables ;
arrter le classement des variables lorsque la variable sonde apparat dans la procdure de classement :
toutes les variables non encore classes sont alors rejetes, puisquelles sont moins pertinentes que la
variable sonde qui, par construction, nest pas pertinente.
Lapprentissage statistique
42

Cette procdure est risque : en effet, la dcision de rejet est fonde sur le classement dun seul vecteur
reprsentatif de la variable sonde, donc dune seule ralisation de ce vecteur alatoire. Si lon procdait
un autre tirage des valeurs de la variable sonde, on obtiendrait trs probablement un autre rang, dans le
classement, pour cette variable : on prendrait donc une autre dcision de rejet. En dautres termes, le rang
de la variable sonde est lui-mme une variable alatoire, dont la distribution de probabilit est une estima-
tion de la distribution de probabilit du rang des variables non pertinentes.
Prsentation rigoureuse
Cette dernire remarque renvoie la condition de rejet tablie dans la section Cadre thorique : une
variable candidate i est rejete si
Pr ( r ( i, N ) > ) <

o r(i, N) est lindice de pertinence de la variable i, estim partir de N observations. Dans le cadre de la
mthode de la variable sonde, lindice de pertinence est le rang (i, N) de la variable candidate i ; la
variable i est donc dautant plus pertinente que son rang est petit. Lquation prcdente scrit alors :

Pr ( ( i, N ) < 0 ) <

o 0 est le rang au-del duquel les variables candidates doivent tre rejetes. Or on souhaite que toutes
les ralisations de la variable sonde soient rejetes ; lapplication de la relation prcdente aux variables
sondes scrit donc :
Pr ( S < 0 ) <

o S dsigne le rang dune ralisation de 0,14

la variable sonde. Ainsi, tant donne une 0,12 Variables pertinentes


Distribution de probabilit

(distribution inconnue)
valeur de fixe, le seuil de rejet 0 est le
du rang des variables

0,1
rang tel quune ralisation de la variable 0,08
sonde soit classe au-dessus de ce rang Variables non pertinentes
(distribution estime par celle des variables sondes)
avec une probabilit infrieure , ou
0,06

encore quune ralisation de la variable 0,04

sonde ait une probabilit 1 dtre 0,02

classe dans un rang au-del de 0. Cette 0


0 5 10 15 20 25 30 35 40 45 50
situation est rsume sur la figure 1-25, Rang des variables
o sont prsentes la distribution hypo-
thtique (puisque inconnue) du rang des 1
variables pertinentes, et la distribution du 0,9
rang de la variable sonde, qui constitue
du rang des variables

0,8
Probabilit cumule

une estimation du rang des variables non 0,7


0,6
pertinentes. Si lon est prt admettre un
risque de 10 % ( = 0,1) pour quune
0,5
0,4
variable soit conserve alors quelle est 0,3
aussi bien ou moins bien classe quune 0,2
= 0,1
ralisation de la variable sonde ( risque 0,1
0
de premire espce ), on lit, sur le 0 5 10 15 20 25 30 35 40 45 50

graphe de la probabilit cumule, quil Rang des variables


faut rejeter toute variable de rang sup- Figure 1-25. Choix du seuil de rejet des variables candidates
rieur 15. On peut noter que cette proc-
Lapprentissage statistique : pourquoi, comment ?
43
CHAPITRE 1

dure ne contrle pas le risque de rejeter dventuelles variables pertinentes qui seraient classes au-del
du rang 15 ( risque de deuxime espce ) ; on verra, dans la section intitule Limitations de la
mthode , quil est nanmoins possible destimer ce risque, sans toutefois le contrler.
En pratique, deux techniques sont utilisables pour engendrer les ralisations de la variable sonde :
mlanger alatoirement les observations des variables candidates ;
tirer des nombres alatoires dans une distribution de moyenne nulle et de variance 1, puisque les varia-
bles candidates ont t pralablement normalises et centres, comme indiqu plus haut dans la section
Prtraitement des donnes .
Si les variables candidates obissent une distribution gaussienne, on peut lgitimement considrer que
la variable sonde est gaussienne. Alors, la probabilit cumule du rang de la variable sonde peut tre
calcule analytiquement [STOPPIGLIA 2003], de sorte quil est inutile dengendrer des ralisations de la
variable sonde. On procde de la manire suivante : chaque tape du classement par la mthode de
Gram-Schmidt, on calcule la probabilit cumule du rang de la variable sonde, et, lorsque celle-ci atteint
la valeur choisie, on arrte le processus.
Si les variables nobissent pas une distribution gaussienne, on estime la probabilit cumule du rang de
la variable sonde. Pour cela, on engendre un grand nombre de ralisations de la variable sonde, et lon
procde lorthogonalisation de Gram-Schmidt. Chaque fois quune ralisation de la variable sonde est
rencontre, on en prend note et lon enlve cette variable du classement : on obtient ainsi une estimation
empirique de la probabilit cumule du rang de la variable sonde. Comme dans le cas prcdent, on arrte
le processus lorsque lestimation de la probabilit cumule atteint la valeur fixe lavance.
La figure 1-26 illustre cette approche laide dun 1 X
X
du rang de la variable sonde

exemple acadmique propos dans [LAGARDE DE X


0,8
1983] et repris dans [STOPPIGLIA 2003]. partir
Probabilit cumule

Calcule
dun ensemble de 15 observations, on cherche 0,6
X
X

tablir un modle linaire (en ses paramtres et en X

ses variables) avec 10 variables candidates, dont 5 0,4 Estime laide


X
seulement sont pertinentes : les coefficients des X de 100 ralisations
0,2
autres variables, dans la fonction linaire gnra- X
X
X
de la variable sonde
X X X X
trice des donnes, sont nuls. Sagissant dun 0 X X X

problme acadmique, les exemples ont t engen- 0 2 4 6 8 10


Rang de la variable sonde
drs en ajoutant une fonction linaire un bruit
Figure 1-26. Probabilits cumules, calcules et estimes
gaussien centr ; les variables obissent une loi
normale. Lobjectif est de slectionner les variables
pertinentes. La figure 1-26 prsente deux courbes : la probabilit cumule du rang de la variable sonde
calcule en supposant que la variable sonde obit une loi gaussienne, et la probabilit cumule estime,
par la procdure dcrite plus haut, partir de 100 ralisations de la variable sonde, tires dune distribu-
tion gaussienne. On observe que, dans les deux cas, le choix dun risque = 0,1 conduit slectionner les
5 variables candidates les mieux classes, qui sont effectivement les 5 variables pertinentes partir
desquelles les donnes ont t engendres.

Limitations de la mthode
La principale limitation de la mthode de la variable sonde rsulte de lutilisation de lalgorithme de
Gram-Schmidt, qui exige que le nombre de variables slectionnes soit suprieur au nombre dexemples.
Il convient de noter que cette limitation porte sur le nombre de variables slectionnes, et non sur le
nombre de variables candidates : laide de la mthode de la variable sonde, on peut traiter des problmes
o le nombre de variables candidates est trs suprieur au nombre dexemples.
Lapprentissage statistique
44

Dautre part, la mthode contrle directement le risque de faux positif, cest--dire le risque de conserver
une variable alors quelle nest pas pertinente. Elle ne contrle pas directement le risque de faux ngatif,
cest--dire le risque de rejeter une variable alors quelle est pertinente. Nanmoins, il est possible de
conserver galement un contrle sur ce phnomne en estimant le taux de fausse dcouverte (false
discovery rate ou FDR), comme dcrit dans [DREYFUS 2006].

Exemples acadmiques (classification)


Exemple 1
100 bases de donnes ont t construites de la manire suivante : pour chaque base, une fonction g(x, w)
de deux variables a t choisie alatoirement, 1 200 exemples ont t crs alatoirement partir de cette
fonction en affectant la classe A les exemples pour lesquels sgn(g(x, w)) = +1. 10 % de ces exemples ont
t affects de manire errone, de sorte quil y a 10 % derreur sur la base dapprentissage. 800 exemples
ont t utiliss pour lapprentissage et 400 pour le test. Enfin, 238 variables non pertinentes ont t ajou-
tes lensemble des variables, de sorte quil y a en tout 240 variables candidates, parmi lesquelles deux
seulement sont pertinentes. La mthode dcrite ci-dessus a t applique aux 240 variables candidates, et
un classifieur a t ralis laide des deux premires variables slectionnes. titre de comparaison, un
classifieur a t ralis avec les deux vraies variables. Pour les 100 bases de donnes, la procdure a
toujours trouv au moins une des deux vraies variables, et a trouv les deux vraies variables dans 74% des
cas. Le tableau 1-2 rsume les rsultats moyens obtenus sur les 100 bases dapprentissage.
Taux moyen derreurs Taux moyen derreurs Hypothse nulle : diffrence
de classification avec les variables de classification avec les vraies entre les taux derreurs moyens
slectionnes variables < 0,125
10,4% 10,1% Accepte
(cart-type 1,1%) (cart-type 0,7%)
Tableau 1-2

On observe que le taux derreur de classification moyen (en moyenne sur les 100 bases de donnes),
obtenu par un classifieur construit avec les descripteurs slectionns, est trs voisin du taux derreur de
classification obtenu par un classifieur tabli avec les vraies variables. Un test dhypothse (voir la
dernire section de ce chapitre) accepte lhypothse que la diffrence entre les taux derreurs moyens est
infrieur 0,125, cest dire une erreur sur 800 ; en dautres termes, la diffrence observe entre les taux
derreurs des deux classifieurs nest pas significative, puisque chaque base de donnes comprend
800 exemples dapprentissage. Cela signifie que, lorsque la mthode na trouv quune des deux vraies
variables, lautre variable slectionne permettait de discriminer les exemples de manire aussi prcise
que la vraie variable qui na pas t dcouverte. Les rsultats sont semblables sur les bases de test.
titre de comparaison, les taux derreurs sont denviron 45 % si les deux variables sont choisies alatoi-
rement, et de 30 % si une des vraies variables est utilise, lautre variable tant choisie alatoirement. Si
lon utilise un risque de 1% ( = 0,1), les trois premires variables du classement sont slectionnes, ce
qui ne dgrade pas les rsultats de manire significative [STOPPIGLIA 2003].
Exemple 2
On construit 100 bases de donnes de 100 exemples tirs de distributions gaussiennes deux variables x1
et x2, les centres tant dans les positions du problme du XOR (figure 1-24) ; 50 variables alatoires non
pertinentes sont ajoutes lensemble des variables candidates. On utilise cette fois, outre les variables
primaires, les monmes du second degr de celles-ci, ce qui produit en tout 1 326 variables candidates
dont 52 variables indpendantes. Comme indiqu plus haut, la seule variable pertinente pour rsoudre ce
problme est le produit x1x2 ; avec un risque de 1%, cest effectivement la seule variable slectionne.
Lapprentissage statistique : pourquoi, comment ?
45
CHAPITRE 1

Variable sonde et test de Fisher


La mthode de la variable sonde est apparente lutilisation de tests dhypothse pour la slection de
variables. Le lecteur qui nest pas familier avec les tests dhypothses trouvera les concepts et dfinitions
ncessaires dans la dernire section de ce chapitre.
Test de Fisher pour la slection de variables
Comme prcdemment, nous nous plaons dans le cadre des modles linaires par rapport leurs para-
mtres
p
g ( x, w ) = wi zi = w z
i =1

o les zi sont les variables primaires ou secondaires.


On suppose que les mesures de la grandeur modliser peuvent tre considres comme les ralisations
dune variable alatoire Yp telle que Y p = w p z + , o z est le vecteur des variables du modle (de
dimension inconnue), o wp est le vecteur (non alatoire mais inconnu) des paramtres du modle, et o
est une variable alatoire gaussienne inconnue desprance mathmatique nulle. On a donc :

EY p = w p z .
Nous cherchons construire un modle g, partir dun ensemble de N mesures { ykp, k = 1 N} qui cons-
tituent un ensemble de ralisations de la variable alatoire Yp ; nous dsignons par yp le vecteur, de dimen-
sion N, dont les composantes sont les ykp. Ce modle dpend de lensemble des mesures utilises pour sa
construction : il est donc lui-mme une ralisation dune variable alatoire G.
Supposons que lon ait dtermin un ensemble de Q variables qui contient certainement les variables
mesurables pertinentes pour la grandeur modliser. Un modle contenant toutes les variables mesurables
pertinentes est appel modle complet. On cherche alors un modle de la forme

GQ = W Q z Q

o zQ est le vecteur des variables du modle (de dimension Q+1 puisque, outre les variables pertinentes,
le vecteur des variables contient une composante constante gale 1) et o W est un vecteur alatoire qui
dpend de la ralisation du vecteur Yp utilise pour la construction du modle. Rappelons que lon dit que
ce modle complet est vrai, pour indiquer quil existe certainement une ralisation wp du vecteur alatoire
W telle que gQ = EY p .
Supposons que lapprentissage soit effectu par minimisation de la fonction de cot des moindres carrs

( ) (y )
N
J ( w ) = ykp gQ ( z k , w ) gQ ( z, w ) ,
2 2
= p

k =1

o w dsigne une ralisation du vecteur des paramtres W, zk est le vecteur des Q+1 variables pour
lexemple k, et o gQ(z, w) est le vecteur des valeurs des ralisations de GQ pour les N mesures effectues.
Q
Soit wmc le vecteur des paramtres pour lequel la fonction de cot J est minimum. Le modle obtenu est
donc de la forme gQ = wmc Q
z , et lon peut dfinir le vecteur gQ = Zwmc
Q
, o :
gQ est le vecteur dont les N composantes sont les prdictions du modle pour chacune des N mesures
effectues ;
Lapprentissage statistique
46

Z est une matrice (dite matrice des observations) dont la colonne i (i = 1 Q+1) est le vecteur zi dont les
composantes sont les N mesures de la variable numro i : la matrice Z a donc N lignes et Q+1 colonnes :


z 11 z 1, Q + 1
O z 2, Q + 1
Z = z 21
M O M

z N, 1 z N, Q + 1

o zij dsigne la mesure numro i de la variable candidate numro j.

On se pose la question suivante : les Q variables du modle complet sont-elles toutes pertinentes ? Pour
rpondre cette question, on remarque que, si une variable nest pas pertinente, le paramtre correspon-
dant du modle complet doit tre gal zro. On appelle sous-modle du modle complet un modle
obtenu en mettant zro un ou plusieurs paramtres du modle complet. Pour rpondre la question
pose, il faut donc comparer le modle complet tous ses sous-modles. Considrons un de ceux-ci, par
exemple le modle dont le vecteur w a ses q dernires composantes (numrotes de Q-q+2 Q+1) gales
Qq Qq
zro : gQ q = Zwmc , o wmc est le vecteur de paramtres obtenus en minimisant la fonction de cot des

( )
moindres carrs J ( w ) = y p gQ q ( z, w ) sous la contrainte que les q dernires composantes du vecteur
2

des paramtres soient nulles. On veut tester lhypothse nulle H0 : les q derniers paramtres du vecteur
alatoire W sont nuls. Si cette hypothse est vraie, la variable alatoire

2 2 2
N Q 1 Y GQ q Y GQ N Q 1 GQ GQ-q
p p

U= 2
= 2
q Y p GQ q Y p GQ

est une variable de Fisher q et N-Q-1 degrs de libert.


2
En effet, la quantit Y p GQ est la somme des carrs des composantes du vecteur Y p GQ , dont on verra, dans la section consacre
lapprentissage des modles linaires par rapport leurs paramtres, quil est orthogonal au sous-espace dtermin par les Q + 1 colon-
nes de la matrice Z. Cest donc la somme de N (Q + 1) carrs de variables alatoires indpendantes gaussiennes : elle suit une distribu-
tion de Pearson N Q 1 degrs de libert. De mme, le vecteur GQ GQ q est dans un espace q dimensions, donc le carr de sa
2
norme est une somme des carrs de q variables alatoires indpendantes : GQ GQ q est donc une variable de Pearson q degrs de
libert. Le rapport U de ces deux variables est donc une variable de Fisher, comme indiqu dans la section lments de statistiques .

Supposons que lon dispose dune trs grande quantit de mesures ; si lhypothse nulle est vraie, le
numrateur de U est trs petit car le procd de minimisation de la fonction de cot donne des valeurs
nulles aux q paramtres inutiles du modle complet, donc gQ et gQ-q sont trs voisins. Si lhypothse
nulle est fausse, les deux modles ne peuvent pas tre trs voisins, mme si le nombre de mesures est trs
grand, puisque le sous-modle est trop pauvre pour rendre compte des donnes exprimentales. On
comprend ainsi que la valeur de la ralisation de U doit tre petite si lhypothse nulle est vraie.

Le test de Fisher consiste donc choisir un risque , et trouver, en inversant la distribution de probabilit
cumule de Fisher, la valeur u telle que Pr(u < u ) = . On calcule alors la quantit u (ralisation de la
variable U avec les mesures disponibles) :
Lapprentissage statistique : pourquoi, comment ?
47
CHAPITRE 1

( ) ( )
2 2
Qq
N Q 1 y gQ q z , wmc y p gQ z , wmc
p Q

u=
( )
2
q y p gQ z , wmc
Q

et lon accepte lhypothse nulle si et seulement si u < u .


Test de Fisher et mthode de la variable sonde
On trouvera dans [STOPPIGLIA 2003] la dmonstration du rsultat suivant : si le modle examin litra-
tion k du procd dorthogonalisation de Gram-Schmidt est un modle complet, cest--dire sil contient
toutes les variables pertinentes, et si le modle complet est vrai, cest--dire si la fonction de rgression
appartient la famille des fonctions dans laquelle on recherche le modle, alors lopration de slection
effectue litration k est quivalente un test de Fisher entre les modles obtenus aux itrations k et k1.
La mthode de la variable sonde prsente donc deux avantages par rapport au test de Fisher : dune part,
elle donne une interprtation claire et intuitive du critre de slection ; dautre part, elle est applicable, que
lon dispose ou non dun modle complet, et que ce modle soit vrai ou ne le soit pas.

Rsum : stratgies de conception


Dans cette section, nous montrons comment les diffrentes tches accomplir doivent tre articules entre
elles pour concevoir un modle par apprentissage (slection de variables, apprentissage, slection de
modles). On suppose que les tapes de collecte des donnes et de prtraitement de celles-ci ont t effec-
tues.
Une premire stratgie peut tre rsume de la faon suivante :
Effectuer la slection de variables sur lensemble des donnes disponibles.
Effectuer lapprentissage et la slection de modles de complexits diffrentes par validation croise ou
leave-one-out.
Effectuer lapprentissage du meilleur modle avec toutes les donnes dapprentissage et de validation.
Tester le modle sur un ensemble de tests.
Cette stratgie est simple et relativement peu coteuse, mais elle nest pas compltement rigoureuse dans
la mesure o toutes les donnes disponibles sont utilises pour la slection de variables.
Pour tre plus rigoureux, il convient de procder de la faon suivante :
Sparer les donnes en sous-ensembles dapprentissage et de validation.
Pour chaque sous-ensemble dapprentissage
effectuer la slection de variables, noter le nombre de variables slectionnes,
effectuer lapprentissage de modles de complexits diffrentes et calculer les erreurs de validation.
Calculer les scores de validation croise et choisir le meilleur modle ; soit n0 le nombre de variables de
ce modle.
Avec toutes les donnes utilises pour lapprentissage et la validation
effectuer le classement de variables par la mthode de Gram-Schmidt et choisir les n0 variables les
mieux classes,
avec ces variables, effectuer lapprentissage du modle qui a la meilleure complexit.
Tester le modle sur lensemble de test.
Lapprentissage statistique
48

Si lon nest pas sr que la valeur de choisie pour effectuer cette procdure est optimale, on peut ajouter
une boucle extrieure portant sur diffrentes valeurs de .
Cette stratgie est applicable toute mthode de slection de variables fonde sur un classement des varia-
bles par ordre de pertinence.
Rappelons quil existe un grand nombre de mthodes de slection de variables. La mthode de la variable
sonde, dcrite ici, a t prsente car elle est simple et robuste ; elle a t valide sur une grande varit
dapplications ; nanmoins, il ny a pas de mthode miracle, et dans certains cas, dautres mthodes
peuvent se rvler plus efficaces. Une synthse trs complte des mthodes modernes de slection de
variables est prsente dans louvrage [GUYON 2006].

Conception de modles linaires par rapport


leurs paramtres (rgression linaire)
On a rappel au dbut de ce chapitre le lien troit qui existe entre apprentissage artificiel et statistiques.
Avant mme lintroduction du terme dapprentissage, les statisticiens avaient largement dvelopp la
conception de modles linaires en leurs paramtres, ou rgression linaire. Il est donc important, ds ce
chapitre introductif, de rappeler les mthodes de conception de modles linaires. De nombreux ouvrages
sont entirement consacrs ce sujet (par exemple [SEBER 1977], [DRAPER 1998])
Rappelons quun modle est dit linaire en ses paramtres , ou simplement linaire sil est de la
forme :
p
g ( x, w ) = wi fi ( x )
i =1

o les fonctions fi(x) sont des fonctions non paramtres des variables (composantes du vecteur x), dites
variables primaires. Ces fonctions peuvent tre considres comme des variables secondaires zi, de sorte
que lon crira de manire gnrale un modle linaire en ses paramtres sous la forme
p
g ( z, w ) = wi zi
i =1

o les variables zi peuvent tre soit les variables primaires elles-mmes, soit des variables secondaires
dduites des variables primaires par une transformation non paramtre (ou paramtres fixs). On crira
aussi un tel modle sous la forme

g ( z, w ) = w z

o w et z sont des vecteurs de dimension p.

Slection de variables pour les modles linaires


en leurs paramtres
Ce problme a t abord plus haut, dans la section consacre la slection de modles. Les mthodes
dcrites dans cette section sont directement applicables la conception de modles linaires en leurs para-
mtres.
Lapprentissage statistique : pourquoi, comment ?
49
CHAPITRE 1

Apprentissage de modles linaires en leurs paramtres :


la mthode des moindres carrs
Pour lapprentissage des modles linaires en leurs paramtres, on choisit gnralement comme fonction
de perte le carr de lerreur de modlisation

y p , g ( z, w ) = y p g ( z, w )
2

de sorte que lon cherche les paramtres pour lesquels la fonction de cot des moindres carrs J(w) est
minimum :
NA

(
J ( w ) = ykp g ( z k , w ) )
2

k =1

o NA est le nombre dexemples de lensemble dapprentissage, zk est le vecteur des variables pour
lexemple k, et ykp est la valeur de la grandeur modliser pour lexemple k.
Dans la section intitule Variable sonde et test de Fisher , on a dfini la matrice des observations Z, qui
est une matrice N lignes et p colonnes, dont llment zij est la valeur prise par la variable numro j du
modle pour lexemple i de lensemble dapprentissage :


z 11 z 1, p
O z 2, p .
Z = z 21
M O M

z N, 1 z N, p

La fonction de cot peut alors se mettre sous la forme :

J ( w ) = y p g ( z, w )
2

o yp est le vecteur dont les N composantes sont les valeurs de la grandeur mesurer pour chacun des N
exemples, et g(z, w) est le vecteur dont les N composantes sont les prdictions du modle pour chacun des
exemples. Le vecteur wmc est le vecteur pour lequel la fonction de cot est minimum :

dJ ( w )
w J = = 0,
dw w=wmc

qui reprsente un ensemble de p quations, dont les p inconnues sont les paramtres wi, i = 1 p. Comme
la fonction J(w) est quadratique en fonction des wi, sa drive par rapport wi est linaire : il sagit donc
dun systme linaire de p quations p inconnues, appeles quations canoniques.
On montre facilement que cette quation scrit

w J = 2 ZT y p Zwmc = 0( )
o ZT dsigne la transpose de la matrice Z, soit encore

( )
1
wmc = ZT Z ZT y p .
Lapprentissage statistique
50

Exemple 70
r2 = 0,89
Considrons un modle afne une variable (p = 2) comme 60 wmc1 = - 0,3
wmc2 = 5,9
reprsent sur la gure 1-27 :
50

g ( x ,w ) = w 1 + w 2 x . Modle g(x, wmc1, wmc2)


40
Dans cet exemple, les points exprimentaux ont t obtenus
en ajoutant la fonction de rgression f(x) = 2 + 5 x des ralisa- 30

yp
tions dune variable alatoire gaussienne de moyenne nulle et 20
Fonction de rgression
dcart-type gal 3. Rappelons que, dans un problme raliste, y=2+5x
10
la fonction de rgression est inconnue : lobjectif de lapprentis-
sage est de trouver un modle qui soit aussi proche que possible 0

de cette fonction inconnue.


-10

1 x1

-20
-2 0 2 4 6 8 10

La matrice des observations vaut X = 1 x2 , o x dsigne x


i
M M Figure 1-27. Points exprimentaux et modle obtenu par
1 xN la mthode des moindres carrs ; la somme des carrs des
longueurs des segments en pointills est minimale ;
la valeur prise par pour lobservation i de la variable x. On a alors : le coefficient de corrlation r2 est dfini ci-dessous, dans
la section Estimation de la qualit de lapprentissage .
N

N x k

XT X = N .
k =1

N
2
xk
k =1
( x k )
k =1

( )
1
Par application de la relation w mc = X T X X T y p , on trouve les paramtres du modle afne :
N N N
N x k y kp x k y kp
k =1 k =1 k =1
xy p x y p
w mc 2 = 2
= 2
N
N x2 x
N (xk ) xk
2

k =1 k =1
1 N p 1 N
w mc 1 = y w mc 2 N x k = y p w mc 2 x
N k =1 k k =1

o u dsigne la valeur moyenne de la grandeur u.

Remarque 1
La droite des moindres carrs passe par le centre de gravit des mesures.
En effet : g ( x ,w ) = w mc 1 + w mc 2 x = y p w mc 2 x + w mc 2 x = y p .

Remarque 2
xy p
Si les donnes sont centres ( x = y p = 0), la droite des moindres carrs passe par lorigine car wmc1 = 0. De plus : w mc 2 =
x2

1 N
(x x )
2
= 1 = x 2 , par consquent w mc 2 = xy .
p
Si, de plus, les donnes sont normalises, on a en outre
N k =1
Lapprentissage statistique : pourquoi, comment ?
51
CHAPITRE 1

Proprits de la solution des moindres carrs


Un modle obtenu par la mthode des moindres carrs possde des proprits statistiques intressantes
qui justifient lutilisation de la fonction de perte derreur quadratique, de prfrence dautres fonctions
de pertes envisageables telles que la valeur absolue de lerreur.

Cas o le modle est vrai


Supposons que le modle linaire postul soit vrai , cest--dire que la fonction de rgression inconnue
appartienne effectivement la famille des fonctions linaires. Ce cas a dj t rencontr plus haut (clas-
sification de deux ensembles dobservations issues de deux distributions gaussiennes de mmes
variances) ; le cas inverse a galement t rencontr (modlisation de la fonction 10 sinx / x par des poly-
nmes). Les observations sont donc des ralisations de la variable alatoire Y p = w p z + , avec E = 0.
En consquence, EY p = w p z. Dsignant par Yp le vecteur des N observations, on a donc EY p = ZW p .

Proprit

Le vecteur des paramtres wmc trouvs par la mthode des moindres carrs est un estimateur non
biais des paramtres wp de la fonction de rgression.

Dmonstration
( ) ( ) ( )
1 1 1
On a vu plus haut que w mc = Z T Z Z T y p. Par consquent : E w mc = Z T Z Z T EY p = Z T Z Z T ZW p = W p, ce qui prouve la
proprit.

Thorme de Gauss-Markov

Thorme

Les paramtres des modles obtenus par minimisation de la fonction de cot des moindres carrs sont
les paramtres de variance minimum.

Ainsi, dans la mesure o cest laugmentation de la variance qui produit le surajustement, la minimisation
de la fonction de cot des moindres carrs permet de limiter le phnomne (sans toutefois le supprimer,
bien entendu). Lexpression de la variance des paramtres est tablie plus loin, dans la section Variance
des paramtres dun modle linaire .

Cas o le bruit est gaussien


Si le bruit est gaussien, de variance 2, les estimations des paramtres obissent une loi gaussienne.
De plus, on dmontrera, dans la section Variance des paramtres dun modle linaire , que la variance
( )
1
des paramtres vaut ZT Z 2 (quelle que soit la distribution de ).
La figure 1-28 prsente les histogrammes des paramtres wmc1 et wmc2 pour lexemple considr sur la
figure 1-27. Ces histogrammes ont t obtenus en engendrant 100 ensembles dapprentissage correspon-
dant 100 ralisations diffrentes du bruit, et en effectuant lapprentissage de 100 modles par la mthode
des moindres carrs. On observe bien des distributions gaussiennes, centres sur les valeurs des param-
tres de la fonction de rgression (w1p = 2, w2p = 5).
Lapprentissage statistique
52

0,14 0,14

0,12 0,12

0,10 0,10
Frquence de wmc1

Frquence de wmc2
0,08 0,08

0,06 0,06

0,04 0,04

0,02 0,02

0 0
1,5 2 2,5 4,5 5 5,5
wmc1 wmc2

Figure 1-28. Distributions des paramtres dun modle linaire avec bruit gaussien

Estimation de la qualit de lapprentissage


La qualit dun modle linaire est estime par le coefficient de corrlation multiple r2 entre les donnes
et les prdictions.
Si U et V sont deux variables alatoires, leur coefficient de corrlation RU ,V est dfini par
cov U, V E UV E U E V
R U, V = ---------------
- = --------------------------------------------------
-
U V EU2 EU EV 2 EV
2 2

o covU,V dsigne la covariance de U et V (voir la dfinition de la covariance de deux variables dans


lannexe lments de statistiques la fin de ce chapitre).
Si U et V sont identiques, le coefficient de corrlation est une variable certaine qui vaut 1 ; si, au contraire,
ces deux variables alatoires sont indpendantes, le coefficient de corrlation vaut 0.
Comme cela a t fait plusieurs reprises dans ce chapitre, considrons les donnes yp et les prdictions
du modle comme des ralisations de variables alatoires. On peut alors calculer une ralisation r de la
variable R :

( g ( x, w ) g ( x, w ) ) ( y )
N

mc mc
p
yp
k =1
r= (N >> 1).
( ) ( )
N N
g ( x, wmc ) g ( x, wmc )
2 2
yp yp
k =1 k =1

Pour juger de la qualit du modle, on utilise le coefficient de dtermination, dont on dmontre quil est
une ralisation du carr du coefficient de corrlation entre les prdictions du modle et les observations :
N

( g ( xk, wmc ) y )
p 2

2
r = k--------------------------------------------------------
=1
N
-.
( yk y )
p p 2

k=1
Lapprentissage statistique : pourquoi, comment ?
53
CHAPITRE 1

Si les variables sont centres, cette expression se rduit :


( xy )
2
p

r =
2
.
x2 (y ) p 2

Remarque
On retrouve ici la formule du carr du coefcient de corrlation introduit comme critre de pertinence dans la section Slection de
variables ; on trouve galement dans cette section linterprtation gomtrique de ce coefcient.

Pour juger visuellement de la qualit dun modle, il est trs commode dutiliser son diagramme de
dispersion, qui prsente les valeurs prdites par le modle en fonction des valeurs exprimentales
correspondantes : les points de ce diagramme sont dautant plus proches de la premire bissectrice que la
qualit de lapprentissage est meilleure.
Remarque trs importante
Rappelons quun apprentissage de trs bonne qualit ne signie pas que le modle obtenu soit capable de gnraliser correctement : un
modle qui a parfaitement appris les donnes dapprentissage peut tre surajust, donc gnraliser trs mal. Il faut ainsi considrer le
diagramme de dispersion sur les donnes dapprentissage pour juger de la qualit de lapprentissage, mais galement le diagramme de
dispersion sur des donnes non utilises pour lapprentissage, an destimer la capacit de gnralisation du modle.

La figure 1-29 montre le diagramme de dispersion 80

pour le modle linaire ralis partir des donnes 70


dapprentissage reprsentes sur la figure 1-27.
60

Interprtation gomtrique 50
Prdictions du modle

La rgression linaire par la mthode des moindres 40


carrs a une interprtation gomtrique simple.
30
Rappelons que le vecteur wmc des paramtres du
modle 20

p 10
g ( z, w ) = wi zi = w z
i =1 0

-10
est obtenu par la relation

( )
1 -20
wmc = ZT Z ZT y p -20 0 20 40 60 80
Mesures

o Z est la matrice des observations. Par consquent, Figure 1-29. Diagramme de dispersion pour les donnes
reprsentes sur la Figure 1-27.
le vecteur g(z, wmc) des prdictions du modle sur
lensemble dapprentissage est donn par

(
g ( z, wmc ) = Zwmc = Z ZT Z )
1
ZT y p

Or la matrice Z ( Z Z ) T 1
ZT (de dimensions N, N) nest autre que la matrice de projection orthogonale sur
les vecteurs colonnes de la matrice Z. Le vecteur des prdictions du modle sur lensemble dapprentis-
sage est donc la projection orthogonale du vecteur yp sur le sous-espace de lespace des observations
dfini par les vecteurs colonnes de la matrice des observations Z. Ce dernier sous-espace est appel
espace des estimations .
Lapprentissage statistique
54

Remarque
( )
1
La matrice Z Z T Z Z T est souvent appele matrice chapeau et note H. En effet, le vecteur des estimations effectues par le
modle partir des observations y est souvent not y , donc y = Hy : la matrice H est la matrice qui met un chapeau sur y.

Linterprtation gomtrique de la mthode 1



des moindres carrs est illustre sur la figure u = 1
y p
1-30, pour un modle affine, dans le cas o 1
Espace des observations
lespace des observations est de dimension Vecteur des observations Vecteur des rsidus
3. Dans cet espace, la matrice des observa-
tions a pour expression : Hyp

1 z1 Espace des estimations

Z = 1 z2 .
Vecteur des estimations
1 z du modle
3
z1
Lespace des estimations est donc le sous-
v = z
espace dfini par les vecteurs colonnes de Z,
2

z
nots u et v respectivement. Le vecteur des 3

prdictions du modle pour lensemble Figure 1-30. Mthode des moindres carrs : interprtation
dapprentissage, ou vecteur des estimations, gomtrique
est la projection orthogonale du vecteur des
observations yp sur le sous-espace des estimations. Le vecteur des diffrences entre les mesures et les prdic-
tions sur lensemble dapprentissage est appel vecteur des rsidus. Le carr de son module est donc la somme
des carrs des erreurs sur les lments de lensemble dapprentissage. De tous les vecteurs qui joignent lextr-
mit de yp un point du sous-espace des estimations, cest celui qui a le plus petit module.

Dilemme biais-variance pour les modles linaires


Dans les sections Deux exemples acadmiques dapprentissage supervis et Dilemme biais-
variance , on a constat sur plusieurs exemples que, pour les modles linaires, ce dilemme est gouvern
par le rapport du nombre de paramtres au nombre dexemples. Ce rsultat va maintenant tre dmontr
de manire gnrale pour les modles linaires.

Variance des paramtres dun modle linaire


Les paramtres dun modle linaire obtenu par la mthode des moindres carrs sont donns par la relation
( )
1
wmc = ZT Z ZT y p

o Z est la matrice des observations. Si lon considre que les observations sont des ralisations de varia-
bles alatoires, le vecteur des paramtres est lui-mme une ralisation dun vecteur alatoire

( )
1
Wmc = ZT Z ZT Y p. Si les mesures de yp sont indpendantes et de mme variance 2, la variance du
vecteur alatoire Yp est la matrice
varY p = I NN 2.
o INN est la matrice identit de dimension N. La variance du vecteur des paramtres dun modle linaire
obtenu par la mthode des moindres carrs est donc :
( )
1
varWmc = ZT Z 2.
Lapprentissage statistique : pourquoi, comment ?
55
CHAPITRE 1

Dmonstration
Daprs la proprit rappele ci-dessous dans la section variance dun vecteur alatoire , on a :

( ) (( Z Z ) Z ) = ( Z Z ) Z (( Z Z ) Z )
1 1 T 1 1 T
varWmc = Z T Z Z T varY p T T T T T T 2

= (Z Z ) ( ) ( )
1 1 1
T
ZT Z ZT Z 2 = ZT Z 2

Variance de la prdiction dun modle linaire


On a vu, dans la section Dilemme biais-variance , que lerreur de prdiction thorique est donne par
la relation
P 2 = 2 + E z var G ( z, W ) + Ez E f ( z ) G ( z, W ) .
2

o Ez(U) dsigne lesprance mathmatique de la variable alatoire U, considre comme fonction du


vecteur alatoire z.
La prdiction du modle au point z est ici G ( z, Wmc ) = z Wmc , qui peut scrire, sous forme matricielle :
G ( z, Wmc ) = z T Wmc . Par consquent :
( )
var G ( z, Wmc ) = z T varWmc z = z T ZT Z ( )
1
z 2 .
Si les variables sont normalises et centres comme recommand dans la section Prtraitement des

( ) 1 1
I NN si p << N, de sorte que var G ( z, Wmc ) z T z . ( )
1
donnes , ZT Z
N N
p
( ( ))
p p p

( )
Dautre part : E z z T z = E z zk2 = E z zk2 = E z zk ( )
+ varzk . Les donnes tant supposes
2

k =1 k =1 k =1 k =1
normalises et centres, le premier terme de la somme est nul, et le second est gal p. Il reste donc :
p
E z var G ( z, W ) = .
N
Ainsi, on retrouve le fait que, lorsque lon 0,22

augmente le nombre de paramtres du modle (par 0,2

exemple en augmentant le degr du polynme dans 0,18


Estimation de la variance du modle

le cas dun modle polynomial) le terme de 0,16


variance augmente. La figure 1-31 montre lvolu-
0,14 Pente 1/100
tion de la variance en fonction du nombre de para-
mtres, pour lexemple dcrit dans la section Un 0,12

exemple de modlisation pour la prdiction , avec 0,1

N = 100 exemples pour lapprentissage, et des 0,08


polynmes de degr 1 20. Comme pour les rsul- 0,06
tats prsents sur la figure 1-11, les esprances
p
mathmatiques portant sur Y sont estimes par les 0,04

moyennes sur 100 ensembles dapprentissage, et 0,02


2 4 6 8 10 12 14 16 18 20 22
lesprance mathmatique portant sur z est estime Nombre de paramtres du modle polynomial

par une moyenne sur 1 000 points de test. On Figure 1-31. Variance dun modle polynomial
observe que la variance augmente linairement en fonction du degr du polynme (N = 100, p = 2 21)
avec le nombre de paramtres, la pente de la droite
valant 1/N, conformment la relation dmontre ci-dessus.
Lapprentissage statistique
56

Remarque
Dans lexemple dcrit par la gure 1-11, la variance (reprsente par le symbole x) ne varie pas linairement avec le degr du polynme. Ceci
est d au fait que lexpression de la variance que lon vient dtablir est vraie dans la limite des trs grands ensembles dapprentissage (N inni) ;
pour N = 100 cette relation est raisonnablement bien vrie (gure 1-31) mais ce nest pas le cas si N vaut seulement 15 (gure 1-11).

Slection de modles linaires


La slection de modles linaires peut tre effectue par les mthodes dcrites dans la section intitule
Slection de modles : validation simple, validation croise, leave-one-out. Cette dernire mthode
est efficace mais gourmande en temps de calcul. On dcrit ci-dessous une alternative intressante au
leave-one-out, qui est conome en temps de calcul : lestimation du PRESS (Predicted REsidual Sum of
Squares) pour les modles linaires, et le leave-one-out virtuel pour les modles non linaires.
Rappelons que le leave-one-out consiste retirer un exemple k de lensemble des donnes disponibles,
effectuer lapprentissage du modle g(z, w-k) avec toutes les autres donnes, et calculer lerreur de mod-
lisation (ou rsidu) sur lexemple retir des donnes :
rk k = ykp g( x, w k ).
La procdure est itre pour chaque exemple disponible, et le score de leave-one-out est calcul :
1 N k
rk ( )
2
Et = .
N k =1
Dans le cas de modles linaires, il est possible de calculer ce score de manire exacte, en effectuant un
seul apprentissage avec toutes les donnes disponibles.

PRESS (Predicted REsidual Sum of Squares)


Montrons cette proprit dans le cas simple dun modle linaire un seul paramtre w. Dans ce cas, la
matrice Z se rduit un vecteur dont les composantes sont les N mesures zi de la variable z, et la matrice
ZTZ se rduit un scalaire :

( ) 1
1
ZT Z = N .
( zk )
2

k =1

Si lon effectue lapprentissage avec les N exemples disponibles, le paramtre wmc vaut alors :
N

z y p
k k

( )
1
k =1
wmc = Z Z T
Z y =
T p
N .
zk2
k =1

Supposons que lon retire lexemple i de lensemble des donnes disponibles, et que lon effectue
lapprentissage avec tous les autres exemples. Le paramtre du modle devient :
N

z y p
k k
z y
N
p
zi yip
k =1 k k
i k i
w mc = N
= k =1
N .
zk2 zk2
k =1 k =1
k i k i
Lapprentissage statistique : pourquoi, comment ?
57
CHAPITRE 1

Linfluence du retrait de lexemple i sur le modle se traduit donc par la variation de son unique
paramtre :

N N

i
z y p
k k zi yip z y p
k k
ri
k =1
w mc wmc = k =1
N
N
= zi N

z 2
k z 2
k z 2
k
k =1 k =1 k =1
k i k i

o ri est le rsidu (erreur de modlisation) sur lexemple i lorsque celui-ci est dans lensemble
dapprentissage :
N

z y p
k k
ri = y wmc zi = y
i
p
i
p k=1
N
zi .
zk2
k =1

Montrons prsent que lon peut calculer lerreur rii commise lorsque lexemple i a t retir de
lensemble dapprentissage en fonction de ri :

ri i ri = wmc
i
(
wmc zi = zi2 ) N
ri
= zi2 N
ri ,
z 2
k z 2
k z 2
i
k =1 k =1
k i

et par consquent :

ri z2
ri i = avec hii = N i .
1 hii
zk2
k =1

Cette relation rend donc inutile la ralisation de N apprentissages successifs, puisque lon peut calculer
exactement lerreur de modlisation qui aurait t commise sur lexemple i si celui-ci avait t retir de
lensemble dapprentissage.
La quantit hii est appele levier de lexemple i, compris entre 0 et 1. Elle est prsente de manire plus
dtaille dans la section suivante.
partir de cette relation, on peut dfinir le PRESS (Predicted REsidual Sum of Squares) Ep, par analogie
avec le score de leave-one-out Et :

2
1 N ri .
Ep =
N k =1 1 hii

Dans le chapitre 2, une extension de ces rsultats aux modles non linaires sera prsente sous le nom de
leave-one-out virtuel .
Lapprentissage statistique
58

Les leviers
Ce rsultat peut tre tendu au cas o le modle possde p paramtres. Le levier de lexemple i est alors
llment diagonal i de la matrice chapeau

( )
1
H = Z ZT Z Z T.
Cette matrice tant une matrice de projection orthogonale, les leviers possdent les proprits suivantes
(aisment vrifies sur lexpression des leviers dans le cas dun modle un seul paramtre, prsent dans
la section prcdente) :
N
0 < hii < 1 ; hii = p .
i =1

Cette dernire relation fournit une interprtation intressante des leviers : le levier de lexemple i est la
proportion des paramtres qui est utilise pour modliser lexemple i. Ainsi, un exemple qui possde un
grand levier a une grande importance pour le modle : en dautres termes, le modle est trs sensible au
bruit prsent sur la mesure de yp pour lexemple i. Il y a un risque de surajustement lexemple i.
Cet effet est illustr sur la figure 1-32.

1 + 1 +
(a) (b)

0,6 0,6

0,2 + 0,2
+ +
- 0,2 - 0,2
+
- 0,6
+ - 0,6
+

-1 -1
-1 - 0,6 - 0,2 x 0,2 0,6 1 -1 - 0,6 - 0,2 x 0,2 0,6 1
1 +
(c)
Leviers = 0,495
0,6

0,2 +
+
- 0,2 Leviers = 0,005
+
- 0,6

-1
-1 - 0,6 - 0,2 x 0,2 0,6 1
Figure 1-32. Interprtation des leviers
Lapprentissage statistique : pourquoi, comment ?
59
CHAPITRE 1

On dispose de 4 points exprimentaux, et lon postule un modle un paramtre. La figure (a) montre le
modle linaire ainsi obtenu. Supposons quune autre mesure effectue en x = 0,1 donne un rsultat
diffrent, comme indiqu sur la figure (b) ; on obtient alors le modle reprsent en trait plein, trs peu
diffrent du modle prcdent, reprsent en pointill. Supposons en revanche que ce soit le point en
x = 1 qui soit affect (figure (c)). On obtient alors le modle reprsent en trait plein, trs diffrent du
modle initial. On observe ainsi que le point situ en x = 1 a beaucoup plus dinfluence sur le modle
que le point situ en x = 0,1. Ceci se traduit par des leviers de valeurs trs diffrentes, dans un facteur
peu prs gal 100 : les points situs en x = 1 et x = 1 sont 100 fois plus importants pour le modle que
les points situs en x = 0,1 et x = + 0,1. Les expriences qui ont t effectues pour obtenir ces deux
rsultats taient donc peu prs inutiles : il aurait t plus profitable de rpter les mesures en x = 1 et x = +
1, afin de moyenner le bruit en ces points. On note que, conformment ce qui a t indiqu plus haut,
la somme des leviers est gale 1, qui est le nombre de paramtres du modle postul.

Cette illustration numrique met en lumire lintrt des plans dexpriences, qui permettent de choisir
les mesures les plus judicieuses pour tablir un modle prdictif prcis.

Moindres carrs par orthogonalisation de Gram-Schmidt


Dans la section Apprentissage de modles linaires en leurs paramtres , on a prsent une dtermina-
tion algbrique du vecteur des paramtres pour lesquels la fonction de cot des moindres carrs est mini-
male, ainsi quune interprtation gomtrique de ce rsultat. La solution algbrique ncessite le calcul de
linverse dune matrice. La mthode dorthogonalisation de Gram-Schmidt permet dobtenir le mme
rsultat de manire itrative, paramtre par paramtre ; elle est simple comprendre dans le cadre de
linterprtation gomtrique de la mthode des moindres carrs. Elle a dj t rencontre dans le cadre
de la slection de modle, dans la section Mthode de la variable sonde .

On considre lespace des observations, de dimension N, dans lequel la grandeur modliser est repr-
sente par un vecteur yp, et chacune des variables est reprsente par un vecteur zi, i = 1 p ; rappelons
que p est le nombre de paramtres du modle et que N est le nombre dobservations de lensemble
dapprentissage. Lalgorithme est une application simple du thorme des trois perpendiculaires :
choisir une variable i reprsente par le vecteur zi ;

y p zi
projeter yp sur la direction de zi, ce qui fournit le paramtre wmci de la variable i : wmci = ;
zi

projeter le vecteur des rsidus ri = y p wmci zi , le vecteur yp, et tous les vecteurs zji sur le sous-espace
orthogonal zi ;
projeter la projection de yp sur la projection dun deuxime vecteur zj, ce qui fournit un deuxime para-
mtre du modle ;
itrer jusqu puisement des variables du modle.

La figure 1-33 prsente lalgorithme dans le cas N = 3, p = 2. Les prdictions du modle pour lensemble
dapprentissage sont reprsentes par g(z, w), projection orthogonale de yp sur lespace des estimations,
qui est donc une combinaison linaire de z1 et z2. On peut obtenir ce vecteur en projetant dabord sur un
des vecteurs des variables (ici z1), puis en projetant orthogonalement r1 et z2 sur le sous-espace orthogonal
z1. Ce rsultat sobtient par application rpte du thorme des trois perpendiculaires.
Lapprentissage statistique
60

Cet algorithme est celui qui est utilis pour tablir yp


le classement des variables candidates en vue de la
slection de variables. La seule diffrence rside
dans le fait que les projections ne se font pas dans
nimporte quel ordre, mais en tenant compte des
corrlations entre les vecteurs, comme indiqu r1
dans la section mthode de la variable sonde . Espace des
observations
Espace des
estimations
z1
lments de statistiques g(z, w)
Cette introduction aux statistiques, lusage du
lecteur peu familier avec celles-ci, termine ce z2
chapitre introductif. Il existe de trs nombreux
ouvrages classiques (par exemple, [MOOD 1974],
[WONNACOTT 1990]) auxquels le lecteur peut se Sous-espace
orthogonal
rfrer pour plus de dtails, notamment pour la z1
dmonstration de certains rsultats.
Figure 1-33. Moindres carrs par Gram-Schmidt

Quest-ce quune variable


alatoire ?
Une variable alatoire est une abstraction commode pour reprsenter une grandeur (par exemple, le
rsultat dune mesure) lorsque sa valeur nest pas certaine. On considre alors que la valeur de cette
variable est la ralisation dune variable alatoire ; cette dernire est entirement dtermine par sa
densit de probabilit (ou simplement densit , ou encore distribution ou loi ).

Dfinition

Soit pY(y) la densit de probabilit dune variable alatoire Y : la probabilit pour que la valeur dune
ralisation de Y soit comprise entre y et y+dy vaut pY(y)dy.

Ainsi, si lon traite une grandeur mesurable comme une variable alatoire, on fait comme si le rsultat de
la mesure de cette grandeur tait le rsultat dun tirage au sort dans un ensemble de valeurs possibles de
y, avec la distribution (gnralement inconnue) pY(y). Utiliser une variable alatoire pour modliser le
rsultat dune mesure ne signifie pas du tout que lon considre la grandeur mesure comme rgie par des
lois non dterministes : la variable alatoire est un outil mathmatique, dont lutilisation est trs commode
lorsque les facteurs qui dterminent le rsultat de la mesure ne sont pas connus, ou sont connus mais non
matriss ni mesurs.
Ainsi, le lancer dun d est un phnomne parfaitement dterministe, qui obit toutes les lois de la
physique : si lon connaissait la position initiale de la main du joueur, si lon pouvait mesurer la vitesse
initiale du d, et si lon connaissait les caractristiques mcaniques de la matire dont sont constitus le
d et la table sur laquelle on le lance, on pourrait prdire exactement le rsultat du lancer. Dans la pratique,
comme toutes ces grandeurs ne sont pas connues et pas mesures, il est commode de modliser ce rsultat
comme la ralisation dune variable alatoire. Dans ce cas particulier, cette variable Y est une variable
discrte, qui ne peut prendre que 6 valeurs, et, pour un d non pip, la probabilit de ralisation de
chacune de ces valeurs est gale 1/6.
Lapprentissage statistique : pourquoi, comment ?
61
CHAPITRE 1

De mme, les mthodes statistiques sont susceptibles de prvoir les rsultats dune lection, alors que
chaque citoyen ne vote pas au hasard, mais en fonction de ses convictions.

Proprit

La densit de probabilit pY(y) est la drive premire de la fonction de rpartition ou probabilit


dF ( y )
cumule : pY ( y ) = Y avec FY ( y ) = Probabilit (Y y ).
dy

Remarque
Toute ralisation y de la variable alatoire Y tant comprise entre et + , on a videmment
+
FY ( ) = 0, FY ( + ) = 1 et pY ( y ) dy = 1.
-

Variable certaine

Une variable certaine de valeur y0 est une variable alatoire dont la densit de probabilit est une
distribution de Dirac ( y y0 ).

Exemples de densits de probabilits (ou lois)


Densit de probabilit uniforme
Une variable alatoire Y a une distribution uniforme si sa densit de probabilit vaut pY ( y ) = 1 ( b a )
sur un intervalle [a, b], et est nulle partout ailleurs.
Densit de probabilit gaussienne
( y )2
1
La distribution gaussienne pY ( y ) = exp est trs frquemment utilise. est la
2 2 2 2
moyenne de la gaussienne et (>0) est son cart- 0,4

type. La figure 1-34 reprsente une distribution


0,35
normale centre rduite (ou simplement loi
normale), qui est une distribution gaussienne avec 0,3

= 0 et = 1. Les aires hachures indiquent que la 0,25


probabilit pour quune ralisation dune variable
suivant une loi normale soit comprise entre 1 et
pY(y)

0,2

+1 vaut environ 0,68, et que la probabilit pour 0,15


quelle soit entre 2 et +2 vaut environ 0,96.
0,1
Autres densits de probabilit
0,05
Les distributions de Pearson (ou du 2), de Student
et de Fisher sont prsentes plus loin. 0
-5 -4 -3 -2 -1 0 1 2 3 4 5
y

Figure 1-34. Loi normale


Lapprentissage statistique
62

Densits de probabilits conjointes


Soit pX ,Y ( x, y ) la densit de probabilit conjointe de deux variables alatoires X et Y : la probabilit pour
quune ralisation de X soit comprise entre x et x+dx et quune ralisation de Y soit comprise entre y et
y+dy vaut pX ,Y ( x, y ) dx dy.

Variables alatoires indpendantes

Deux variables alatoires X et Y sont indpendantes si la probabilit de ralisation dune des variables
est indpendante de la probabilit de ralisation de lautre. On a donc pX ,Y ( x, y ) = p X ( x ) pY ( y ).

Densits de probabilits conditionnelles


Soient deux variables alatoires X et Y. La probabilit pour quune ralisation de la variable Y soit
comprise entre y et y+dy lorsque la variable X prend la valeur x est note pY ( y x ) dy , o pY ( y x ) est la
densit de probabilit de y sachant x ou densit de probabilit conditionnelle de y. On a donc

pX ,Y ( x, y ) = pY ( y x ) pX ( x ) = p X ( x y ) pY ( y )

Remarque :
Si les variables sont indpendantes : pY ( y x ) = pY ( y ) et p X ( x y ) = p X ( x ).

Vecteur alatoire
Un vecteur alatoire est un vecteur dont les composantes sont des variables alatoires.

Esprance mathmatique dune variable alatoire

Dfinition

+
Lesprance mathmatique dune variable alatoire Y est EY = ypY ( y ) dy.

Lesprance mathmatique dune variable alatoire est donc le premier moment de sa densit de probabi-
lit.

Proprits
Il est facile de dmontrer les proprits suivantes :
lesprance mathmatique dune somme de variables alatoires est la somme des esprances mathma-
tiques des variables alatoires ;
lesprance mathmatique du produit de deux variables indpendantes est gale au produit de leurs
esprances mathmatiques ;
lesprance mathmatique dune variable certaine de valeur y0 est gale y0 ;
si une variable Y obit une distribution uniforme sur un intervalle [a, b], son esprance mathmatique
vaut (a+b)/2 ;
si une variable Y suit une loi gaussienne de moyenne , son esprance mathmatique vaut .
Lapprentissage statistique : pourquoi, comment ?
63
CHAPITRE 1

Comme nous lavons vu dans la section lments de la thorie de lapprentissage , lobjectif de tout
apprentissage est dobtenir une estimation fiable de lesprance mathmatique de la grandeur modliser.
cet effet, il est utile dintroduire le concept destimateur.

Estimateur non biais


Un estimateur est une variable alatoire, fonction dune ou plusieurs variables alatoires observables ;
une variable alatoire est observable si ses ralisations sont mesurables.

Dfinition

Un estimateur H dun paramtre de la distribution dune variable alatoire observable Y est dit non
biais si son esprance mathmatique EH est gale ce paramtre. Alors une ralisation de H
constitue une estimation non biaise du paramtre de la distribution.

Estimateur non biais dune variable certaine

Daprs la dnition prcdente, un estimateur dune variable certaine est non biais si son esprance mathmatique est gale la valeur
de la variable certaine.

Ainsi, chercher estimer les paramtres w dun modle, cest--dire faire lapprentissage dun modle,
revient chercher des estimateurs non biaiss des paramtres, ces derniers tant considrs comme des
variables certaines. Cest cette approche, dite frquentiste, qui est dcrite dans le prsent ouvrage.
Lapproche bayesienne qui considre les paramtres du modle comme des variables alatoires, permet
galement dobtenir dexcellents rsultats, comme dcrit par exemple dans [NEAL 1996] ; la description
de cette approche sort du cadre de cet ouvrage.

La moyenne est un estimateur non biais de lesprance mathmatique


Supposons que lon ait effectu N mesures dune grandeur Y, dans des conditions supposes identiques. On modlise cette grandeur par
une variable alatoire dont lesprance mathmatique EY est inconnue. Le rsultat yi de la mesure i peut tre considr comme une rali-
sation dune variable alatoire Yi. Supposons que le rsultat dune mesure naffecte pas les rsultats des autres mesures, ce qui est raison-
nable pour une exprience bien conue : toutes ces variables alatoires sont donc mutuellement indpendantes, et, puisque les mesures
ont t effectues dans des conditions identiques, elles ont des distributions de probabilit identiques ; elles ont donc notamment la mme
esprance mathmatique EY.

Considrons la variable alatoire M = (Y1 + Y2 + + YN) / N. Puisque lesprance mathmatique dune somme de variables alatoires est
la somme des esprances mathmatiques de ces variables, on a videmment EM = EY : lesprance mathmatique de la variable alatoire
M (appele moyenne ) est bien gale lesprance mathmatique de la variable alatoire Y. La grandeur m = (y1 + y2 + + yN) / N,
ralisation de lestimateur de lesprance mathmatique de Y, constitue une estimation non biaise de cette dernire.

Il reste valuer la qualit de cette estimation : le fait quelle soit non biaise ne garantit pas quelle soit
prcise : sa prcision dpend du nombre et de la qualit des mesures effectues, cest--dire de la
dispersion des mesures autour de lesprance mathmatique. Pour caractriser numriquement cette
dispersion, on utilise la notion de variance.
Lapprentissage statistique
64

Variance dune variable alatoire

Dfinition

La variance dune variable alatoire Y de distribution pY(y) est la quantit


+
[y E ] pY ( y ) dy.
2
varY = 2 = Y

La variance est donc le deuxime moment centr de la distribution de probabilit.

Remarque
La variance est galement lesprance mathmatique de [Y EY ] : varY = E Y E 2 .
2

( Y )

Proprits
Une variable certaine a une variance nulle.
varY = EY 2 ( EY ) .
2

varaY = a 2 varY .
Si une variable alatoire obit une distribution uniforme sur un intervalle [a, b], sa variance vaut
(ba)2/12.
Si une variable alatoire obit une loi gaussienne dcart-type , sa variance vaut 2.

Estimateur non biais de la variance dune variable alatoire


Rappelons que, pour introduire lestimateur moyenne M (estimateur non biais de lesprance mathma-
tique), on a considr que N mesures, mutuellement indpendantes, dune grandeur Y ont t effectues,
et elles ont t modlises comme des ralisations de variables alatoires Yi de distributions identiques.

Estimateur non biais de la variance

1 N
(Y M ) est un estimateur non biais de la variance de Y.
2
La variable alatoire S 2 =
N 1 i =1 i

Si lon dispose de N rsultats de mesures yi, il faut donc, pour estimer la variance, calculer dabord la
1 N
valeur de la moyenne m = yi , puis calculer lestimation de la variance par la relation :
N i =1
1 N
( yi m ) .
2
s2 =
N 1 i =1
Lestimation de la variance permet donc dvaluer, de manire quantitative, la dispersion des rsultats des
mesures autour de leur moyenne. La moyenne tant elle-mme une variable alatoire, elle possde une
variance : on pourrait effectuer plusieurs sries de mesures, calculer la moyenne de chacune de ces sries,
puis estimer la variance de la moyenne, laquelle caractriserait la dispersion de lestimation de la grandeur
modliser. Nanmoins, cette procdure est lourde puisquelle requiert que lon effectue plusieurs sries
de mesures, dans des conditions supposes identiques.
Lapprentissage statistique : pourquoi, comment ?
65
CHAPITRE 1

Covariance de deux variables alatoires


La covariance de deux variables alatoires U et V est dfinie par :

covU ,V = E(U EU )(V EV ) = EUV EU EV .

Remarque
On a vu plus haut que

varY = E Y E 2 .
( Y)

La variance dune variable alatoire est donc la covariance de cette variable et delle-mme.

Variance dun vecteur alatoire


u1
u 2 , de dimension p, sa variance est la matrice (p, p) donne
tant donn un vecteur alatoire U =
M

up
par :

var u cov u , u L cov u1, u p


1 1 2
cov u , u var u L L
var U = 1 2 2 .
M M O M

L L L var u p

Proprit

Si A est une matrice certaine : varAU = A varU AT .

Autres distributions utiles


Loi de 2 (ou de Pearson)
Si une variable alatoire X est la somme des carrs de N variables gaussiennes indpendantes, elle obit
une loi de 2 (ou de Pearson) N degrs de libert. Alors EX = N et varX = 2N.

Loi de Student
Si Y1 est une variable de distribution normale, et si Y2 est une variable alatoire, indpendante de Y1, obis-
Y1
sant une loi de Pearson N degrs de libert, alors la variable alatoire Z = obit une loi de
Y2 / N
Student N degrs de libert.
Lapprentissage statistique
66

Loi de Fisher
Si Y1 est une variable alatoire de Pearson N1 degrs de libert, et si Y2 est une variable alatoire de
Y / N1
Pearson N2 degrs de libert, alors la variable alatoire Z = 1 obit une loi de Fisher N1 et N2
degrs de libert. Y2 / N2

Intervalles de confiance
Dans les sections prcdentes, nous avons vu que lestimation dune grandeur dpend la fois du nombre
dexpriences et de la variabilit des observations. On peut combiner lgamment la taille de lchantillon
et sa variabilit pour valuer la diffrence qui peut exister entre lestimation dune grandeur et sa vraie
valeur.

Dfinition

Un intervalle de confiance, au seuil de confiance 1 , pour une variable alatoire Y, est un intervalle
qui, avec une probabilit 1 , contient la valeur de lesprance mathmatique de Y.

En consquence, plus lintervalle de confiance est petit, plus on peut avoir confiance en lestimation de la
grandeur modliser.
Ainsi, supposons que lon ait ralis 100 ensembles de mesures ; partir de celles-ci, on peut calculer 100
moyennes, 100 estimations de la variance, et 100 intervalles de confiance 95 % ( = 0,05). Alors, pour
95 % de ces ensembles de donnes, lintervalle de confiance contient la moyenne ; on ne peut videm-
ment pas garantir que, pour un ensemble particulier de mesures, la vraie valeur soit lintrieur de linter-
valle de confiance calcul partir de cet ensemble de mesures.

Conception dun intervalle de confiance


Pour concevoir un intervalle de confiance pour une variable alatoire Y, il faut trouver une variable ala-
toire Z, fonction de Y, dont la distribution pZ(z) soit connue et indpendante de Y. Puisque la distribution
p Z(z) est connue, il est facile de rsoudre lquation Pr ( z1 < z < z2 ) = pZ ( z ) dz = 1 : il suffit
z2

z1
dinverser la fonction de rpartition de Z, cest--dire trouver la valeur z1 de z telle que Pr(z < z1) = / 2,
et la valeur z2 de z telle que Pr(z > z2) = / 2. Une fois dtermines les valeurs de z1 et de z2, on inverse la
fonction Z(Y) afin de trouver les valeurs a et b de y telles que Pr(a < y < b) = 1 .

Exemple : conception dun intervalle de confiance pour la moyenne


Le tout premier exemple dapprentissage qui a t considr dans ce chapitre consistait en lestimation de
lunique paramtre w dun modle constant ; on a vu que ce paramtre ntait autre que lesprance
mathmatique de la grandeur modliser. On a galement vu que la moyenne est un estimateur non biais
de lesprance mathmatique. On se pose donc la question suivante : tant donn un ensemble de mesures
dune grandeur, dont on a calcul la moyenne pour estimer son esprance mathmatique, quelle confiance
peut-on accorder cette estimation ?
Supposons donc, comme prcdemment, que N expriences ont t effectues, et que lon peut modliser
les rsultats de ces expriences comme N ralisations de variables alatoires Yi indpendantes et de mme
distribution. De plus, supposons que la distribution commune ces variables est une distribution gaus-
sienne de moyenne et de variance 2.
Lapprentissage statistique : pourquoi, comment ?
67
CHAPITRE 1

Il est facile de dmontrer que la somme de N variables gaussiennes indpendantes est une variable gaus-
sienne dont la moyenne est la somme des moyennes, et dont la variance est la somme des variances. Ici
les distributions des N variables sont identiques, dont la moyenne est une gaussienne de moyenne N et
de variance N2. Leur moyenne M obit donc une loi gaussienne de moyenne et de variance 2/N ; par
consquent la variable alatoire M obit une loi normale (gaussienne de moyenne nulle et de
/ N
variance unit).
Rappelons que lon cherche tablir deux bornes pour lesprance mathmatique , qui doivent tre de la
forme m a, o m est la moyenne des mesures et a le demi-intervalle de confiance. On peut prvoir que
lintervalle de confiance crot avec la variance des mesures et dcrot avec leur nombre.
1 N Comme 2indiqu
plus haut, lestimateur non biais de la variance est la variable alatoire S 2 = 2(Yi M ) . Il est
N 1 i
commode de normaliser cette variable en la divisant par son esprance mathmatique =1 ; les variables Y
i
tant supposes gaussiennes, la variable alatoire M est galement gaussienne, donc (N 1) S2/ 2 est la
somme de N 1 variables gaussiennes indpendantes (il ny a que N 1 variables indpendantes puisque
M dpend des Yi) ; elle obit donc une loi de Pearson.
M
Dautre part, comme indiqu plus haut, la variable alatoire obit une loi normale.
/ N
M
M
Par consquent, la variable alatoire Z = / N = obit une loi de Student N 1 degrs
S /
2 2
S2 / N
de libert. La distribution de Student tant symtrique, il suffit alors de chercher la valeur de z0 telle
quune variable de Student soit comprise entre z0 et +z0 avec la probabilit 1 , soit encore telle quune
variable de Student soit comprise entre et z0 avec la probabilit / 2. partir des rsultats exprimen-
taux, on peut calculer une ralisation m de M, une ralisation s de S, et une ralisation z de Z par les rela-
1 N 1 N m
( yi m ) et z = 2 . Avec une probabilit 1 , lestimation m de
2
tions m = yi , s =
N i =1 N 1 i =1 s /N
se trouve lintrieur de lintervalle de confiance si z est dans lintervalle [ z0, + z0] :
m
z0 < < + z0
s2 / N
soit
m z0 s 2 / N < < m + z0 s 2 / N .
Lintervalle de confiance recherch est donc lintervalle centr sur lestimation de la moyenne m, et de
demi-largeur z0 s 2 / N .
Lapprentissage statistique
68

La figure 1-35 reprsente linverse de la distribu- 5


tion de probabilit cumule dune variable de 4
Student, pour diffrentes valeurs de N. On observe
3
que, au-del de N = 10, la distribution devient peu N=3
2
prs indpendante de N (elle est dailleurs trs

Variable de Student
voisine dune distribution normale) ; pour un 1

niveau de confiance de 0,95, on voit que z0 2 pour 0 N = 10


N = 100
N 10, de sorte que la largeur de lintervalle de -1
confiance pour est peu prs 2 s 2 / N = 2 s / N . -2
La largeur de lintervalle de confiance est donc -3
proportionnelle s, donc au bruit de mesure, et
-4
inversement proportionnelle la racine carre du
nombre dexemples : une grande variabilit dans -5
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
les mesures doit tre compense par une grande 0,025
Probabilit cumule dune variable de Student
0,975
taille de lchantillon. N degrs de libert
Figure 1-35. Inverse de la probabilit cumule
titre dexemple, on a simul 10 000 sries de 100 dune variable de Student
mesures en engendrant des ralisations dune
variable alatoire selon une loi normale. Pour
chaque srie de mesures, la moyenne, lestimateur de la variance, et lintervalle de confiance dtermin
ci-dessus, au niveau de confiance 0,95 ont t calculs : dans 95,7% des cas, lesprance mathmatique
des mesures (gale zro) se trouve bien lintrieur de lintervalle de confiance.
On a donc tabli ici un intervalle de confiance pour lestimation de lesprance mathmatique, ou, en
dautres termes, de lunique paramtre dun modle constant. Il est trs important de pouvoir fournir un
intervalle de confiance sur les prdictions fournies par un modle. On en rencontrera de nombreux exem-
ples dans cet ouvrage.

Tests dhypothse
On a vu plus haut que des tapes importantes dans la conception dun modle par apprentissage artificiel,
telles que la slection de variables ou la slection de modles, ncessitent de prendre des dcisions (slec-
tionner ou rejeter un modle ou une variable) partir des informations disponibles, qui sont gnralement
en nombre limit. Il faut donc prendre ces dcisions de manire raisonne. Les tests dhypothse sont les
outils appropris pour ce genre de situation. Ils permettent de faire une hypothse et dtablir une des deux
conclusions suivantes, avec un risque derreur fix :
les donnes confirment cette hypothse,
le fait que les donnes semblent confirmer cette hypothse est simplement le rsultat dun concours de
circonstances improbable, li la petite taille de lchantillon et la variabilit des mesures.
De nombreux tests dhypothses, adapts une grande varit de situations, ont t proposs (voir par
exemple [LEHMANN 1993]).
Le principe dun test dhypothse est le suivant : pour tester la validit dune hypothse (appele
hypothse nulle et traditionnellement note H0), on cherche tablir lexpression dune variable ala-
toire qui suit une loi connue si lhypothse nulle est vraie, et dont on peut calculer une ralisation partir
des donnes disponibles. Si la probabilit pour que cette ralisation se trouve dans un intervalle donn est
trop faible , on considre que la probabilit pour que lhypothse nulle soit vraie est trop faible : on la
rejette donc.
Lapprentissage statistique : pourquoi, comment ?
69
CHAPITRE 1

titre de premire illustration, supposons quun modle prdise que la grandeur modliser, par exemple
lunique paramtre dun modle constant, a une certaine valeur w0. On dispose dun ensemble de N obser-
vations de cette grandeur, et lon veut savoir si elles confirment lhypothse selon laquelle la grandeur a
pour vraie valeur w0. Ces mesures sont modlises comme des ralisations de N variables alatoires Yi
supposes gaussiennes, desprance mathmatique et de variance 2. Lhypothse nulle est donc
H0 : w0 = , et lhypothse alternative est w0 .
Nous avons vu dans la section prcdente que, si lhypothse nulle est vraie, cest--dire si w0 = , la
M w0
variable alatoire Z = , obit une loi de Student N 1 degrs de libert (M est lestimateur de
S2 / N
2
lesprance mathmatique, S est lestimateur de la variance). partir des N donnes disponibles, on peut
calculer une ralisation z de cette variable alatoire. Dautre part on peut calculer la valeur z0 telle que la
probabilit pour quune ralisation de la variable alatoire soit lextrieur de lintervalle [ z0, +z0] est
gale au risque choisi 1 . Si la ralisation observe z est lextrieur de cet intervalle, on peut consi-
drer que les donnes ne confirment pas de manire significative lhypothse H0 ; on rejette donc celle-ci,
avec un risque 1 de se tromper. En outre, il faut dfinir le niveau de risque derreur, not 1 , que
lon est dispos admettre, lerreur consistant rejeter lhypothse nulle alors quelle est vraie (erreur de
type 1).
Supposons par exemple quune thorie prvoie quune grandeur vaut w0 = 1. Supposons que lon dispose
de 100 mesures de cette grandeur, dont la moyenne m vaut 2 et lcart-type vaut s = 10 : ces mesures sont
donc trs disperses autour de la moyenne. On se pose la question : ces donnes confirment-elles lhypo-
thse selon laquelle w0 vaut 1 ? La ralisation de la variable alatoire z vaut
m w0
z= = 1.
s2 / N
En se reportant la figure 1-35, on voit que z0 2
(pour = 0,95), de sorte que z est dans lintervalle
[ z0, +z0]. On accepte donc lhypothse nulle au
vu des donnes disponibles. linverse, si les 5

donnes disponibles ont toujours pour moyenne 4


m = 2, mais avec une dispersion beaucoup plus 3
petite, par exemple s = 3, alors z = 3,3 ; dans ces
2
conditions, on est amen rejeter lhypothse
Variable de Student

nulle. 1
ACCEPTATION
La certitude avec laquelle on accepte lhypo- 0 DE LHYPOTHSE NULLE

thse nulle est exprime par la p-valeur de la -1


ralisation z de la variable alatoire Z. Cest la -2
probabilit pour quune ralisation de Z soit
-3
lextrieur de lintervalle z , + z si lhypothse
nulle est vraie : la p-valeur de z0 est donc 1 . -4

Ainsi, dans lexemple prcdent, la p-valeur de -5


0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
z = 1 vaut 0,32, ce qui signifie que lon est raison-
nablement sr de ne pas se tromper en acceptant 0,16 Probabilit cumule dune variable de Student 0,16
100 degrs de libert
lhypothse nulle (figure 1-36). En revanche, la p-
Figure 1-36. p-valeur de z = 1
valeur de z = 3,3 vaut 8 10-3 : accepter lhypothse
nulle serait donc extrmement risqu.
Lapprentissage statistique
70

Notons que la p-valeur de z = 0 vaut 1, ce qui veut dire que lon accepte lhypothse nulle avec la plus
grande certitude possible ; cest naturel, puisque z = 0 correspond au cas o la moyenne est gale la
valeur postule de lesprance mathmatique.
Remarque
Dans ce cas particulier, le test dhypothse consiste regarder si la valeur de la moyenne dont on fait lhypothse se trouve dans lintervalle
de conance calcul au paragraphe prcdent, et rejeter lhypothse nulle si cette valeur est lextrieur de cet intervalle.
Un autre exemple de test dhypothses (test de Fisher) est dcrit dans la section Slection de variables .

Conclusion
Dans ce chapitre, les fondements de lapprentissage statistique et de sa mise en uvre ont t dcrits de
manire succincte ; on en trouvera une prsentation beaucoup plus dtaille dans [HASTIE 2001] par
exemple. Pendant longtemps, les efforts de recherche en apprentissage artificiel ont port essentiellement
sur les familles de modles et les algorithmes dapprentissage. Le nombre et la varit des applications,
leur difficult et leur exigence croissantes, ont rendu ncessaires la mise en place dun corps de doctrine
et dune mthodologie qui englobent tous les aspects de la conception de modle par apprentissage
statistique : slection de variables, slection de modle, planification dexpriences, estimation dinter-
valles de confiance sur les prdictions, sont au moins aussi importantes que lapprentissage lui-mme. Les
mthodes qui ont t dcrites ou esquisses dans ce chapitre peuvent tre mises en uvre pour la plupart
des grandes familles de modles. Les chapitres suivants de cet ouvrage sont consacrs diffrents types
de modles rseaux de neurones, cartes auto-organisatrices, machines vecteurs supports dont on
montrera les spcificits, la mise en uvre, et les applications.

Bibliographie
BJRCK A. [1967], Solving linear least squares problems by Gram-Schmidt orthogonalization. BIT, 7,
p. 1-27.
CHEN S., BILLINGS S. A., LUO W. [1989], Orthogonal least squares methods and their application to non-
linear system identification, International Journal of Control, 50, p. 1873-1896.
DRAPER N. R., SMITH H. [1998], Applied regression analysis, John Wiley & Sons.
DREYFUS G., GUYON I. [2006], Assessment Methods, in Feature Extraction, Foundations and Applica-
tions, I. Guyon, S. Gunn, M. Nikraveh, L. Zadeh, eds. (Springer), p. 65-88.
GUYON I., GUNN S., NIKRAVESH M., ZADEH L. [2006], Feature Extraction, Foundations and Applications,
Springer.
HASTIE T, TIBSHIRANI R., FRIEDMAN J. [2001], The elements of statistical learning, data mining, infer-
ence and predictions, Springer.
KULLBACK S. [1959], Information Theory and Statistics, Dover Publications.
LAGARDE DE J. [1983], Initiation lanalyse des donnes, Dunod, Paris.
LEHMANN E. L. [1993], Testing statistical hypotheses, Chapman & Hall.
MOOD A. M., GRAYBILL F. A., BOES D. C. [1974], Introduction to the Theory of Statistics, McGraw-Hill.
NEAL R. M. [1996] Bayesian Learning for Neural Networks, Springer.
Lapprentissage statistique : pourquoi, comment ?
71
CHAPITRE 1

SEBER G. A. F. [1977], Linear Regression Analysis, Wiley


STOPPIGLIA H. [1997], Mthodes statistiques de slection de modles neuronaux ; applications finan-
cires et bancaires, Thse de Doctorat de lUniversit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
STOPPIGLIA H., DREYFUS G., DUBOIS R., OUSSAR Y. [2003], Ranking a Random Feature for Variable and
Feature Selection, Journal of Machine Learning Research, p. 1399-1414.
VAPNIK V. [1998], The nature of statistical learning theory, Springer.
WONNACOTT T. H., WONNACOTT R. J. [1990], Statistique conomie-gestion-sciences-mdecine,
Economica, 4e dition, 1990.
2
Les rseaux de neurones

Introduction
Le premier chapitre de cet ouvrage a prsent les principes de lapprentissage statistique, ainsi quune
mthodologie globale permettant de rsoudre les problmes pratiques qui se posent lorsque lon souhaite
concevoir un modle prcis et fiable. Il reste appliquer ces principes des familles de modles rpondant
des besoins spcifiques notamment, en ce qui concerne ce chapitre, aux rseaux de neurones.
Le terme de rseau de neurones suggre un lien fort avec la biologie. Ce lien existe : les mthodes
mathmatiques dcrites dans ce chapitre ont t appliques avec succs la modlisation des systmes
nerveux vivants. Nanmoins, le terme est plus mtaphorique que scientifique : si le lien avec la biologie a
constitu une motivation majeure des pionniers du domaine, les rels dveloppements des rseaux de
neurones sont de nature purement mathmatique et statistique ; leurs applications se situent dans des
domaines qui nont gnralement aucun rapport avec la neurobiologie. Cest la raison pour laquelle, aprs
avoir fourni les dfinitions essentielles et nonc la proprit fondamentale des rseaux de neurones
lapproximation non linaire parcimonieuse , les classes de problmes que les rseaux de neurones sont
susceptibles de rsoudre sont rappeles : modlisation non linaire statique ou dynamique, classification
(discrimination), modlisation semi-physique ( bote grise ) et traitement de donnes structures
(graphes). Des applications trs diverses, choisies en raison de leur caractre exemplaire, sont dcrites en
dtail afin de fournir au lecteur des ides prcises sur le type de problmes auxquels les rseaux de
neurones sont susceptibles dapporter des solutions lgantes.
Cest seulement aprs avoir dcrit ces applications que sont prsents, de manire plus dtaille, les algo-
rithmes et la mthodologie de conception quil convient de suivre pour obtenir des rsultats solides. Les
tapes de conception, dcrites de manire gnrique dans le premier chapitre, sont abordes en dtail ici :
slection des variables, apprentissage, slection de modles statiques. Les modles dynamiques sont
galement prsents dans une optique de mthodologie ; ils sont dcrits de manire plus dtaille dans le
chapitre 4. Des complments thoriques et algorithmiques clturent ce chapitre.

Rseaux de neurones : dfinitions et proprits


Dans la section du premier chapitre intitule Quelques dfinitions concernant les modles , on a intro-
duit la distinction entre modles linaires et modles non linaires en leurs paramtres.
Rappelons quun modle linaire statique est de la forme :
p

( ) ( )
g x , w = wi f i x
i =1
Lapprentissage statistique
74

o le vecteur w est le vecteur des paramtres du modle, et o les fonctions fi(x) sont des fonctions non
paramtres, ou paramtres fixs et connus, des variables x.
Les rseaux de neurones entrent dans la catgorie des modles non linaires en leurs paramtres. La
forme la plus courante de rseau de neurones statique est une extension simple de la relation prcdente :
p
g ( x, w ) = wi fi ( x, w )
i =1

o les fonctions fi(x, w), appeles neurones , sont des fonctions paramtres qui seront dfinies dans
la section suivante.

Les neurones

Dfinition

Un neurone est une fonction non linaire, paramtre, valeurs bornes.

Suivant en cela lusage, on utilisera frquemment, par abus de langage, le terme de neurone linaire
pour dsigner une fonction paramtre linaire ou affine (qui nest donc pas borne).
Les variables sur lesquelles opre le neurone sont souvent y
dsignes sous le terme dentres du neurone, et la valeur de la
fonction sous le terme de sortie. Reprenant le graphisme de la
figure 1-22 du premier chapitre, il est commode de reprsenter
graphiquement un neurone comme indiqu sur la figure 2-1.
Cette reprsentation est le reflet de linspiration biologique qui
a t lorigine de la premire vague dintrt pour f
les neurones formels, dans les annes 1940 1970
[McCULLOCH 1943] [MINSKY 1969].
La fonction f peut tre paramtre de manire quelconque.
Deux types de paramtrage sont frquemment utiliss :
les paramtres sont attachs aux variables du neurone : la x1 x2 xn
sortie du neurone est une fonction non linaire dune combi-
naison des variables {xi} pondres par les paramtres {wi}, Figure 2-1. Un neurone ralise une fonction
qui sont alors souvent dsigns sous le nom de poids ou, non linaire paramtre borne y = f (x, w)
en raison de linspiration biologique des rseaux de neurones, o les composantes du vecteur x
poids synaptiques . Conformment lusage (galement sont les variables et celles du vecteur w
sont les paramtres.
inspir par la biologie), cette combinaison linaire sera
appele potentiel dans tout cet ouvrage. Le potentiel v le
plus frquemment utilis est la somme pondre, laquelle sajoute un terme constant ou biais 1 :
n
v = w0 + wi xi .
i =1

1. Ce terme de biais est malheureux, mais consacr par lusage. Il na rien voir le biais dun estimateur, dfini dans la section
lments de statistiques du premier chapitre.
Les rseaux de neurones
75
CHAPITRE 2

La fonction f est appele fonction dactivation. Pour des raisons qui seront exposes plus loin, il est
recommand dutiliser pour f une fonction sigmode (cest--dire une fonction en forme de s )
symtrique par rapport lorigine, telle que la tangente hyperbolique ou la fonction Arctangente. Ainsi,
dans la trs grande majorit des applications qui seront dcrites dans ce chapitre, la sortie dun neurone
a pour quation :

n

y = th w0 + wi xi .
i =1
Le biais w0 peut tre considr comme le produit du paramtre w0 par la constante 1, de sorte quil est
commode dintroduire une variable gale 1 dans le vecteur des variables. La relation prcdente peut
alors scrire :

y = th ( w x )

o le symbole dsigne le produit scalaire de deux vecteurs ;


les paramtres sont attachs la non-linarit du neurone : ils interviennent directement dans la fonction
f ; cette dernire peut tre une fonction radiale ou RBF (en anglais Radial Basis Function), ou encore
une ondelette ; la premire tire son origine de la thorie de lapproximation [POWELL 1987], la seconde
de la thorie du signal [MALLAT 1989].
Par exemple, la sortie dun neurone RBF non-linarit gaussienne a pour quation :

n 2
( xi wi )
y = exp i =1
2 wn2+1


o les paramtres wi, i = 1 n sont les coordonnes du centre de la gaussienne, et wn+1 est son cart-type.

Dans les complments thoriques et algorithmiques, en fin de chapitre, dautres exemples de neurones
sont prsents.

La diffrence pratique essentielle entre les deux types de neurones qui viennent dtre dcrits est la
suivante : les neurones tels que les RBF ou les ondelettes ont des non-linarits locales, qui tendent vers
zro dans toutes les directions de lespace des variables ; leur zone dinfluence est donc limite dans
lespace, ce qui nest pas le cas des neurones fonction dactivation sigmode.

Les rseaux de neurones


Un neurone ralise simplement une fonction non linaire, paramtre, de ses variables. Lintrt
des neurones rside dans les proprits qui rsultent de leur association en rseaux, cest--dire de la
composition des fonctions non linaires ralises par chacun des neurones.

Dans le premier chapitre, on a introduit la distinction entre modles statiques et modles dynamiques.
Bien entendu, la mme distinction sapplique aux rseaux de neurones : on diffrencie les rseaux stati-
ques (ou rseaux non boucls) et les rseaux dynamiques (ou rseaux boucls).
Lapprentissage statistique
76

Rseaux de neurones statiques ou rseaux non boucls


Forme gnrale

Dfinition

Un rseau de neurones non boucl ralise une (ou plusieurs) fonction(s) de ses entres par composition des
fonctions ralises par chacun des neurones.

Un rseau de neurones non boucl peut donc tre imagin comme un ensemble de neurones connects
entre eux, linformation circulant des entres vers les sorties sans retour en arrire . On peut alors
reprsenter le rseau par un graphe acyclique dont les nuds sont les neurones et les artes les
connexions entre ceux-ci. Si lon se dplace dans le rseau, partir dun neurone quelconque, en
suivant les connexions et en respectant leurs sens, on ne peut pas revenir au neurone de dpart. La repr-
sentation de la topologie dun rseau par un graphe est trs utile, notamment pour les rseaux boucls,
comme on le verra dans la section Rseaux de neurones dynamiques . Les neurones qui effectuent le
dernier calcul de la composition de fonctions sont les neurones de sortie ; ceux qui effectuent des calculs
intermdiaires sont les neurones cachs (voir figure 2-2).
Remarque
Le terme de connexions doit tre pris dans un sens mtaphorique : dans la trs grande majorit des applications, les oprations effec-
tues par un rseau de neurones sont programmes (nimporte quel langage de programmation convient) et excutes par un ordinateur
conventionnel. Le rseau de neurones nest donc pas, en gnral, un objet tel quun circuit lectronique, et les connexions nont pas de
ralit physique ; nanmoins, le terme de connexion, issu des origines biologiques des rseaux de neurones, est pass dans lusage, car
il est commode quoique trompeur ; il a mme donn naissance au terme de connexionnisme.

Rseaux couches
La seule contrainte sur le graphe des connexions dun
rseau de neurones non boucl est quil ne contient
pas de cycle. On peut donc imaginer une grande ..... Ns neurone(s) de sortie
varit de topologies pour ces rseaux. Nanmoins,
pour des raisons qui seront dveloppes dans la
section Proprit fondamentale , la trs grande .... Nc neurones cachs
majorit des applications des rseaux de neurones
mettent en jeu des rseaux couches , dont un x1 x2 x3 .... xn
exemple est reprsent sur la figure 2-2. n variables
Figure 2-2. Un rseau de neurones n variables,
Forme gnrale
une couche de Nc neurones cachs et Ns neurones
Ce rseau ralise NS fonctions algbriques des de sortie
n variables du rseau ; chacune des sorties est une
fonction, ralise par le neurone de sortie correspondant, des fonctions non linaires ralises par
les neurones cachs.
Le temps ne joue aucun rle fonctionnel dans un rseau de neurones non boucl : si les variables sont
indpendantes du temps, les sorties le sont galement. Le temps ncessaire pour le calcul de la fonction
ralise par chaque neurone est ngligeable et, fonctionnellement, on peut considrer ce calcul comme
instantan. Pour cette raison, les rseaux non boucls sont souvent appels rseaux statiques , par
opposition aux rseaux boucls ou dynamiques qui seront introduits plus loin.
Les rseaux de neurones
77
CHAPITRE 2

Terminologie
Les rseaux de neurones non boucls couches, dont les neurones cachs ont une fonction dactivation sigmode, sont souvent appels
Perceptrons multicouche (ou MLP pour Multi-Layer Perceptron).

proscrire
On mentionne souvent, outre la couche cache et la couche de sortie, une couche dentre voire des neurones dentre . Cette
expression est trompeuse, car les entres (reprsentes par des carrs sur la gure 2-2) ne sont pas des neurones : elles ne ralisent
aucun traitement de linformation.

Forme de rseau la plus utile : les rseaux une couche cache de sigmodes
et un neurone de sortie linaire
Comme indiqu dans le chapitre 1 et rappel au dbut de ce chapitre, lextension la plus naturelle des
modles linaires de la forme :
p
g ( x, w ) = wi fi ( x )
i =1

est une combinaison linaire de fonctions paramtres :


p
g ( x, w ) = wi fi ( x, w ) .
i =1

Cest la forme la plus utile de modle neuronal : g(x, w)

une combinaison linaire de fonctions non linaires Un neurone de sortie linaire


Nc+1
paramtres des variables. Dans le jargon des
rseaux de neurones, un tel modle est dcrit comme w2

un rseau une couche cache et un neurone de sortie f 1 1 .... Nc


Nc neurones cachs
fonction dactivation sigmode
linaire (figure 2-3). + un biais

W1
Le modle reprsent sur la figure 2-3 a pour
expression : x x0 x1 x2 .... xn n variables + un biais

n
Nc x0=1

g ( x, w ) = wN c +1,i th wij x j + wi 0 + wN c +1,0 Figure 2-3. Un rseau de neurones n variables,


i =1
j =1 un biais, une couche de Nc neurones cachs fonction
dactivation sigmode et un neurone de sortie linaire.
= w2 f ( W1 x ) Sa sortie g(x, w) est une fonction non linaire du
vecteur des variables x, de composantes 1, x1, x2, ...,
o x est le vecteur des variables (de dimension n+1), xN, et du vecteur des paramtres w,
w2 est le vecteur des paramtres de la deuxime dont les composantes sont les (n+1)N+Nc+1
paramtres du rseau.
couche de connexions (de dimension Nc+1), W1 est la
matrice des connexions de la premire couche (de
dimension (Nc+1, n+1), et f(.) est le vecteur (de dimension Nc + 1) constitu du biais et des fonctions rali-
n
ses par les neurones cachs : f0 = 1, fi = th wij x j . Les neurones cachs sont numrots de 1 Nc et
j =0
le neurone de sortie est numrot Nc+1. Par convention, le paramtre wij est relatif la connexion allant
du neurone (ou de lentre) j vers le neurone i.
Trs important
Le modle g(x, w) est une fonction linaire des paramtres de la dernire couche de connexions (qui relient les Nc neurones cachs et le
biais f0 au neurone de sortie, numrot Nc+1), et elle est une fonction non linaire des paramtres de la premire couche de connexions
Lapprentissage statistique
78

(qui relient les n+1 variables du rseau aux Nc neurones cachs). Cette proprit a des consquences importantes qui seront examines
dans la section Proprit fondamentale .
Ce quil faut retenir
Un rseau de neurones non boucl est une fonction non linaire de ses variables et de ses paramtres.
Quest-ce quun rseau de neurones zro neurone cach ?
Un rseau de neurones non boucl sans neurone cach, avec un neurone de sortie linaire, ralise simplement une fonction linaire de ses
entres. On peut donc considrer tout systme linaire comme un rseau de neurones, ce qui ne prsente aucun intrt, ni thorique ni pratique.
Les termes directs
Si la relation que lon cherche raliser entre les variables et les sorties prsente une importante composante linaire, il peut tre utile
dajouter, la structure de rseau couches qui vient dtre dcrite, des termes linaires, parfois appels termes directs , qui se tradui-
sent, dans la reprsentation graphique du rseau, par des connexions directes entre les entres et le neurone de sortie (gure 2-4). Par
exemple, pour un rseau dont les fonctions dactivation sont des sigmodes, le modle devient :
Nc
n n
g ( x ,w ) = w Nc +1,i th w ij x j + w i 0 + w Nc +1,0 + w Nc +1,k x k
i =1
j =1 k =1

= w 2 f (W1x ) + w 3 x '

o w3 est un vecteur de dimension n et x est le vecteur de composantes {x1, , xn}, cest--dire le vecteur x dpourvu du biais.
g(x, w)

Nc+1
Termes directs
w2 w3

f 1 1 .... Nc

W1

x x0 x1 x2 .... xn Figure 2-4. Reprsentation graphique dun rseau de neurones


x0=1 couches comportant des termes directs

Rseaux de RBF (fonctions radiales de base) ou dondelettes


Dans ce cas, comme indiqu plus haut, les paramtres relatifs aux RBF sont attachs la non-linarit
elle-mme ; en revanche, le neurone de sortie (linaire) ralise une somme pondre des sorties
des neurones cachs. La sortie du rseau a donc pour expression (pour des fonctions radiales
gaussiennes) :

n
x j wij ( )
2
Nc
g ( x, w ) = wN c +1,i exp
j =1

i ==1 2 wi2

o x est le vecteur des entres du rseau (de dimension n) et w est le vecteur des paramtres du rseau (de
dimension (n+2) Nc+1) [BROOMHEAD 1988] [MOODY 1989] ; les neurones cachs sont numrots de 1
Nc, et le neurone de sortie porte le numro Nc+1.
Remarquons que deux catgories de paramtres interviennent ici : ceux de la dernire couche (qui relient
les Nc fonctions radiales au neurone de sortie) et les paramtres des fonctions radiales (centres et carts-
Les rseaux de neurones
79
CHAPITRE 2

types pour des fonctions radiales gaussiennes). Les connexions de la premire couche ont toutes des para-
mtres gaux 1. Dans ces rseaux, la sortie est une fonction linaire des paramtres de la dernire
couche de connexions, et elle est une fonction non linaire des paramtres des gaussiennes. Les cons-
quences de cette proprit seront examines plus loin.

Les rseaux dondelettes ont exactement la mme structure, lquation de la gaussienne tant remplace
par celle dune ondelette multidimensionnelle. Les paramtres attachs la non-linarit sont alors les
centres et les dilatations des ondelettes [BENVENISTE 1994] [OUSSAR 2000].

Rseaux de neurones dynamiques ou rseaux boucls (ou rcurrents)

Forme gnrale

Larchitecture la plus gnrale, pour un rseau de neurones, est celle des rseaux boucls , dont le
graphe des connexions est cyclique : lorsque lon se dplace dans le rseau en suivant le sens des
connexions, il est possible de trouver au moins un chemin qui revient son point de dpart (un tel chemin
est dsign sous le terme de cycle ). La sortie dun neurone du rseau peut donc tre fonction delle-
mme ; ceci nest videmment concevable que si la notion de temps est explicitement prise en considra-
tion.

lheure actuelle, limmense majorit des applications des rseaux de neurones est ralise par des
systmes numriques (ordinateurs conventionnels ou circuits numriques spcialiss pour le traitement de
signal) : il est donc naturel de se placer dans le cadre des systmes temps discret, rgis par des
quations aux diffrences (ou quations rcurrentes , do le terme de rseaux rcurrents ). Ces
quations jouent le mme rle, en temps discret, que les quations diffrentielles en temps continu.

Ainsi, chaque connexion dun rseau de neurones boucl (ou chaque arte de son graphe) est attach,
outre un paramtre comme pour les rseaux non boucls, un retard, multiple entier (ventuellement nul)
de lunit de temps choisie. Une grandeur, un instant donn, ne pouvant pas tre fonction de sa propre
valeur au mme instant, tout cycle du graphe du rseau doit contenir au moins une arte dont le retard
nest pas nul.

Dfinition

Un rseau de neurones boucl temps discret ralise une (ou plusieurs) quation(s) aux diffrences non
linaires, par composition des fonctions ralises par chacun des neurones et des retards associs chacune
des connexions.

Proprit

Tout cycle du graphe des connexions dun rseau de neurones boucl doit comprendre au moins une
connexion de retard non nul.
La figure 2-5 prsente un exemple de rseau de neurones boucl. Les chiffres dans les carrs indiquent le
retard attach chaque connexion, exprim en multiple de lunit de temps (ou priode dchantillonnage)
T. Ce rseau contient un cycle qui part du neurone 3 et revient celui-ci en passant par le neurone 4 ; la
connexion de 4 vers 3 ayant un retard non nul, ce rseau est causal.
Lapprentissage statistique
80

Explications g(kT)
linstant kT : le neurone 3 calcule y3(kT) en fonction de y4[(k 1)T], u1(kT), u2[(k 1)T] (o k est un
entier positif et yi(kT) dsigne la sortie du neurone i linstant kT). Le neurone 4 calcule y4(kT) en
5
fonction de y3(kT) et u2(kT). Le neurone 5 calcule la sortie du rseau de neurones, g(kT), en fonction
de y3(kT), y4[(k 1)T] et u1(kT). Les quations rcurrentes qui gouvernent le rseau sont donc :
y3 (k) = f3 [y4 (k 1) u1 (k), u2 (k 1)] 0 1
y4 (k) = f4 [y3 (k), u2 (k)]
g (k) = f5 [y (k), y4 (k 1), u1 (k)] 0
3 0 4
o, pour allger les notations, la priode dchantillonnage T a t omise. f3, f4, f5 sont les fonctions 1
non linaires ralises par les neurones 3, 4 et 5 respectivement.
0 1 0
Forme canonique des rseaux de neurones boucls
Dans la mesure o les rseaux de neurones boucls ralisent des quations u1(kT) u2(kT)
rcurrentes non linaires, il est utile dexaminer les liens entre ces modles
non linaires et les modles dynamiques linaires, utiliss notamment en Figure 2-5. Un rseau
automatique des systmes linaires. de neurones boucl
deux variables.
La description la plus gnrale dun systme linaire est la description dtat : Les chiffres dans les carrs
x ( k ) = Ax ( k 1) + Bu ( k 1) indiquent le retard attach
chaque connexion,
g ( k ) = Cx ( k ) + Du ( k ) multiple de lunit de temps
(ou priode dchantillon-
o x(k) est le vecteur des variables dtat linstant (discret) kT, u(k) est le nage) T. Le rseau contient
vecteur des variables de commande linstant kT, g(k) est le vecteur des un cycle qui part du
neurone 3, va au neurone 4,
prvisions du modle linstant kT, et A, B, C, D sont des matrices. Rappe- et revient au neurone 3.
lons que les variables dtat sont un ensemble de variables, en nombre
minimal, telles que lon peut calculer leurs valeurs linstant (k+1)T si lon connat leurs valeurs initiales
et si lon connat les valeurs des variables de commande tout instant compris entre 0 et kT. Le nombre
de variables dtat est appel ordre du systme.
De manire analogue, on dfinit la forme canonique dun systme non linaire temps discret par les
quations suivantes :
x ( k ) = ( x ( k 1) , u ( k 1))
g ( k ) = ( x ( k 1) , u ( k 1)) Prdictions du modle Variables dtat
linstant k linstant k

o et sont des fonctions non linaires (des rseaux de g(k) x(k)


neurones, par exemple), et x est le vecteur des variables
dtat. L encore, les variables dtat sont un ensemble
Rseau de neurones non boucl
de variables, en nombre minimal, permettant de dcrire ralisant les fonctions et
compltement le systme linstant k si lon connat leurs q-1 q-1 Retards
units
valeurs initiales et si lon connat les valeurs des variables
de commande tout instant compris entre 0 et k-1. On
montrera, dans la section Mise sous forme canonique u(k-1) x(k-1)
des modles dynamiques , que tout rseau de neurones Variables externes Variables dtat
peut tre mis sous une forme canonique, figure sur la linstant k-1 linstant k-1
figure 2-6, o le symbole q1 reprsente un retard dune Figure 2-6. Forme canonique dun rseau
unit de temps. Ce symbole, habituel en Automatique, sera de neurones boucl. Le symbole q-1 reprsente
utilis systmatiquement dans toute la suite de louvrage. un retard dune unit de temps.
Les rseaux de neurones
81
CHAPITRE 2

Proprit g(k) g(k) x(k)


Tout rseau de neurones boucl, aussi complexe soit-il, peut tre
ramen une forme canonique, comportant un rseau de neurones 5
5
non boucl dont certaines sorties (les variables dtat) sont ramenes
aux entres par des bouclages de retard unit [NERRAND 1993].
0 1 3
Par exemple, le rseau de neurones reprsent sur la gure 2-5 peut q-1
tre mis sous la forme canonique indique sur la gure 2-7. Ce rseau 0
3 0 4
possde une seule variable dtat (il est donc du 1er ordre), qui est la 1 4
sortie du neurone 3. Dans cet exemple, ce neurone est un neurone
cach, mais un neurone de sortie peut tre un neurone dtat ; on en 0 1 0
verra un exemple dans la section intitule Que faire en pratique ? .
u1(k) u2(k) u1(k) u2(k-1) x(k-1)
Explications
linstant kT, le neurone 4 a pour variables u2[(k 1)T] et x[(k 1)T] =
y3[(k 1)T]) : il calcule donc y4[(k 1)T] ; comme dans la forme non Figure 2-7. Forme canonique ( droite) du rseau
canonique, le neurone 3 a pour variables u1(kT), u2[(k 1)T], reprsent sur la figure 2- 5 ( gauche). Ce rseau
y4[(k 1)T] : il calcule donc y3(kT) ; le neurone 5 a pour variables possde une variable dtat x(kT) (la sortie
y3(kT), u1(kT) et y4[(k 1)T] : il calcule donc sa sortie, qui est la sortie du neurone 3) : cest un rseau du 1er ordre. La partie
du rseau de neurones, g(kT). Les deux rseaux sont donc bien qui- grise constitue le rseau de neurones non boucl
valents fonctionnellement. On peut aussi montrer le rsultat en compa- de la forme canonique.
rant les quations qui rgissent les deux rseaux : posant
(
z 3 = f3 z 4 ,u 2 (k 1) )
z 4 = f4 ( z (k 1) ,u (k 1))
3 2

le modle sous forme canonique scrit :

( )
g (k ) = f5 z 3 , z 4 ,u 1 (k ) .
Ces quations sont bien identiques celles de la forme non canonique :
y3 (k) = f3 [y4 (k 1) u1 (k), u2 (k 1)]
y4 (k) = f4 [y3 (k), u2 (k)]
g (k) = f5 [y3 (k), y4 (k 1), u1 (k)]
en identiant z 3 y 3 (k ) et z 4 y 4 (k 1) .

Les rseaux boucls (et leur forme canonique) seront tudis en dtail dans la section Techniques et
mthodologie de conception de modles dynamiques de ce chapitre, ainsi que dans les chapitres 4 et 8.

Rsum
Les dfinitions essentielles concernant les rseaux de neurones ont t prsentes dans cette section.
Reprenant la distinction gnrale entre modles statiques et modles dynamiques, on a introduit :
les rseaux de neurones non boucls, statiques, qui ralisent des fonctions non linaires ;
les rseaux de neurones boucls, dynamiques, rgis par des quations aux diffrences (ou quations
rcurrentes) non linaires.
On a vu galement que tout rseau de neurones boucl peut tre mis sous une forme canonique, compre-
nant un rseau de neurones non boucl dont les variables dtat sont ramenes ses entres avec un retard
unit.
Llment de base est donc le rseau de neurones non boucl ; ses proprits sont exposes dans la
section suivante.
Lapprentissage statistique
82

Proprit fondamentale des rseaux de neurones statiques


(non boucls) : lapproximation parcimonieuse
Les rseaux de neurones sont des approximateurs universels
Proprit
Toute fonction borne sufsamment rgulire peut tre approche uniformment, avec une prcision arbitraire, dans un domaine ni de
lespace de ses variables, par un rseau de neurones comportant une couche de neurones cachs en nombre ni, possdant tous la
mme fonction dactivation, et un neurone de sortie linaire [HORNIK 1989] [HORNIK 1990] [HORNIK 1991].
Cette proprit, qui nest quun thorme dexistence et ne donne pas de mthode pour trouver les para-
mtres du rseau, nest pas spcifique aux rseaux de neurones. Cest la proprit suivante qui leur est
particulire et fait tout leur intrt.

Les rseaux de neurones non linaires par rapport leurs paramtres


sont des approximateurs parcimonieux
Dans la pratique, le nombre de fonctions ncessaires pour raliser une approximation est un critre impor-
tant dans le choix dun approximateur de prfrence un autre. Comme indiqu dans le chapitre 1, la
complexit dun modle est lie au nombre de ses paramtres : pour contrler le surajustement, on doit
toujours faire en sorte que ce nombre soit le plus petit possible. En dautres termes, on cherche lapproxi-
mation la plus parcimonieuse. Les rseaux de neurones possdent cette proprit de parcimonie : cest en
cela que rside leur intrt par rapport aux modles linaires en leurs paramtres tels que les polynmes.
Proprit fondamentale
On montre [BARRON 1993] que, si lapproximation dpend des paramtres ajustables de manire non linaire, elle est plus parcimonieuse
que si elle dpend linairement des paramtres.
Plus prcisment, le nombre de paramtres des 5
modles linaires en leurs paramtres crot beaucoup
plus rapidement avec le nombre de variables que le
log(Nombre de paramtres)

4
nombre de paramtres dun modle non linaire. Par Polynme
exemple, le nombre de paramtres dun polynme de de degr 5

degr d n variables vaut ( n + d )! , alors que le nombre 3


n! d ! Rseau de neurones
de paramtres dun rseau de neurones crot linaire- 5 neurones cachs
2
ment avec le nombre de variables. La figure 2-8 montre
lvolution du nombre de paramtres dun polynme et
du nombre de paramtres dun rseau de neurones, en 1
fonction du nombre de variables. La parcimonie est
donc dautant plus importante que le nombre 0 2 4 6 8 10 12 14 16 18 20
de variables du modle est grand : pour un modle Nombre de variables
une ou deux variables, on peut utiliser indiffremment Figure 2-8. Variation du nombre de paramtres
un modle linaire par rapport ses paramtres (poly- (ordonne logarithmique) en fonction du nombre
nme, par exemple) ou un modle non linaire par de variables pour un modle polynomial
et pour un rseau de neurones
rapport ses paramtres (rseau de neurones, par
exemple).
Il faut noter nanmoins que la dimension de Vapnik-Chervonenkis, qui crot linairement avec le nombre
de paramtres pour les modles linaires, crot au moins quadratiquement pour les rseaux de neurones,
donc on ne peut pas garantir que lon a toujours intrt utiliser des rseaux de neurones, surtout si le
Les rseaux de neurones
83
CHAPITRE 2

nombre de variables est petit, de lordre de 1 ou 2. En revanche, ds que le nombre de variables devient
suprieur 2, il est gnralement avantageux de mettre en uvre des rseaux de neurones avec une
couche de neurones cachs non-linarit sigmode, plutt que des polynmes, ou des rseaux de RBF
ou dondelettes paramtres fixs. Si, en revanche, on considre que les centres et carts-types des RBF
gaussiennes (ou les centres et les dilatations des ondelettes) sont des paramtres ajustables au mme titre
que les paramtres des connexions, il ny a pas, lheure actuelle, davantage mathmatiquement
dmontr utiliser un type de neurones plutt quun autre. En revanche, des arguments pratiques dcisifs
peuvent justifier une prfrence : connaissances a priori sur le type de non-linarit souhaitable, caractre
localis ou non de la fonction, rapidit de calcul, facilit dinitialisation de lapprentissage (voir la section
Initialisation des paramtres ), facilit de ralisation en circuit spcialis, etc.
Expliquons qualitativement lorigine de la parcimonie. Considrons un modle linaire par rapport ses
paramtres, un modle polynomial par exemple :
g(x) = 4 + 2x + 4x2 0,5x3.
Le modle g(x) est une combinaison linaire des fonctions y = 1, y = x, y = x2, y = x3, avec les paramtres
w0 = 4, w1 = 2, w2 = 4, w3 = 0,5. Ces fonctions ont une forme qui est fixe une fois pour toutes.
Considrons prsent le modle neuronal reprsent sur la figure 2-9, g(x, w)
dont lquation est :
g(x) = 0,5 2 th(10 + 0,5 x) + 3 th(1+ 0,25 x) 2 th(3 0,25 x).
Ce modle est aussi une combinaison linaire de fonctions (y = 1,
w2
y = th(10 + 0,5 x), y = th(1+ 0,25 x), y = th(3 0,25 x)), mais la 0,5 -2 3 -2
forme de ces fonctions dpend des valeurs des paramtres de la
matrice W1. f 1

Ainsi, au lieu de combiner des fonctions de formes fixes, on 10 5 1 0,25 3 -0,25


combine des fonctions dont la forme elle-mme est ajuste par des W1
paramtres. On comprend facilement que ces degrs de libert
supplmentaires permettent de raliser une fonction donne avec un x 1 x
plus petit nombre de fonctions lmentaires, ce qui est prcisment
la dfinition de la parcimonie. Figure 2-9. Un rseau de neurones
non boucl une variable (donc deux
Un exemple lmentaire entres) et trois neurones cachs.
Les nombres indiquent les valeurs
Considrons la parabole dquation des paramtres.
y = 16,71 x2 0,075.
Prenons 20 chantillons rgulirement espacs, pour effectuer un apprentissage, par minimisation de la fonc-
tion de cot des moindres carrs (dfinie au chapitre 1), dun rseau 2 neurones cachs ( fonction dacti-
vation arctangente) reprsent sur la figure 2-10(a). Un apprentissage laide de lalgorithme de Levenberg-
Marquardt (voir la section Mthodes de gradient du second ordre ) fournit, en quelques dizaines ditra-
tions, les paramtres indiqus sur la figure 2-10(a). La figure 2-10(b) reprsente les points de lensemble
dapprentissage et la prdiction du modle, qui passe par ces points avec une excellente prcision.
La figure 2-10(c) reprsente les sorties des neurones cachs, dont la combinaison linaire avec le biais
constitue la prdiction du rseau. La figure 2-10(d) montre les points dun ensemble de test et la prdiction
du rseau : lorsque lon sloigne du domaine dapprentissage [0,12, +0,12], la prcision de lapproxi-
mation se dgrade, ce qui est normal. On notera la symtrie dans les valeurs des paramtres, qui reflte la
symtrie du problme (simulation ralise laide du logiciel NeuroOne de NETRAL S.A.).
Lapprentissage statistique
84

0,15
g Paramtres
0 -1,02 0,1
1 2,73
5 6 2 1,02 0,05
3 2,73
4 7,23 0 Figure 2-10. Interpolation
4
5 4,58 dune parabole
1 3 0 2 6 -4,57 -0,005 par un rseau 2 neurones
cachs : (a) rseau ;
x 1 -0,1 (b) points dapprentissage
-0.15 -0,1 -0,05 0 0,05 0,1 0,15 (croix) et modle aprs
(a)
(a (b)
(b
18
apprentissage ;
6
(c) fonctions ralises
4 par les deux neurones cachs
14
(sigmodes) aprs
2
apprentissage ; (d) points
10
0 de test (croix) et modle
aprs apprentissage :
-2 6 lapproximation se dgrade
-4 en dehors de la zone
2 dapprentissage.
-6

-8 -2
-1 -0,5 0 0,5 1 -1 -0,5 0 0,5 1
(c) (d)

Remarque
Bien entendu, approcher une parabole une variable par un rseau de neurones ne prsente aucun intrt pratique, puisque la parabole
a deux paramtres alors que le rseau de neurones en a sept ! La seule justication de cet exemple est que, tant mono-dimensionnel, il
permet dutiliser des reprsentations graphiques simples.

En quoi la parcimonie est-elle avantageuse ?


Comme indiqu plus haut, la dimension de Vapnik-Chervonenkis des rseaux de neurones varie plus
lentement, en fonction du nombre de variables, que celle des modles linaires, de sorte que les rseaux
de neurones sont gnralement avantageux, en termes de complexit, ds que le nombre de variables
dpasse 2. Le dilemme biais-variance tant contrl par le rapport de la dimension de Vapnik-
Chervonenkis h au nombre de variables N, la parcimonie permet, rapport h/N fix, dutiliser un nombre
restreint dexemples. Ainsi, de manire gnrale, les rseaux de neurones permettent de tirer le meilleur
parti des donnes numriques disponibles, pour construire des modles plusieurs variables.
La figure 2-34 montre un exemple de parcimonie dans une application relle : la prdiction dun para-
mtre thermodynamique dun verre. Elle est commente dans la section Une application en
formulation .

quoi servent les rseaux de neurones non boucls apprentissage


supervis ? Modlisation statique et discrimination (classification)
Les proprits mathmatiques dcrites dans la section prcdente sont fondamentales : elles donnent une
base solide aux applications des rseaux de neurones apprentissage supervis. Nanmoins, dans la
pratique, il est rare que lon cherche raliser une approximation uniforme dune fonction connue.
Les rseaux de neurones
85
CHAPITRE 2

Le plus souvent, le problme qui se pose est celui qui a t tudi en dtail dans le chapitre 1 : on dispose
dun ensemble de variables mesures {xk, k = 1 N} et dun ensemble de mesures {yp(xk), k = 1 N}
dune grandeur relative un processus de nature quelconque (physique, chimique, biologique, finan-
cier...). On suppose quil existe une relation entre le vecteur des variables x et la grandeur modliser, et
lon cherche dterminer une forme mathmatique de cette relation, valable dans le domaine o les
mesures ont t effectues, sachant que (1) les mesures sont en nombre fini, et que (2) ces mesures sont
certainement entaches de bruit. De plus, toutes les variables qui dterminent la grandeur modliser ne
sont pas forcment mesures. En dautres termes, on cherche tablir un modle du processus, partir des
mesures disponibles, et delles seules : on dit que lon effectue une modlisation bote noire . On
tudiera plus loin la modlisation bote noire du comportement dun processus (lactionneur hydrau-
lique dun bras de robot) : lensemble de variables {x} est constitu dune seule variable (langle douver-
ture de la vanne dadmission de liquide hydraulique) et la grandeur yp est la pression dhuile dans laction-
neur. On verra galement plus loin un exemple de prdiction de proprits chimiques ou dactivits
thrapeutiques de molcules : on cherche une relation dterministe entre une proprit des molcules (par
exemple leurs points dbullition, leur action anti-HIV, leur toxicit) et des descripteurs de ces mol-
cules (masse molaire, nombre datomes, volume , moment dipolaire, etc.) ; on peut ainsi prdire les
proprits ou activits thrapeutiques de molcules dont la synthse na pas t effectue. Le lecteur
rencontrera dans cet ouvrage de nombreux cas de ce genre.
Le terme de bote noire qui vient dtre introduit soppose au terme de modle de connaissance ou
modle de comportement interne , qui dsigne un modle mathmatique tabli partir dune analyse
physique (ou chimique, physico-chimique, conomique, etc.) du processus que lon tudie ; ce modle
peut contenir un nombre limit de paramtres ajustables, qui possdent une signification physique. On
verra, dans la section Modlisation dynamique bote grise , que les rseaux de neurones peuvent tre
utiliss pour llaboration de modles semi-physiques , intermdiaires entre les modles botes
noires et les modles de connaissance.

Modlisation statique
Rappelons que lapprentissage statistique dun modle consiste estimer les valeurs des paramtres du
modle pour lesquelles lerreur de prdiction empirique est minimale. Le plus souvent, pour la modlisa-
tion par rseau de neurones, la fonction de perte utilise est le carr de lerreur de modlisation, de sorte
que la fonction de cot minimiser est la fonction de cot des moindres carrs
N

(
J ( w ) = ykp g ( x k , w ) )
2

k =1

p
o y est la valeur prise par la grandeur modliser pour lexemple k, et g(xk, w) est la prdiction du
k
modle pour lexemple k. Rappelons galement que lon a dmontr, au chapitre 1, que le meilleur
modle possible est la fonction de rgression du processus, laquelle est inconnue. La dmarche de mod-
lisation consiste donc postuler un modle de complexit donne (un rseau de neurones trois neurones
cachs, par exemple), en effectuer lapprentissage par des mthodes qui seront dcrites dans la section
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl , et estimer la capa-
cit de gnralisation de ce modle, afin de la comparer celles dautres modles, de complexits diff-
rentes. Cette estimation permet finalement de choisir le meilleur modle compte tenu des donnes dispo-
nibles.
Cette procdure pose deux questions, centrales dans la pratique des rseaux de neurones :
comment, en pratique, dans une famille de rseaux de neurones de complexit donne, trouver celui
pour lequel la fonction de cot des moindres carrs est minimale ?
Lapprentissage statistique
86

une fois que celui-ci a t trouv, comment juger si ses capacits de gnralisation sont satisfaisantes ?
Ces questions pratiques seront abordes en dtail dans la section Techniques et mthodologie de
conception de modles statiques .

Classification (discrimination)
Comme indiqu dans le chapitre 1, classer un ensemble dobjets, cest attribuer chacun une classe (ou
catgorie ) parmi plusieurs classes dfinies lavance. Cette tche est appele classification ou
discrimination . Un algorithme qui ralise automatiquement une classification est appel classifieur.
Les applications des classifieurs sont trs nombreuses : dans le domaine de la reconnaissance des formes
(chiffres et caractres manuscrits ou imprims, images, parole, signaux temporels...), mais galement
dans bien dautres domaines (conomie, finance, sociologie, traitement du langage...). De manire gn-
rale, on dsignera sous le terme de forme nimporte quel objet dcrit par un ensemble de nombres
( descripteurs ) : ainsi, une image pourra tre dcrite par lensemble des valeurs dintensit de
ses pixels (contraction de picture elements ou lments dimage), un signal temporel par ses valeurs
successives au cours dune priode de temps dfinie, une entreprise par lensemble des lments de son
bilan, un texte par lensemble des mots importants quil contient, etc. Schmatiquement, la question
laquelle un classifieur doit apporter un lment de rponse est du type : le caractre inconnu est-il un a,
un b, un c, etc. ? Le signal observ est-il normal ou anormal ? Lentreprise examine constitue-t-elle un
excellent, trs bon, bon, mdiocre, mauvais, trs mauvais, support dinvestissement ? La dpche
dagence reue est-elle relative une prise de participation entre entreprises ? Y aura-t-il demain une
alerte la pollution par lozone ? Les statisticiens appellent aussi classification la tche qui consiste
regrouper des donnes qui se ressemblent dans des classes qui ne sont pas dfinies lavance ; les rseaux
de neurones apprentissage non supervis, mentionns dans le chapitre 1 et dcrits en dtail dans le
chapitre 7, peuvent raliser ce genre de tches ; il y a donc une certaine confusion dans les termes. On
sefforcera toujours de prciser ce dont il sagit, lorsque le contexte ne rend pas la distinction vidente.
Dans tout ce paragraphe, on considre le cas o les classes sont connues lavance.
Il faut noter que le classifieur nest pas ncessairement conu pour donner une rponse complte : il peut
apporter seulement un lment de rponse. En effet, il faut bien distinguer laide la dcision et la dci-
sion elle-mme : un classifieur peut apporter une information qui aidera un tre humain, ou un systme
automatique, prendre une dcision concernant lappartenance de lobjet inconnu telle ou telle classe.
Historiquement, les premiers rseaux de neurones utiliss pour la classification taient conus pour
fournir une dcision. Nanmoins, on a vu, dans le chapitre 1, que lon peut galement, par apprentissage,
obtenir une information beaucoup plus riche et fine quune simple dcision binaire : on peut estimer la
probabilit dappartenance de lobjet inconnu chacune des classes. Ceci permet notamment de conce-
voir des systmes de reconnaissance complexes qui utilisent plusieurs systmes de classification diff-
rents, chacun deux fournissant une estimation de la probabilit dappartenance de lobjet inconnu
chacune des classes. La dcision finale est prise au vu de ces estimations et en fonction, par exemple, des
domaines dexcellence de chacun des classifieurs.
De mme, dans le domaine de la fouille de donnes (data mining), une problmatique de plus en plus
frquente est celle du filtrage dinformation : trouver automatiquement, dans un corpus de donnes,
les textes qui sont pertinents pour un thme donn, et prsenter ces textes par ordre de probabilit de perti-
nence dcroissante, afin que lutilisateur puisse faire un choix rapide parmi les documents qui lui sont
prsents. L encore, il est indispensable que le classifieur ne se contente pas de donner une rponse
binaire (document pertinent ou non), mais bien quil dtermine une probabilit dappartenance une
classe. Comme on le verra plus loin, les modles obtenus par apprentissage, notamment les rseaux de
neurones non boucls, sont bien adapts ce type de tche, dont limportance est de plus en plus vidente.
Les rseaux de neurones
87
CHAPITRE 2

La section du prsent chapitre intitule Rseaux de neurones apprentissage supervis et


discrimination , et le chapitre 6 en entier, sont consacrs la discrimination.

quoi servent les rseaux de neurones apprentissage


non supervis ? Analyse et visualisation de donnes
Les moyens modernes de traitement et de stockage de linformation permettent de disposer de trs
grandes quantits dinformations, quelles soient numriques (traitements numriques intensifs de rsul-
tats exprimentaux) ou linguistiques (corpus de textes). Retrouver des informations dont on sait quelles
doivent tre prsentes dans les donnes, mais dont on ne sait pas bien comment les extraire, devient une
proccupation de plus en plus importante. Les progrs du graphisme des ordinateurs permettent des repr-
sentations des donnes de plus en plus claires et conviviales, mais loprateur est incapable de visualiser
clairement des donnes de haute dimension. Il est donc trs important de disposer de techniques de repr-
sentations des donnes basse dimension (typiquement 2) qui permettent de retrouver linformation
prgnante dans les donnes. Les rseaux de neurones apprentissage non supervis offrent un
ensemble de techniques puissantes dans ce domaine, notamment les cartes auto-organisatrices.
Le chapitre 7 de cet ouvrage, entirement consacr lapprentissage non supervis, dcrit en dtail de
belles applications, notamment en tldtection.

quoi servent les rseaux de neurones boucls apprentissage


supervis ? Modlisation dynamique bote noire
et semi-physique ; commande de processus
Dans le paragraphe consacr aux rseaux dynamiques, on a montr que tout rseau de neurones boucl
peut tre mis sous une forme canonique, qui comprend un rseau de neurones non boucl et des bouclages
(ou rcurrences) externes celui-ci. Les proprits des rseaux de neurones boucls sont donc directe-
ment lies celles des rseaux non boucls : de mme que lon met en uvre les rseaux de neurones non
boucls pour modliser, de manire statique, des processus non linaires qui peuvent tre utilement
dcrits par des quations algbriques, de mme il est intressant de mettre en uvre des rseaux de
neurones boucls pour modliser, de manire dynamique, des processus qui peuvent tre utilement dcrits
par des quations rcurrentes (ou quations aux diffrences). Une partie du prsent chapitre, et tout le
chapitre 4, sont consacrs la modlisation dynamique de processus.
Plusieurs motivations peuvent pousser lingnieur ou le chercheur concevoir un modle dynamique :
utiliser le modle comme simulateur pour prvoir lvolution dun processus dont la modlisation
de connaissance est trop complexe ou trop incertaine ;
utiliser le modle comme simulateur dun processus dont la modlisation de connaissance est possible,
mais conduit des quations diffrentielles, ou aux drives partielles, dont la rsolution numrique est
lourde et ne peut rpondre des contraintes de fonctionnement en temps rel : on peut alors crer un
ensemble dapprentissage partir du code de rsolution des quations, et concevoir un rseau de
neurones qui fournit de trs bonnes solutions dans des temps de calcul beaucoup plus courts. Larchitec-
ture de ce rseau peut avantageusement tre inspire des quations diffrentielles du modle de
connaissance : on conoit alors un modle semi-physique ou modle bote grise (voir la section
suivante) ;
utiliser le modle comme prdicteur trs court terme (une priode dchantillonnage) afin de lintgrer
un systme de commande.
Lapprentissage statistique
88

Modlisation semi-physique
Il est trs frquent, notamment dans lindustrie manufacturire, que lon dispose dun modle de connais-
sance dun procd, mais que celui-ci ne soit pas satisfaisant ; cela peut sexpliquer par plusieurs raisons :
le modle peut tre insuffisamment prcis pour lobjectif que lon sest fix. Par exemple, si lon dsire
dtecter une anomalie de fonctionnement en analysant la diffrence entre ltat du processus prvu par
le modle du fonctionnement normal et ltat rellement mesur, il faut que le modle de fonctionne-
ment normal soit prcis ;
le modle peut tre prcis, mais tre trop complexe pour pouvoir tre intgr numriquement en temps
rel (pour une application de surveillance ou de commande, par exemple).
Si lon dispose de mesures, on peut alors lgitimement dcider davoir recours un modle bote
noire , non linaire si ncessaire. Toutefois il serait nanmoins maladroit dabandonner compltement
toutes les connaissances accumules lors de la conception du modle, pour construire un autre modle
fond uniquement sur les mesures. La modlisation semi-physique permet de rconcilier ces deux points
de vue, en utilisant toutes les connaissances avres dont on peut disposer sur le processus (sous rserve
quelles soient sous la forme dquations algbriques ou diffrentielles) pour structurer le rseau et dfinir
son architecture. La mthodologie de conception dun tel modle sera prsente dans la section
Modlisation dynamique bote grise , et un exemple dapplication industrielle sera dcrit dans la
section Modlisation semi-physique dun procd manufacturier .

La commande de processus
Commander un systme, cest lui imposer une dynamique de rponse une commande. Sil sagit dune
rgulation, il faut imposer au systme de rester dans un tat dtermin quelles que soient les perturbations,
mesurables ou non, auxquelles il est soumis : pour un systme de rgulation de vitesse dune voiture
(cruise control), il faut agir automatiquement sur lacclrateur afin que la voiture conserve une vitesse
constante gale la vitesse de consigne, indpendamment de perturbations telles que des bourrasques de
vent, des changements de la pente de la route, etc. Sil sagit dun systme de poursuite, il faut imposer
celui-ci de suivre une trajectoire de consigne : par exemple, dans un fermenteur, agir sur le systme de
chauffage pour que la temprature suive un profil temporel dtermin lavance, indpendamment de la
temprature du four, de la temprature des ingrdients que lon ajoute durant la fermentation, des rac-
tions exothermiques ou endothermiques qui peuvent se produire, etc. Pour raliser ces tches, il faut gn-
ralement disposer dun modle qui, si les non-linarits sont importantes, peut tre un rseau de neurones.
Le chapitre 5 est entirement consacr la commande de processus non linaires.

Quand et comment mettre en uvre des rseaux


de neurones apprentissage supervis ?
Aprs avoir prsent les fondements thoriques qui justifient lutilisation de rseaux de neurones, on
aborde ici les problmes pratiques lis leur mise en uvre : on rappellera dabord quand utiliser et
quand ne pas utiliser les rseaux de neurones et on expliquera brivement ensuite comment il faut les
mettre en uvre. Toutes les questions qui sont abordes dans cette section sont approfondies dans ce
chapitre et les suivants.

Quand utiliser les rseaux de neurones ?


Rappelons le fondement thorique de lutilisation des rseaux de neurones apprentissage supervis : la
proprit dapprocher toute fonction non linaire suffisamment rgulire.
Les rseaux de neurones
89
CHAPITRE 2

Il peut donc tre avantageux de mettre en uvre des rseaux de neurones pour toute application ncessi-
tant de trouver, par apprentissage, une relation non linaire entre des donnes numriques.
Sous quelles conditions peut-on utiliser une telle approche ?
Une premire condition est ncessaire mais non suffisante : puisque les rseaux de neurones utilisent
des techniques issues des statistiques, il faut disposer dun ensemble de donnes de taille suffisamment
grande, et bien reprsentatif.
Une fois ces donnes recueillies, il faut sassurer de lintrt rel dun modle non linaire pour lappli-
cation considre : en effet, la mise en uvre dun modle linaire (ou affine) est toujours plus simple,
et moins coteuse en temps de calcul, que celle dun rseau de neurones. Par consquent, en labsence
de toute connaissance a priori sur lintrt dun modle non linaire, il faut dabord utiliser les
mthodes simples et prouves dlaboration dun modle linaire, qui ont t exposes dans le chapitre
1. Sil apparat que la prcision du modle est insuffisante bien que toutes les variables pertinentes
soient prsentes dans le modle, alors on doit envisager la mise en uvre de modles non linaires tels
que les rseaux de neurones.
Si les donnes sont disponibles, et si lon sest assur quun modle non linaire est utile, il faut sinter-
roger sur lopportunit dutiliser un rseau de neurones de prfrence une autre famille de fonctions non
linaire, les polynmes par exemple. Comme indiqu plus haut, les rseaux de neurones, notamment
fonction dactivation sigmode, sont dautant plus avantageux que le nombre de variables est grand ;
dans la majorit des cas, grand signifie, en pratique et de manire empirique, suprieur ou gal 3.
En rsum : si lon dispose de donnes numriques suffisamment nombreuses et reprsentatives, il est
gnralement avantageux dutiliser des rseaux de neurones dans toute application mettant en jeu lesti-
mation des paramtres dune fonction non linaire possdant au moins trois variables. Si le nombre
de variables est suprieur ou gal 3, il est gnralement avantageux dutiliser des rseaux de neurones
fonction dactivation sigmode ; dans le cas contraire, des rseaux de neurones utilisant des RBF centres
et carts-types fixs, ou des ondelettes centres et dilatations fixs, ou encore des polynmes, peuvent tre
aussi prcis et plus simples mettre en uvre.
Bien entendu, si les donnes ne sont pas numriques (mais linguistiques, par exemple), les rseaux de
neurones ne peuvent les traiter directement. Il faut avoir recours des prtraitements permettant de
quantifier ces donnes (par exemple, laide de techniques issues de la thorie des ensembles flous).

Comment mettre en uvre les rseaux de neurones ?


La mise en uvre des rseaux de neurones entre compltement dans le cadre gnral de la modlisation
par apprentissage statistique, dveloppe dans le chapitre 1. Elle ncessite donc :
de collecter les donnes utiles pour lapprentissage et lvaluation des performances du rseau de
neurones ;
de dterminer les variables pertinentes, cest--dire les grandeurs qui ont une influence significative sur
le phnomne que lon cherche modliser ;
de postuler des modles de complexit croissante et den effectuer lapprentissage, afin de trouver la
complexit approprie, cest--dire le nombre de neurones cachs ncessaires pour obtenir une gnra-
lisation satisfaisante ;
dvaluer les performances du rseau de neurones choisi lissue de la phase de slection de modle.
En fonction des rsultats obtenus, il peut tre ncessaire deffectuer plusieurs itrations de cette proc-
dure, ou dune partie de celle-ci.
Ces diffrents points seront abords ultrieurement.
Lapprentissage statistique
90

Les variables pertinentes


Le problme de la dtermination des variables pertinentes se pose de manire trs diffrente selon les
applications envisages.
Si le processus que lon veut modliser est un
processus industriel conu par des ingnieurs, le
problme est important mais pas crucial car, en gnral,
on connat bien les grandeurs qui interviennent et les
relations causales entre celles-ci. Ainsi, dans un
procd de soudage par points, on fait fondre locale-
ment les deux tles souder en faisant passer un
courant lectrique trs important (quelques kiloam-
pres) pendant quelques dizaines de millisecondes,
entre deux lectrodes qui exercent une pression mca-
nique sur les tles (figure 2-11). La qualit de la Transformateur
soudure, caractrise par le diamtre de la zone fondue,
dpend videmment de lintensit du courant, de la Figure 2-11. Schma dun processus industriel :
dure pendant laquelle il est appliqu, de leffort exerc le soudage par points
par les lectrodes pendant le passage du courant et
pendant la phase de solidification, de ltat de surface des lectrodes, de la nature des tles, et de quelques
autres facteurs qui ont t trs largement tudis en raison de limportance industrielle du procd. On
connat donc la nature des variables dsirables pour un modle ; il peut tre nanmoins utile de faire un
choix parmi ces grandeurs, en ne prenant en considration, comme variables du modle, que celles qui
agissent de manire trs significative sur le processus (cest--dire celles dont leffet est plus important
que lincertitude de la mesure).
Lapplication dune approche de ce problme par apprentissage statistique est dcrite plus en dtail dans
la section Modlisation dun procd de fabrication : le soudage par points .
En revanche, si le processus modliser est un processus naturel complexe (physiologique, par exemple),
ou un processus conomique, social ou financier, la dtermination des variables pertinentes peut tre
beaucoup plus dlicate. Ainsi, si lon veut prdire une proprit chimique dune molcule (cet exemple est
dcrit en dtail dans la section Aide la dcouverte de mdicaments ), le choix des descripteurs perti-
nents nest pas vident ; de mme, pour dterminer la solvabilit dun organisme, ou la qualit dune
entreprise, il est trs important de choisir des ratios appropris pour dcrire la situation comptable, fiscale,
commerciale, etc.
Les mthodes de slection de variables qui ont t dcrites ou mentionnes dans le chapitre 1 sont enti-
rement applicables aux rseaux de neurones.

La collecte des donnes


Pour pouvoir effectuer lapprentissage, il faut disposer de donnes. Celles-ci doivent tre en nombre suffi-
sant, et tre suffisamment reprsentatives de celles qui seront prsentes au modle lors de son utilisation.
Lorsque la grandeur que lon veut modliser dpend de nombreux facteurs, cest--dire lorsque le modle
possde de nombreuses variables, il nest pas possible de raliser un pavage rgulier dans tout le
domaine de variation de celles-ci ; il faut donc trouver une mthode permettant de raliser uniquement des
expriences qui apportent une information significative pour lapprentissage du modle : il faut raliser un
plan dexpriences . Pour les modles linaires, llaboration des plans dexpriences est bien
matrise ; pour les modles non linaires, le problme est plus difficile. La section laboration de plans
Les rseaux de neurones
91
CHAPITRE 2

dexpriences prsente quelques lments qui permettent de construire itrativement un plan dexp-
riences pour un modle neuronal.

La complexit : le nombre de neurones cachs


lheure actuelle, il nexiste pas de rsultat thorique permettant de dterminer a priori la complexit
souhaitable pour construire un modle compte tenu des donnes disponibles. Par exemple, lestimation de
la dimension de Vapnik-Chervonenkis, pour un rseau de neurones, permet de savoir comment cette
dernire varie avec le nombre de neurones cachs, mais ne fournit que des bornes larges, ventuellement
pessimistes, pour le nombre de neurones cachs ncessaires. Il faut donc ncessairement mettre en uvre
une procdure numrique de slection de modle, notamment celles dcrites dans le chapitre 1 : valida-
tion simple, validation croise, leave-one-out et leurs variantes.
Rappelons le rsultat tabli dans le chapitre 1 : pour tout modle conu par apprentissage, notamment un
rseau de neurones, le meilleur modle possible est celui pour lequel la variance de lerreur de prdiction
est gale la variance du bruit de mesure.

Lapprentissage des rseaux de neurones non boucls :


un problme doptimisation non linaire
Une fois que lon a postul un rseau de neurones de complexit donne, on doit procder son
apprentissage : estimer les valeurs des paramtres du rseau de neurones pour lesquelles la fonction de
cot des moindres carrs, calcule sur les points de lensemble dapprentissage, est minimale. Lappren-
tissage est donc un problme numrique doptimisation.
Considrons, pour simplifier, un rseau de neurones une sortie g(x, w). On dispose dun ensemble
dapprentissage comprenant N exemples. La fonction de cot des moindres carrs a t dfinie plus haut :
N
J ( w ) = ykp g ( xk , w )
2

k =1

o xk dsigne le vecteur des valeurs des variables pour lexemple k, et ykp la valeur de la mesure correspon-
dante.
Si lon met en uvre des modles linaires en leurs paramtres (des fonctions radiales gaussiennes dont
les centres et carts-types sont fixs, par exemple), les mthodes dcrites dans le chapitre 1, section
Conception de modles linaires , sont directement applicables. La qualit du rsultat dpend essen-
tiellement du choix des centres et les carts-types des fonctions non linaires mises en uvre ; ce choix
doit tre effectu par des techniques de slection de modle analogues celles qui sont dcrites dans la
section Slection de modles du chapitre 1.
Si, en revanche, on met en uvre des modles non linaires en leurs paramtres, tels que des Percep-
trons multicouche ou des rseaux de RBF centres et carts-types variables, on doit rsoudre un
problme doptimisation non linaire multivariable. Les mthodes utilises cet effet seront exposes
en dtail dans la section Estimation des paramtres (apprentissage) dun rseau de neurones non
boucl . Il sagit de techniques itratives qui, partir dun rseau muni de paramtres dont les valeurs
sont alatoires, modifient ceux-ci jusqu ce quun minimum de la fonction de cot empirique soit
atteint, ou quun critre darrt soit satisfait.
Dans ce dernier cas, les techniques doptimisation sont des mthodes de gradient : elles sont fondes sur
le calcul, chaque itration, du gradient de la fonction de cot par rapport aux paramtres du modle,
gradient qui est ensuite utilis pour calculer une modification des paramtres. Le calcul du gradient peut
tre effectu de diverses manires : il en est une, appele rtropropagation (voir la section valuation
Lapprentissage statistique
92

du gradient de la fonction de cot ), qui est gnralement plus conome que les autres en termes de
nombres doprations arithmtiques effectuer pour valuer le gradient. Contrairement une ide trop
rpandue, la rtropropagation nest pas un algorithme dapprentissage : cest simplement une technique
dvaluation du gradient de la fonction de cot, qui est frquemment, mais pas obligatoirement, utilise
au sein dalgorithmes dapprentissage. Il faut noter que, contrairement bien des affirmations, ce nest pas
linvention de la rtropropagation qui a permis lapprentissage des rseaux de neurones couches ; en
effet, les spcialistes de traitement du signal connaissaient, bien avant la rtropropagation, des mthodes
dvaluation du gradient dune fonction de cot des moindres carrs, mthodes qui auraient pu tre mises
en uvre pour effectuer lapprentissage de rseaux [MARCOS 1992].
Ces algorithmes dapprentissage ont fait dnormes progrs au cours des dernires annes. Alors que, au
dbut des annes 1990, les publications faisaient tat de dizaines ou de centaines de milliers ditrations,
reprsentant des journes de calcul sur des ordinateurs puissants, les nombres ditrations typiques
lheure actuelle sont de lordre de quelques dizaines quelques centaines. La figure 2-12 montre le drou-
lement de lapprentissage dun modle une variable.
2 2
1,5 5 itrations 1,5 10 itrations

1
0,5 0,5
0
-0,5 -0,5
-1
-1,5 -1,5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

2 2
1,5 30 itrations 1,5 50 itrations

1 1
0,5 0,5
0 0
-0,5 -0,5
-1 -1
-1,5 -1,5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
Figure 2-12. Apprentissage dun rseau de neurones une variable et 3 neurones cachs. Le trait continu reprsente
la prdiction du modle aprs 5, 10, 30 et 50 itrations de lalgorithme dapprentissage (reproduit avec lautorisation de
Netral S.A.).
Les rseaux de neurones
93
CHAPITRE 2

Les croix reprsentent les mesures de lensemble dapprentissage. Initialement, on donne aux paramtres
du rseau des valeurs petites (voir la section Initialisation des paramtres ). Le rsultat obtenu au
bout de 50 itrations est satisfaisant visuellement ; quantitativement, lEQMA et lEQMT (cette
dernire tant calcule sur un ensemble de points non reprsents sur la figure) sont du mme ordre de
grandeur, et de lordre de lcart-type du bruit, de sorte que le modle est satisfaisant.

Conclusion
Dans ce paragraphe, on a expliqu quand et comment utiliser les rseaux de neurones pour la modlisa-
tion. Rappelons que lutilisation des rseaux de neurones peut tre avantageuse chaque fois que lon
cherche tablir une relation non linaire entre des donnes numriques. Les rseaux de neurones entrent
dans le cadre gnral des mthodes statistiques dapprentissage dcrites dans le chapitre 1. Une vue gn-
rale de la mise en uvre de ces mthodes a t prsente, en insistant sur les conditions qui doivent tre
remplies pour quun rseau de neurones donne des rsultats satisfaisants. Les techniques dapprentissage,
de slection de variables et de slection de modle proprement dites, dont lefficacit conditionne en
grande partie les performances des rseaux, seront abordes en dtail dans la section Techniques et
mthodologie de conception de modles statiques .

Rseaux de neurones apprentissage supervis


et discrimination (classification)
Les premires recherches sur les rseaux de neurones taient motives par lambition dimiter certaines
fonctions des systmes nerveux vivants, notamment pour la reconnaissance des formes. Cest pourquoi
les premires applications des rseaux de neurones portrent sur la classification pour la reconnaissance
de formes ou de signaux. Ce nest que plus tard que lon comprit que les rseaux de neurones sont avant
tout des approximateurs de fonctions. Nanmoins, comme cela a t montr dans le chapitre 1, la mod-
lisation et la classification sont trs fortement lies, en dpit des diffrences apparentes. Cest pourquoi la
prsente section est consacre la discussion de ce quest un problme de classification. Le lecteur en
trouvera une prsentation plus dtaille dans le chapitre 6 de cet ouvrage.
On utilisera ici indiffremment le terme de classification ou celui de discrimination .

Quand est-il opportun dutiliser un classifieur statistique ?


Rappelons que les ingrdients dun problme de classification sont :
une population de N objets ;
n variables descriptives (ou descripteurs), valeurs relles ou binaires, qui permettent de dcrire les
objets, lensemble des descripteurs constituant la reprsentation des objets ;
un ensemble de C classes dans lesquelles on cherche ranger les objets (une des classes peut tre une
classe de rejet laquelle appartiennent tous les objets que lon ne peut attribuer aucune autre classe).
Rsoudre un problme de classification, cest trouver une application de lensemble des objets classer
dans lensemble des classes. Lalgorithme ou la procdure qui ralise cette application est appel classi-
fieur.
Lorsque lon se pose un problme de classification, il faut dabord analyser le type de mthode quil
convient de mettre en uvre pour le rsoudre. En effet, les classifieurs statistiques ne sont pas forcment
adapts au problme, et il y a bien dautres mthodes de classification. Afin de dlimiter le domaine
Lapprentissage statistique
94

dutilisation des classifieurs statistiques, considrons quelques exemples plus ou moins acadmiques, qui
illustrent plusieurs aspects de cette tche. Pour chacun des exemples, on se posera trois questions :
les connaissances a priori sur le problme permettent-elles de dterminer simplement des descripteurs
pertinents ?
ces descripteurs sont-ils mesurables (ou calculables partir de mesures) ?
quel est le rle de la classe de rejet ?
Les exemples suivants sont extraits de [STOPPIGLIA 1997].
Chacun a eu loccasion dutiliser un distributeur de tickets de mtro, ou un automate de page, qui recon-
nat les pices de monnaie utilises en paiement, et rejette les pices fausses ou trangres. Considrons
ce problme sous langle des trois questions ci-dessus :
il est facile de dterminer des descripteurs pertinents : le diamtre de la pice, son poids, son paisseur,
la composition de lalliage, etc. ; ces descripteurs sont en petit nombre (les nouvelles pices de monnaie
sont conues de manire en faciliter la discrimination) ;
les descripteurs sont des grandeurs physiques mesurables ;
la classe de rejet peut tre aussi grande que lon veut : elle nest limite que par la patience des usagers
qui naiment pas voir leurs pices rejetes sans raison ; ainsi, dans lespace des descripteurs, les classes
sont de petits paralllpipdes dlimits par les seuils de tolrance qui tiennent compte de la varia-
bilit de la fabrication et des erreurs de mesure ; tout le reste de lespace constitue la classe de rejet.
Dans ces conditions, il est facile de concevoir un automate qui met en uvre des rgles simples portant
sur les descripteurs des pices classer. Ces rgles rsultent dune analyse du problme, effectue par les
concepteurs de la machine, qui conduit un arbre de dcision implant dans lautomate. Dans un tel cas,
lutilisation dune mthode statistique de classification nest pas approprie.
Considrons prsent lvaluation du confort dune voiture. Pour prvoir les ractions des clients poten-
tiels la mise sur le march dun nouveau modle, les constructeurs automobiles ont recours des
panels dindividus, supposs reprsentatifs de la clientle, qui doivent mettre un jugement sur le
confort. Mais quest-ce que le confort ? Cest une notion complexe dans laquelle interviennent la qualit
de la suspension, la conception des siges, linsonorisation du vhicule, la visibilit, etc. Exprimer un
jugement (classer le confort du vhicule dans lune des trois classes bon , moyen , insuffisant )
est alors un processus impossible formaliser, fond sur des impressions plus que sur des mesures. Ce
problme a donc les caractristiques suivantes :
les descripteurs ne sont pas forcment tous connus et exprims clairement par les membres des panels ;
mme si les descripteurs sont bien dfinis, les jugements sont trs variables : deux personnes places
dans les mmes conditions peuvent mettre des jugements diffrents ;
les descripteurs ne sont pas ncessairement mesurables ;
il ny a pas de classe de rejet : un consommateur a forcment une opinion sur le confort de sa voiture.
Le fait que les descripteurs ne soient pas connus et pas ncessairement mesurables empche (ou rend trs
difficile) lutilisation dune mthode de classification statistique. Dans ce contexte, une mthode de clas-
sification floue serait mieux adapte.
La reconnaissance automatique des chiffres manuscrits, par exemple celle des codes postaux, a fait lobjet
de nombreuses tudes et ralisations. Considrons ce problme sous les mmes angles que les deux exem-
ples prcdents :
contrairement au cas du tri des pices de monnaie, la variabilit des styles dcriture pose un problme
majeur pour le choix des descripteurs ; nanmoins, contrairement au cas de lvaluation du confort, les
personnes qui savent lire identifient gnralement de la mme manire une image de chiffre donne
(sauf si le chiffre est vraiment mal crit) ;
Les rseaux de neurones
95
CHAPITRE 2

les descripteurs sont des nombres que lon peut extraire de limage : dans le cas dune description de
bas niveau , cest lintensit des pixels ; dans le cas dune description de haut niveau , cest le
nombre de boucles, de pointes, leur position, lorientation et la position des segments, etc. ;
la taille de la classe de rejet constitue un critre de performance : pour un taux derreur donn, le pour-
centage de rejet doit tre aussi faible que possible. En effet, tout objet postal rejet ncessite linterven-
tion dun prpos, et il est plus coteux denvoyer une lettre dans une mauvaise direction que davoir
recours une intervention humaine pour lire le code postal. Le cahier des charges est donc exprim de
la manire suivante : pour un taux derreur donn (par exemple 1 %), on veut un taux de rejet aussi
faible que possible. En effet, il serait facile de concevoir un classifieur qui ne se trompe jamais : il suffi-
rait quil ne prenne jamais de dcision. Compte tenu des donnes conomiques du problme, un bon
classifieur est un classifieur qui prend une dcision le plus souvent possible, tout en ne se trompant pas
plus dune fois sur cent. Si les conditions conomiques taient inverses, cest--dire si une erreur
cotait moins cher que lintervention dun expert, le critre de qualit serait diffrent : on chercherait
obtenir le taux derreur le plus petit possible pour un taux de rejet donn (cest le cas pour les diagnos-
tics mdicaux automatiss lchelle de toute une population, o lintervention dun mdecin cote
plus cher quune erreur de diagnostic de type faux positif ).
Dans ces conditions, la mise en uvre dune mthode statistique telle que les rseaux de neurone est
opportune, sous rserve que lon dispose dune base de donnes convenable. Le problme central est celui
du choix de la reprsentation des donnes. Cest dailleurs le cas dans la majorit des problmes de clas-
sification non acadmiques : la rflexion du concepteur, et la mise en uvre de techniques de prtraite-
ment des donnes adaptes au problme (des exemples sont dcrits dans le chapitre 3), sont bien souvent
plus importantes que lalgorithme de classification lui-mme.

Classification statistique et formule de Bayes


Supposons donc quune analyse pralable du problme ait conduit au choix de la mise en uvre dune
mthode statistique de classification, de prfrence un arbre de dcision, par exemple. On entre alors
dans le cadre de la classification statistique, tel quil a t dcrit succinctement dans le chapitre 1. Rappe-
lons notamment la formule de Bayes, qui permet le calcul de la probabilit pour que lobjet dcrit par le
vecteur de descripteurs x appartienne la classe Ci :

pX ( x Ci ) PrCi
Pr ( Ci x ) =
( x C ) Pr
c

p X j Cj
j =1

o Pr ( Ci x ) dsigne la probabilit a posteriori de la classe Ci sachant que lon observe lobjet dcrit par
le vecteur x, pX ( x Ci ) dsigne la vraisemblance du vecteur de descripteurs x sachant que lobjet dcrit par
x appartient la classe Ci, et o PrC dsigne la probabilit a priori de la classe Ci. Le classifieur de Bayes
i
consiste en lestimation de la probabilit a posteriori dun objet dcrit par x laide de la formule de
Bayes, suivie dune prise de dcision selon la rgle de dcision de Bayes : attribuer lobjet la classe dont
la probabilit a posteriori est la plus grande. Ce classifieur est le meilleur possible si toutes les erreurs ont
le mme cot. Son utilisation ncessite nanmoins de connatre aussi prcisment que possible les proba-
bilits a priori et les vraisemblances ; ces dernires sont particulirement difficiles estimer lorsque le
vecteur x est de grande dimension, ce qui est frquent dans des applications relles. Le classifieur de
Bayes prsente donc un intrt plus thorique que pratique. Il peut nanmoins servir de rfrence lorsque
lon cherche valuer la qualit dun classifieur : on peut appliquer celui-ci un problme fictif pour
lequel les probabilits a priori et les vraisemblances sont connues exactement, et comparer ses perfor-
Lapprentissage statistique
96

mances celles du classifieur de Bayes sur ce mme problme. Introduisons ici le problme fictif laide
duquel on testera quelques classifieurs.
Il sagit dun problme deux classes et
une variable ; les lments de la classe A sont des Classe A Classe B
ralisations de nombres alatoires obissant une
loi qui est la somme de deux gaussiennes ; ceux de -15 -10 -5 0 +5 +10
la classe B sont des ralisations de nombres ala- Figure 2-13. Densits de probabilit pour les classes A
toires obissant une loi uniforme dans un inter- et B
valle born (figure 2-13).
On peut donc calculer analytiquement les probabi-
1
lits a posteriori (figure 2-14), et dterminer les
limites de chaque classe (figure 2-15). Pour estimer 0,5
le taux derreur, on ralise un grand nombre
dexemples de chaque classe et lon compte la 0
proportion de ces ralisations qui se trouve du -15 -10 -5 0 +5
mauvais ct des limites dtermines par le Figure 2-14. Probabilit a posteriori de la classe A,
classifieur de Bayes ; dans ce problme, on dispose calcule par la formule de Bayes
de 600 exemples pour chaque classe (figure 2-16)
partir desquels, par simple dnombrement, on estime le taux derreur 30,1 %. Ainsi, on peut affirmer
que, pour ce problme, aucun classifieur, aussi bien conu soit-il, ne peut raliser une performance
meilleure que 69,9 % de classification correcte ; le meilleur classifieur rel est celui qui sapproche le plus
de cette limite thorique.

A B A B A 600 exemples

-15 -10 -5 0 +5
0 Rpartition des 1200 exemples
Figure 2-15. Classification ralise par le classifieur
de Bayes
600 exemples

-15 -10 -5 0 5 10

Figure 2-16. Exemples utiliss pour lestimation du taux


derreur. En haut : classe A ; en bas : classe B

Classification et rgression
Le lien entre classification et estimation de la fonction de rgression stablit de manire trs simple dans
le cas dun problme deux classes. On montrera ensuite comment on peut traiter les problmes plus de
deux classes.

Problme deux classes


Considrons tout dabord un problme deux classes C1 et C2. On a dfini, dans le chapitre 1, la fonction
1 + sgn g ( x, w )
indicatrice ( x, w ) = qui vaut +1 lorsque lobjet classer appartient la classe A, et 1
2
dans le cas contraire. Pour un objet dcrit par le vecteur de descripteurs x, la valeur de la fonction indica-
trice peut tre modlise comme une ralisation dune variable alatoire binaire (x).
Les rseaux de neurones
97
CHAPITRE 2

Proprit

La fonction de rgression de la variable alatoire (x) est la probabilit a posteriori dappartenance de


lobjet la classe A.

Dmonstration
La fonction de rgression de (x) est lesprance mathmatique de tant donn x, note E x . Or,

E x = Pr ( = 1 x ) 1+ Pr ( = 0 x ) 0 = Pr ( = 1 x )

ce qui dmontre le rsultat.

Le problme de lestimation de la probabilit a posteriori des classes ramne donc au problme de lesti-
mation de la fonction de rgression dune variable alatoire, ce qui peut tre ralis avec nimporte quelle
famille de fonctions bornes (les probabilits doivent tre comprises entre 0 et 1), notamment avec des
rseaux de neurones dont le neurone de sortie a une fonction dactivation sigmode, par exemple une
tangente hyperbolique. Cette dernire tant comprise entre 1 et +1, lestimation de la probabilit est
obtenue par 1 + g ( x, w ) 2 , o g(x, w) est la prdiction du modle. On peut aussi utiliser une fonction
sigmode du type 1 : variant entre 0 et 1, elle peut directement approcher une probabilit. La
1 + exp ( v )
figure 2-17 illustre cette approche : on effectue lapprentissage partir dun ensemble de couples
(xk, ykp), o xk est la valeur du descripteur x pour lexemple k, et ykp = +1 ou 1 selon que lexemple k
appartient la classe C1 ou la classe C2 (la figure prsente les rsultats aprs transformation ramenant
lestimation entre 0 et +1). Aprs estimation de la probabilit a posteriori, la frontire est dfinie comme
le lieu des points pour lesquels les probabilits a posteriori sont gales 0,5 (rgle de dcision de Bayes).

Estimation de la probabilit
Classe C1
a posteriori de la classe C1
0 Classe C2 sachant que lon observe le descripteur x1

1
Figure 2-17. Estimation
Frontire entre de la probabilit a posteriori
Pr (C1 | x)

les classes dappartenance la classe C1,


0,5 et dtermination du seuil
de dcision par la rgle
de Bayes

00 0 0 0000000000000000
x1 x
La complexit de la frontire entre les classes dpend de la complexit du modle choisi. Le modle le plus
simple est le modle sans neurone cach, avec un neurone de sortie fonction sigmode. Il dfinit une surface
de sparation qui est une droite pour un problme deux variables, un plan pour un problme trois variables,
et une surface appele hyperplan dans les autres cas. Considrons en effet un classifieur un neurone :

g ( x, w ) = th ( v ) avec v = w x .
Aprs apprentissage, et aprs la transformation mentionne ci-dessus pour que la prdiction du modle
puisse constituer une estimation dune probabilit, cette dernire devient :
Lapprentissage statistique
98

1 + th ( w x )
.
2
La frontire est le lieu des points o les
probabilits a posteriori sont gales 1
0,5, donc le lieu des points pour

g(x1,x2,w0,w1,w2)
lesquels th(wx) = 0, soit encore : 0,8 Frontire entre les classes:

w x = 0, 0,6 ( ) ( )
Pr C1 x = Pr C2 x = 0,5

ce qui est bien lquation dun plan de 0,4


vecteur normal w. Ainsi, la figure 2-18 0,2
montre lestimation de probabilit
0
dappartenance la classe des 3
cercles dans lexemple prsent
dans le chapitre 1, section Un x2
0
3
exemple de classification ; len- 0
semble dapprentissage est reprsent -3 x1
-3
sur la figure 1-5. Pour tout point (x1, Figure 2-18. Estimation de probabilit a posteriori par un classifieur
x2), le modle fournit une estimation un neurone (classifieur linaire)
de la probabilit a posteriori dappar-
tenance la classe des cercles ; la frontire entre les classes est la droite correspondant g(x, w) = 0,5. Sa
projection dans le plan des variables est reprsente sur la figure 1-8.
Rappelons que, dans ce cas (deux distributions gaussiennes isotropes de mme variance), la frontire
linaire est la frontire idale fournie par le classifieur de Bayes. Sil est ncessaire dobtenir des fron-
tires plus complexes, on peut :
soit mettre en uvre des neurones cachs ;
soit conserver un classifieur de la forme g(x, w) = th(v), mais rendre v plus complexe, par exemple en
postulant une forme polynomiale au lieu dune forme linaire (neurone dordre suprieur ).
La figure 2-19 montre lensemble dapprentissage pour un problme de classification o la solution optimale
nest pas une frontire linaire ; elle prsente galement la solution ce problme, fournie par un rseau
2 neurones cachs.
4

2 1

1 0,8
Frontire entre les classes:
0
( ) ( )
g(x, w)

0,6 Pr C1 x = Pr C2 x = 0,5
-1
x2

0,4
-2
0,2
-3
0
-4
4 5
2
-5 0
-2 0
-6 x2 -4 x1
-5 0 5 -6 -5
x1
Figure 2-19. Classification non linaire par un rseau de neurones deux neurones cachs et un neurone de sortie
activation sigmode
Les rseaux de neurones
99
CHAPITRE 2

Lexcellent ouvrage [BISHOP 1995] est entirement consacr la mise en uvre de rseaux de neurones
pour la classification. Le chapitre 6 du prsent ouvrage prsente en dtail les rseaux de neurones
(binaires ou non) ainsi que les machines vecteurs supports pour la classification.

Problme C classes
Lorsque le problme de classification est un problme plus de deux classes, plusieurs approches sont
possibles :
rsoudre globalement le problme en estimant simultanment, pour un objet donn, ses probabilits
dappartenance aux diffrentes classes ;
diviser le problme en sous-problmes deux classes, concevoir un ensemble de classifieurs deux
deux et combiner les rsultats de ces derniers pour estimer les probabilits a posteriori globales.
Ces deux approches vont tre examines successivement.
Approche globale
Cette approche est frquemment mise en uvre, bien
C neurones quelle ne soit pas toujours la plus efficace pour des
..... fonction dactivation problmes difficiles. Elle consiste utiliser un rseau
sigmode
de neurones C sorties (figure 2-20), le rsultat tant
.... cod laide dun code 1-parmi-C : lvnement
lobjet appartient la classe Ci est associ un
vecteur g dont seule la composante i est gale 1, les
x1 x2 x3 .... xn Descripteurs autres composantes tant gales 0. De manire
analogue au cas de deux classes, on dmontre facile-
Figure 2-20. Classification non linaire C classes : ment que lesprance mathmatique de chacune des
Perceptron multicouche C neurones de sortie
fonction dactivation sigmode composantes est gale la probabilit a posteriori de la
classe correspondante.
Terminologie
Dans le jargon des rseaux de neurones, un codage un-parmi-C est appel codage grand-mre . Cette appellation provient de la
neurobiologie : lune des thories de la reprsentation des informations dans les systmes nerveux soutient que certains de nos neurones
sont spcialiss dans la reconnaissance de formes usuelles, notamment du visage de notre grand-mre.

Il convient de noter plusieurs diffrences pratiques entre un Perceptron multicouche pour la classification
et un Perceptron multicouche pour la modlisation statique :
contrairement au cas de la modlisation, les neurones de sortie dun rseau pour la classification ont une
fonction dactivation sigmode, pour assurer que lestimation de la probabilit soit comprise entre 0 et
1 ; on trouvera, dans le chapitre 6, une justification thorique lutilisation de la tangente hyperbolique
comme fonction dactivation des neurones de sortie pour la classification ;
pour la classification, il est parfois plus efficace, pour estimer les probabilits, de minimiser la fonction
de cot dentropie croise plutt que la fonction de cot des moindres carrs [HOPFIELD 1987] [BAUM
1988] [HAMPSHIRE 1990] ; les algorithmes dapprentissage qui seront prsents dans la section
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl sappliquent sans
difficult pour cette fonction de cot :
C
g ( x , w) 1 gi ( xk , w )
J = ik ln i kk (
+ 1 i ln
k
)
i 1 i
k
k i =1
o ik est la valeur (0 ou 1) de la variable indicatrice pour la sortie i lorsque lon prsente lentre
lexemple k, dcrit par le vecteur de descripteurs xk, et o gi(xk,w) est la valeur de la sortie i du classifieur
Lapprentissage statistique
100

pour cet exemple. On vrifie facilement que cette fonction est minimale lorsque tous les exemples sont
correctement classs.
Bien entendu, il convient de vrifier que la somme des sorties vaut 1 la fin de lapprentissage. La
mthode Softmax permet de garantir que cette condition est automatiquement remplie [BRIDLE 1990].
Cette difficult ne se prsente videmment pas si lon utilise un ensemble de classifieurs deux deux .
Comme indiqu dans le Classification : Thorique Estime avec 4 neurones cachs
chapitre 1, le dilemme 1
biais-variance existe pour
la classification comme
pour la rgression. Des 0,5
exemples de surajustement
en classification ont t
prsents dans le chapitre 0
1, figure 1-6. Il faut donc -15 -10 -5 0 5 10
mettre en uvre, pour (a)
slectionner le meilleur
modle, les techniques de
slection de modles intro- Classification : Thorique Estime avec 5 neurones cachs
duites dans le chapitre 1. 1
Essentiellement, il faut
trouver un rseau dont les
taux derreurs de classifi- 0,5
cation sur lensemble
dapprentissage et sur un
ensemble de validation 0
soient du mme ordre de -15 -10 -5 0 5 10
grandeur, et les plus petits (b)
possibles.
La figure 2-21 montre un
Classification : Thorique Estime avec 6 neurones cachs
exemple de surajustement 1
dans lestimation de la
probabilit dappartenance
la classe A pour lexem- 0,5
ple prsent sur la figure
2-16 ; on voit que le rseau
4 neurones cachs est trop 0
peu complexe pour estimer -15 -10 -5 0 5 10
correctement la probabi- (c)
lit, alors quun rseau Figure 2-21. Estimation des probabilits dappartenance la classe A avec trois
6 neurones cachs sajuste classifieurs de complexits diffrentes : (a) 4 neurones cachs (complexit insuffisante),
sur les fluctuations de la (b) 5 neurones cachs (performance trs proche de la meilleure performance thorique),
(c) 6 neurones cachs (surajustement manifeste)
densit des points utiliss
pour lapprentissage. Le
taux de classification incorrecte, estim sur un ensemble de validation de plusieurs millions de points, est
de 30,3 %, alors que le classifieur thorique de Bayes donne une erreur minimale de 30,1 %. On vrifie
bien ici que les rseaux de neurones peuvent approcher les meilleures performances possibles, celles du
classifieur thorique de Bayes.
Les rseaux de neurones
101
CHAPITRE 2

Classification 2 2
Il est souvent beaucoup plus sr, pour des problmes difficiles, de traiter une classification C classes
comme C(C-1)/2 problmes de classification 2 classes, pour les raisons suivantes :
on peut bnficier de nombreux rsultats et algorithmes, notamment concernant la sparation linaire
entre classes. Ces lments sont largement dvelopps dans le chapitre 6 ; ils seront introduits trs bri-
vement dans le paragraphe suivant, intitul Sparabilit linaire ;
on obtient des rseaux beaucoup plus petits, dont lapprentissage est court et la manipulation simple ;
chacun deux ayant une seule sortie, son interprtation comme une probabilit est immdiate ;
les descripteurs pertinents pour sparer la classe A de la classe B ne sont pas ncessairement les mmes
que ceux utiles pour discriminer la classe A de la classe C. En reconnaissance de formes notamment, le
fait de ne pas utiliser tous les descripteurs, mais seulement ceux qui sont utiles, constitue un avantage
considrable ; les techniques de slection des variables exposes dans le chapitre 1 sont directement
utilisables.
Une fois que les C(C-1)/2 probabilits des classes deux deux ont t estimes, ventuellement par de
simples rseaux sans couche cache, la probabilit pour quun objet dcrit par le vecteur de descripteurs
x appartienne la classe Ci est calcule par la relation [PRICE 1994] :

Pr ( Ci x ) =
1
C
1
Pr (C 2 )
j =1 ij
j i

o C est le nombre de classes et Prij la probabilit dappartenance de lobjet la classe i, estime par le
rseau de neurones qui spare la classe Ci de la classe Cj.
Sparabilit linaire
Deux ensembles dobjets dcrits dans un espace de N descripteurs, appartenant deux classes diffrentes,
sont dits linairement sparables sils peuvent tre spars sans erreurs par un hyperplan dans lespace
des variables.
Si des exemples sont linairement sparables, un rseau de neurones un seul neurone (galement appel
Perceptron ), fonction dactivation en chelon, peut les sparer. Ce classifieur est de la forme :
+1 si x w 0
g ( x, w ) =
1 si x w < 0

On peut donc considrer un Perceptron comme la limite dun rseau un seul neurone, lorsque la pente
lorigine de la tangente hyperbolique tend vers linfini. La frontire est lhyperplan dquation xw = 0.
Lorsque lon dcoupe le problme en sous-problmes de sparation de classes deux deux, il apparat que
la sparation linaire entre deux classes prsente trs souvent une complexit suffisante ; il est mme
frquent que, dans des problmes multiclasses rputs difficiles , les exemples soient, en fait, linaire-
ment sparables si lon considre les classes deux deux. Or, dans ce dernier cas, des algorithmes simples
et lgants permettent de trouver une trs bonne solution, comme expliqu en dtail dans le chapitre 6 : la
premire tape, dans la conception dun classifieur, est donc de chercher savoir si les exemples des
classes sont sparables deux deux. Lalgorithme de Ho et Kashyap [HO 1965], largement antrieur aux
rseaux de neurones, fournit rapidement une rponse cette question :
si les exemples sont linairement sparables, lalgorithme converge en un nombre fini ditrations vers
une solution ;
Lapprentissage statistique
102

si les exemples ne sont pas linairement sparables, lalgorithme lindique galement aprs un nombre
fini ditrations.
Par exemple, pour la base de donnes de codes postaux fournie par le National Institute of Standards and
Technology, qui a servi de support de trs nombreux travaux, les classes de chiffres sont linairement
sparables deux deux, mme si lon utilise une reprsentation par pixels [KNERR 1992] ! De mme, il
existe une base de donnes, relative des signaux sonar, qui a fait lobjet de trs nombreuses tudes et a
donn lieu la conception de nombreux classifieurs fort compliqus ; en quelques secondes de calcul,
lalgorithme de Ho et Kashyap montre que les exemples des deux classes sont linairement sparables. Il
est donc tout fait inutile, pour cette application, de concevoir un classifieur plus complexe quun rseau
un neurone ; cette application sera reprise dans le chapitre 6.

Mthodologie de conception dun classifieur


Ces considrations conduisent dfinir la stratgie suivante pour la conception dun classifieur utilisant
des rseaux de neurones (il faut donc pralablement sassurer que le problme pos relve bien dun trai-
tement statistique) :
laborer une reprsentation bien discriminante des objets classer, notamment dans des applications de
reconnaissance de formes (on utilisera avec profit, si ncessaire, les techniques dcrites dans le chapitre 3).
Cette tape est dune extrme importance et conditionne toute la suite, car une reprsentation bien
discriminante peut rendre le problme de classification trivial (ce point est illustr dans les applications
dcrites dans la section Exemples dapplications ) ;
Attention
Si le nombre dexemples nest pas grand devant la dimension du vecteur dentre dans la reprsentation choisie, il est inutile daller plus
loin, en vertu du thorme de Cover [COVER 1965], prsent dans le chapitre 6 : il faut chercher une reprsentation plus compacte ou
bien collecter dautres exemples avant de passer aux tapes suivantes, ou encore, lors de lapprentissage, adopter une mthode de rgu-
larisation svre telle que la modration des poids (weight decay, dcrite dans la section Rgularisation par modration des poids ).

pour chaque paire de classes, effectuer la slection des variables selon les mthodes dcrites dans le
chapitre 1 ; en effet, il nest pas du tout certain que les mmes descripteurs soient utiles pour sparer les
classes A et B et pour sparer les classes A et C ;
pour chaque paire de classes, tester la sparabilit linaire des exemples des classes deux deux laide
de lalgorithme de Ho et Kashyap ;
pour toutes les classes dont les exemples sont sparables deux deux, mettre en uvre les mthodes de
sparation linaire (dcrites dans le chapitre 6), et obtenir une estimation des probabilits a posteriori ;
pour les classes non linairement sparables, mettre en uvre de petits Perceptrons multicouches ou des
Perceptrons sphriques dcrits dans le chapitre 6, avec estimation des probabilits ; mettre en uvre des
mthodes de validation croise ou de leave-one-out (voir chapitres 1 et 2) pour la slection de modles ;
estimer la probabilit dappartenance chaque classe partir des probabilits dtermines ltape
prcdente, selon la formule indique plus haut dans la section Classification 2 2 ;
fixer les seuils de dcision pour dfinir les classes de rejet.
Cette stratgie constitue une variante de la procdure STEPNET [KNERR 1990] [KNERR 1991], utilise
efficacement dans plusieurs applications industrielles.
Dans la planification dun tel projet, il ne faut pas sous-estimer le temps ncessaire pour la premire et
pour la dernire tape : dans les applications relles non triviales, ce sont frquemment les deux tapes les
plus longues. La dernire dentre elles est susceptible de remettre en cause les rsultats obtenus lors des
tapes prcdentes.
Les rseaux de neurones
103
CHAPITRE 2

Lapplication de cette stratgie est videmment limite par le fait que le nombre de classifieurs varie
comme le carr du nombre de classes. Nanmoins, chacun des classifieurs est trs simple, de sorte que
cette dmarche sapplique sans difficult jusqu quelques dizaines de classes, ce qui couvre limmense
majorit des applications. Si le nombre de classes est plus lev, il faut avoir recours des stratgies
hirarchiques.

Rappelons que le chapitre 6 est entirement consacr la classification. Il prsente notamment les
machines vecteurs supports, qui sont des outils de classification trs puissants, notamment par le fait
quils permettent de contrler la complexit du modle.

Modlisation et classification de donnes structures :


les graph machines
Toutes les mthodes exposes, dans ce chapitre et dans le prcdent, ont pour objectif de traiter des
donnes qui sont sous la forme dun vecteur de variables x. Ainsi, une image ou un texte doivent dabord
tre transforms en un vecteur de variables susceptibles de dcrire, de manire pertinente, les donnes que
lon doit traiter. Nanmoins, celles-ci ont souvent naturellement une structure en graphes : une scne peut
tre dcrite par les relations entre les objets qui la composent, une phrase par les relations entre ses mots,
une molcule par les liaisons entre ses atomes ou ses groupements fonctionnels, etc. De telles donnes
sont dites structures. La transformation de ces donnes en vecteurs fait frquemment perdre leur struc-
ture, qui peut pourtant tre dterminante pour la prdiction ou la classification que lon cherche effec-
tuer. Il est donc utile de concevoir des mthodes qui permettent de modliser des relations entre graphes
et nombres, plutt que des relations entre vecteurs et nombres. Lensemble dapprentissage nest plus
compos de paires {xk, ykp }, mais de paires {Gk, ykp}, o Gk dsigne le graphe k de lensemble
dapprentissage ; lobjectif de la modlisation est de prdire la valeur de la grandeur yp tant donn un
graphe G qui ne fait pas partie de lensemble dapprentissage.

Lide de lapprentissage partir de donnes structures remonte au dbut des annes 1990, o les
mmoires auto-associatives rcursives ont t conues afin de fournir un codage compact pour une
catgorie particulire de graphes appels arbres [POLLAK 1990]. Une synthse sur le dveloppement
de lapprentissage numrique partir de donnes structures est prsente dans [GOULON 2005].

Le principe des graph machines est simple : au lieu de construire une fonction g(x, w) qui est la mme
pour tous les exemples, on construit, pour chaque graphe, une fonction (ou machine dans le jargon de
lapprentissage) par combinaison de fonctions lmentaires, cette combinaison ayant la structure du
graphe. Les fonctions lmentaires qui constituent les machines sont identiques, mais cest la faon de les
combiner qui change dun exemple lautre : cest elle qui reflte la structure du graphe auquel on veut
associer la grandeur que lon cherche prdire.

Ainsi, au lieu de concevoir une seule machine qui ralise la prdiction pour tous les exemples, on construit
autant de machines que dexemples ; toutes ces machines ont des structures diffrentes, qui refltent la
structure des donnes que lon veut traiter, mais elles sont constitues des mmes fonctions munies des
mmes paramtres. Les sections suivantes prsentent cette approche de manire un peu plus dtaille.
Lapprentissage statistique
104

Dfinitions
Graphes acycliques
Rappelons quun graphe est dfini par un ensemble de nuds et un ensemble dartes entre ces nuds, les
artes pouvant tre orientes. Sil nest pas possible de trouver un chemin dans le graphe, respectant
lorientation des artes, dont le point de dpart et le point darrive sont identiques, le graphe est dit
acyclique.
La figure 2-22 reprsente un ensemble de trois graphes ; les machines correspondantes sont obtenues en
remplaant chaque nud par une fonction paramtre f(z, w), o w est le vecteur des paramtres. La fonc-
tion du nud qui effectue le dernier calcul (nud racine ) peut tre diffrente des autres ; elle est note
F(z, W). Pour chaque graphe acyclique Gi, on construit une fonction gi ( graph machine ) qui est une
combinaison de fonctions paramtres ( fonctions de nuds ) identiques. Ces fonctions de nuds
peuvent tre, par exemple, des rseaux de neurones ; les fonctions gi sont parfois appeles rseaux
rcursifs [FRASCONI 1998].
Graphe G1: g w, W ( x 1, x 2, x 3, x 4 ) = F W ( x 4, f ( z 1, w ), f ( z 2, w ), f ( z 3, w ), W ) o :
1

x1, x2, x3, sont des vecteurs de variables, de dimension X1, qui fournissent une information sur les
nuds ; ces variables ne sont pas obligatoires, mais elles peuvent tre utiles pour fournir une informa-
tion spcifique aux nuds (un exemple en est prsent dans la section Aide la dcouverte de
mdicaments ). Si ces informations ne sont pas utiles, on a X1= 0, et, dans ce cas, la valeur de
gw1 ,W ( x1 , x2 , x3 , x4 ) ne dpend que du graphe et des paramtres des fonctions de nud ;
z1, z2, z3 sont des vecteurs de dimension D1 + 1 ; soit dk le degr du nud k, cest--dire le nombre
dartes adjacentes ce nud, et M1 = maxkdk . On a : D1 = M1 + X1 ; dans cet exemple M1 = 3, donc
D1 = 3. Ces vecteurs sont construits de la manire suivante :
pour tous les nuds, la premire composante z0 est gale 1 ;
pour le nud k, de degr dk, les composantes 2 dk + 1 de zk sont les valeurs de fw calcules
par les nuds parents du nud k, cest--dire les nuds j tels quil existe dans le graphe une
arte oriente de j vers k ; si dk < Mk, les composantes dk + 2 M1 + 1 sont gales zro ; si
X1 = 0, les composantes M1 + 2 M1 + 1 + X1 sont les composantes de xk.

7 7
9
4
10 8
6
5 4
6
1 3 5
1 2 3 3

1
Graphe G1
2 2 4
Graphe G2 Graphe G3
Figure 2-22. Trois graphes acycliques orients
Les rseaux de neurones
105
CHAPITRE 2

Dans lexemple reprsent sur la figure 2-22, sil nest pas ncessaire de fournir une information sur les
nuds (X1 = 0), on a D1 = 3.
Graphe G2 :

( ( ( ) )
gw2 ,W ( x1 , x2 , x 3 , x4 , x5 , x6 , x7 ) = FW x 7 , f ( z6 , w ) , fw x5 , f ( z 4 , w ) , fw x3 , f ( z2 , w ) , f ( z1 , w ) , w , w , W )
o les vecteurs x1 x7 et z1 z6 sont construits comme les variables correspondantes de G1, avec M2= 2.
Sil nest pas ncessaire dtiqueter les nuds (X2 = 0), on a :

D2 = 2, z1 = z2 = z 4 = z6 = (1 0 0 ) , z 3 = 1 ( f ( z1 , w ) )
f ( z2 , w ) , z5 = 1 ( f ( z3 , w ) )
f ( z4 , w ) ,
T T T

( f ( z5 , w ) f ( z6 , w ) )
T
z7 = 1

Graphe G3 :

( ( ( ( ( ) ( ) ) ) )
gw3 ,W ( x1 ,..., x10 ) = FW x10 , fw x9 , fw x8 , f ( z 7 , w ), f x6 , f x5 , fw ( z 4 , w ), w , f x3 , f ( z2 , w ), f ( z1 , w ), w , w , w , w , W )
o les vecteurs x1 x10 et z1 z9 sont construits comme indiqu plus haut, avec M3= 2.
Si ces trois graphes sont utiliss comme ensemble dapprentissage, les trois graph machines doivent
possder les mmes fonctions de nuds, de sorte que le nombre de variables de la fonction de nud soit
D = max Di , i = 1 3.
i

Graphes cycliques
Les graph machines peuvent manipuler les cycles et les artes parallles, ce qui est important notamment
pour leurs applications en aide la dcouverte de mdicaments. Le graphe initial subit un prtraitement
qui consiste supprimer des artes, en nombre gal au nombre de cycles, et dtruire toutes les artes
parallles sauf une ; de plus, on affecte chaque nud une tiquette qui est gale son degr dans le
graphe initial, ce qui permet de conserver linformation complte sur la structure du graphe original.
Enfin, on choisit un nud racine et lon affecte les orientations convenables aux artes.

Apprentissage
Lapprentissage des graph machines entre dans le cadre habituel de minimisation du risque structurel,
prsent dans le chapitre 1. Il ncessite la dfinition dune fonction de perte et la minimisation dune fonc-
tion de cot par rapport aux paramtres de la fonction de nud. La fonction de cot peut, si ncessaire,
contenir un ou des termes de rgularisation (voir la section Apprentissage avec rgularisation ). Typi-
quement, la fonction de cot est de la forme :
N

(
J ( w, W ) = yip gwi ,W )
2
+ 1 w + 2 W
i =1

o N est le nombre dexemples de lensemble dapprentissage, yip est la valeur de la grandeur modliser
pour lexemple i, 1 et 2 sont des constantes de rgularisation convenablement choisies. Rappelons que
les paramtres w et W sont les mmes pour toutes les machines i, de sorte quil faut utiliser la technique
des poids partags qui sera dcrite dans la section valuation du gradient sous contrainte dgalit
des paramtres .
Lapprentissage statistique
106

Les algorithmes doptimisation, dcrits dans la section Modification des paramtres en fonction du
gradient de la fonction de cot sont directement applicables.

Deux exemples acadmiques


Considrons deux exemples acadmiques : lapprentissage du nombre de nuds dun graphe et lappren-
tissage du nombre dartes dun graphe.
Dans le premier exemple, on cherche apprendre, partir dexemples, et prdire le nombre de nuds
prsents dans un graphe donn. Supposons que lensemble dapprentissage soit constitu des trois
graphes prsents sur la figure 2-22. On cherche donc associer G1 le nombre 4, G2 le nombre 7, et
G3 le nombre 10. Commenant par la structure la moins complexe, on postule une fonction f(z, w) affine,
et F = f. Comme tous les nuds sont quivalents pour le problme que lon cherche rsoudre, il nest
pas ncessaire de les tiqueter : X1 = X2 = X3 = 0. Les fonctions de nuds tant les mmes pour tous les
graphes, on prend D = max Di = 3, donc :
i

fw ( x ) = w0 + w1 z1 + w2 z2 + w3 z3 .
Toutes les artes tant quivalentes, on a w1 = w2 = w3 = w. Il ny a donc que deux paramtres indpen-
dants, w et w0.
Ce problme admet une solution vidente : w = w0 = 1. Ainsi, pour le graphe G1, on a :

( )
gw1 ,W ( x1 , x2 , x3 , x4 ) = f 1, f ( z1 , w ) , f ( z2 , w ) , f ( z 3 , w ) ,w = w0 + 3w1w0 = 4

o z1 = z2 = z 3 = (1 0 0 0 ) . On obtient bien le rsultat cherch.


T

De mme, considrons lapprentissage du nombre 5 5


dartes dun graphe. Supposons que, en plus des trois
graphes prcdents, lensemble dapprentissage
contienne le graphe G4, reprsent sur la figure 2-23. 3 4 3 4
Ce graphe est cyclique, de sorte quil doit subir le
prtraitement indiqu plus haut : une des artes du
cycle doit tre supprime, par exemple larte entre 1
et 2. Afin de conserver linformation sur lexistence de 1 2 1 2
cette arte dans le graphe initial, on affecte chaque Graphe G4 Graphe acyclique
nud une tiquette gale son degr ; on a donc orient
prsent Xk = 1 pour tous les nuds de tous les graphes Figure 2-23. Graphe cyclique
de lensemble dapprentissage. Aucune autre informa-
tion nest ncessaire pour le problme que lon cherche rsoudre. On a donc, pour le graphe G4 :

gw4 ( x1 , x2 , x3 , x4 , x5 ) = f ( z5 , w )

avec :
x1 = 2, x2 = 2, x3 = 3, x4 = 1, x5 = 2, z1 = z2 = (1 0 0 0 2 ) ,
T

( f ( z1 , w ) )
f ( z2 , w ) 0 3 , z 4 = (1 0 0 0 1) , z5 = 1 ( f ( z3 , w ) f ( z4 , w ) 0 2 .)
T T T
z3 = 1
Postulons nouveau une fonction de nud affine f ( z, w ) = w0 + w1 z1 + w2 z2 + w3 z3 + w4 z4 . On a une
solution vidente : w0 = 0, w1 = w2 = w3 =1, w4 = 0,5. On obtient alors, pour le graphe G4 par exemple :
Les rseaux de neurones
107
CHAPITRE 2

gw4 ( x1 , x2 , x3 , x4 , x5 ) = 1 + 2 w + 2 w 2 = 5

ce qui est bien le rsultat cherch.


Bien entendu, il est exceptionnel de disposer dune 450
400
solution vidente. Il faut donc avoir recours la proc-

Indice de Wiener estim


350
dure dapprentissage dcrite plus haut. De plus, il faut 300
trouver la complexit convenable pour la fonction de 250

nud, ce qui ncessite de mettre en uvre des techni- 200


150
ques de slection de modles dcrites dans le premier 100
chapitre : validation simple, validation croise, leave- 50
one-out ou leave-one-out virtuel. La figure 2-24 0
0 50 100 150 200 250 300 350 400 450
prsente le diagramme de dispersion des rsultats Indice de Wiener

obtenus pour lapprentissage de lindice de Wiener Figure 2-24. Prdiction de lindice de Wiener
dun graphe, cest--dire lapprentissage de la somme par une graph machine
des distances entre ses nuds. La base de donnes
utilise contient 150 graphes engendrs alatoirement, dont les indices de Wiener varient entre 1 et 426.
Les rsultats prsents ont t obtenus avec des fonctions de nuds qui sont des rseaux de neurones
4 neurones cachs ; la slection de modle a t effectue par validation croise. Dautres problmes
acadmiques sont dcrits dans [GOULON 2007].
Des exemples dapplication des graph machines la prdiction de proprits et dactivits de molcules
sont prsents dans la section Aide la dcouverte de mdicaments .

Exemples dapplications
Introduction
Le dbut de ce chapitre a t consacr lexpos du contexte mathmatique qui est essentiel pour
comprendre ce que sont rellement les rseaux de neurones et les principes sur lesquels repose leur mise
en uvre. Certains aspects peuvent paratre un peu techniques , mais il est important davoir bien
compris ces bases. En effet, la simplicit mme de mise en uvre des rseaux de neurones constitue un
danger, car elle peut conduire une application irrflchie qui donne des performances mdiocres ou
mauvaises.
Les rponses aux questions que se pose tout ingnieur ou chercheur qui envisage dutiliser des rseaux de
neurones peuvent galement tre claires par lexpos de quelques applications typiques. Bien entendu,
il nest pas question ici de faire un expos exhaustif des applications des rseaux de neurones : plusieurs
livres ny suffiraient pas. Il sagit plutt de montrer quelques applications ayant un caractre exemplaire,
en insistant sur les raisons pour lesquelles les rseaux de neurones ont un apport important, voire dcisif.

Reconnaissance de formes :
la lecture automatique de codes postaux
Cest sans doute dans le domaine de la reconnaissance de caractres que les rseaux de neurones ont
acquis leurs lettres de noblesse, et ont prouv quils constituent des alternatives fiables dautres
mthodes de classification. On citera ici quelques exemples et rsultats, qui sappuient sur les considra-
tions pratiques dveloppes dans le paragraphe consacr aux rseaux de neurones pour la classification.
Lapprentissage statistique
108

La reconnaissance automatique de codes postaux a probablement t lun des problmes de reconnais-


sance dimages les plus tudis. En effet, si le traitement automatique du courrier adresse dactylogra-
phie ou imprime est relativement simple, celui du courrier adresse manuscrite est beaucoup plus
complexe, en raison de la variabilit des styles dcriture. Pour chaque objet postal, une machine automa-
tique doit soit identifier le code, soit indiquer quelle ne peut pas lidentifier, et donc faire appel un
oprateur humain. Comme indiqu plus haut, il est plus onreux de rectifier une erreur de tri commise par
une machine que de faire lire un code postal par un oprateur, de sorte que le critre de performance le
plus frquemment utilis pour les machines de lecture de codes postaux est le suivant : pour un taux
derreur maximal fix (par exemple, 1 %) sur les codes identifis, quelle est la fraction du courrier qui
devra tre traite par un oprateur ? lheure actuelle, les machines les plus performantes font appel des
rseaux de neurones (conjointement dautres techniques), et le taux de rejet est infrieur 5 % pour un
taux derreur infrieur 1 %.
Lessor des tudes sur la reconnaissance des codes postaux est d deux facteurs : dune part, lenjeu
conomique du problme ; dautre part, le fait que, ds 1990, des bases de donnes de grande taille ont t
mises dans le domaine public par le Service postal des tats-Unis (USPS), puis par le National Institute
of Science and Technology (NIST). Cette disponibilit de bases de donnes, accessibles tous, a permis
de nombreux laboratoires (universitaires et industriels), de valider, de manire statistiquement significa-
tive, les mthodes et procdures quils avaient dveloppes. Cette politique a permis de faire progresser
ltat de lart sur la reconnaissance des codes postaux et, de manire plus gnrale, sur les problmes de
classification complexes.
La figure 2-25 prsente quelques extraits de la base
USPS, qui comprend en tout 9 000 caractres (ce qui
est encore relativement peu, eu gard la complexit
du problme). On observe immdiatement la diversit
des styles et les difficults auxquelles il faut faire face.
Considrons lexemple du code postal situ en haut
droite de limage ; on lit sans effort le code 68544,
mais on constate :
que le chiffre 6 est coup en deux morceaux ;
que le 8 et le 5 sont attachs ;
mais que le 5 est coup en deux, et sa partie droite
attache au 4 ! Figure 2-25. Quelques morceaux choisis de la base
Donc, si lon fonde la reconnaissance du code sur la de donnes USPS
reconnaissance de chacun de ses chiffres sparment,
il faut dabord rsoudre le problme de la segmentation : comment sparer les chiffres les uns des
autres ? Une fois ce difficile problme rsolu, il reste traiter la trs grande diversit des styles, des tailles,
des orientations, des chiffres isols : il faut pour cela rsoudre le problme crucial de la reprsentation
des formes classer, cest--dire du choix des descripteurs qui seront utiliss par un ou plusieurs classi-
fieurs, ventuellement neuronaux. Il est impossible de traiter ce problme de reprsentation de manire
gnrale, car il dpend compltement de lapplication mise en uvre : il est vident que lon ne peut pas
reprsenter, de la mme manire, des images de trait telles que des caractres manuscrits ou imprims, des
images issues de satellites mtorologiques, ou encore des radiographies mdicales.
En dpit de la grande diversit des traitements mis en uvre pour les images, il existe quelques oprations
de base que lon retrouve dans toutes les applications relles : dtection de contours, rehaussement de
contraste, etc. (certaines de ces oprations se trouvent galement dans le systme visuel humain). Dans le
cas de la reconnaissance de caractres, la normalisation est galement incontournable, pour que tous les
traitements portent sur des chiffres de mme taille. Lingnieur doit toujours raliser un compromis entre
Les rseaux de neurones
109
CHAPITRE 2

la complexit des prtraitements ncessaires pour aboutir la reprsentation choisie, et la complexit de


la classification : un prtraitement bien fait, qui extrait des caractristiques bien discriminantes et donc
pertinentes pour la classification, peut permettre lutilisation dun classifieur dune grande simplicit,
mais ce prtraitement ne doit pas tre trop gourmand en temps de calcul. En revanche, un prtraitement
primitif (par exemple, une simple normalisation) est extrmement rapide mais ne facilite pas la tche du
classifieur. Il faut donc trouver la solution qui prsente la meilleure performance compatible avec le temps
de calcul autoris par le cahier des charges de lapplication. Deux exemples vont tre prsents, qui
mettent en jeu des stratgies trs diffrentes pour rsoudre le mme problme.
Le premier exemple a t dvelopp au laboratoire AT&T Bell Labs. Il sagit dun rseau de neurones,
connu sous le nom de LeNet [LECUN 1989] ou rseau de convolution , qui utilise une reprsentation
par pixels (aprs normalisation). Les premires couches du rseau ralisent des traitements locaux
destins extraire automatiquement des caractristiques ; les dernires couches effectuent la classifica-
tion proprement dite. Ce rseau est reprsent sur la figure 2-26. Il a t utilis avec succs dans de
nombreuses applications, notamment en traitement dimages (voir par exemple [OSADCHY 2007]).
10 neurones de sortie

Connectivit complte

30 neurones cachs

Connectivit complte Figure 2-26. LeNet,


un rseau de neurones
qui effectue lextraction
12 x 16
des caractristiques
neurones cachs et la classification.

Connectivit partielle
(poids partags)

12 x 64
neurones cachs

Connectivit partielle
(poids partags)

256 variables

Lentre du rseau est une matrice de 16 16 pixels. Une premire couche de neurones cachs est
compose de 12 ensembles de 64 neurones cachs, chacun des 64 neurones cachs recevant des informa-
tions concernant un champ rceptif de 5 5 pixels. Ces ensembles de 64 neurones sont appels
cartes de caractristiques , car les variables de tous les neurones dune carte donne sont affectes des
mmes paramtres (technique des poids partags , dcrite dans la section valuation du gradient
sous contrainte dgalit des paramtres ). Ainsi, on fait agir le mme oprateur, localement, sur chaque
ensemble de 25 pixels, de sorte que lensemble des sorties dun groupe de 64 neurones constitue une carte
du rsultat de lapplication de loprateur limage. Si la technique des oprateurs locaux est classique en
traitement dimages, loriginalit de la prsente mthode rside dans le fait que ces derniers ne sont pas
conus par lingnieur : ils sont dtermins par apprentissage partir dexemples. Lopration est renou-
Lapprentissage statistique
110

vele dans une deuxime couche doprateurs qui traitent les rsultats de la premire couche. On obtient
ainsi 12 cartes de 16 neurones cachs, soit 192 neurones dont les sorties constituent le vecteur de descrip-
teurs utilis pour la classification. Celle-ci est effectue avec un rseau une couche de 30 neurones
cachs et 10 neurones de sortie. Les neurones de sortie utilisent un codage 1-parmi-C, qui a t dfini
plus haut : il y a autant de neurones dans la couche de sortie que de classes. La sortie du neurone i doit
tre gale 1 si la forme classer appartient la classe i, et doit tre sinon gale 0.
Ainsi, un tel rseau ralise automatiquement le prtraitement et la classification, oprations qui sont tradi-
tionnellement conues sparment. Le prix payer est videmment une certaine lourdeur dapprentissage
et, compte tenu du grand nombre de paramtres, la ncessit de faire preuve dune grande vigilance rela-
tivement au surajustement.
Pour traiter le mme problme, une approche trs diffrente [KNERR 1992] consiste raliser un prtrai-
tement plus labor de limage, afin dextraire des caractristiques discriminantes qui permettent
dutiliser un classifieur relativement simple. Le prtraitement est la dtection de contours suivie dune
normalisation, qui produit 4 cartes de caractristiques de 64 lments, soit un vecteur de 256 compo-
santes. Mettant en uvre la mthodologie de conception dun classifieur dcrite plus haut, les dix classes
ont t spares deux deux : 45 classifieurs diffrents ont t labors, dont lapprentissage a t effectu
sparment et qui sont trs simples puisque, dans lapplication considre, il se trouve que tous les exem-
ples de lensemble dapprentissage sont linairement sparables deux deux. Chacun des 45 classifieurs
est donc constitu dun seul neurone.
La figure 2-27 montre les 18 erreurs commises par ce classifieur sur les 9 000 caractres de la base de
donnes USPS. Pour chaque chiffre manuscrit, lindication en haut droite est la classe dappartenance
du chiffre indique dans la base, et le chiffre en bas droite est la classe affecte par le classifieur. On
remarquera notamment le cas du dernier chiffre (en bas droite de la figure) qui est reconnu comme un
chiffre 1 alors quil est class dans la base comme un chiffre 8, ce qui est videmment une erreur dtique-
tage.

Figure 2-27. Les 18 erreurs


de classification commises
par sparation linaire des classes
deux deux

Limportance du choix de la reprsentation pour ce type dapplications a t mentionne plusieurs


reprises, notamment dans la section Mthodologie de conception dun classifieur . On peut la mettre
en vidence dans ce cas. Pour les deux reprsentations mentionnes plus haut (reprsentations par pixels
dune part, cartes de caractristiques aprs dtection des contours dautre part), la distance entre les bary-
centres des classes a t calcule ; elle est reprsente sur la figure 2-28. On observe que les distances
entre classes sont toujours suprieures, pour la reprsentation par cartes de caractristiques, ce quelles
sont pour la reprsentation par pixels. Ainsi, la reprsentation par cartes loigne les classes les unes des
autres, ce qui facilite videmment la tche des classifieurs.
Les rseaux de neurones
111
CHAPITRE 2

Le tableau 2-1 met en vidence lamlioration de performances qui rsulte de la mise en uvre dune
meilleure reprsentation : aprs ajustement des seuils de dcision afin dobtenir, dans les deux cas, un taux
derreur de 1 %, le taux de rejet pour la reprsentation par pixels est beaucoup plus lev que pour la
reprsentation par caractristiques. Il faut noter que les deux reprsentations ont la mme dimension (dans
les deux cas, chaque chiffre est reprsent par un vecteur de 256 composantes) : lamlioration ne
provient pas de la compacit de la reprsentation, mais de sa bonne adquation au problme pos. Cest
la rflexion de lingnieur qui fait la diffrence.

1,2

1,0

0,8

0,6

0,4

0,2

0
1 5 9 13 17 21 25 29 33 37 41
Couple de classes

Pixels Caractristiques

Figure 2-28. Distances entre classes pour deux reprsentations : la reprsentation par cartes de caractristiques loigne
les classes les unes des autres, et donc facilite le travail ultrieur des classifieurs

Taux de chiffres bien classs Taux de rejet Taux dexemples mal classs
Reprsentation par pixels 70,9 % 28,1 % 1%
Reprsentation par caractristiques 90,3 % 8,7 % 1%
Tableau 2-1

Une application en contrle non destructif :


la dtection de dfauts dans des rails par courants de Foucault
Lexemple prcdent est relatif la reconnaissance automatique dimages. Bien entendu, les formes que
les rseaux de neurones peuvent classer ne sont pas ncessairement de cette nature : voici un exemple de
reconnaissance de signaux dans le domaine du contrle non destructif. Cette application consiste
dtecter les dfauts dans les rails du mtro parisien laide de courants de Foucault. Elle a t dveloppe
par lInstitut national de la recherche sur les transports et leur scurit (INRETS) pour la RATP
[OUKHELLOU 1997].
La dtection de dfauts dans les pices mtalliques laide de courants de Foucault est une technique clas-
sique dans le domaine du contrle non destructif. Son principe est simple : un bobinage cre un champ
magntique alternatif dans la pice contrler, ce qui engendre des courants de Foucault, dans une pais-
Lapprentissage statistique
112

seur qui dpend de la frquence du champ magntique. Ces courants sont dtects par un second
bobinage ; la prsence de dfauts dans le mtal modifie le signal recueilli, la fois en amplitude et en
phase. Ainsi, le signal induit constitue une signature des dfauts. Comme il existe toujours plusieurs cat-
gories de dfauts, qui peuvent tre plus ou moins graves, il est important de pouvoir non seulement
dtecter ces dfauts, mais encore les classer. Il faut aussi pouvoir faire une distinction entre des dfauts et
des phnomnes normaux qui peuvent galement avoir une influence sur le signal : la jointure entre deux
rails provoque une modification des courants de Foucault, analogue celle engendre par une fissure,
alors quil sagit dun vnement normal (mais sa position est connue, ce qui facilite la discrimination).
Dans lapplication considre, le systme de cration et de dtection des courants de Foucault est mont
sous la voiture, quelques dizaines de millimtres du rail, comme reprsent sur la figure 2-29.

Figure 2-29. Photographie du systme de cration et de dtection des courants de Foucault

Comme toujours, le choix des descripteurs du signal conditionne en grande partie lefficacit de la discri-
mination. Comme il sagit ici dimages mono-dimensionnelles (par opposition aux images
bidimensionnelles traites prcdemment), on peut utiliser un relativement petit nombre de descrip-
teurs qui sont fonds sur les composantes de Fourier du signal, condition que ces descripteurs soient
bien choisis. La mthode de la variable sonde, expose dans le chapitre 1, a t mise en uvre pour dve-
lopper cette application [OUKHELLOU 1998].

Fouille de donnes : le filtrage de documents


En raison de laugmentation constante du volume dinformations accessible lectroniquement, la concep-
tion et la mise en uvre doutils efficaces, permettant notamment lutilisateur de navoir accs qu
Les rseaux de neurones
113
CHAPITRE 2

linformation quil juge pertinente, devient une ncessit absolue. Comme la plupart de ces outils sont
destins tre utiliss dans un cadre professionnel, les exigences de fiabilit et de convivialit sont trs
importantes ; les problmes rsoudre pour satisfaire ces exigences sont nombreux et difficiles. Laccs
linformation pertinente peut tre ralise en fournissant un utilisateur des documents pertinents, ou
en lui proposant des passages de documents pertinents (ou des rponses des questions). Le premier cas
relve du domaine de la recherche de textes, le second du domaine de lextraction dinformations.
La catgorisation de textes, appele galement filtrage , consiste trouver, dans un ensemble de docu-
ments (comme un fil de dpches dagence de presse, ou un ensemble de pages Web), ceux relatifs un sujet
dfini par avance. On peut ainsi fournir un utilisateur, en temps rel, toutes les informations importantes
pour lexercice de son mtier. Dans ce cas, lutilisateur nexprime pas son intrt par une requte, mais par
un ensemble de documents pertinents qui dfinissent un thme ou une catgorie. Pour un thme donn, la
catgorisation consiste donc rsoudre un problme de classification supervise deux classes ; celui-ci
peut tre rsolu notamment par les mthodes dcrites dans cet ouvrage : les rseaux de neurones, les
machines vecteurs supports (chapitre 6) ou les modles de Markov cachs (chapitre 4).
Cest un problme trs difficile, qui va bien au-del de la recherche par mots-cls. En effet, supposons,
que lon cherche slectionner, dans le flot des dpches de lAFP, celles qui sont pertinentes pour le
thme prises de participations entre entreprises ; des textes qui contiennent les phrases : la socit A
a rachet la socit B ou bien A est entr dans le capital de B hauteur de 10 % , ou encore A vient
de franchir la hausse le cap des 20 % des parts sociales de B , sont tous pertinents, et pourtant ils ne
contiennent aucun des mots qui dfinissent le thme. En revanche, la phrase la participation des commu-
nistes au gouvernement inquite les chefs dentreprises nest pas pertinente, bien quelle contienne deux
des mots du thme.
Lapplication (extraite de [STRICKER 2000]) a t dveloppe pour la Caisse des dpts et consignations,
qui offre, sur lintranet du groupe, un service de filtrage de dpches de lAFP en temps rel. Les objectifs
sont doubles :
dveloppement dune application permettant un utilisateur dobtenir automatiquement un filtre
dinformation sur un thme de son choix, sous rserve de fournir des exemples de textes pertinents pour
le thme considr ;
dveloppement dun outil permettant de surveiller lobsolescence des filtres classiques, constitus de
systmes base de rgles.
Pour atteindre le second objectif, on fabrique une copie dun filtre base de rgles avec un filtre utilisant
un rseau de neurones. Comme le rseau de neurones fournit une probabilit de pertinence et non une
rponse binaire, il est possible danalyser les plus grandes divergences entre les deux filtres : les docu-
ments considrs comme pertinents par la mthode base de rgles, mais obtenant une probabilit proche
de zro avec le rseau de neurones, et les documents considrs comme non pertinents avec le premier et
obtenant une probabilit de pertinence proche de un avec le second [WOLINSKI 2000].
Le premier de ces objectifs consiste donc en la conception et la ralisation dun systme de cration auto-
matique de filtres, dont la caractristique majeure est labsence dintervention dun expert, par opposition
la mise en uvre dun systme base de rgles. Il sagit donc de concevoir un systme de discrimination
deux classes ; partir dune base de documents tiquets comme pertinents ou non pertinents pour le
thme considr, il faut :
trouver une reprsentation des textes par des nombres, reprsentation qui doit tre aussi compacte que
possible ;
concevoir et mettre en uvre un classifieur utilisant cette reprsentation.
Le problme de la reprsentation des textes, et donc de la slection des variables, est videmment central
dans cette application.
Lapprentissage statistique
114

Slection des variables


Lapproche la plus conventionnelle est la reprsentation en sac de mots , dans laquelle un texte est repr-
sent par un vecteur dont chaque composante est un nombre qui est li la prsence ou labsence dun mot
dans le texte, ou sa frquence dans le texte. Cette approche prsente un inconvnient : la dimension de ce
vecteur est gale au nombre de mots du vocabulaire, ce qui est videmment norme. On peut nanmoins
remarquer que tous les mots ne sont pas galement discriminants : les mots les plus frquents (de, la, et...)
sont inutiles pour la discrimination, de mme que les mots trs rares. Dans une premire tape, on cherche
donc, pour un thme donn, trouver les mots les plus pertinents pour le thme considr.
Codage des mots
Les mots sont cods de la manire suivante : soit FT(m, t) la frquence doccurrence du terme m dans le
texte t, et FT(t) la frquence moyenne des termes dans le texte t. Alors le mot m est dcrit par la quantit :
1 + log ( FT ( m, t ))
x (m) = ,
1 + log ( FT ( t ))
dont on trouvera la justification dans [SINGHAL1996].
La loi de Zipf
Pour slectionner les mots discriminants, on est aid par la loi de Zipf [ZIPF 1949] : soit un corpus de T textes,
appelons FC(m) la frquence doccurrence du mot m sur le corpus T ; la quantit FT(m, t), frquence du mot m
dans le texte t, a t dfinie dans le paragraphe prcdent. Construisons une liste de mots, classs par ordre de
FC(m) dcroissant ; soit r(m) le rang du mot m dans cette liste. La loi de Zipf snonce ainsi : FC(m) r(m) = K,
o K est une constante qui dpend du corpus considr. Il y a donc un petit nombre de mots trs frquents, et
un grand nombre de mots trs rares qui napparaissent quune fois ou deux sur le corpus ; entre ces extrmes,
il existe un ensemble de mots dans lesquels il faut chercher les mots discriminants.
Extraction du vocabulaire spcifique
6 Pour dterminer le vocabulaire spcifique un thme donn,
5 on dfinit, pour chaque mot m de chaque texte pertinent t, le
rapport R(m, t) = FT(m, t) / FC(m). On range les mots du texte
log FC(m)

3
par ordre de R(m, t) dcroissant, on supprime la seconde
moiti de la liste, et lon construit un vecteur boolen v(t) tel
2
que vi(t) = 1 si le mot i est prsent dans la liste, et 0 sinon. On
calcule enfin le vecteur v = v ( t ) , o la somme porte sur tous
1

0 t
0 1 2 3 4 5 les documents pertinents : le vocabulaire spcifique du thme
log r(m)
est lensemble des mots dont la composante dans v est non
Figure 2-30. Vrification exprimentale
de la loi de Zipf sur le corpus Reuters, nulle. La figure 2-30 montre que, sur le corpus des dpches
et reprsentation des mots du vocabulaire Reuters, la loi de Zipf est assez bien vrifie, et que les mots
spcifique au thme Falkland petroleum du vocabulaire spcifique du thme Falkland petroleum
exploration exploration sont bien au milieu de la distribution.

Slection finale
lintrieur du vocabulaire spcifique ainsi dfini, qui peut tre encore vaste (une quelques centaines
de mots), une slection finale est effectue par la mthode de la variable sonde, dcrite dans le chapitre 1.
la fin de cette tape, il apparat que, en moyenne sur 500 thmes tudis, le vocabulaire spcifique dun
thme comprend 25 mots, ce qui est tout fait raisonnable pour un vecteur de variables dun rseau de
Les rseaux de neurones
115
CHAPITRE 2

neurones. Nanmoins, cette reprsentation nest pas encore satisfaisante, mme si elle est compacte. En
effet, les mots seuls sont ambigus : dans une application comme celle-ci, il est indispensable de tenir
compte du contexte.

Dtermination du contexte
Pour introduire le contexte dans la reprsentation des textes, on cherche des mots de contexte dans une
fentre de 5 mots de part et dautre de chaque mot du vocabulaire spcifique. On dfinit :
des mots de contexte positifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabu-
laire spcifique, dans les documents pertinents ;
des mots de contexte ngatifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabu-
laire spcifique, dans les documents non pertinents.
Pour slectionner les mots de contexte, on utilise exactement la mme procdure que pour la dtermination
du vocabulaire spcifique. Typiquement, pour lexemple de prise de participation entre entreprises , on
constate que pour le mot capital , qui fait partie du vocabulaire spcifique, les mots dtient et
droits se trouvent dans les mots de contexte spcifique, et les mots risque et fonds dans le
contexte ngatif.
En moyenne sur 500 thmes diffrents, un thme est dfini par 25 mots de vocabulaire spcifique, chacun
de ces mots ayant 3 mots de contexte.

Conception et apprentissage des filtres


Filtres sans contexte
Si lon ne tient pas compte du contexte, le filtre a pour variables les mots du vocabulaire spcifique, cods
comme indiqu prcdemment. Conformment la mthodologie de conception de classifieurs prsente
dans la section consacre la discrimination, la structure du classifieur dpend de la complexit du
problme. Sur les corpus et les thmes tests, les ensembles dapprentissage sont gnralement linaire-
ment sparables, de sorte que lon utilise un rseau un seul neurone fonction dactivation sigmode.
Filtres avec contexte
Le contexte doit modifier le descripteur correspondant
Filtre sans contexte
chaque mot du vocabulaire spcifique. Le filtre repr-
sente donc chaque mot du vocabulaire par un neurone
fonction dactivation sigmode, dont les variables
sont le descripteur du mot considr et les descripteurs
des mots de contexte de celui-ci. Les sorties de
Filtre avec contexte
ces neurones sont spares linairement par un neurone
fonction dactivation sigmode. La figure 2-31 reprsente
un filtre avec contexte et un filtre sans contexte.
Lutilisation du contexte augmente videmment le
nombre de paramtres. Typiquement, pour un thme
avec 25 mots de vocabulaire spcifique et 3 mots de Figure 2-31. Un filtre sans contexte est un classifieur
contexte par mot du vocabulaire spcifique le filtre linaire qui reoit en entre le descripteur de chacun
comprend 151 paramtres. Compte tenu du fait que le des mots du vocabulaire spcifique (rectangles
nombre de paramtres peut tre du mme ordre de en traits gras) ; dans un filtre avec contexte,
grandeur que le nombre dexemples (voire infrieur les entres sont les descripteurs des mots
du vocabulaire spcifique (rectangles en traits gras)
celui-ci), il est impratif de mettre en uvre une et les mots de contexte (rectangles en traits fins).
mthode de rgularisation. La mthode de modration
Lapprentissage statistique
116

des poids a t mise en uvre dans cette application ; on en verra leffet dans la section consacre
lapprentissage avec rgularisation.

Validation des rsultats


Dans le domaine du traitement automatique du langage, la comptition organise chaque anne dans le
cadre de la confrence TREC (Text REtrieval Conference) constitue une rfrence. La mthodologie
prsente ci-dessus a t mise en uvre dans le cadre de la comptition TREC-9, pour lpreuve de
routing : celle-ci consiste classer un ensemble de textes par ordre de pertinence dcroissante pour des
thmes imposs. Lpreuve de TREC-9 portait sur deux ensembles de textes, se rapportant respectivement
63 et 500 thmes, et comprenant au total 294 000 documents. Il va de soi que le nombre de documents
analyser et le nombre de thmes rendent impossible tout traitement manuel ou semi-automatique
des donnes, dans le temps imparti la comptition. Lapproche dcrite ci-dessus a remport lpreuve
pour chacun des deux thmes ; la figure 2-32 reprsente les scores raliss par les participants [STRICKER
2001].

preuve OHSU (63 thmes) preuve MeSH (500 thmes)


1 1

0,8
0,8
Scor e

0,6

0,385 0,6
0,4 0,343 0,326 0,317
0,237 0,234
0,185 0,177
0,2 0,4 0,335
0,099 0,081
0,253
0
) 0,158
r2 r1
) ) ) r1
)
2) 2) 00
) 0) 0,2
N po po r 9r o0
2R R
N
rf2 fr2 U
N N er no rp
(S ( S2 k9 k 9r (K ( KU (M n trp a nt 0,0078
C ( o (o n IG a . (
D D
C ft ft eg
e en /S .( U 0
IC IC so so eg IT U s
ro ro ijm ijm IR rs er ICDC Microsoft Rutgers U Rutgers U (antrpms00)
ic ic .N N t ge u tg
M M U . u R (S2RNsamp) (ok9rfr2ps) (antrpnms00)
U R

Figure 2-32. Rsultats de lpreuve de routing de TREC-9 : en noir : rsultats obtenus par la mthode dcrite ci-dessus ;
en gris : rsultats obtenus par dautres mthodes

Aide la dcouverte de mdicaments : prdiction de proprits


chimiques et dactivits thrapeutiques de molcules
Ltude des relations structure-activit des molcules (QSAR pour Quantitative Structure-Activity Rela-
tions) et de leurs relations structure-proprit (QSPR pour Quantitative Structure-Property Relationships)
est un domaine en plein essor, en raison des progrs trs rapides de la simulation molculaire. Ces travaux
ont pour objectif de prdire les proprits physicochimiques ou thrapeutiques de molcules partir de
donnes structurales qui peuvent tre calcules a priori par ordinateur, sans quil soit ncessaire de synth-
tiser la molcule ; on peut donc viter une synthse coteuse si lon peut prdire que la molcule envi-
sage ne possde pas les proprits souhaitables [HANSCH 1995]. Cette approche est particulirement
utile dans le domaine de la bio-ingnierie, pour la prdiction de proprits pharmacologiques de mol-
cules, mais elle peut videmment tre transpose nimporte quel domaine (prdiction de proprits
mcaniques de matriaux complexes partir de leur formulation, prdiction de paramtres thermodyna-
miques de mlanges, etc.). Lobjectif est toujours de rduire les cots de dveloppement, particulirement
importants dans lindustrie pharmaceutique, en remplaant des synthses ou des ralisations coteuses
par des prdictions fiables.
Les rseaux de neurones
117
CHAPITRE 2

Pourquoi les mthodes dapprentissage statistique peuvent-elles tre mises en uvre avec profit dans ce
contexte ? Si lon admet quil existe une relation dterministe entre certains descripteurs de la molcule
et la proprit que lon veut prdire, alors on est ramen un problme de dtermination de la fonction de
rgression de la proprit envisage, en fonction des descripteurs choisis.
La premire question quil convient de se poser est celle des donnes utilisables pour lapprentissage et pour
lvaluation des performances du rseau. Compte tenu de limportance des enjeux, il existe de nombreuses
bases de donnes concernant des proprits telles que le point dbullition, la solubilit dans leau ou le coeffi-
cient de partage eau-octanol, ou encore des activits telles que laction anti-VIH, la toxicit, etc.
La deuxime question se poser est celle des variables pertinentes pour le modle envisag. Ici, les
connaissances du chimiste doivent ncessairement guider le choix de ces variables. On peut envisager
plusieurs catgories de descripteurs :
des descripteurs chimiques tels que la masse molculaire, le nombre datomes de carbone ;
des descripteurs gomtriques tels que le volume de la molcule, sa surface, son ovalit ;
des descripteurs lectriques tels que les charges portes par les diffrents atomes, le moment dipolaire ;
etc.
Pour chaque proprit que lon cherche prdire, il faut donc tablir un ensemble de descripteurs que lon
peut supposer pertinents, et utiliser une technique de slection de variables, comme celles dcrites dans le
premier chapitre, afin de dterminer les descripteurs qui sont rellement utiles pour les molcules et la
proprit considres. En raison de leur parcimonie, des rseaux de neurones de trs petite taille (5
7 neurones cachs) fournissent gnralement des rsultats de meilleure qualit que les techniques de
rgression multilinaire habituellement mises en uvre dans ce domaine [DUPRAT 1998].
Nanmoins, les proprits et activits des molcules dpendent en grande partie de la structure de celles-
ci ; cest pourquoi il est particulirement intressant dutiliser des mthodes de rgression ou de classifi-
cation de donnes structures telles que les graph machines dcrites prcdemment dans la section
Modlisation et classification de donnes structures . En effet, elles permettent de saffranchir
compltement de la dtermination, du calcul et de la slection des descripteurs, puisque la structure
chimique dtermine directement les prdictions du modle.
titre dexemple, considrons la prdiction des 9
Ensemble dapprentissage-validation
proprits anti-VIH de drivs de la ttrahydroimi-
8 Ensemble de test
dazobenzo-diazepinone (TIBO), qui agit en
bloquant lactivit de lenzyme qui permet la dupli-
Activit prdite

7
cation du rtrovirus. Lactivit est exprime quanti-
tativement par le rapport log(1/IC50), o IC50 est la 6
concentration en TIBO qui produit linhibition de
50 % de lenzyme responsable de la duplication. 5
Les rsultats sont prsents sur la figure 2-33 ; ils
4
sont de meilleure qualit que ceux obtenus par les
mthodes conventionnelles, y compris les rseaux 3
de neurones, avec le grand avantage de supprimer 3 4 5 6 7 8 9
Activit mesure
les phases de conception, calcul et slection des
descripteurs [GOULON 2006]. Figure 2-33. Prdiction dune activit anti-VIH

Comme mentionn dans la prsentation des graph


machines, celles-ci peuvent galement effectuer des tches de classification. Un ensemble de donnes de
321 molcules, possdant des groupements fonctionnels varis, a t divis en un ensemble dapprentis-
sage-validation de 274 exemples et un ensemble de test de 47 exemples. La slection de modles a t
effectue par validation croise laide de 10 sous-ensembles. La procdure a conduit au choix dune
Lapprentissage statistique
118

fonction de nud constitue dun rseau de neurones 3 neurones cachs, qui ne commet aucune erreur,
ni sur les donnes dapprentissage, ni sur les donnes de test.
De nombreux autres exemples dapplications sont dcrits dans [GOULON 2007].

Une application en formulation :


la prdiction de la temprature de liquidus de verres
Dans le mme esprit que lapplication prcdente, on peut prdire des paramtres thermodynamiques de
matriaux en fonction de la composition de ceux-ci. Cest le cas notamment pour la temprature de
liquidus de verres doxydes. Cette temprature est la temprature maximale laquelle des cristaux sont
en quilibre thermodynamique avec le liquide ; il est important, industriellement, de pouvoir prdire cette
temprature en fonction de la composition du verre, car la valeur de la viscosit la temprature de
liquidus est un lment important pour le choix des paramtres des procds de mise en forme des verres.
La prdiction de cette temprature en fonction de la composition du verre est difficile, car les diagrammes
prsentent des variations brutales dans le domaine dintrt ; compte tenu de cet enjeu industriel, de
nombreuses tudes ont t menes (voir par exemple [KIM 1991]) et des bases de donnes sont disponi-
bles. Lutilisation de modles non linaires obtenus par apprentissage sest montre avantageuse par
rapport aux mthodes traditionnelles, notamment pour les verres ayant plus de trois composantes.
La figure 2-34 illustre, sur un exemple concret, la parcimonie des rseaux de neurones. Les variables des
modles sont les teneurs en oxydes et le modle doit prdire la temprature de liquidus. La figure 2-34(a)
prsente le rsultat obtenu sur un verre de silice (compos, outre de SiO2, doxyde de potassium K2O et
dalumine Al2O3), obtenu avec un rseau 6 neurones cachs (25 paramtres), et la figure 2-34(b) le
rsultat obtenu avec un polynme de degr 3, dont le mme nombre de paramtres est trs voisin (19). Il
est clair que, nombre de paramtres peu prs quivalent, le rseau de neurones fournit un bien meilleur
rsultat. La figure 2-34(c) indique, pour mmoire, le rsultat obtenu avec un modle linaire.

Modlisation dun procd de fabrication : le soudage par points


Le soudage par points est le procd de soudage le plus utilis dans lindustrie automobile : des millions de
soudures sont effectues chaque jour. Le procd est schmatis sur la figure 2-11 : le soudage des deux tles
est effectu en faisant passer un courant trs intense (des kiloampres) pendant un temps trs court (quelques
centaines de millisecondes) entre deux lectrodes presses contre la surface des tles. Lchauffement
produit par effet Joule fait fondre une zone des tles. Aprs refroidissement, le diamtre de la zone fondue
(typiquement 5 mm) caractrise la qualit de la soudure ; si ce diamtre est infrieur 4 mm, la soudure est
considre comme dfectueuse. Le diamtre du point soud est donc un lment crucial de la scurit du
vhicule. lheure actuelle, il nexiste pas de mthode physique non destructive qui permette dvaluer rapi-
dement le diamtre de la soudure. En consquence, une stratgie industrielle typique consiste :
utiliser une intensit de courant excessive, ce qui produit un trs grand chauffement, donc ljection
de gouttelettes de mtal en fusion de la zone de soudage (cest lorigine des tincelles que lon
observe chaque soudure effectue par les robots de soudage sur une chane de fabrication) ;
raliser des soudures en surnombre afin que, avec une probabilit voisine de 1, on ait au moins une
soudure de bonne qualit.
Lexcs de courant et le trop grand nombre de soudures conduisent une dgradation rapide des lec-
trodes, qui doivent tre changes ou rusines frquemment.
Pour toutes ces raisons, la modlisation du processus en vue dobtenir une prdiction fiable du diamtre de
la soudure, en temps rel, partir de mesures effectues pendant le soudage, constitue un problme industriel
important. Il est trs difficile de modliser la dynamique du processus de soudage, pour plusieurs raisons :
Les rseaux de neurones
119
CHAPITRE 2

6 neurones
1600
cachs
1500

1400

1300

1200

1100

1000

900

800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700

(a)

1600

1500
Polynme de degr 3
1400

1300

1200

1100

1000

900

800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700

(b)

1600

1500
0 neurones cachs
1400 (modle linaire)
1300

1200

1100

1000

900

800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700

(c)

Figure 2-34. Diagrammes de dispersion (temprature prdite en fonction de la temprature observe) pour la prdiction
de la temprature de liquidus de verres doxydes en fonction de la composition, pour trois modles diffrents.
Lapprentissage statistique
120

le temps ncessaire pour intgrer numriquement les quations diffrentielles et les quations aux dri-
ves partielles du modle de connaissance est suprieur, de plusieurs ordres de grandeur, la dure
dune soudure : on ne peut donc pas utiliser un tel modle pour une prdiction en temps rel ;
certains paramtres physiques, qui interviennent dans les quations du modle de connaissance, sont
mal connus.
La modlisation par apprentissage est donc une alternative intressante un modle de connaissance. Le
procd tant non linaire et prsentant plusieurs variables, les rseaux de neurones sont de bons candi-
dats pour effectuer une prdiction, en temps rel, du diamtre du point fondu, et donc de la qualit de la
soudure, en fonction de mesures effectues pendant la soudure [MONARI 1999].
Les difficults sont, dune part, le choix des variables du modle et, dautre part, le fait que la constitution
dune base de donnes est onreuse : le nombre dexemples est donc limit.
Les grandeurs candidates pour constituer des variables du modle sont des grandeurs mcaniques et lec-
triques qui peuvent tre mesures durant le processus. La slection des variables a t effectue laide
des mthodes dcrites dans le chapitre 1, et le choix ainsi effectu a t valid par les experts impliqus
dans le dveloppement du modle de connaissance du procd.
Comme il nexiste pas de mthode non destructive simple pour prdire le diamtre du point fondu, la base
de donnes est construite de la manire suivante : un ensemble de soudures est effectu dans des condi-
tions bien contrles ; elles sont ensuite arraches ( dboutonnes ) et le diamtre du bouton fondu ,
qui reste solidaire dune des tles, est mesur. Cest un processus long et coteux, de sorte que lensemble
dapprentissage initial comprenait seulement 250 exemples. En utilisant lestimation des intervalles de
confiance qui sera expose dans la section Effet du retrait dun exemple sur lintervalle de confiance
pour sa prdiction , un plan dexpriences a t tabli, qui a permis denrichir progressivement la base
de donnes disponible. La moiti de ces donnes a t utilise pour lapprentissage, lautre pour le test ;
la slection de modle a t effectue par la procdure de leave-one-out virtuel, de sorte quil na pas t
ncessaire dutiliser un ensemble de validation.
La figure 2-35 prsente des diagrammes de dispersion typiques, o chaque prdiction figure avec son
intervalle de confiance. Lerreur de gnralisation estime (score de leave-one-out, voir chapitre 1 et
section Slection de modles du prsent chapitre) est de 0,27 mm, et lEQMT de lordre de 0,23 mm.
Ces quantits tant de lordre de grandeur de lincertitude de mesure, ces rsultats sont trs satisfaisants.

8 8
Diamtre prdit (mm)
Diamtre prdit (mm)

7 7

6 6
Figure 2-35.
5 5 Diagrammes
de dispersion
4 4 pour la prdiction
du diamtre
3 3 de soudures
par points,
2 2 et intervalles
2 3 4 5 6 7 8 2 3 4 5 6 7 8 de confiance sur
Diamtre mesur (mm) Diamtre mesur (mm) les prdictions
Les rseaux de neurones
121
CHAPITRE 2

Application en robotique :
modlisation de lactionneur hydraulique dun bras de robot
On cherche concevoir un modle dun bras de robot dont la position est commande par un actionneur
hydraulique. La position du bras dpend de la pression de liquide hydraulique dans lactionneur, pression
commande par louverture dune vanne. Il sagit dun processus dynamique, command en temps discret ;
comme indiqu dans la section quoi servent les rseaux de neurones boucls ? , on omet de mentionner
la priode dchantillonnage T afin dallger les notations. Les variations de louverture de la vanne, cest--
dire la squence de signaux de commande {u(k)}, et la pression dhuile correspondante, cest--dire la
squence de la grandeur modliser {yp(k)}, sont reprsentes sur la figure 2-36. Cet ensemble de donnes
contient 1 024 points de mesure : la premire moiti dentre eux est utilise pour lapprentissage, la seconde
pour lestimation de la performance (squence de test). On ne dispose daucune autre information sur le
processus : on a donc ncessairement recours une modlisation bote noire.

1,5
Commande
1

0,5

-0,5

-1

-1,5
0 200 400 (a) 600 800 1000

Squence d'apprentissage Squence de test


4
Sortie du processus
2

-2

-4
0 200 400 (b) 600 800 1000
Figure 2-36. Squences dapprentissage et de test pour la modlisation dun bras de robot

Lexamen des donnes montre que le processus nest certainement pas linaire et que, compte tenu des
oscillations observes en rponse des variations de u(k) qui sont presque des chelons, le processus est
au moins dordre 2. On observe aussi que les squences dapprentissage et de test nexplorent quapproxi-
mativement le mme domaine de fonctionnement (signaux de sortie et de commande de mme type et de
mme amplitude). On note quaux instants 600 et 850 environ de la squence de validation, lamplitude
Lapprentissage statistique
122

de la commande dpasse les amplitudes maximales atteintes sur la squence dapprentissage. On ne se


trouve donc pas dans les meilleures conditions possibles.
Cet exemple sera tudi en dtail dans la section Que faire en pratique ? Un exemple de modlisation
dynamique bote noire . Les meilleurs rsultats ont t obtenus [OUSSAR 1998] avec un modle dtat
du second ordre, dont lune des variables dtat est la sortie elle-mme, de la forme :

g ( k + 1) = x1 ( k + 1) = 1 ( x1 ( k ) , x2 ( k ) , u ( k ))
x2 ( k + 1) = 2 ( x1 ( k ) , x2 ( k ) , u ( k ))

avec deux neurones cachs. Il est reprsent sur la figure 2-37.

g(k+1) = x1(k+1)

x2(k+1)

q-1
5 yp
g

1 u(k) x2(k)
-5
g(k) = x1(k) 0 100 200 300 400 500
Figure 2-37. Modle neuronal dtat pour lactionneur Figure 2-38. Modlisation dtat de lactionneur hydraulique
hydraulique. La sortie est lune des variables dtat.

Lerreur quadratique moyenne obtenue avec le modle de la figure 2-37 est de 0,07 sur la squence
dapprentissage et de 0,12 sur la squence de validation, ce qui est une trs bonne performance compte
tenu de la reprsentativit des donnes disponibles. Les rsultats obtenus sur la squence de test sont
reprsents sur la figure 2-38. Les dfauts de modlisation rsultent du fait quil y ait des perturbations
non mesures, qui ne figurent pas dans les variables du rseau.

Modlisation semi-physique dun procd manufacturier


La mthode de modlisation semi-physique sera dcrite en dtail dans la section Modlisation dyna-
mique bote grise . Lapplication qui en est prsente ici porte sur la modlisation du schage du ruban
adhsif Scotch.
Un ruban adhsif est constitu dun film de matire plastique le substrat sur lequel est dpos un film
liquide le revtement constitu dun polymre adhsif dissout dans un solvant. Lensemble passe dans
un four, dans une atmosphre gazeuse o la pression partielle du solvant est trs infrieure la pression
partielle lquilibre la temprature du four ; en consquence, le solvant svapore, de sorte que la
Les rseaux de neurones
123
CHAPITRE 2

concentration du solvant dans le revtement au voisinage de la surface devient infrieure la concentra-


tion du solvant dans le volume du revtement. Le solvant diffuse alors du volume vers la surface pour
compenser ce gradient de concentration, ce qui alimente encore lvaporation. Le processus se poursuit
jusqu schage du revtement, de sorte que seul subsiste ladhsif la surface du substrat.
Traditionnellement, le solvant est un solvant organique. Pour des raisons de scurit et denvironnement,
il est souhaitable de remplacer les solvants organiques par de leau. Un modle physique prcis du
schage en prsence dun solvant organique existe [PRICE 1997] ; il est constitu de treize quations alg-
briques et diffrentielles non linaires couples ; lorsque le solvant organique est remplac par de leau,
certains lments de ce modle ne sont plus valables, de sorte que les prdictions du modle sont beau-
coup moins prcises.
La thorie de la dissolution du polymre dans leau est moins bien connue que celle du polymre dans un
solvant organique, de sorte que lon ne peut pas laborer un modle de connaissance satisfaisant ; dautre
part, des squences de mesure du poids de lchantillon en fonction du temps et de la temprature du four
sont disponibles : lutilisation dun modle semi-physique parat donc possible et opportune.
Les quations qui constituent le modle expriment :
la conservation de la masse dans le volume du solvant : cette quation ne peut tre remise en cause par
le changement du solvant ;
la loi qui rgit le courant de solvant vers la surface (loi de Fick). La validit de cette loi nest pas discu-
table, mais elle fait intervenir une grandeur (le coefficient de diffusion) dont la variation en fonction de
la concentration et de la temprature est donne par une thorie (thorie du volume libre) dont la vali-
dit, dans le cas o le solvant est de leau, est incertaine ;
la condition de conservation de la masse la surface : toute molcule qui arrive la surface, et
svapore, contribue la variation de la pression partielle du solvant dans le gaz cette loi ne peut tre
remise en cause ;
la condition linterface entre le revtement et le substrat : le substrat tant impermable au solvant, il
ny a aucun flux de solvant vers le substrat ;
la valeur de la pression partielle de solvant dans le gaz, qui constitue la force motrice du processus. Cette
grandeur est donne par une loi dont la validit nest pas remise en cause par les experts.
la lumire de cette analyse, il apparat que cest la variation du coefficient de diffusion qui doit tre
reprsente par un rseau de neurones bote noire au sein du modle semi-physique. Cest ce qui a t
effectu en suivant la mthode de conception esquisse plus haut ; elle est dcrite en dtail dans la section
Modlisation dynamique bote grise . Il faut noter que les quations du modle ne sont pas des qua-
tions diffrentielles, mais des quations aux drives partielles ; ceci nest pas un obstacle lutilisation
de la mthode. Un schma explicite de discrtisation a t utilis pour la variable de temps, et une discr-
tisation implicite a t utilise pour la variable despace.
Le lecteur intress par les dtails de la ralisation du modle et par les rsultats obtenus pourra les lire
dans [OUSSAR 2001]. On trouvera galement une autre application la dtection automatique de dysfonc-
tionnements dans une colonne distiller industrielle mettant en uvre la modlisation neuronale semi-
physique, dans [PLOIX 1997]. Mentionnons enfin que des applications sont oprationnelles dans un
groupe industriel franais majeur, pour la formulation de matriaux et de produits nouveaux.

Contrle de lenvironnement : hydrologie urbaine


La Direction de leau et de lassainissement du dpartement de Seine-Saint-Denis a dvelopp un systme
sophistiqu de mesure des niveaux deau dans le systme de collecte des eaux pluviales, et a procd des
mesures systmatiques des chutes de pluie et des niveaux deau correspondants. Lobjectif est une utilisa-
Lapprentissage statistique
124

tion optimale du rseau et une bonne anticipation des difficults qui peuvent rsulter de pluies impor-
tantes. La fiabilit du systme dpend donc largement de la fiabilit des capteurs des niveaux deau dans
les collecteurs : il est donc important de pouvoir dtecter automatiquement quun capteur est en panne
[ROUSSEL 2001].
La possibilit de crer, par apprentissage, des modles statiques ou dynamiques a permis la ralisation de
nombreux systmes de dtection de dysfonctionnements : si lon dispose dun modle prcis du fonction-
nement normal du processus que lon veut surveiller, et que lon observe une diffrence significative entre
les prdictions du modle et les mesures effectues, on peut en conclure que le systme est en fonction-
nement anormal ou, dans lexemple dcrit ici, que le capteur considr est en panne.
Deux types de pannes doivent tre considrs :
capteur bloqu (fournissant une mesure constante) ;
capteur subissant une drive lente.
Ces deux types de pannes peuvent tres dtects en utilisant des rseaux de neurones boucls, notamment
des modles NARMAX, qui seront dcrits en dtail dans la section Techniques et mthodologie de
conception de modles dynamiques de ce chapitre, ainsi que dans le chapitre 4. Ainsi, la figure 2-39
montre clairement la diffrence de comportement de lerreur de modlisation lorsque le capteur est en
fonctionnement normal et lorsquil drive.
0,04
Erreur moyenne de modlisation

0,02
0
1 3 5 7 9 11 13
-0,02
Drive Figure 2-39.
-0,04
Fonctionnement Dtection
-0,06 normal de panne
de capteur dans
-0,08 un collecteur
deau pluviale
-0,10
-0,12
Jour

Une application en robotique mobile :


le pilotage automatique dun vhicule autonome
Commander un processus, cest dterminer les commandes lui appliquer afin de lui assurer un compor-
tement donn (dfini par un cahier des charges) en dpit de perturbations.
Lexemple prsent ici est celui dun vhicule Mercedes 4 4 (baptis REMI), quip par la socit
SAGEM des capteurs et actionneurs ncessaires pour que le vhicule puisse tre autonome. Commander
ce processus, cest envoyer aux actionneurs du volant, de lacclrateur et du frein, les signaux de
commande ncessaires pour que le vhicule suive une trajectoire dfinie lavance, avec un profil de
vitesse dtermin au pralable, en dpit des perturbations telles que la pente de la route, son dvers, les
bourrasques de vent, des drapages ventuels, etc.
Les rseaux de neurones sont de bons candidats pour tre des lments de systmes de commande de
processus non linaires. En effet, on a vu leur capacit raliser des modles, botes noires ou aids de
connaissances physiques. Or, pour tre en mesure dlaborer un systme de commande pour un processus,
Les rseaux de neurones
125
CHAPITRE 2

il faut gnralement disposer dun modle de celui-ci ; les rseaux de neurones interviennent donc dans
les systmes de commande non linaires comme modles du processus, soit pendant la phase dappren-
tissage, soit en tant qulment du systme de commande lui-mme (commande avec modle interne).
Dautre part, llaboration du signal de commande (par exemple langle dont il faut faire tourner le volant,
et la vitesse angulaire avec laquelle il faut le faire tourner) partir de linformation de consigne (le cap
que doit suivre le vhicule) implique gnralement la ralisation dune fonction non linaire, donc les
rseaux de neurones peuvent avantageusement assurer cette fonction : celle du correcteur.
Le vhicule exprimental REMI est quip dactionneurs (moteur lectrique pour faire tourner le volant,
actionneur hydraulique pour le circuit de freinage, moteur lectrique pour le papillon dadmission dair)
et de capteurs de deux types :
des capteurs qui permettent de connatre ltat du vhicule (capteurs proprioceptifs) : odomtres sur les
roues, capteur angulaire sur le volant et le papillon dadmission dair, capteur hydraulique sur le circuit
de freinage ;
un capteur qui permet de connatre la position du vhicule par rapport au monde extrieur (capteur
extroceptif) : une centrale inertielle.
Le systme de navigation et de pilotage est constitu des lments suivants :
un module de planification qui, partir de lobjectif atteindre et des contraintes (routes), dtermine la
trajectoire que doit suivre le vhicule, et le profil de vitesse respecter durant le trajet ;
un module de guidage, qui labore les consignes de cap et de vitesse ;
un module de pilotage, qui dtermine les positions souhaites pour les actionneurs ;
un module de commande des actionneurs eux-mmes.
Dans cette structure, les rseaux de neurones interviennent au niveau du pilotage pour dterminer les
actions souhaitables en fonction des consignes de cap et de vitesse [RIVALS 1994] [RIVALS 1995].
Lapplication a ncessit la conception et la ralisation de deux systmes de commande destins raliser
deux tches :
la commande du volant, pour maintenir le vhicule sur sa trajectoire : un rgulateur neuronal de la posi-
tion a t ralis, qui permet une erreur latrale maximale de 40 cm, pour des courbures jusqu 0,1 m-1,
et des dvers jusqu 30 %, sur route et en tout-terrain ; cet asservissement a mis en uvre, en certains
de ses lments, une modlisation semi-physique ;
la commande de lacclrateur et du frein, pour respecter le profil de vitesse impos par le module de
guidage.
Il faut noter que les divers rseaux de neurones mis en jeu dans cette application, quils jouent le rle de
modles ou de correcteurs, sont tous de trs petite taille (moins dune dizaine de neurones cachs). Leur
mise en uvre en temps rel na ncessit aucun matriel spcialis : ils ont t raliss sous forme
uniquement logicielle, excuts sur une carte microprocesseur standard qui remplissait diverses autres
fonctions.

Techniques et mthodologie de conception de modles


statiques (rseaux non boucls)
Dans ce chapitre, on a dlibrment laiss de ct, jusqu cette section, un certain nombre de points tech-
niques dont la connaissance nest pas essentielle pour comprendre ce que peuvent apporter les modles
neuronaux lingnieur ou au chercheur, mais quil faut videmment connatre pour mettre en uvre une
application. Cest pourquoi cette section prsente plus en dtail les points qui nont t que survols
Lapprentissage statistique
126

jusqu prsent. On reprendra ici les lments de mthodologie exposs succinctement dans le premier
chapitre : slection de variables, apprentissage, slection de modles.

Slection des variables


Rappelons ce qui a t indiqu au chapitre 1, section Slection de variables : la slection des variables
dun modle est trs importante pour assurer la parcimonie de celui-ci. Cette tape de la conception de
modles peut comprendre deux tches, raliser successivement :
la rduction de la dimension du vecteur des variables par analyse en composantes principales, analyse
en composantes indpendantes ou analyse en composantes curvilignes ; cette tche est explique en
dtail dans le chapitre 3 ;
la slection des variables pertinentes, qui a t dcrite dans le chapitre 1.
Pour cette dernire tche, la mthode de la variable sonde sapplique entirement la slection
des variables dun rseau de neurones. En effet, une variable qui est pertinente lest indpendamment du
modle postul, condition que lon prenne en considration le fait que deux variables prises sparment
peuvent ne pas tre pertinentes, mais que la combinaison des deux peut ltre. On applique donc la
mthode de la variable sonde comme indiqu dans le chapitre 1, en nomettant pas de tenir compte
des variables primaires et des variables secondaires ; on recense les variables primaires slectionnes,
seules ou en combinaison, et on les utilise comme variables dun rseau de neurones. On bnficie ainsi
de la parcimonie de ce dernier, qui, rappelons-le, est trs avantageuse pour les problmes ncessitant une
modlisation non linaire avec plus de deux variables.

Estimation des paramtres (apprentissage) dun rseau de neurones


non boucl
Rappelons que lestimation des paramtres du modle se fait par minimisation dune fonction de cot qui
traduit la distance entre les mesures effectues ykp (k = 1 N), prsentes dans lensemble dapprentis-
sage, et les prdictions du modle g(xk, w) (k = 1 N) sur ces mmes mesures. Le plus souvent, on utilise
la fonction de cot des moindres carrs :
N

(
J ( w ) = ykp g ( x k , w ) . )
2

k =1

Les mthodes qui peuvent tre mises en uvre pour minimiser la fonction de cot sont de deux types :
des mthodes non adaptatives dapprentissage : elles consistent estimer les paramtres du modle par
minimisation de la fonction de cot des moindres carrs, qui tient compte simultanment de tous les
exemples de lensemble dapprentissage ; lutilisation dune telle mthode ncessite videmment que
les N exemples soient disponibles ds le dbut de lapprentissage ;
des mthodes adaptatives dapprentissage : elles consistent modifier les paramtres du modle,
successivement en utilisant la fonction de perte relative chaque exemple k : ( xk , w ) = ykp g ( xk , w ) . ( )
2

Cette technique est la seule qui soit applicable lorsquon dsire effectuer lapprentissage sans attendre
que tous les exemples soient disponibles ; elle permet galement de mettre jour un modle si le
processus quil modlise est soumis des drives lentes (usures, encrassements).
Terminologie
En anglais, on dsigne lapprentissage non adaptatif sous le terme de batch training ou off-line training, et lapprentissage adaptatif sous le
terme de on-line training.
Lapprentissage non adaptatif, le plus frquemment utilis, est dcrit dans la section suivante.
Les rseaux de neurones
127
CHAPITRE 2

Apprentissage non adaptatif des rseaux de neurones


Comme lapprentissage des systmes linaires, celui des systmes non linaires a pour objectif de mini-
miser la fonction de cot des moindres carrs. Comme expliqu dans le chapitre 1, cette minimisation se
fait aisment dans le cas des systmes linaires : la fonction de cot tant quadratique par rapport aux
paramtres, sa drive est linaire par rapport ceux-ci, de sorte que lon obtient un systme dquations
linaires. En revanche, si le modle nest pas linaire en ses paramtres, les quations obtenues en annu-
lant le gradient de la fonction de cot ne sont pas linaires, ce qui complique lestimation des paramtres.
Cest une des composantes du prix payer pour bnficier de la parcimonie caractristique des rseaux
de neurones. Lautre composante de ce prix est lexistence de plusieurs minima locaux de la fonction de
cot : celle-ci ntant pas quadratique, elle ne possde pas un minimum unique.
La minimisation de la fonction de cot ne pouvant tre effectue par inversion de matrice, comme cest le
cas pour les modles linaires, il faut avoir recours des techniques classiques doptimisation : ce sont
des mthodes itratives, qui modifient les paramtres du modle en fonction du gradient de la fonction de
cot par rapport ces paramtres.
Chaque itration du processus dapprentissage ncessite donc la mise en uvre de deux ingrdients bien
distincts :
lvaluation du gradient de la fonction de cot choisie ;
la modification des paramtres en fonction de ce gradient, afin dapprocher un minimum de la fonction
de cot.

Terminologie
Pour lapprentissage non adaptatif, on utilise aussi, au lieu du terme ditration, le terme dpoque.

Ces deux points vont tre abords successivement ; on rappelle tout dabord le pralable indispensable :
la normalisation des variables.
Normalisation des variables et de la grandeur modliser
Rappelons que, avant tout apprentissage, il est indispensable de normaliser et de centrer toutes
les variables, ainsi que la grandeur modliser. La procdure de normalisation a t dcrite dans le
chapitre 1, section Prtraitement des donnes .
valuation du gradient de la fonction de cot
Lorsque le modle postul est un rseau de neurones, lvaluation du gradient de la fonction de cot peut
tre effectue dune faon conomique laide dun algorithme appel algorithme de rtropropagation
[RUMELHART 1986] [WERBOS 1974], devenu tellement populaire quil apparat parfois comme synonyme
dapprentissage de rseaux de neurones. En ralit, lalgorithme de rtropropagation nest pas un algo-
rithme dapprentissage, mais un ingrdient dans une procdure dapprentissage. On montrera dailleurs
quil est possible dvaluer le gradient au moyen dune autre mthode que la rtropropagation.

proscrire
On trouve trop souvent lexpression rseau de neurones rtropropagation (quand ce nest pas rseau backprop ...) pour dsigner
un rseau de neurones non boucl. Cette expression est doublement absurde : dune part, il est parfaitement possible de faire lapprentis-
sage dun rseau non boucl sans utiliser la rtropropagation, comme on le verra dans le paragraphe intitul valuation du gradient de
la fonction de cot dans le sens direct ; dautre part, on utilise aussi la rtropropagation dans lapprentissage de rseaux boucls, comme
on le montrera dans les paragraphes consacrs lapprentissage de modles dynamiques. Il ny a donc aucun lien entre larchitecture du
rseau (boucl ou non boucl) et lutilisation, ou la non-utilisation, de la rtropropagation.
Lapprentissage statistique
128

valuation du gradient de la fonction de cot par rtropropagation


Considrons un rseau de neurones non boucl avec neurones cachs et un neurone de sortie. Lextension
un rseau qui possde plusieurs neurones de sortie est triviale. Rappelons que le neurone i calcule une
quantit yi qui est une fonction non linaire de son potentiel vi :

ni
yi = f ( vi ) = f wij x ij ,
j =1
o x ij dsigne la variable j du neurone i. Les ni variables du neurone i peuvent tre soit les sorties
dautres neurones, soit les variables du rseau. Dans toute la suite, x ij dsignera donc indiffremment soit
la sortie yj du neurone j, soit la variable j du rseau, lune ou lautre constituant une variable du neurone i.
La fonction de cot dont on cherche valuer le gradient est de la forme :
N N

(
J ( w ) = ykp g ( x k , w ) ) = ( x , w ),
2
k
k =1 k =1

o (xk,w) est la fonction de perte relative lexemple k. Pour valuer le gradient de la fonction de cot,
il suffit donc dvaluer le gradient de la fonction de perte relative lobservation k, et de faire ensuite la
somme sur tous les exemples.
Lalgorithme de rtropropagation consiste essentiellement en lapplication rpte de la rgle des drives
composes. On remarque tout dabord que la fonction de perte ne dpend du paramtre wij que par linter-
mdiaire de la valeur de la sortie du neurone i, qui est elle-mme fonction uniquement du potentiel du
neurone i ; on peut donc crire :

( x, w ) ( x, w ) vi
w = w = ik x ij ,k ,
ij vi x = xk
ij x = x
x = xk k

o
( x, w )
= ik dsigne la valeur du gradient de la fonction de perte par rapport au potentiel du
vi x = xk
neurone i lorsque les valeurs des variables du rseau sont celles qui correspondent lexemple k ;
v
i = x ij ,k dsigne la valeur de la drive partielle du potentiel du neurone i par rapport au para-
wij x = xk
mtre wij lorsque les variables du rseau sont celles qui correspondent lexemple k ;
x ij ,k est la valeur de la variable j du neurone i lorsque les variables du rseau sont celles qui correspon-
dent lexemple k.
Cette dernire quantit est entirement calculable si lon connat les valeurs des paramtres. Or celles-ci
sont connues tout moment pendant lapprentissage, puisquelles ont initialement des valeurs alatoires,
qui sont ensuite modifies selon les algorithmes qui seront prsents dans la section Modification des
paramtres en fonction du gradient de la fonction de cot ; les quantits x ij ,k sont donc connues. Il reste
donc valuer les quantits ik prsentes dans le membre de droite de lquation. On va dmontrer que ces
quantits peuvent tre avantageusement calcules dune manire rcursive en menant les calculs depuis la
(ou les) sortie(s) du rseau vers ses entres.
Les rseaux de neurones
129
CHAPITRE 2

En effet :
pour le neurone de sortie, de potentiel vs :
( x, w ) p 2 g ( x, w )
sk = =
vs x = xk vs ( yk g ( xk , w )) = 2e ( xk , w )
vs x = xk
,

o e ( xk , w ) = ykp g ( x k , w ) est lerreur de modlisation commise par le rseau, muni du vecteur de para-
mtres w, pour lexemple xk.
Or, la prdiction du modle est le rsultat du calcul du neurone de sortie ; cette relation scrit donc :
( ) ( )
sk = 2 e ( xk , w ) f vsk , o f vsk dsigne la drive de la fonction dactivation du neurone de sortie
lorsque les entres du rseau sont celles de lexemple k. Si, comme cest le cas lorsque le rseau est
utilis en modlisation, le neurone de sortie est linaire, lexpression se rduit : sk = 2 e ( xk ,w ) ;
pour un neurone cach i : la fonction de cot ne dpend du potentiel du neurone i que par lintermdiaire
des potentiels des neurones m dont une des variables est la valeur de la sortie du neurone i, cest--dire
de tous les neurones qui, dans le graphe des connexions du rseau, sont adjacents au neurone i, entre ce
neurone et la sortie :
( x, w ) ( x, w ) vm v
ik = = mk m .
vi x = xk m vm x = x vi x = x
k k
m vi x = xk

Dsignant par vmk le potentiel du neurone m lorsque les variables du rseau sont celles de lexemple k, on
v
( )
a : vmk = wmi xim,k = wmi f vik . Par consquent m
vi x = xk
( )
= wmi f vik .
i i

On obtient donc finalement la relation :

ik = mk wmi f ( vik ) = f ( vik ) mk wmi


m m

Ainsi, les quantits ik peuvent tre calcules rcursivement, en parcourant le graphe des connexions
dans le sens rtrograde , depuis la (les) sortie(s) vers les variables du rseau (ce qui explique le terme
de rtropropagation).
Une fois que les gradients des fonctions de perte ont t calculs, il suffit den faire la somme pour obtenir
le gradient de la fonction de cot.
Rsum de la rtropropagation
Lalgorithme de rtropropagation comporte deux phases pour chaque exemple k :
une phase de propagation, au cours de laquelle les variables correspondant lexemple k sont utilises
pour calculer les sorties et les potentiels de tous les neurones ;
une phase de rtropropagation, au cours de laquelle sont calcules les quantits ik .
Une fois que ces quantits sont disponibles, on calcule les gradients des fonctions de perte par les relations
( x, w ) J ( w ) N ( x k , w )
w = k i , puis le gradient du cot total
x = .
ij x = xk
i j ,k
wij k =1 wij

Lalgorithme de rtropropagation peut tre interprt sous une forme graphique, en introduisant le
rseau adjoint du rseau dont on veut estimer les paramtres. Cette approche, parfois utile, est
prsente dans le chapitre 4 traitant de lidentification de systmes dynamiques.
Lapprentissage statistique
130

Remarque importante
Lalgorithme de rtropropagation a t prsent ici dans le cadre de la minimisation de la fonction de cot des moindres carrs. Il est facile
de ladapter au calcul du gradient de nimporte quelle autre fonction de cot drivable, notamment, pour la classication, la fonction de
cot dentropie croise.

valuation du gradient de la fonction de cot dans le sens direct


Une mythologie sest dveloppe, selon laquelle lapprentissage des rseaux de neurones possdant
des neurones cachs a t rendu possible par linvention de la rtropropagation. En ralit, il est tout fait
possible dvaluer le gradient de la fonction de cot par un calcul plus simple dans son principe (quoique
plus coteux en temps de calcul), qui a dailleurs t largement utilis pour lestimation des coefficients
de filtres linaires en cascade. Ce calcul seffectue dans le sens direct, en valuant les gradients partir
des variables, vers les sorties.
En effet :
pour un neurone m qui a pour variable xj,k, valeur prise par la variable j du rseau pour lexemple k :
ym y vm
w = m ( )
= f vmk x j ,k ;
mj x = xk vm x = xk wmj x = xk
pour un neurone m dont la sortie dpend de xj,k, valeur prise par la variable j du rseau ou par la sortie
du neurone j pour lexemple k, par lintermdiaire dautres neurones du rseau, situs entre les entres
et le neurone m :
ym y vm yl yl
w = m = f vmk( ) vy m
w ( ) w
= f vmk w
ij x = xk vm x = xk wij x = xk
ml
l l x = xk
ij x = x
k
l ij x = xk
o lindice l dsigne tous les neurones qui sont adjacents au neurone m dans le graphe des connexions,
entre le neurone j (ou la variable j) et le neurone m.
Ces deux relations permettent de calculer rcursivement les drives de la sortie de chaque neurone par
rapport aux paramtres qui ont une influence sur cette sortie, partir des variables du rseau jusquaux
sorties de ce dernier.
Une fois toutes ces drives calcules, on peut calculer le gradient de la fonction de perte :

( x, w ) g ( x, w )
w

=

x = xk ijw k (
y p g ( x, w ) 2
)
x = xk
(
= 2 e x k , w ) .
wij x = xk
ij

Or, g(x, w) est la sortie dun neurone du rseau, donc la dernire drive peut tre calcule rcursivement
par le mme procd que toutes les autres. Une fois valu le gradient de la fonction de perte pour chaque
exemple, on fait la somme de ces gradients comme pour la rtropropagation.
Comparaison entre lvaluation du gradient de la fonction de cot par rtropropagation et par calcul
dans le sens direct
Les calculs qui viennent dtre exposs montrent que la rtropropagation ncessite lvaluation dun
gradient par neurone, alors que le calcul direct requiert lvaluation dun gradient par connexion. Comme
le nombre de connexions est peu prs proportionnel au carr du nombre de neurones, le nombre
dvaluations de gradient est plus important pour le calcul direct que pour la rtropropagation.
Donc, pour lapprentissage de rseaux non boucls, on utilisera avantageusement la rtropropagation pour
valuer le gradient de la fonction de cot.
Les rseaux de neurones
131
CHAPITRE 2

valuation du gradient sous contrainte dgalit des paramtres : les poids partags
On a vu dans la section Modlisation et classification de donnes structures , quil est ncessaire, pour
lapprentissage des graph machines, deffectuer lapprentissage sous la contrainte quun certain nombre
de paramtres doivent tre gaux entre eux la fin de lapprentissage. On retrouve la mme contrainte
pour lapprentissage des rseaux de convolution (section Reconnaissance des formes : la lecture auto-
matique de codes postaux ). Enfin, la mme contrainte est impose pour lapprentissage des rseaux
dynamiques, qui sera abord dans la section Techniques et mthodologie de conception de modles
dynamiques . Cette contrainte est appele contrainte des poids partags , introduite initialement dans
le contexte de la reconnaissance de la parole [WAIBEL 1989]). Or on verra, dans la section suivante, que
lvolution des paramtres, chaque itration de lalgorithme dapprentissage, dpend du gradient de la
fonction de cot ; pour que plusieurs paramtres restent gaux, il faut donc que le gradient de la fonction
de cot utilis pour leur mise jour soit le mme pour tous.
Supposons donc que, dans un mme rseau, v paramtres doivent tre gaux :
w1 = w2 = = wv = w
On peut crire le gradient de la fonction de cot sous la forme :
J J w1 J w2 J w ,
= + + ... +
w w1 w w2 w w w

w1 w2 w J J
or = = ... = = 1, donc = .
w w w w i =1 wi
Ainsi, lorsquun rseau contient des poids partags, il faut, chaque itration, effectuer la rtropropaga-
tion de la manire habituelle pour calculer les gradients par rapport ces paramtres, puis calculer la
somme de ces gradients, et affecter cette valeur chacun de ces gradients, avant de procder la modifi-
cation de ces paramtres.
Modification des paramtres en fonction du gradient de la fonction de cot
Dans la section prcdente, on a vu comment valuer le gradient de la fonction de cot par rapport aux
paramtres du modle, chaque itration du processus dapprentissage. Une fois que lon dispose de cette
valuation, on effectue une modification des paramtres, afin dapprocher dun minimum de la fonction
de cot. On examine prsent quelques algorithmes de minimisation itrative des paramtres du modle.
La mthode du gradient simple
La mthode du gradient simple consiste modifier les paramtres par la formule suivante, litration i
de lapprentissage :

w ( i ) = w ( i 1) i J ( w ( i 1)) , avec i > 0.


La direction de descente est donc simplement oppose celle du gradient : cest en effet la direction selon
laquelle la fonction de cot diminue le plus rapidement. La quantit i est appele pas du gradient ou pas
dapprentissage.
Cette mthode est simple, mais elle prsente de nombreux inconvnients :
Si le pas du gradient est trop petit, la dcroissance du cot est trs lente ; si le pas est trop grand, le cot
peut augmenter ou osciller ; cette situation est illustre sur la figure 2-40, qui reprsente les lignes de
niveau de la fonction de cot (fonction de deux variables w1 et w2) et lvolution du point reprsentatif
du vecteur w au cours du droulement de lalgorithme.
Lapprentissage statistique
132

Au voisinage dun minimum de la fonction de cot, le gradient de cette dernire tend vers zro : lvolu-
tion du vecteur des coefficients devient donc trs lente. Il en va de mme si la fonction de cot prsente
des plateaux o sa pente est trs faible ; ces plateaux peuvent tre trs loigns dun minimum, et,
dans la pratique, il est impossible de savoir si une volution trs lente du gradient est due au fait que lon
est au voisinage dun minimum, ou que lon se trouve sur un plateau de la fonction de cot.
Si la courbure de la surface de cot varie beaucoup, la direction du gradient peut tre trs diffrente de
la direction qui mnerait vers le minimum ; cest le cas si le minimum recherch se trouve dans une
valle longue et troite (les courbes de niveau sont des ellipsodes allongs au voisinage du
minimum), comme on le voit galement sur la figure 2-40.

Figure 2-40.
Minimisation
de la fonction
de cot par
la mthode
du gradient
simple

Pour porter remde au premier inconvnient, de trs nombreuses heuristiques ont t proposes, avec des
succs divers. Les mthodes de recherche unidimensionnelle (notamment celle qui est prsente dans les
complments thoriques et algorithmiques la fin de ce chapitre), fondes sur des principes solides, sont
recommandes.
Pour faire face aux deux autres problmes, on utilise des mthodes du second ordre qui, au lieu de modi-
fier les coefficients uniquement en fonction du gradient de la fonction de cot, utilisent les drives
secondes de cette dernire. Certaines de ces mthodes font galement intervenir un paramtre suscep-
tible dtre choisi laide de mthodes de recherche unidimensionnelle.
Les grandes lignes des mthodes du second ordre les plus frquemment utilises, ainsi que les mthodes
de recherche unidimensionnelle du pas, sont prsentes dans les sections suivantes.
Les mthodes de gradient du second ordre
Toutes les mthodes du second ordre sont drives de la mthode de Newton, dont on dcrit ici le principe.
Le dveloppement de Taylor dune fonction f(x) dune seule variable x au voisinage dun minimum x* est
donn par la relation :

d2 f
f ( x ) = f ( x *) +
1
2
( )
( x x *)2 2 + O x 3 ,
dx x = x*
car le gradient de la fonction de cot f(x) est nul au minimum. Une approximation du gradient de la fonc-
tion de cot au voisinage du minimum est obtenue aisment partir de la relation prcdente, en la dri-
vant par rapport w :

df d2 f
( x x *) 2 .
dx dx x = x*
Les rseaux de neurones
133
CHAPITRE 2

Par consquent, lorsque la variable x est au voisinage de x*, on pourrait atteindre ce minimum en une
seule itration si lon connaissait la drive seconde de la fonction son minimum : il suffirait pour cela
-----
df
-
dx
de modifier la variable w de la quantit x = ----------------------
2
-.
d--------f
d x2
x = x*

Le mme raisonnement sapplique une fonction de plusieurs variables, la drive seconde tant
2 f
remplace par la matrice hessienne H(w) de la fonction optimiser, de terme gnral : pour
xi x j
atteindre le minimum de la fonction de cot en une itration, il suffirait dappliquer au vecteur des poids
la modification suivante (sous rserve que la matrice hessienne soit inversible) :

x = H ( x *) f ( x ) .
1

Remarque
Ainsi, la diffrence de la mthode du gradient simple, les mthodes du second ordre adoptent une direction de dplacement, dans
lespace des variables, qui nest plus la direction du gradient, mais qui rsulte dune transformation linaire de celui-ci.

Cette dernire formule nest videmment pas applicable en pratique, puisque le vecteur x* nest pas
connu. Nanmoins, elle suggre plusieurs techniques qui mettent en uvre une approximation itrative de
la matrice hessienne (ou de son inverse). Deux dentre elles seront prsentes en annexe thorique et algo-
rithmique de ce chapitre : la mthode de Broyden-Fletcher-Goldfarb-Shanno (algorithme BFGS,
[BROYDEN 1970]) et lalgorithme de Levenberg-Marquardt ([LEVENBERG 1944] [MARQUARDT 1963]). Il
faut noter que ces mthodes ne sont pas spcifiques aux rseaux de neurones : ce sont des mthodes trs
gnrales doptimisation. On en trouvera des descriptions dtailles dans [PRESS 1992] ; cet ouvrage
prsente galement la technique du gradient conjugu , qui utilise la matrice hessienne de manire
implicite.
Pour lapprentissage des rseaux de neurones, la fonction optimiser f(x) en fonction des variables x nest
autre que la fonction de cot J(w), quil faut optimiser par rapport aux paramtres w du rseau. Le gradient
de J(w) est valu par lalgorithme de rtropropagation dcrit plus haut.
Que faire en pratique ?
En premier lieu, il ne faut pas utiliser la mthode du gradient simple et ses variantes, dont les temps de
convergence (en nombre ditrations) sont suprieurs de plusieurs ordres de grandeur ceux des
mthodes du second ordre (voir ci-aprs le paragraphe prsentant quelques problmes tests). Lutilisation
de la mthode du gradient simple ne peut se justifier que dans le cas o lon utilise de trs gros rseaux
(plusieurs milliers de paramtres), ce qui peut se produire pour des problmes de classification dans
lesquels les objets classer ont de trs nombreux descripteurs (typiquement, des images reprsentes par
des descripteurs de bas niveau). Dans ce cas, on arrte la descente avant datteindre un minimum de la
fonction de cot, afin dviter le surajustement ; cette technique, dite darrt prmatur (early stopping),
constitue une forme de rgularisation, sur laquelle on reviendra dans la section consacre lapprentis-
sage avec rgularisation.
Remarque
On mentionne souvent dans la littrature lheuristique du terme de moment (momentum term [PLAUT 1986]) qui consiste ajouter au
terme de gradient J un terme proportionnel la variation des coefcients litration prcdente [w(i 1) w (i 2)] ; on ralise ainsi
une sorte de ltre passe-bas qui peut viter les oscillations et augmenter un peu la vitesse de convergence si est bien choisi.
Lapprentissage statistique
134

Le choix entre les mthodes de BFGS et de Levenberg-Marquardt repose essentiellement sur des consi-
drations relatives au temps de calcul et la taille de la mmoire. La mthode de BFGS ncessite de
choisir le moment o lon passe du gradient simple BFGS ; il ny a pas, cet effet, de rgle fonde sur
des arguments thoriques. Quelques ttonnements sont parfois ncessaires pour trouver le bon
nombre ditrations (typiquement, une centaine), mais celui-ci nest pas critique. La mthode de Leven-
berg-Marquardt ne prsente pas cet inconvnient, mais elle devient lourde pour des gros rseaux (une
centaine de paramtres), en raison de linversion de matrice ncessaire chaque itration. Globalement,
on a donc intrt choisir la mthode de Levenberg-Marquardt si le rseau est petit , et celle de BFGS
dans le cas contraire. Si lon dispose du temps ncessaire, il est recommand dessayer les deux. La
mthode du gradient conjugu peut galement constituer une solution efficace au problme doptimisa-
tion de la fonction de cot.
Initialisation des paramtres
Quelle que soit la mthode mise en uvre, il est ncessaire de fixer les valeurs des paramtres du rseau
au dbut de lapprentissage. Les considrations suivantes doivent guider linitialisation de ces grandeurs :
les paramtres relatifs aux biais (entres constantes gales 1) doivent tre initialiss zro, pour
sassurer que les sigmodes des neurones sont initialement situes autour de zro ; alors, si les entres,
ainsi que les paramtres (autres que ceux des biais), ont t normaliss et centrs comme cela est recom-
mand plus haut, les valeurs des sorties des neurones cachs le sont galement ;
il reste sassurer que ces valeurs des sorties des neurones cachs ne sont pas trop voisines de +1 ou 1.
En effet, rappelons que le gradient de la fonction de cot, qui est le moteur de la minimisation,
dpend de la drive de la fonction dactivation des neurones cachs par rapport au potentiel. Or, au
voisinage de leurs saturations +1 et 1, les drives des sigmodes sont voisines de zro : dans ces
conditions, le processus de minimisation ne dmarre pas.
Soit n le nombre de variables du modle ; chaque neurone a donc n1 variables xi et un biais. Les param-
tres non nuls doivent tre suffisamment petits pour que les potentiels des neurones cachs aient une
variance de lordre de 1, afin que les sigmodes ne soient pas satures. Supposons que les xi puissent tre
considres comme des variables alatoires indpendantes Xi, tires de distributions identiques, centres
et normalises. On veut tirer les paramtres initiaux au hasard dans une distribution centre autour de
zro, dont on cherche la variance. Rappelons que le paramtre relatif au biais est initialis zro comme
n
indiqu lalina prcdent. Le potentiel v = wi xi de chaque neurone est donc la somme de n 1 varia-
i =1
bles alatoires qui sont les produits de variables alatoires indpendantes, centres, ayant toutes la mme
distribution. On dmontre facilement, partir des dfinitions et proprits indiques dans les notions
lmentaires de statistiques prsentes la fin du chapitre 1, que lon a :
varV = ( n 1) varWi varXi

avec varXi = 1 puisque les variables ont t normalises.


Ainsi, si lon veut que la variance du potentiel soit 1, on tirera les valeurs initiales des paramtres alatoi-
rement dans une distribution centre de variance 1/(n1). Si lon veut prendre une distribution uniforme
3
entre wmax et +wmax, on a : varWi = wmax
2
/ 3, donc il faut prendre wmax = .
n 1
Les points prcdents concernent les rseaux fonctions dactivation sigmode. Pour les rseaux de RBF
ou dondelettes, le problme est beaucoup plus critique, en raison du caractre localis de ces fonctions :
si, initialement, elles sont situes trs loin de lendroit o elles devraient tre, ou si leur extension spatiale
(cart-type ou dilatation) nest pas convenable, lapprentissage a peu de chances de russir. Le test des
Les rseaux de neurones
135
CHAPITRE 2

problmes matre-lve , qui sera introduit dans le paragraphe suivant, est beaucoup plus difficile
russir avec des RBF ou des ondelettes quavec des rseaux de sigmodes. Il faut mettre en uvre une stra-
tgie plus labore, dcrite en dtail dans [OUSSAR 2000] : on prpare une bibliothque dondelettes
ou de RBF, cest--dire un ensemble dun grand nombre de ces fonctions, et lon applique une mthode
de slection analogue aux mthodes de slection des variables dcrites plus haut. On effectue ensuite
lapprentissage en donnant aux paramtres les valeurs des paramtres des ondelettes, ou des RBF, qui ont
t slectionnes.

Comment tester un algorithme dapprentissage : le problme matre-lve

Lexprience dannes denseignement et de recherche montre quil est trs facile dcrire un algorithme
dapprentissage faux, ou un programme dapprentissage bogu , qui converge nanmoins, parfois trs
lentement, et aboutit un modle qui nest pas compltement ridicule. Les erreurs algorithmiques ou de
programmation peuvent alors passer inaperues si lon ne fait pas preuve de vigilance. Il est donc impor-
tant de tester la validit dune procdure dapprentissage que lon a crite soi-mme, ou tlcharge
gratuitement sur le Web.
cet effet, la mthode suivante (souvent appele problme matre-lve ) est commode et simple
mettre en uvre. On cre un rseau de neurones, le rseau matre , dont les paramtres sont arbitraires,
mais fixs et connus (par exemple, tirs au hasard, une fois pour toutes, dans une distribution uniforme
entre 4 et +4). On utilise ce rseau pour crer une base dapprentissage, aussi grande que lon veut, en
lui prsentant des variables alatoires (par exemple, tires dans une distribution uniforme entre 1 et +1)
et en calculant les sorties correspondantes. On utilise cette base pour faire lapprentissage dun second
rseau (le rseau lve ) qui a le mme nombre de variables et le mme nombre de neurones cachs
que le rseau matre. Si lalgorithme dapprentissage et le programme sont corrects, on doit retrouver les
paramtres du rseau matre avec une prcision correspondant aux seules erreurs darrondi (typiquement,
lerreur quadratique moyenne est de lordre de 1030, et chaque paramtre du rseau lve est gal au para-
mtre correspondant du rseau matre, aux erreurs darrondi prs). Si ce nest pas le cas, lalgorithme
dapprentissage, et/ou sa programmation, doivent gnralement tre mis en cause.

Remarque
La structure du rseau lve obtenu est identique celle du rseau matre une permutation prs pour les neurones cachs. Cest une
consquence du thorme dunicit [SONTAG 1993].

Deux problmes tests :


Problme 1 : un rseau 8 variables, 6 neurones cachs et une sortie est cr en tirant des paramtres
uniformment dans lintervalle [20, +20]. Un ensemble dapprentissage et un ensemble de test de
1 500 exemples chacun sont crs en tirant des entres uniformment dans [1, +1]. Un rseau de mme
structure est entran de la manire suivante : initialisation des paramtres uniformment dans [0,6,
+0,6], calcul du gradient par rtropropagation, minimisation de la fonction de cot par Levenberg-
Marquardt. Le rseau matre est retrouv exactement (EQMA et EQMT de lordre de1031) dans 96 %
des cas ( lissue de 48 apprentissages sur 50 effectus avec des initialisations diffrentes).
Problme 2 : un rseau 10 variables, 5 neurones cachs et une sortie est cr en tirant des paramtres
uniformment dans [1, +1] ; un ensemble dapprentissage et un ensemble de test sont crs en tirant
des variables alatoirement suivant une loi normale ; lapprentissage est effectu comme dans lexemple
prcdent. Le taux de russite est de 96 % pour un ensemble dapprentissage de 400 lments, de 100 %
pour un ensemble dapprentissage de 2000 exemples.
Lapprentissage statistique
136

Remarque
Pour les mmes problmes, le taux de russite est strictement nul si lon utilise lalgorithme du gradient simple ou du gradient stochastique
(dcrit dans la section suivante), avec ou sans terme de moment.

Il faut noter que le problme matre-lve est difficile pour certaines architectures en raison dun grand
nombre de minima locaux. Cest pourquoi il est recommand de tester tout algorithme ou procdure
dapprentissage sur les architectures que lon vient de mentionner.
En rsum
Rsumons ici la dmarche quil convient dadopter pour lapprentissage dun rseau non boucl, dont on
a fix le nombre de variables, ainsi que le nombre de neurones cachs :
initialiser les paramtres selon la mthode indique dans le paragraphe prcdent ;
calculer le gradient de la fonction de cot par lalgorithme de rtropropagation ;
modifier les paramtres par une mthode de minimisation (gradient simple, BFGS, Levenberg-
Marquardt, gradient conjugu...) ;
si un nombre maximal ditrations (ou poques) a t atteint, ou si la variation du module du vecteur des
poids est infrieure une limite fixe, ou si la variation du module du gradient est infrieure une limite
fixe (lalgorithme nvolue plus), ou encore si le module du gradient de la fonction de cot est infrieur
une valeur fixe (on est arriv un minimum ou dans un voisinage trs proche), arrter la procdure ;
sinon, reprendre le calcul du gradient et effectuer une nouvelle itration.

Apprentissage adaptatif de modles non linaires


par rapport leurs paramtres
Les mthodes qui ont t introduites au paragraphe prcdent cherchent optimiser la fonction de cot
des moindres carrs, en supposant que toutes les donnes dapprentissage soient disponibles au moment
de lentreprendre ; on peut donc valuer le gradient du cot total en effectuant la somme des fonctions de
perte pour chaque exemple.
Lapprentissage adaptatif, abord dans cette section, consiste effectuer les modifications des paramtres
en fonction du gradient de la fonction de perte relative chaque exemple (gradient qui est obtenu, comme
le cot total, par rtropropagation), de sorte quil soit possible deffectuer lapprentissage au fur et
mesure que les donnes deviennent disponibles. Une telle procdure est souvent utile pour affiner les
paramtres dun modle en cours dutilisation, aprs un apprentissage initial non adaptatif. Ces mthodes
sont traites en dtail au chapitre 4.
La technique de modification adaptative des paramtres la plus largement utilise est celle du gradient
stochastique, qui consiste modifier les paramtres proportionnellement au gradient de la fonction de
perte :

w k +1 = w k k J k w k( )
o wk dsigne la valeur du vecteur des paramtres aprs litration k, cest--dire aprs prsentation de
lexemple k et modification correspondante des coefficients. Pour lapprentissage adaptatif des modles
linaires, cet algorithme est appel algorithme LMS .
Certains rsultats empiriques suggrent que la mthode du gradient stochastique permet dviter les
minima locaux. Il ny a aucun lment thorique qui appuie cette affirmation.
Une autre technique, inspire notamment du filtrage adaptatif, a t utilise pour lapprentissage adaptatif des
rseaux de neurones : le filtre de Kalman tendu [PUSKORIUS 1994]. Elle est plus efficace que le gradient
Les rseaux de neurones
137
CHAPITRE 2

stochastique en termes de vitesse de convergence, mais elle est beaucoup plus lourde en termes de nombre
doprations par itration. Cette approche est prsente en dtail au chapitre 4 du prsent ouvrage.

Apprentissage avec rgularisation


Comme indiqu dans le chapitre 1, lobjectif recherch dans la modlisation bote noire est lobten-
tion dun modle qui soit suffisamment complexe pour apprendre les donnes, mais qui ne souffre pas de
surajustement, cest--dire qui ne sadapte pas au bruit. Deux grands types de mthodes sont utiliss pour
atteindre cet objectif :
des mthodes passives : on effectue lapprentissage de plusieurs modles de complexits diffrentes,
comme indiqu plus haut, et lon procde ensuite une slection parmi les modles ainsi conus, afin
dliminer ceux qui sont susceptibles dtre surajusts ; dans ce but, on utilise des techniques de valida-
tion croise ou des tests statistiques, qui feront lobjet de la section suivante ;
des mthodes actives : on effectue lapprentissage de manire viter de crer des modles surajusts,
sans chercher contrler la complexit du rseau, mais en sefforant de limiter lamplitude des
paramtres ; on utilise, pour ce faire, des mthodes de rgularisation [TIKHONOV 1977] [POGGIO 1985],
qui constituent lobjet de la prsente section.
Ces dernires mthodes sont importantes lorsquon est oblig dutiliser de grands rseaux, ce qui peut tre le
cas en classification : la reprsentation des objets peut comporter de nombreuses variables, notamment si lon
utilise une reprsentation de bas niveau pour une image (par exemple, lintensit de ses pixels) ; cest galement
le cas pour des problmes de classification en bio-informatique. En effet, le nombre de paramtres ne peut
videmment tre infrieur au nombre de variables du rseau : le nombre de paramtres est minimal lorsque le
rseau ne comprend quun neurone. La seule mthode qui permette de limiter le surajustement consiste alors
limiter lamplitude des paramtres du rseau. On montre mme dans [BARTLETT 1997] que, si un grand rseau
est utilis, et si lalgorithme dapprentissage trouve une erreur quadratique moyenne faible avec des poids de
valeurs absolues faibles, alors les performances en gnralisation dpendent de la norme des poids plutt que
de leur nombre. titre dillustration, la figure 2-41 montre lvolution du module du vecteur des paramtres w
en fonction de la complexit du modle polynomial, pour le problme de modlisation tudi dans le chapitre
1, section Un exemple de modlisation pour la prdiction : on observe une croissance exponentielle de la
norme du vecteur des paramtres, qui est corrle au surajustement.
On peut distinguer deux familles de mthodes de 4,5
rgularisation : 4
larrt prmatur (early stopping) qui consiste 3,5
arrter lapprentissage avant la convergence ; 4
les mthodes de pnalisation, qui consistent ajouter 2,5
( )

un terme la fonction de cot usuelle afin de favo-


log w

2
riser les fonctions rgulires. La fonction mini-
1,5
miser est alors de la forme : J = J +  , o J est,
1
par exemple, la fonction de cot des moindres carrs.
0,5
La fonction la plus largement utilise est celle qui
0
pnalise les modles ayant des paramtres levs :
= wi (mthode de modration des poids
2
-0,5
0 2 4 6 8 10 12 14
i Degr du polynme
ou weight decay ).
Figure 2-41. volution exponentielle du module
Notons galement que les machines vecteurs du vecteur des paramtres en fonction
supports, dcrites en dtail dans le chapitre 6, doivent de la complexit de modles polynomiaux
leur efficacit au fait quelles contiennent intrinsque-
ment un processus de rgularisation.
Lapprentissage statistique
138

Arrt prmatur
Principe
Comme dans la section prcdente, lapprentissage consiste minimiser, grce un algorithme itratif,
une fonction de cot calcule sur la base dapprentissage, par exemple la fonction de cot des moindres
carrs. La diffrence avec lapprentissage sans rgularisation rside dans le critre darrt de
lapprentissage : on arrte celui-ci prmaturment, cest--dire avant convergence complte de lalgo-
rithme. Ainsi, le modle ne sajuste pas trop finement aux donnes dapprentissage : le surajustement est
limit. La difficult rside alors videmment dans la dtermination du moment o arrter lapprentissage.
La mthode la plus classique consiste suivre lvolution de la fonction de cot sur une base de valida-
tion, et arrter les itrations lorsque le cot calcul sur cette base commence crotre.
Exemple (tir de [STRICKER 2000])
Il sagit dun problme de classification deux classes ; comme indiqu dans le chapitre 1, on dsire que
la sortie du rseau soit +1 pour tous les lments de lune des classes (classe A), et 0 pour tous les
lments de lautre classe (classe B). Aprs apprentissage, la sortie est une estimation de la probabilit
dappartenance de lobjet inconnu la classe A. Dans ce problme, lespace de description est un espace
deux dimensions, et les exemples sont tirs de deux distributions qui se recouvrent partiellement,
comme indiqu sur la figure 2-42.
Dans cet exemple acadmique, les distributions sont connues a priori : il est donc possible de calculer, par
la formule de Bayes, la probabilit dappartenance dun objet dcrit par les coordonnes (x, y) la classe
A, comme indiqu au chapitre 1 ; la figure 2-43 montre les probabilits a posteriori dappartenance la
classe A, calcules par la formule de Bayes.

1 1
0,8
)

0
Pr A x,y

-1
0,6
0,4
(

-2
0,2
-3
-4 -3 -2 -1 0 1 2 3 4 0
Figure 2-42. Les exemples de la classe A 5
5
(cercles) sont tirs dune distribution 0
de probabilit qui est le produit de deux 0
distributions gaussiennes selon x et y ;
y x
-5 -5
la distribution selon x est une gaussienne
centre en 1, dcart-type 1, et la distribu- Figure 2-43. Probabilit dappartenance la classe A calcule
tion selon y est une gaussienne centre en 1 et par la formule de Bayes
dcart-type 0,5. Les exemples de la classe B
(croix) sont tirs dune distribution
de probabilit qui est le produit de deux
distributions de probabilit selon x et y ;
la distribution selon x est la somme de deux
gaussiennes dcart-type 0,5, centres en 2
et 1.
Les rseaux de neurones
139
CHAPITRE 2

Lapprentissage est effectu laide de 500 points. La figure 2-44 montre les probabilits a posteriori esti-
mes par un rseau 2 neurones cachs et par un rseau 10 neurones cachs.

1 1
0,8 0,8

)
)

Pr A x,y
Pr A x,y

0,6 0,6
0,4 0,4

(
(

0,2 0,2
0 0
4
4 4
0 0 0
0
x -4 -4 y x y
-4 -4

Figure 2-44. Probabilits a posteriori estimes par un rseau 2 neurones cachs ( gauche) et par un rseau 10 neurones
cachs ( droite)

On constate que le rsultat obtenu avec un rseau 2 neurones cachs est trs proche de la surface tho-
rique reprsente sur la figure 2-43, alors que la surface obtenue avec 10 neurones cachs est quasi
binaire : dans la zone de recouvrement entre les classes, une trs petite variation de lun des descripteurs
x ou y entrane une brusque variation de la probabilit dappartenance. Le rseau 10 neurones cachs est
donc exagrment spcialis sur les exemples proches de la zone de recouvrement : il est surajust.
Ces variations sont trs caractristiques des rseaux dont les paramtres sont suffisamment grands pour
que les sigmodes des neurones cachs soient toujours dans leurs zones satures , comme illustr sur
la figure 2-45.

0,8

0,6

0,4
Erreur sur la base de validation

0,2
0,25
th(wx)

0 2 NC
0,20 5 NC
-0,2 10 NC
0,15
-0,4 0,10
-0,6 0,05

-0,8 w=1 w=5 w=100 0


0 50 100 150 200 250 300
-1 Nombre ditrations de lalgorithme dapprentissage
-3 -2 -1 0 1 2 3
x Figure 2-46. Erreur sur la base de validation
Figure 2-45. Sortie dun neurone une variable x durant lapprentissage

Lvolution de lerreur quadratique moyenne sur la base de validation de 300 exemples, en fonction du
nombre ditrations de lapprentissage, est reprsente sur la figure 2-46, pour divers nombres de
Lapprentissage statistique
140

neurones cachs. On voit quil est difficile de savoir exactement o il faut arrter lapprentissage, car
lerreur porte pour lessentiel sur les exemples qui sont proches de la surface de sparation entre les
classes, ce qui correspond un nombre relativement petit de points.
Cette mthode est donc malaise appliquer, notamment pour les problmes de classification. Cest pour-
quoi lon prfre souvent mettre en uvre des mthodes de rgularisation par pnalisation des paramtres
de fortes valeurs ; il a t prouv thoriquement [SJBERG 1995] que larrt prmatur est quivalent
lintroduction dun terme de pnalisation dans la fonction de cot.
Rgularisation par modration des poids (weight decay)
Pendant lapprentissage, certains paramtres des rseaux 5 et 10 neurones cachs augmentent et finis-
sent par atteindre des valeurs trs leves, exactement comme dans le cas de la rgression polynomiale
illustr par la figure 2-41. Ce nest pas le cas pour le rseau deux neurones cachs.
La mthode de rgularisation par modration des poids a prcisment pour objectif dempcher les para-
mtres de prendre des valeurs exagres, en minimisant, pendant lapprentissage, une fonction de cot J
qui est la somme de la fonction de cot des moindres carrs J (ou de tout autre fonction de cot, telle que
lentropie croise qui est introduite dans le chapitre 1) et dun terme de rgularisation proportionnel la
p
somme des carrs des paramtres : J = J + wi2, o p est le nombre de paramtres du rseau, et est
2 i =1
un hyperparamtre dont la valeur doit tre dtermine par un compromis : si est trop grand, la minimisa-
tion tend faire diminuer les valeurs des paramtres sans se proccuper de lerreur de modlisation ;
linverse, si est trop petit, le terme de rgularisation a trs peu deffet sur lapprentissage, donc le sura-
justement risque dapparatre.
Le principe de la mise en uvre de la mthode est trs simple. On calcule le gradient de la fonction de
cot J par rtropropagation, puis on lui ajoute la contribution du terme de rgularisation :
J = J + w .
Il faut noter nanmoins que tous les paramtres du rseau nont pas le mme effet :
les paramtres de la premire couche de connexions (matrice W1 de la figure 2-3) dterminent la vitesse
de variation des sigmodes des neurones cachs, sauf les lments de W1 relatifs au biais, qui dtermi-
nent une translation horizontale des sigmodes des neurones cachs ;
les paramtres de la deuxime couche de connexions (vecteur w2 de la figure 2-3) dterminent
linfluence de chaque neurone cach sur la sortie, sauf les lments de w2 relatifs au biais, qui dtermi-
nent une translation verticale de la sortie du rseau.
Il est donc naturel dintroduire des hyperparamtres diffrents pour ces diffrents types de paramtres
[MCKAY 1992]. La fonction de cot devient alors :

0
J = J + wi2 + 21 wi2 + 22 wi2,
2 W0 W1 W2

o W0 reprsente lensemble des paramtres des biais des neurones cachs, o W1 reprsente lensemble
des paramtres relatifs aux variables des neurones cachs lexception des biais, et W3 lensemble des
paramtres relatifs aux variables du neurone de sortie (y compris le biais de celui-ci). Il convient donc de
dterminer les valeurs des trois hyperparamtres 0, 1, 2. Dans ce but, [MCKAY 1992] propose une
dmarche fonde statistiquement dune manire solide, mais qui repose sur de nombreuses hypothses et
conduit des calculs lourds. En pratique, il apparat que les valeurs de ces hyperparamtres ne sont pas
critiques ; une dmarche heuristique, qui consiste effectuer plusieurs apprentissages avec des valeurs
Les rseaux de neurones
141
CHAPITRE 2

diffrentes des paramtres, tester les modles obtenus sur un ensemble de donnes de validation, et
choisir le meilleur, est gnralement suffisante.

Exemple (extrait de [STRICKER 2000])

Voici un exemple de classification deux classes ; il sagit de dterminer, dans un ensemble de textes (les
dpches de lagence France-Presse), celles qui sont pertinentes pour un sujet donn. Cest donc un
problme deux classes (une dpche est soit pertinente, soit non pertinente), pour lequel on dispose
dune base de donnes tiquetes. La base dapprentissage est constitue de 1 400 exemples de dpches
pertinentes et de 8 000 dpches non pertinentes. On mesure la qualit du classement laide dun indice
F qui est calcul partir de la prcision du classifieur (pourcentage de documents rellement pertinents
dans lensemble des documents considrs comme pertinents par le classifieur) et de son taux de rappel
(pourcentage de documents considrs comme pertinents par le classifieur parmi les documents pertinents
prsents dans la base de donnes). La performance du classifieur est dautant meilleure que F est grand.

On considre un classifieur zro neurone cach, et un neurone de sortie fonction dactivation sigmode,
cest--dire un sparateur linaire. Il nest videmment pas possible de rduire le nombre de ses param-
tres tout en maintenant constant le nombre de ses variables : seules les mthodes de rgularisation peuvent
viter le surajustement. La figure 2-47 montre lvolution de F sur la base de test, lorsque aucune mthode
de rgularisation nest mise en uvre, en fonction des proportions des exemples pertinents et non perti-
nents dans la base dapprentissage. La figure 2-48 montre la norme du vecteur des paramtres w des
rseaux correspondants. On observe que les performances se dgradent, et que, corrlativement, la norme
des paramtres augmente lorsque le nombre dlments de la base dapprentissage diminue.

F sur la Norme du vecteur


base des paramtres
de test 6000

0,95 5000

4000
0,90
3000
0,85
2000
0,80
1000

0,75 0
8000 8000
6000 1500 6000 1500
4000 1000 4000 1000
2000 500 2000 500
Nombre de textes non pertinents 0 Nombre de textes pertinents Nombre de textes non pertinents Nombre de textes pertinents
0 0
dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage

Figure 2-47. Apprentissage sans rgularisation : Figure 2-48. Norme des paramtres en fonction
volution de lefficacit dun classifieur linaire du nombre de textes de la base dapprentissage
en fonction des proportions des exemples pertinents
et non pertinents dans la base dapprentissage

Avec les mmes bases dapprentissage et de test, on a effectu un apprentissage avec arrt prmatur. Les
rsultats (indice de performance F et norme des paramtres), prsents sur la figure 2-49, montrent que
les performances sont sensiblement amliores dans la zone o le nombre dexemples de la base
dapprentissage est faible, mais quelles sont dgrades dans la zone o les exemples sont nombreux
(F < 0,9), ce qui prouve que larrt de lapprentissage ne permet pas dexploiter au mieux les donnes
prsentes dans la base dapprentissage. La norme du vecteur des paramtres (non reprsente sur la
figure) est trs faible dans tout le domaine explor.
Lapprentissage statistique
142

F sur la
F sur la
base
base
de test
de test
1

0,95 0,95

0,90 0,90

0,85 0,85

0,80 0,80

0,75 0,75
8000 8000
6000 1500 6000 1500
4000 1000 4000 1000
2000 500 2000 500
Nombre de textes non pertinents 0 0 Nombre de textes pertinents Nombre de textes non pertinents 0 0 Nombre de textes pertinents
dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage

Figure 2-49. Apprentissage avec rgularisation par arrt Figure 2-50. Apprentissage avec rgularisation
prmatur : volution de lefficacit dun classifieur par modration des poids : volution de la norme
linaire en fonction des proportions des exemples des poids en fonction des proportions des exemples
pertinents et non pertinents dans la base dapprentissage pertinents et non pertinents dans la base dapprentissage

La mthode de modration des poids a galement t mise en uvre sur cet exemple, en utilisant deux
hyperparamtres : un pour le biais (b = 0,001) et un pour les connexions entre les entres et le neurone
de sortie (1 = 1). Les rsultats sont prsents sur la figure 2-50 ; on observe que, cette fois, les perfor-
mances sont nettement amliores dans la zone o le nombre dexemples est faible, et que, contrairement
au cas de larrt prmatur, elles restent satisfaisantes dans la zone o les exemples sont nombreux. Il faut
noter quaucun effort particulier na t fourni pour optimiser les hyperparamtres. Comme prcdem-
ment, la norme du vecteur des paramtres reste uniformment faible.
Remarque
On peut galement pnaliser les modles dont les sorties varient trop vite, en pnalisant les valeurs leves des drives [BISHOP 1993].

Conclusion sur lapprentissage de modles statiques


Dans cette section, on a distingu
lapprentissage des modles linaires par rapport leurs paramtres (prsent dans le chapitre 1) de
celui des modles non linaires par rapport aux paramtres ;
lapprentissage adaptatif de lapprentissage non adaptatif ;
lapprentissage sans rgularisation de lapprentissage avec rgularisation.
On a montr :
que lapprentissage des modles non linaires par rapport aux paramtres (tels que les rseaux de neurones)
ncessite des mthodes plus lourdes, mais rapides et bien matrises, que lapprentissage des modles
linaires en leurs paramtres : cest le prix payer pour bnficier de la proprit de parcimonie ;
que lapprentissage est gnralement effectu dune manire non adaptative, avec des algorithmes de
minimisation du second ordre qui sont performants ; si ncessaire, on peut ensuite mettre en uvre un
apprentissage adaptatif pour recaler le modle en tenant compte dventuelles drives lentes du
processus ;
quil est possible de limiter le surajustement en limitant lamplitude des paramtres du modle laide
dune mthode de pnalisation, mise en uvre durant lapprentissage ; cest surtout ncessaire lorsque
le nombre dexemples est petit.
Dans la section suivante, le problme du surajustement est abord sous langle de la slection de modle.
Les rseaux de neurones
143
CHAPITRE 2

Slection de modles
Dans le chapitre 1, le dilemme biais-variance et les mthodes de slection de modles dont il ncessite la
mise en uvre ont t dcrits en dtail. Les trois mthodes principales qui ont t prsentes validation
simple, validation croise et leave-one-out peuvent tre appliques directement lapprentissage des
rseaux de neurones comme lapprentissage des modles linaires. Nanmoins, les modles non
linaires en leurs paramtres ont une particularit quil faut prendre en considration : la fonction de cot
des moindres carrs prsente des minima locaux, de sorte que des initialisations diffrentes des param-
tres peuvent produire, en fin dapprentissage, des modles dont les performances sont diffrentes bien
quils aient la mme complexit.
Pour un modle non linaire par rapport ses paramtres, la problmatique de la slection de modle est
donc double :
parmi les modles de mme complexit, trouver celui qui ralise le meilleur compromis biais-variance ;
parmi les meilleurs modles de complexits diffrentes, de trouver celui qui ralise le meilleur
compromis biais-variance.
Toutes les techniques qui sont prsentes dans cette section ont pour objet, dune part, dliminer les
modles manifestement surajusts, et, dautre part, destimer lerreur de gnralisation des autres
modles, afin de choisir celui qui commet la plus petite erreur de gnralisation. On commencera donc,
en prliminaire, par montrer comment il est possible dliminer les modles manifestement surajusts.
Deux techniques de slection seront ensuite abordes :
une mthode globale de slection par estimation de lerreur de gnralisation : la validation croise ;
une mthode locale de slection qui permet destimer linfluence de chaque exemple sur le modle : la
mthode LOCL (Local Overfitting Control via Leverages), fonde sur la mthode des moindres carrs
locaux, qui fait appel notamment lestimation dintervalles de confiance pour les prdictions du
rseau.
Ces deux approches seront combines pour construire une mthodologie complte de conception de
modles non linaires.

Prliminaire : limination de modles surajusts par calcul du rang


de la matrice jacobienne
Justification
Dans la section du premier chapitre consacre lestimation des paramtres dun modle linaire par rapport
ses paramtres, on a introduit la matrice des observations. Chaque colonne de cette matrice correspond
une variable du modle : elle possde N lments, qui sont les valeurs prises par cette entre pour chacun des
N exemples. Pour un modle p variables, la matrice des observations est une matrice (N, p). Pour un
modle non linaire possdant un vecteur de p paramtres wmc, lquivalent de la matrice des observations
est la matrice jacobienne Z ; chaque colonne zi de cette matrice correspond un paramtre du rseau : elle
possde N lments, qui sont les valeurs prises par la drive partielle de la sortie par rapport au paramtre
g ( x, w )
considr : z i = --------------------- . Il est ais de vrifier que, pour un modle linaire par rapport ses para-
wi
w = w mc

mtres, la matrice jacobienne est identique la matrice des observations.


Chaque colonne de la matrice jacobienne exprime leffet de la variation dun paramtre sur la prdiction
du modle. Si la matrice jacobienne nest pas de rang plein (cest--dire si son rang nest pas gal p),
cela signifie que deux paramtres (au moins) ont sur la sortie des effets qui ne sont pas indpendants. Il
Lapprentissage statistique
144

existe donc, dans le modle, des paramtres redondants : le modle considr possde trop de paramtres,
donc une variance certainement trop grande. Un tel modle doit donc tre limin de lensemble des
modles candidats la slection. De plus, cette dficience du rang a un effet ngatif sur le droulement de
lapprentissage [SAARINEN 1993] [ZHOU 1998].
Calcul de la matrice jacobienne
Dans la section consacre lestimation des paramtres dun modle non linaire, on a vu que lon peut
facilement calculer, par rtropropagation, le gradient de la fonction de cot :

(
J y g ( x, w ) )
2
g ( x, w )
p

=
w
wi
(
= 2 y p g ( x, w ) ) wi
.
i
Si lerreur de modlisation yp g(x, w) vaut 1/2, le gradient de la fonction de cot est gal au gradient
de la prdiction du modle. Ainsi, la matrice jacobienne est aisment calcule par rtropropagation dune
erreur gale 1/2. Le temps supplmentaire ncessit par le calcul de la matrice jacobienne est donc
marginal, puisquil sagit dun calcul de rtropropagation effectu une seule fois par modle, la fin de
lapprentissage, alors que la rtropropagation est effectue lors de chaque itration de lapprentissage.

Approche globale de la slection de modles :


validation simple, validation croise et leave-one-out
Rappelons tout dabord que, comme indiqu et justifi en dtail dans le chapitre 1, on ne doit jamais
utiliser lerreur quadratique sur lensemble dapprentissage comme critre de slection de modles.
Validation simple
Comme indiqu dans le chapitre 1, la validation simple consiste utiliser une partie des donnes, appele
ensemble de validation, pour estimer lerreur de gnralisation des modles aprs apprentissage. Cela
suppose videmment que les donnes prsentes dans lensemble de validation sont bien reprsentatives de
lensemble des donnes. Pour cela, on utilise la distance de Kullback-Leibler [KULLBACK 1951]
[KULLBACK 1959], dj dfinie dans le chapitre 1, entre deux distributions de probabilit p1 et p2 :
+
p ( x)
D ( p1 , p2 ) = p1 ( x ) Log 1 dx .
p2 ( x )
Comme cette expression nest pas symtrique, on prfre utiliser la quantit

( p1 , p2 ) =
1
2
(
D p1 , p2 + D ( p2 , p1 ) .
)
On effectue donc plusieurs partitions alatoires de la base de donnes, et lon choisit, parmi ces partitions,
celle pour laquelle la distance de Kullback-Leibler entre la base dapprentissage et la base de validation
est la plus petite. Le tirage dun grand nombre de partitions et le calcul de la distance de Kullback-Leibler
tant beaucoup plus rapide quun apprentissage, on divise ainsi le temps de calcul par un facteur de lordre
de 5 par rapport une validation croise avec D = 5. Si lon fait lhypothse que les distributions sont deux
gaussiennes p1(1, 1) et p2(2, 2), la distance de Kullback-Leibler scrit :

( 2
+ 22 )
=
1

4 12 22
( )
12 22 + ( 1 2 )2 .

Les rseaux de neurones
145
CHAPITRE 2

On trouvera la dmonstration de cette relation dans les complments thoriques et algorithmiques en fin
de chapitre.
Cette heuristique se rvle trs utile pour une mise au point rapide dun premier modle ; elle peut tre
affine ensuite par une validation croise conventionnelle, ou par un leave-one-out virtuel .
Validation croise
La validation croise a t dcrite dans le chapitre 1. La slection de modles seffectue en partant du
modle le plus simple (modle zro neurone cach, cest--dire modle linaire), et en augmentant
progressivement la complexit des modles (pour des modles neuronaux : en augmentant le nombre de
neurones cachs).
Remarque
On pourrait aussi augmenter le nombre de couches de neurones cachs. Pour les problmes de modlisation, cela ne peut tre envisag
que dans une deuxime tape : une fois que lon a obtenu un modle satisfaisant avec une couche de neurones cachs, on peut, si le
temps disponible le permet, essayer damliorer un peu les performances en augmentant le nombre de couches caches, tout en dimi-
nuant le nombre de neurones par couche. Cette procdure apporte parfois une amlioration, gnralement marginale. En revanche, si lon
na pas obtenu de rsultats satisfaisants avec une couche cache, il est illusoire desprer en obtenir en augmentant le nombre de couches
caches.

Pour chaque famille de modles, on calcule le score de validation croise. Le surajustement se traduit par
une augmentation significative du score de validation croise. On arrte la procdure lorsque cette
augmentation apparat, et lon slectionne la complexit pour laquelle la plus petite EQMV a t obtenue.
On effectue alors lapprentissage dun modle de cette complexit laide de lensemble des donnes
disponibles (tout en laissant de ct des donnes destines au test de ce modle).
Leave-one-out
Rappelons que lestimation de lerreur de gnralisation par leave-one-out est un cas particulier de la vali-
dation croise, pour lequel D = N : litration k, on extrait lexemple k de lensemble dapprentissage,
on effectue des apprentissages (avec des initialisations diffrentes des paramtres) avec les N-1 lments
de la base dapprentissage. Pour chacun des modles obtenus, on calcule lerreur de prdiction commise
sur lobservation k lorsque celle-ci est extraite de lensemble dapprentissage, et lon retient la plus petite
1 N k 2
de ces erreurs, note rk k . On dfinit le score de leave-one-out Et = rk . On utilise ce score,
N k =1
( )
comme dans le cas de la validation croise, en augmentant progressivement la complexit des modles.
Cette technique a linconvnient dtre trs lourde en temps de calcul, mais on dmontre que le score de
validation croise est un estimateur non biais de lerreur de gnralisation [VAPNIK 1995].
Dans les sections suivantes, on prsente une autre technique, trs avantageuse, qui permet de diviser le
temps de calcul par un facteur N (le nombre dobservations disponibles). Elle est fonde sur lide que le
retrait dun exemple de lensemble dapprentissage ne doit pas beaucoup perturber le modle ; on peut
alors construire un modle localement linaire dans lespace des paramtres, ce qui permet de bnficier
des rsultats thoriques connus, relatifs aux modles linaires.

Moindres carrs locaux :


effet du retrait dun exemple sur le modle et leave-one-out virtuel
Dans le chapitre 1, on a montr que, pour un modle linaire, il est possible de prdire, de manire exacte,
leffet, sur un modle, du retrait dun exemple de lensemble dapprentissage ; on en a dduit lexpression
Lapprentissage statistique
146

de la statistique PRESS, qui est exactement le score que lon obtiendrait si lon faisait un leave-one-out
sur les donnes disponibles. Dans ce paragraphe, on montre comment tendre ce rsultat aux modles non
linaires, et calculer le score de leave-one-out virtuel sans avoir raliser un vrai leave-one-out, cest-
-dire en faisant un apprentissage avec toutes les donnes disponibles (en gardant toujours un ensemble
de test). On introduit galement le calcul des leviers des observations pour un modle non linaire.
Approximation locale de la mthode des moindres carrs
Considrons un modle g(x, w*) obtenu par minimisation de la fonction de cot des moindres carrs. Un
dveloppement du modle au premier ordre, dans lespace des paramtres, au voisinage de w*, scrit

g ( x, w ) g ( x, w *) + Z ( w w *)

o Z est la matrice jacobienne du modle, dfinie plus haut. Ce modle est linaire par rapport ses para-
mtres w, et la matrice Z joue exactement le rle de la matrice des observations.
Pour tablir une approximation locale de la solution des moindres carrs wmc, il faut obtenir une approxi-
mation, au premier ordre en w wmc, du gradient de la fonction de cot des moindres carrs ; pour cela, il
faut partir dune approximation du second ordre de cette fonction de cot, donc, dune approximation du
second ordre du modle ([MONARI 2000] ; le mme rsultat est tabli dans [SEBER 1989], mais avec une
dmonstration incorrecte) On obtient alors une approximation de la solution des moindres carrs wmc :

( )
1
wmc w * + ZT Z ZT y p g ( x, w *) .
Ce rsultat est approch dans le cas dun modle non linaire, et il est exact dans le cas dun modle
linaire.
En effet, dans le cas dun modle linaire, Z est la matrice des observations, et g(x, w*) = Z w*. La rela-
tion prcdente devient alors

( ) ( )
1 1
wmc w * + ZT Z ZT y p ZT Z ZT g ( x, w *)

= w * + ( Z Z) ( Z Z) ( )
1 1 1
T
ZT y p T
ZT Zw* = ZT Z ZT y p

ce qui est le rsultat exact, dmontr dans le chapitre 1, section Apprentissage de modles linaires en
leurs paramtres .

Effet du retrait dun exemple sur le modle


Estimons prsent leffet, sur les prdictions dun modle, du retrait dun exemple de lensemble
dapprentissage. On utilise une convention de notation dj introduite dans le chapitre 1 : les quantits
relatives un modle qui a t construit en ayant extrait lexemple k de lensemble dapprentissage sont
dotes de lindice suprieur k ; les grandeurs qui nont pas dindice suprieur sont relatives un modle
dont lapprentissage a t effectu avec lensemble des donnes disponibles.
Effet du retrait dun exemple sur sa prdiction : le leave-one-out virtuel
Si lon suppose que le retrait de lexemple k produit un petit effet sur la solution des moindres carrs, on
peut utiliser la relation tablie au paragraphe prcdent pour dterminer lexpression du vecteur des para-
mtres du modle dont lapprentissage est effectu avec lensemble incomplet (priv de lexemple k), en
fonction du vecteur des paramtres du modle entran avec lensemble de toutes les donnes :
Les rseaux de neurones
147
CHAPITRE 2

( ) rk
k 1
wmc wmc ZT Z zk
1 hkk

o zk est le vecteur dont les composantes sont la k-ime ligne de la matrice jacobienne Z, rk est lerreur de
prdiction (ou rsidu) sur lexemple k lorsque celui-ci fait partie de lensemble dapprentissage :

rk = y p g ( xk , wmc ),

( )( )
T 1
et o hkk = z k ZT Z z k est le levier de lexemple k [LAWRANCE 1995]. Gomtriquement, hkk est la
composante k de la projection, sur le sous-espace des solutions, du vecteur unitaire port par laxe k.
Rappelons (voir chapitre 1) que les leviers sont compris entre 0 et 1, et que leur somme est gale au
nombre de paramtres du modle.
Une procdure numrique efficace de calcul des leviers est prsente dans les complments thoriques et
algorithmiques la fin de ce chapitre.
La mthode du leave-one-out virtuel est une consquence des rsultats prcdents : on dmontre que
lerreur de prdiction commise sur lexemple k, lorsque celui-ci est retir de lensemble dapprentissage,
peut tre estime simplement partir de lerreur de prdiction commise sur ce mme exemple, sil est
dans lensemble dapprentissage :

rk .
rk k =
1 hkk
Comme indiqu dans le chapitre 1, ce rsultat est exact pour un modle linaire, (PRESS, voir par
exemple [ANTONIADIS 1992]), et il est approch pour un modle non linaire.

Remarque
Une approche analogue a t propose dans [HANSEN 1996] pour les modles dont lapprentissage est effectu avec rgularisation.

Illustrons cette mthode sur un exemple acadmique : un ensemble de 50 points dapprentissage est cr
en ajoutant la fonction sinx/x un bruit gaussien de moyenne nulle et de variance 102.

Ensemble dapprentissage
0,3
1 Intervalle de confiance 95 %
Prdiction du modle
0,5
rk k

0 - 0,3 0 0,3

Figure 2-51. Ensemble dapprentissage, prdiction


dun modle 2 neurones cachs et intervalle de confiance
de celle-ci - 0,3

rk
Figure 2-52. Prcision de lestimation des rsidus
par leave-one-out virtuel 1 hkk
Lapprentissage statistique
148

La figure 2-51 reprsente les points de lensemble dapprentissage et la prdiction dun modle
deux neurones cachs. Une procdure conventionnelle de leave-one-out, dcrite au paragraphe prcdent,
a t effectue, fournissant ainsi les valeurs des quantits rk k prsentes en ordonne de la figure 2-52, et
la formule prcdente a t applique, fournissant les valeurs prsentes en abscisse. Le fait que tous les
points soient aligns sur la bissectrice du graphe montre que lapproximation est trs prcise.
On peut donc, dune faon trs avantageuse en temps de calcul, remplacer le score de leave-one-out Et,
qui a t dfini plus haut

(
1 N ( k )
rk )
2
Et =
N k =1

par le score de leave-one-out virtuel Ep


2
1 N rk
Ep =
N k =1 1 hkk

qui constitue une trs bonne approximation de lerreur de gnralisation. Cette quantit est un lment
essentiel de la procdure de slection de modles qui sera expose dans la section suivante : elle fournit
une estimation de lerreur de gnralisation, au prix dun temps de calcul qui est N fois plus petit que la
procdure traditionnelle de leave-one-out, puisque lapprentissage est effectu une seule fois, avec tous
les exemples disponibles, au lieu de ltre N fois avec N-1 exemples.
Effet du retrait dun exemple sur lintervalle de confiance pour sa prdiction
Dans [SEBER 1989], un intervalle de confiance approch est propos pour un modle non linaire, avec
une confiance 1 :

(
EY p ( x ) g ( x, wmc ) tN p s z T ZT Z )
1
z

o tN p est la valeur dune variable de Student N-p degrs de libert et un niveau de confiance 1 , et
s est une estimation de la variance de lerreur de prdiction du modle. La figure 2-51 reprsente linter-
valle de confiance calcul par cette formule, en tous points de lintervalle considr.

Remarque
Il est possible de dnir de nombreux intervalles de conance pour des modles non linaires [TIBSHIRANI 1996], que lon peut soit calculer
analytiquement, soit estimer laide de mthodes de r-chantillonnage, telles que celles qui sont dcrites dans le chapitre 3 de cet
ouvrage. Les intervalles de conance utiliss dans le prsent chapitre ont lavantage de mettre en uvre les mmes quantits que celles
qui permettent de prdire le score de leave-one-out.

Pour lobservation k de lensemble dapprentissage, cet intervalle de confiance peut scrire :

(
EY p ( x ) g ( x, wmc ) tN p s z T ZT Z ) z = g ( x, wmc ) tN p s hkk .
1

On voit ainsi que les intervalles de confiance sur les prdictions du modle font intervenir les mmes
quantits hkk que la prdiction du retrait dun exemple sur lerreur de prdiction du modle. Cela nest pas
surprenant car les deux groupes de relations proviennent du mme dveloppement de Taylor du modle
dans lespace des paramtres.
Les rseaux de neurones
149
CHAPITRE 2

Comme dans le cas prcdent, il est possible destimer lintervalle de confiance sur la prdiction dun
exemple extrait de lensemble dapprentissage : tant donn un vecteur de variables xk, lintervalle de
confiance approch sur la prdiction de cet exemple est donn par ([SEBER 1989])

hkk
EY pk ( x ) g ( x, wmc ) tN p s k .
1 hkk

On peut en gnral approcher s-k par s.

Interprtation des leviers


Rappelons (voir chapitre 1) que le levier dun exemple peut tre interprt comme la proportion des
degrs de libert du modle qui est mobilise pour sajuster cette observation.
Considrons quelques cas particuliers :
Si tous les leviers sont gaux, ils valent tous p/N, o p est le nombre de paramtres du modle et N le
nombre dexemples : chaque exemple mobilise une fraction p/N des paramtres du modle, et tous les
exemples ont la mme importance pour le modle ; un tel modle ne devrait pas prsenter de surajuste-
ment, puisquil ne sest spcialis sur aucun exemple particulier. On verra que cette remarque peut avan-
tageusement tre utilise pour la slection de modles.
Si un levier est nul, le modle ne consacre aucun degr de libert lexemple correspondant. Cela
sinterprte gomtriquement dune faon simple : rappelons que hkk est la composante k de la projec-
tion, sur le sous-espace des solutions, du vecteur unitaire port par laxe correspondant lexemple k
dans lespace des observations ; si cet axe est orthogonal au sous-espace des solutions, lexemple k na
aucune contribution la sortie du modle qui, rappelons-le, est dans le sous-espace des solutions; il na
donc aucune influence sur les paramtres du modle. Que cet exemple soit dans lensemble dappren-
tissage, ou quil en ait t extrait, la prdiction de cet exemple est donc entache de la mme erreur ;
rk
cest ce que lon vrifie sur la relation rk k = . Lintervalle de confiance sur cette prdiction est
1 hkk
nul. La prdiction du modle tant certainement gale lesprance mathmatique de la grandeur
modliser au point considr, le modle est parfait en ce point.

Remarque
Le fait que lintervalle de conance soit nul signie que lon est sr que la prdiction du modle en ce point est exacte. Ce nest pas contra-
dictoire avec le fait que lerreur de prdiction rk ne soit pas nulle. En effet, lerreur de prdiction est la diffrence entre la valeur mesure et
la valeur prdite : elle est due la fois lerreur de modlisation (diffrence entre la grandeur prdite et son esprance mathmatique
inconnue) et au bruit (diffrence entre la grandeur mesure et son esprance mathmatique inconnue). Si le modle est parfait, lerreur de
prdiction est due uniquement au bruit. On ne peut donc avoir un levier nul que si la famille de fonctions dans laquelle on cherche lapproxi-
mation de la rgression contient la fonction de rgression elle-mme.

Si un levier est trs proche de 1, le vecteur unitaire port par laxe correspondant lexemple k est trs
proche du sous-espace des solutions ; cet exemple est donc presque parfaitement appris, et il a une trs
grande influence sur les paramtres du modle. Lerreur de prdiction sur cet exemple est presque nulle
lorsque lexemple fait partie de lensemble dapprentissage, et elle est trs grande lorsque lexemple
nen fait pas partie. Le modle est donc exagrment ajust cet exemple. Lintervalle de confiance est
trs petit lorsque lexemple fait partie de lensemble dapprentissage, et il est trs grand lorsque
lexemple en est extrait.
Lapprentissage statistique
150

Mthodologie de slection de modle par combinaison de lapproche globale


et de lapproche locale
Supposons quun ensemble de variables pertinentes ait t dtermin selon les techniques dcrites dans la
section Slection des variables . Il faut prsent chercher le meilleur modle compte tenu des donnes
disponibles.
Rappelons que lon procde par augmentation progressive de la complexit du modle jusqu lappari-
tion du surajustement. Dans un souci de pdagogie, on spare ce processus de slection en deux tapes :
Pour une famille de fonctions de mme complexit, non linaires par rapport aux paramtres (par
exemple, des rseaux de neurones qui possdent le mme nombre de neurones cachs), on effectue
plusieurs apprentissages, utilisant la totalit des exemples disponibles ( lexception de lensemble de
test), avec des initialisations diffrentes des paramtres. On obtient ainsi plusieurs modles : il faut donc
effectuer un premier choix parmi ceux-ci, aprs avoir limin demble ceux pour lesquels la matrice
jacobienne nest pas de rang plein. Dans la section intitule Slection dun modle dans une famille de
modles de complexit donne , on indiquera comment effectuer ce choix.

Remarque
Pour un modle linaire par rapport aux paramtres, la premire tape est trs simple puisque la fonction de cot ne possde quun
minimum : on effectue un seul apprentissage.

Ayant effectu ce choix pour plusieurs familles de fonctions de complexits croissantes, on choisit le
meilleur modle, selon une procdure qui sera dcrite dans la section Choix de la complexit
optimale .
Slection dun modle dans une famille de modles de complexit donne : critres globaux
Pour une complexit de modle donne, plusieurs apprentissages sont effectus, et, lissue de chacun
deux, le rang de la matrice jacobienne du modle obtenu est valu. Si cette matrice nest pas de rang
plein, le modle doit tre limin, comme indiqu plus haut.
Il faut noter que, contrairement ce qui a parfois t publi, la valeur du nombre de conditionnement de
la matrice jacobienne ne doit pas tre utilis comme critre de comparaison entre modles. Ainsi, dans
[RIVALS 2000] [RIVALS 2004], les auteurs indiquent que les modles dont la matrice de conditionnement
est suprieure 108 doivent tre rejets. Dans [OUSSAR 2004], de nombreux contre-exemples montrent
quil ny a essentiellement aucun rapport entre le surajustement et le nombre de conditionnement de la
matrice jacobienne : des modles trs fortement surajusts peuvent avoir des nombres de conditionnement
infrieurs cette limite, et des modles dont le nombre de conditionnement est trs suprieur cette limite
peuvent ne pas prsenter de surajustement.

Remarque
Le fait de trouver, pour une complexit donne, que le minimum global de la fonction de cot correspond un modle dont la matrice jaco-
bienne nest pas de rang plein ne signie pas que tous les modles de mme complexit doivent tre limins : un minimum local peut fort
bien fournir un excellent modle mme si le minimum global fournit un modle surajust. On retrouve ici une ide analogue celle de larrt
prmatur, qui a t expose dans la section consacre la rgularisation : choisir un modle qui ne correspond pas au minimum global
de la fonction de cot peut constituer une forme de rgularisation.

Ayant effectu cette premire limination, il faut faire une slection parmi les modles restants. Dans ce
but, on met en uvre la technique du leave-one-out virtuel , dcrite plus haut. Rappelons la dfinition
du score de leave-one-out virtuel
Les rseaux de neurones
151
CHAPITRE 2

2
1 N rk .
Ep =
N k =1 1 hkk

Il doit tre compar lerreur quadratique moyenne sur lensemble dapprentissage (EQMA), dfinie plus
haut :

1 N
rk ( )
2
EA = .
N k =1

Rappelons galement que, dans la procdure de leave-one-out virtuel, lapprentissage est effectu partir
de tous les exemples disponibles, lexception des exemples de lensemble de test. Cest donc bien la
mme quantit N qui est prsente dans les relations prsentes ci-dessus pour Ep et EA.

Erreur de gnralisation et EQMA


Les leviers tant positifs et infrieurs 1, Ep est ncessairement plus grand que lEQMA ; plus un modle est surajust, cest--dire plus il
donne lieu des leviers voisins de 1, plus lestimation de lerreur de gnralisation est grande devant lEQMA, exactement comme prvu
par la thorie du dilemme biais-variance prsente dans le chapitre 1.

Cas des grands ensembles dapprentissage

N
Si tous les leviers sont gaux p/N, on a : E p = E . Ep et EA sont gaux dans la limite des grands ensembles dapprentissage pour
N p A
un modle sans surajustement, ce qui est normal puisque la diffrence entre lEQMA et lerreur de gnralisation est due au fait que le
nombre dlments de lensemble dapprentissage est ni : si lon disposait dun nombre inni dexemples, on pourrait connatre exacte-
ment la fonction de rgression.

Pour illustrer cela, considrons lexemple dun rseau 4 neurones cachs, dont lapprentissage est
effectu laide des exemples reprsents sur la figure 2-51. Cinq cents apprentissages ont t effectus,
avec des initialisations diffrentes des paramtres, en utilisant lalgorithme de Levenberg-Marquardt. La
figure 2-53 reprsente les rsultats obtenus, avec les conventions suivantes :
pour les modles dont la matrice jacobienne est de rang plein, chaque modle est reprsent par un point
dans un plan ; laxe des abscisses reprsente lEQMA, et laxe des ordonnes le score de leave-one-out
virtuel (estimation de lerreur de gnralisation du modle) ; notez lchelle logarithmique en
ordonnes ;
pour les modles dont la matrice jacobienne nest pas de rang plein, les points correspondants sont
reprsents en dessous du graphique prcdent, sur un axe figurant les EQMA de ces modles.
On remarque :
que la matrice jacobienne du modle dont lEQMA est la plus petite (modle qui a le mieux appris les
donnes ) nest pas de rang plein : ce modle est donc cart ;
que, dans cet exemple, 70 % des minima trouvs nont pas une matrice jacobienne de rang plein ;
que lestimation de lerreur de gnralisation varie de plusieurs ordres de grandeur, ce qui ncessite
lutilisation dune chelle logarithmique pour Ep. Les modles correspondant aux minima dont les
scores de leave-one-out virtuel sont levs sont trs spcialiss sur un ou quelques points, avec des
leviers trs voisins de 1.
Lapprentissage statistique
152

105
de leave-one-out virtuel Ep

104
(chelle logarithmique)

103
Score

102 Figure 2-53. Scores


de leave-one-out virtuels
10 de cinq cents modles diffrents

10-1
0,075 0,080 0,085 0,09 0,095 0,1 0,105 0,110
Rang(Z) < p

La figure 2-54 montre les prdictions des modles qui ont la plus petite valeur de EA et la plus petite valeur
de Ep (reprsentes respectivement par un cercle gris et par un triangle gris sur la figure 2-53). On
remarque que le modle correspondant au minimum de EA fournit une prdiction plus irrgulire que
le modle correspondant au minimum de Ep. Ce dernier est donc plus satisfaisant ; il faut noter cependant
quil est le modle le plus satisfaisant trouv dans la famille des rseaux 4 neurones cachs. Pour
terminer la slection, il reste comparer ce modle aux meilleurs modles trouvs pour des complexits
diffrentes.

1,5

0,5 Figure 2-54. Prdictions


de deux modles quatre
neurones cachs : modle
correspondant au minimum
0 de lEQMA (trait plein)
et modle correspondant
au minimum du score de leave-
-0,5 one-out virtuel (trait pointill)

La figure 2-55 reprsente les scores de leave-one-out virtuel et les EQMA des meilleurs rseaux, trouvs
par cette procdure, pour des complexits croissantes partir dun rseau 0 neurone cach (modle
linaire) jusqu un modle 5 neurones cachs. titre indicatif, on a port aussi, sur ce graphe, lcart-
type du bruit. On note que, comme attendu, lEQMA diminue lorsquon augmente le nombre de neurones
cachs, tandis que le score de leave-one-out virtuel passe par un minimum et augmente lorsque la
complexit du rseau crot. Nanmoins, le choix entre les architectures 2, 3 et 4 neurones cachs nest
pas vident, dans la mesure o les scores de leave-one-out virtuel sont peu diffrents. Le paragraphe
suivant est consacr ce problme : celui du choix de la complexit optimale.
Remarque
partir de 3 neurones cachs, lEQMA passe au-dessous de lcart-type du bruit ; on peut donc en dduire que les modles possdant
plus de 3 neurones cachs sont surajusts. Cela ne peut nanmoins pas tre considr comme un critre pratique de slection sauf si
lcart-type du bruit est connu.
Les rseaux de neurones
153
CHAPITRE 2

0,3

EQMA
0,25

Ep
0,20

cart-type du bruit
0,15

0,10

0,05
0 NC 1 NC 2 NC 3 NC 4 NC 5 NC
Nombre de neurones cachs
Figure 2-55. volution de lEQMA et du score de leave-one-out virtuel en fonction du nombre de neurones cachs

Choix de la complexit optimale : critres locaux (mthode LOCL)


On vient de voir comment, grce un critre global tel que le score de leave-one-out virtuel, on peut
choisir, pour une complexit donne, le modle le moins susceptible de prsenter un surajustement. On a
vu galement, par lexemple prcdent, que ce critre global ne permet pas toujours de diffrencier des
modles de complexits diffrentes. On met alors en uvre la mthode LOCL (Local Overfitting Control
via Leverages), fonde sur les valeurs locales des leviers [MONARI 2002].
En effet, on a indiqu plus haut quun modle qui est galement influenc par tous les exemples ne
comporte quun risque trs faible dtre surajust. Par ailleurs, on a vu que, dans ce cas, tous les leviers
sont gaux p/N. En consquence, pour des modles de complexits diffrentes ayant des scores de leave-
one-out virtuel quivalents, on prfrera le modle dont la distribution des leviers est la plus troite autour
de p/N, sauf si, pour des raisons spcifiques lies au processus tudi, on considre quil est important que
le modle soit bien ajust un ou plusieurs exemples particuliers.
Reprenons lexemple considr prcdemment : la figure 2-56 montre la prdiction obtenue avec les
meilleurs modles trouvs, respectivement 2 neurones cachs et 4 neurones cachs. On a port, sur les
mmes graphes, les intervalles de confiance 95 % pour les prdictions de ces modles.

Ensemble d apprentissage Ensemble d apprentissage


Intervalle de confiance 95 % Intervalle de confiance 95 %
Sortie du modle Prdiction du modle
0,5 (2 neurones cachs) 0,5 (4 neurones cachs)

0 0
3 8 3 8 13
-0,5 -0,5

Figure 2-56. Prdictions et intervalles de confiance : modles 2 et 4 neurones cachs


Lapprentissage statistique
154

On observe que lintervalle de confiance pour le modle 2 neurones cachs est peu prs uniforme sur
tout le domaine dapprentissage, alors que, pour le modle 4 neurones cachs, lintervalle de confiance
est important dans la rgion [8, 12], o une oscillation de la sortie du modle est observe, dont on nest
pas sr quelle soit significative. Si lon considre la distribution des leviers, reprsente sur la figure 2-
57, on observe une plus grande dispersion de ces derniers pour le modle 4 neurones cachs (traits
griss) que pour le modle 2 neurones cachs (traits noirs).

40
35 p/N
Nombre dexemples

30
25 2 neurones cachs
20 4 neurones cachs
15
10
5
0
0,1 0,3 0,5 0,7 0,9
Leviers
Figure 2-57. Histogramme des leviers pour des modles 2 et 4 neurones cachs

On peut caractriser commodment la distribution des leviers de deux manires diffrentes.


On peut utiliser considre la quantit dfinie par :

1 N N
= hkk .
N k =1 p
Cette quantit est toujours infrieure 1, et elle vaut 1 si et seulement si tous les leviers sont gaux
p/N.
Elle constitue donc un paramtre normalis qui caractrise la distribution des leviers : plus est proche
de 1, plus la distribution des leviers est troite autour de p/N. Ainsi, parmi les modles de complexits
diffrentes ayant des scores de leave-one-out virtuel du mme ordre de grandeur, on choisira celui qui
possde le paramtre le plus voisin de 1.
On peut galement caractriser la distribution des leviers par son cart-type normalis
2
p
N
N
n =
p ( N p ) k =1
hkk
N

qui vaut zro si tous les leviers sont gaux p/N, et qui vaut 1 dans le pire cas de surapprentissage, cest-
-dire si p leviers sont gaux 1 et les (p N) autres leviers sont gaux zro. Ainsi, un modle est
dautant plus satisfaisant que n est petit.
titre dillustration, la figure 2-58 prsente un modle une variable dont lapprentissage a t effectu
partir des points obtenus en ajoutant un bruit uniforme dcart-type gal 0,1 la courbe reprsente en
trait fin. On observe que les leviers ont une distribution assez peu disperse si lon fait abstraction des
points qui sont aux frontires du domaine, qui ont invitablement une grande importance dans un modle
une variable ; 3 leviers sont suprieurs 0,95 ; de plus, = 0,984 et n = 0,38.
Les rseaux de neurones
155
CHAPITRE 2

2 2
Modle et fonction de rgression

Modle et fonction de rgression


1,5 1,5

1 1

0,5 0,5

0 0

-0,5 -0,5

-1 -1

-1,5 -1,5
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
1 1
0,8 0,8
Leviers

0,6
Leviers

0,6
0,4 0,4
0,2 0,2
0 0
0 1 2 3 4 5 6 7
0 1 2 3 4 5 6 7
x x
Figure 2-58. Modle, fonction de rgression et leviers Figure 2-59. Modle, fonction de rgression et leviers
pour un modle non surajust pour un modle surajust

partir du mme ensemble dapprentissage, on a obtenu un autre modle, reprsent sur la figure 2-59.
Ce modle prsente clairement un fort surajustement pour 1 x 2. On observe que les leviers sont trs
levs pour ces valeurs de x, et que, pour ce modle, les leviers sont beaucoup plus disperss que dans
lexemple prcdent : on a en effet = 0,979 et n = 0,56.

14 14
12 12
p/N
/
10 10
p/N
8 8
6 6
4 4
2 2
0 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Figure 2-60. Histogrammes des leviers : gauche, pour le modle non surajust (figure 2-58) ;
droite, pour un modle surajust (figure 2-59)
Lapprentissage statistique
156

La figure 2-60 montre lhistogramme des leviers pour chacun des deux modles : la distribution des
leviers du premier est clairement plus troite, avec un pic pour p/N, que la distribution des leviers du
second modle.
Ces exemples montrent clairement que les leviers permettent de reprer localement les risques de surajus-
tement, et doivent donc contribuer la slection du meilleur modle et/ou la planification dexpriences
supplmentaires.
Que faire en pratique ?
Rsumons la dmarche de slection de modle qui vient dtre dcrite.
Raliser les oprations suivantes pour une complexit donne (si les modles sont des rseaux de
neurones : pour un nombre de neurones cachs donn) :
effectuer des apprentissages, avec toutes les donnes disponibles, pour des initialisations diffrentes des
paramtres du rseau ;
valuer le rang de la matrice jacobienne des modles ainsi trouvs et liminer ceux dont la matrice jaco-
bienne est de rang infrieur au nombre de paramtres ajustables du modle ;
pour chaque modle dont la matrice jacobienne est de rang plein, calculer son score de leave-one-out
virtuel et son paramtre n (ou son paramtre ).
Raliser les oprations prcdentes pour des modles de complexits croissantes ; lorsque les scores de
leave-one-out virtuel deviennent trop grands, ou la distribution des leviers trop large, arrter la procdure
et choisir le modle. Deux stratgies sont envisageables :
si lensemble dapprentissage est dfinitivement fix et ne peut pas tre enrichi, il faut choisir, parmi les
modles qui ont de petits scores de leave-one-out virtuel, le modle avec le le plus lev ou le n le
plus faible ;
sil est possible denrichir lensemble dapprentissage en effectuant quelques expriences supplmen-
taires, il est prfrable de choisir un modle lgrement surajust, et deffectuer des expriences suppl-
mentaires dans les zones qui correspondent des leviers levs (ou des intervalles de confiance grands) ;
on choisira alors un modle qui a le score de leave-one-out le plus petit possible, mme sil ne corres-
pond pas la plus grande valeur de , ou la plus petite valeur de n.
laboration de plans dexpriences
Aprs avoir suivi la dmarche dlaboration et de slection de modles qui vient dtre dcrite, il peut
savrer ncessaire de complter la base de donnes utilise pour llaboration du modle. Il convient
alors de construire un plan dexpriences , en profitant des rsultats obtenus lors de llaboration du
modle, notamment des intervalles de confiance. En effet, un intervalle de confiance lev dans une
certaine zone de lespace peut tre d un nombre de points insuffisant. Il suffit donc de reprer les zones
de lespace des variables o les intervalles de confiance sont excessifs, et deffectuer ensuite les mesures
dans ces zones.

Techniques et mthodologie de conception de modles


dynamiques (rseaux boucls ou rcurrents)
La section prcdente traitait de la modlisation statique, cest--dire de modles qui ralisent une relation
algbrique entre leurs variables et leurs sorties. Ces modles sont utiles pour rendre compte des proprits
dun processus dans un tat stationnaire, ou pour tablir des relations entre des grandeurs qui sont ind-
pendantes du temps.
Les rseaux de neurones
157
CHAPITRE 2

On sintresse prsent aux modles dynamiques, dont les variables et les prdictions sont relies entre
elles par des quations diffrentielles, ou, pour des systmes temps discret, par des quations rcur-
rentes ou quations aux diffrences. Dans tout cet ouvrage, on se placera uniquement dans le cadre de
systmes temps discret, car les applications relles des rseaux de neurones dynamiques pour la mod-
lisation font appel des ordinateurs ou des circuits intgrs numriques, qui sont des systmes
chantillonns : les grandeurs ne sont mesures qu des instants discrets, multiples dune priode
dchantillonnage T.

Remarque
Pour allger les notations, on omettra systmatiquement T dans les quations : la valeur dune variable x linstant kT, k entier positif, sera
note x(k).

Le chapitre 4 de cet ouvrage propose une prsentation gnrale des systmes dynamiques non linaires.
Dans le prsent chapitre, on se contentera dune introduction mthodologique succincte de la modlisa-
tion stochastique tats continus, qui dcoule directement des considrations relatives la modlisation
statique dcrite dans les sections prcdentes. Les lments de modlisation dynamique prsents ici sont
suffisants pour aborder, dans la dernire partie de ce chapitre, la mthodologie de modlisation semi-
physique , trs importante en raison de ses applications industrielles.

Reprsentations dtat et reprsentations entre-sortie


La modlisation dynamique prsente, par rapport la modlisation statique, des particularits impor-
tantes.
La premire dentre elles rside en ce quil existe plusieurs reprsentations possibles pour un modle
dynamique dun mme processus (voir par exemple [KUO 1995] pour une introduction aux systmes
dynamiques, et [KUO 1992] pour une introduction aux systmes chantillonns). On considre ci-aprs la
modlisation dun processus une variable de sortie ; lextension un processus multi-sortie ne prsente
pas de difficult.

Reprsentation dtat
Un modle est sous la forme dune reprsentation dtat sil est constitu dun ensemble dquations de
la forme :

x ( k ) = f ( x ( k 1) , u ( k 1) , b1 ( k 1)) quation d'tat



y ( k ) = g ( x ( k ) , b2 ( k )) quation d'observation (ou quation de sortie)

o le vecteur x(k) est appel vecteur dtat (dont les composantes sont les variables dtat ), le
vecteur u(k) est le vecteur des variables de commande, b1(k) et b2(k) sont les vecteurs des perturbations,
et le scalaire y(k) est la prdiction fournie par le modle. f est une fonction vectorielle non linaire, et g
est une fonction scalaire non linaire. La dimension du vecteur dtat (cest--dire le nombre de variables
dtat) est appele ordre du modle. Les variables dtat peuvent tre mesures ou non mesures.

Remarque 1
Pour un processus mono-entre u(k), le vecteur u(k) peut tre constitu de u(k) et de valeurs de la commande plusieurs instants passs :
u(k) = [u(k), u(k 1), , u(k m)]T.
Lapprentissage statistique
158

Remarque 2
Les perturbations sont des facteurs qui affectent la sortie, ou ltat, ou les deux la fois, et qui, contrairement aux variables de commande,
ne sont pas mesures ; elles ne peuvent donc pas constituer des variables du modle, bien quelles aient un effet sur la grandeur mod-
liser. Par exemple, pour un four, lintensit qui passe dans la rsistance chauffante est une grandeur de commande ; la dgradation de
lisolant thermique du four et le bruit de mesure du thermocouple constituent des perturbations, que lon peut, si ncessaire, modliser par
des variables alatoires.

Remarque 3
Rien ne soppose ce que la sortie elle-mme soit une des variables dtat (on en verra un exemple dans le paragraphe intitul Que faire
en pratique ? )

Lobjectif du concepteur dun modle sous forme de reprsentation dtat est donc de trouver des approxi-
mations des deux fonctions f et g, par apprentissage, partir de squences des entres, des sorties, et,
ventuellement, des variables dtat si celles-ci sont mesures.

Reprsentation entre-sortie
Un modle est sous la forme dune reprsentation entre-sortie sil est constitu dquations de la forme :

y ( k ) = h ( y ( k 1) ,..., y ( k n ) , u ( k 1) ,..., u ( k m ) , b ( k - 1) ,..., b ( k p ))

o h est une fonction non linaire, n est lordre du modle, m et p sont deux constantes positives, u(k) est
le vecteur des signaux de commande, b(k) est le vecteur des perturbations. Remarquons que les reprsen-
tations entre-sortie constituent des formes particulires des reprsentations dtat, o le vecteur dtat a
pour composantes [y(k-1), y(k-2), y(k-n)].

Attention

Pour raliser un modle linaire, les reprsentations dtat et entre-sortie sont strictement
quivalentes : le choix de lune ou lautre repose sur des considrations qui ont trait leur commo-
dit, compte tenu des objectifs de la modlisation considre. En revanche, pour la ralisation dun
modle non linaire, une reprsentation dtat est plus gnrale et plus parcimonieuse quune repr-
sentation entre-sortie ([LEVIN 1993]), comme on le verra plus loin sur un exemple ; nanmoins, elle
peut tre plus dlicate mettre en uvre, puisque deux fonctions f et g doivent tre approches, alors
que les modles entre-sortie ncessitent lapproximation de la seule fonction h.

Une fois effectu le choix entre reprsentation entre-sortie et reprsentation dtat, il convient de faire
une hypothse sur la faon dont le bruit intervient dans le processus. Cette distinction fondamentale est
souvent nglige dans la littrature sur les rseaux de neurones, alors quelle est bien connue dans le cas
de la modlisation dynamique linaire, comme on le verra au chapitre 4. On va montrer que lhypothse
effectue sur le bruit conditionne la fois lalgorithme dapprentissage quil faut utiliser et la structure
du modle qui doit tre mis en uvre. On va donc passer en revue les principales hypothses relatives au
bruit, et en dduire, dans chaque cas, la structure du modle dont il faut estimer les paramtres.

Les hypothses concernant le bruit et leurs consquences


sur la structure, lapprentissage et lutilisation du modle
Dans cette section, on examinera les hypothses concernant la manire dont le bruit intervient dans le
processus. On indiquera, en premier lieu, les consquences de ces hypothses sur la structure, lapprentis-
Les rseaux de neurones
159
CHAPITRE 2

sage et lutilisation des modles entre-sortie, puis sur la structure, lapprentissage et lutilisation des
modles dtat.

Cas des reprsentations entre-sortie


Hypothse bruit dtat (reprsentation entre-sortie )
Faisons lhypothse que le processus peut tre correctement dcrit, dans le domaine de validit souhait,
par une reprsentation de la forme :

( )
y p ( k ) = y p ( k 1) ,..., y p ( k n ) , u ( k 1) ,..., u ( k m ) + b ( k )

o yp(k) est la valeur de la grandeur modliser,


yp(k)
mesure sur le processus linstant k ; b(k) modlise

lensemble des bruits et perturbations. On suppose .....
donc que le bruit est additif la sortie du processus yp(k-1) yp(k-n+1)
(voir figure 2-61), et que, linstant k, le bruit ninter- ....
vient pas seulement dans la sortie actuelle, mais gale-
ment dans les valeurs des n sorties passes. Dans le q-1
domaine de la modlisation non linaire, cette hypo-
thse est nomme NARX (Nonlinaire Auto-Rgressif ..... ..... ....
yp(k-n)
entres eXognes) (voir aussi chapitre 4) ou equation b(k) u(k-1) u(k-m)
yp(k-2)
error (voir par exemple [LJUNG 1987] [GOODWIN
1984]), ou encore srie-parallle [NARENDRA yp(k-1)
1989] en modlisation adaptative. Figure 2-61. Hypothse bruit dtat

Remarque
On emploie parfois, au lieu du vocable hypothse , lexpression modle hypothse , traduction de langlais postulated model. Pour viter
toute confusion entre hypothse et modle, et pour ne pas alourdir inutilement la nomenclature, nous nutiliserons pas ces derniers termes.

Par hypothse, le bruit agit donc sur la sortie, non seulement dune manire directe linstant k, mais
galement par lintermdiaire des sorties aux n instants prcdents ; puisque lon souhaite obtenir un
modle tel que lerreur de modlisation linstant k soit gale au bruit au mme instant, il faut quil tienne
compte des sorties du processus aux n instants prcdents. Considrons donc un rseau de neurones non
boucl, reprsent sur la figure 2-62, rgi par lquation

(
g ( k ) = RN y p ( k 1) ,..., y p ( k n ) , u ( k 1) ,...u ( k m ) ,w )
o w est un vecteur des paramtres, et o la fonction RN est ralise par un rseau de neurones (non
boucl). Supposons que lon ait effectu lapprentissage du rseau de neurones RN de telle manire quil
ralise exactement la fonction . On a alors yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel que
lerreur de modlisation soit gale au bruit : cest donc le modle idal, puisquil modlise parfaitement
tout ce qui est dterministe dans le processus, et ne modlise pas le bruit.
Il est important de remarquer que les variables du modle sont les variables de commande et les valeurs
de la grandeur modliser, mesures sur le processus : le modle (galement appel prdicteur ) idal,
reprsent sur la figure 2-62 nest donc pas un rseau de neurones boucl.
Apprentissage du modle : apprentissage dirig
Puisque le modle obtenu est un modle non boucl, son apprentissage seffectue en mettant en uvre les techniques prsentes dans
la section Apprentissage non adaptatif de modles entre-sortie non boucls : apprentissage dirig .
Lapprentissage statistique
160

g(k) g(k)

.....
yp(k-1) yp(k-n+1)

RN
....
RN
q-1

..... ..... .... ..... .....


yp(k-n)
p
y (k-2)
u(k-1) u(k-m) u(k-1) u(k-m) yp(k-1) yp(k-2) yp(k-n)
yp(k-1)
Figure 2-62. Modle idal pour une reprsentation entre-sortie avec lhypothse bruit dtat ; les deux dessins
sont quivalents, mais le fait que le rseau nest pas boucl apparat plus clairement sur celui de droite.

Utilisation du modle
Puisquune partie des variables du prdicteur sont les valeurs de la grandeur modliser, mesures du processus, on ne peut calculer la
sortie quau temps immdiatement suivant : on dit que lon ralise un prdicteur un pas . Si lon dsire utiliser le modle comme simula-
teur, cest--dire prvoir la rponse du processus sur un horizon suprieur un pas dchantillonnage, il faut ncessairement utiliser
comme variables les prdictions faites par le modle aux instants prcdents : le prdicteur nest plus utilis dans des conditions optimales.

Hypothse bruit de sortie (reprsentation entre-sortie )


Faisons prsent lhypothse que le processus peut tre correctement dcrit, dans le domaine de validit
souhait, par une reprsentation de la forme :

(
x p ( k ) = x p ( k 1) ,..., x p ( k n ) , u ( k 1) ,..., u ( k m ) )
p
y ( k ) = x p ( k ) + b ( k )
On suppose donc ici que le bruit est additif sur la sortie
yp(k)

uniquement (figure 2-63) : il intervient en dehors de la
boucle, donc il naffecte que la prdiction. Cette hypo-
thse est connue, en modlisation linaire adaptative,
..... sous les termes d output error ou observateur
xp(k-1) xp(k-n+1) parallle [NARENDRA 1989].
....
Puisque la sortie, linstant k, nest affecte que par le
q-1 bruit ce mme instant, le modle recherch ne doit
pas faire intervenir les valeurs passes de la grandeur
..... ..... .... modliser. Considrons donc un rseau de neurones
xp(k-n)
xp(k-2) boucl, reprsent sur la figure 2-64, rgi par lquation
b(k) u(k-1) u(k-m)
xp(k-1)
g ( k ) = RN ( g ( k 1) ,..., g ( k n ) , u ( k 1) ,..., u ( k m ) , w )
Figure 2-63. Hypothse bruit de sortie
Les rseaux de neurones
161
CHAPITRE 2

o w est un vecteur des paramtres, et o la fonction


RN est ralise par un rseau de neurones non boucl. g(k)
Supposons que lon ait effectu lapprentissage du
rseau de neurones RN de telle manire quil ralise
exactement la fonction . Supposons de plus que
.....
lerreur de prdiction soit gale au bruit aux n premiers
g(k-1) g(k-n+1)
instants : yp(k) g(k) = b(k) pour k = 0 n-1. On a alors ....
yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel
que lerreur de modlisation soit gale au bruit : cest

q-1
donc le modle idal, puisquil modlise parfaitement
tout ce qui est dterministe dans la reprsentation, et ne
..... ..... ....
modlise pas le bruit. g(k-n)
g(k-2)
u(k-1) u(k-m)
Remarque
Si la condition initiale nest pas ralise, mais que nanmoins g(k-1)
RN = , et si le modle est stable quelles que soient les conditions Figure 2-64. Modle idal pour une reprsentation
initiales, lerreur de modlisation tend vers zro lorsque k crot. entre-sortie avec lhypothse bruit de sortie

Il faut noter que, dans ce cas, le modle idal est un


modle boucl.
Apprentissage du modle : apprentissage semi-dirig
Lapprentissage dun modle boucl se ramne, moyennant une technique approprie, lapprentissage dun rseau de neurones non
boucl ( apprentissage semi-dirig ). La technique dapprentissage des rseaux de neurones boucls est dcrite dans la section
Apprentissage non adaptatif de modles entre-sortie boucls .

Utilisation du modle
Contrairement au cas prcdent, ce modle peut tre utilis comme simulateur dans des conditions optimales. Il peut aussi, bien sr, tre
utilis comme prdicteur un pas.

Illustration
Avant de continuer passer en revue les principales hypothses possibles, on va illustrer limportance du
choix du modle en fonction de la manire dont le bruit intervient dans le processus. Cette illustration est
tire de [NERRAND 1992] et de [NERRAND 1994].
Modlisation dun processus avec bruit de sortie
Considrons un processus, simul sur ordinateur, qui obit aux quations suivantes :
T c + dx p ( k 1)
x p ( k ) = 1 x p ( k 1) + T u ( k 1) ,
a + bx p ( k 1) a + bx p ( k 1)
p
y ( k ) = x p ( k ) + b ( k )

avec a = 0,139, b = 1,2, c = 5,633, d = 0,326, et une priode dchantillonnage T = 0,1 s. b(k) est un
bruit blanc damplitude maximale 0,5. Il sagit donc dun processus avec bruit de sortie. La figure 2-65
montre la rponse du processus simul une squence de crneaux pseudo-alatoires.
Lapprentissage statistique
162

Lors de la modlisation dun processus rel, la manire 10


dont le bruit intervient dans le processus nest pas 8 yp
connue. On fait donc successivement des hypothses sur

Amplitude
6
ce type de bruit ; on effectue lapprentissage en fonction
4
dune hypothse retenue, et lon compare les rsultats de u

cet apprentissage avec les rsultats obtenus avec 2

dautres hypothses. Cest donc ce qui va tre fait ici. 0

0 100 200 300 400 500 600 700


Hypothse bruit de sortie Temps (0,1 sec)
Considrons tout dabord lhypothse (exacte) selon Figure 2-65. Rponse du processus simul
laquelle le bruit serait un bruit de sortie. On a vu que le une squence de crneaux pseudo-alatoires.
modle idal est alors un modle boucl. La figure 2-66

Erreur de modlisation
montre lerreur de modlisation aprs apprentissage 0,4
dun rseau de neurones boucl 5 neurones cachs. 0,2
On observe que lerreur de modlisation est un bruit 0
blanc damplitude 0,5 : on vrifie que, ayant effectu
-0,2
lhypothse exacte et ayant choisi la structure du
-0,4
modle en consquence, lerreur de modlisation est
bien gale au bruit, ce qui constitue le meilleur rsultat 0 100 200 300 400 500 600 700
de modlisation que lon puisse obtenir. Temps (0,1 sec)
Figure 2-66. Erreur de modlisation dun processus
Hypothse bruit dtat avec bruit de sortie aprs apprentissage
Considrons prsent lhypothse (inexacte) avec hypothse bruit de sortie
selon laquelle le bruit serait un bruit dtat.
Conformment cette hypothse, effectuons
Erreur de modlisation

0,4
lapprentissage dun rseau de neurones non
boucl, 5 neurones cachs. La figure 2-67 0,2
reprsente lerreur de modlisation : on vrifie 0
que son amplitude est suprieure 0,5. Le
rsultat est donc moins bon quavec lhypo- -0,2
thse bruit de sortie , ce qui est normal -0,4
puisque cette hypothse est inexacte. Souli-
gnons quil ne sagit pas ici dun problme 0 100 200 300 400 500 600 700
Temps (0,1 sec)
technique (trop ou trop peu de neurones cachs,
algorithme doptimisation inefficace, erreur de Figure 2-67. Erreur de modlisation dun processus avec bruit
programmation), mais dun problme de sortie aprs apprentissage avec lhypothse bruit dtat
fondamental : mme avec le meilleur algo-
rithme dapprentissage possible, et une structure de rseau de neurones parfaitement adapte, on ne pour-
rait pas obtenir une erreur de modlisation gale au bruit, puisque lon a fait une hypothse errone sur le
bruit.
Modlisation dun processus avec bruit dtat
Considrons prsent un processus, simul sur ordinateur, qui obit lquation suivante :

T p c + dy p ( k 1)
y p ( k ) = 1 y ( k 1) + T u ( k 1) + b ( k )
a + bx p ( k 1) a + by ( k 1)
p
Les rseaux de neurones
163
CHAPITRE 2

Il sagit donc dun processus avec bruit dtat, dont la partie dterministe est la mme que dans le cas
prcdent : elle sera donc modlise par un rseau de neurones cinq neurones cachs, comme prcdem-
ment. Faisons nouveau successivement les deux hypothses bruit de sortie et bruit dtat .
Hypothse bruit de sortie 1,5

Erreur de modlisation
Considrons tout dabord lhypothse 1,0
(inexacte) selon laquelle le bruit serait un bruit
de sortie. On a vu que le modle idal est alors 0,5
un modle boucl. La figure 2-68 montre lerreur 0
de modlisation aprs apprentissage dun
rseau de neurones boucl 5 neurones cachs. -0,5
On observe que lerreur de modlisation ne se -1,5
prsente pas du tout comme un bruit blanc : il 0 100 200 300 400 500 600 700
est manifeste que lerreur de modlisation Temps (0,1 sec)
contient de linformation que lapprentissage
Figure 2-68. Erreur de modlisation dun processus avec bruit
du modle na pas permis dapprhender. L dtat aprs apprentissage avec lhypothse bruit
encore, cet chec nest pas d une raison tech- de sortie
nique (modle insuffisamment complexe,
apprentissage inefficace) : cest lhypothse sur le bruit, donc la structure du modle (ici, modle
boucl), qui est en cause.
Hypothse bruit dtat
Erreur de modlisation

0,4
Faisons enfin lhypothse (exacte) selon laquelle le 0,2
bruit serait un bruit dtat. Le modle idal est alors un
0
rseau non boucl. La figure 2-69 montre que lerreur
-0,2
de modlisation a bien toutes les caractristiques dun
bruit blanc damplitude 0,5 : on a bien obtenu un -0,4
prdicteur idal. 0 100 200 300 400 500 600 700

Hypothse bruit de sortie et bruit dtat Temps (0,1 sec)


Figure 2-69. Erreur de modlisation dun processus
(reprsentation entre-sortie ) avec bruit dtat aprs apprentissage
Ayant examin successivement les consquences des avec lhypothse bruit dtat
hypothses bruit de sortie et bruit dtat ,
faisons prsent lhypothse dun bruit additif qui affecte la fois la sortie et ltat : le processus peut tre
correctement dcrit par un modle de la forme :

(
x p ( k ) = x p ( k 1) ,..., x p ( k n ) , u ( k 1) ,..., u ( k m ) , b ( k 1) ,...b ( k p ) )
y (k ) = xp (k ) + b(k )
p

reprsent sur la figure 2-70. On nomme parfois cette hypothse NARMAX (Non linaire Auto-Rgressif
Moyenne Ajuste et entres eXognes).
Il faut cette fois que le modle tienne compte simultanment des valeurs passes de la sortie du processus et des
valeurs passes de la sortie du modle. Considrons donc un rseau de neurones boucl, rgi par lquation

(
g ( k ) = RN y p ( k 1) ,...y p ( k n ) , u ( k 1) ,..., u ( k m ) , r ( k 1) ,..., r ( k p ) , w )
o r(k) = yp(k) g(k) (figure 2-71). Supposons que lon ait effectu lapprentissage du rseau de neurones
RN de telle manire quil ralise exactement la fonction . Supposons de plus que lerreur de prdiction
Lapprentissage statistique
164

soit gale au bruit aux p premiers instants : yp(k) g(k) = b(k) pour k = 0 p 1. On a alors
yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel que lerreur de modlisation soit gale au bruit :
cest donc le modle idal, puisquil modlise parfaitement tout ce qui est dterministe dans la reprsen-
tation, et ne modlise pas le bruit.

yp(k)

g(k)
r(k)

+ ...... r(k-p+1)
xp(k) xp(k-1) xp(k-n+1) .... yp(k)
r(k-1)


q-1 RN q-1

..... ..... ..... x (k-n) .... ...... ...... r(k-1) r(k-2)


p
u(k-1) u(k-m) yp(k) yp(k-n) ...... r(k-p)
xp(k-2)
b(k) b(k-1) b(k-p) u(k-1) u(k-m)
xp(k-1)
Figure 2-70. Hypothse NARMAX Figure 2-71. Modle

Rsum sur la structure, lapprentissage et lutilisation des modles dynamiques entre-sortie


Le tableau 2-1 rsume les hypothses de bruit et leurs consquences sur lapprentissage des modles
entre-sortie.
Nom usuel en
quivalent en Utilisation
Hypothse modlisation non Apprentissage
modlisation linaire recommande
linaire
Bruit dtat NARX ARX Dirig Prdicteur
un pas
Bruit de sortie Output error Semi-dirig Simulateur
Bruit dtat et bruit de NARMAX ARMAX Semi-dirig Prdicteur
sortie un pas

Tableau 2-1. Hypothses de bruit et leurs consquences sur lapprentissage


des modles entre-sortie

Cas des reprsentations dtat


On reprend ici les mmes hypothses que dans le paragraphe prcdent, mais on considre prsent leurs
consquences sur les modles dtat.
Hypothse bruit de sortie
(reprsentation dtat)
Dans les paragraphes prcdents, on a considr diverses hypothses sur le bruit, et cherch des modles
idaux dans ces diffrents cas, sous la forme de reprsentations entre-sortie. Reprenons ces hypothses,
mais en cherchant prsent des modles sous la forme de reprsentations dtat, qui, rappelons-le, sont
gnralement plus parcimonieuses que les reprsentations entre-sortie.
Faisons tout dabord lhypothse bruit de sortie , selon laquelle le comportement du processus pourrait
tre correctement dcrit par des quations de la forme
Les rseaux de neurones
165
CHAPITRE 2

x ( k ) = ( x ( k 1) , u ( k 1)) yp(k)

y ( k ) = ( x ( k )) + b ( k )
comme reprsent sur la figure 2-72 pour un modle du
deuxime ordre.
Le bruit nintervenant que dans lquation dobserva-
tion, il na aucune influence sur la dynamique du
modle. Pour des raisons analogues celles qui ont t
dveloppes dans le cas des reprsentations entre- xp1(k)
sortie, le modle idal est un modle boucl, reprsent xp2(k)
sur la figure 2-73 :
x ( k ) = RN ( x ( k 1) , u ( k 1))

y ( k ) = RN ( x ( k )) q-1

o jRN ralise exactement la fonction j et RN ralise


exactement la fonction . b(k) u(k)
xp2(k-1)

Hypothse bruit dtat xp1(k-1)


(reprsentation dtat) Figure 2-72. Reprsentation dtat, hypothse
bruit de sortie .
Supposons que le processus puisse tre dcrit correcte-
ment par les quations :

x ( k ) = ( x ( k 1) , u ( k 1) , b ( k 1)) g(k)

y ( k ) = ( x ( k ))
Alors, par un argument analogue celui qui a t dve- RN
lopp pour les modles entre-sortie, le modle idal
devrait avoir pour entres, outre les entres de
commande u, les variables dtat du processus. Deux
cas peuvent alors se prsenter : x1(k)
ces variables sont mesures : on peut alors les consi-
x2(k)
drer comme des sorties, et lon est alors ramen un
modle entre-sortie ; le modle est un modle non
boucl, qui peut tre utilis essentiellement comme
prdicteur un pas ; RN
ces variables ne sont pas mesures : on ne peut pas
construire le modle idal ; il convient soit dutiliser q-1
une reprsentation entre-sortie (bien quelle soit
moins parcimonieuse quun modle dtat), soit
dutiliser un modle boucl, non optimal.
x2(k-1)
Hypothse bruit de sortie et bruit dtat u(k)
(reprsentation dtat) x1(k-1)
Supposons enfin que le processus puisse tre dcrit Figure 2-73. Modle idal pour une reprsentation
correctement par les quations : dtat avec lhypothse bruit de sortie
Lapprentissage statistique
166

x ( k ) = ( x ( k 1) , u ( k 1) , b1 ( k 1))

y ( k ) = ( x ( k ))
L encore, deux cas peuvent se prsenter :
si les variables dtat sont mesures, on peut les considrer comme des sorties, et lon est ramen au cas
dune reprsentation entre-sortie, considr prcdemment ;
si les variables dtat ne sont pas mesures, le modle idal doit faire intervenir la fois ltat et la sortie
mesure du processus ; il est donc de la forme :

(
x ( k ) = x ( k 1) , u ( k 1) , y p ( k 1) )

y ( k ) = ( x ( k ))

Rsum sur la structure, lapprentissage et lutilisation des modles dtat


dynamiques
Le tableau 2-2 rsume les hypothses de bruit et leurs consquences sur lapprentissage des modles
dtat dynamiques. Les termes apprentissage dirig et semi-dirig sont dfinis dans la section
suivante.
Utilisation
Hypothse Apprentissage
recommande
Bruit dtat Prdicteur
Dirig
(tat mesur) un pas
Bruit dtat Simulateur
Semi-dirig
(tat non mesur) (non optimal)
Bruit de sortie Semi-dirig Simulateur
Prdicteur
Bruit dtat et bruit de sortie Semi-dirig
un pas

Tableau 2-2. Consquences des hypothses de bruit sur lapprentissage des modles dtat dynamiques

Apprentissage non adaptatif des modles dynamiques


sous forme canonique
Dans les paragraphes prcdents, on a montr comment choisir la structure du modle dynamique, en
fonction de la manire dont le bruit est susceptible dintervenir dans le processus, afin davoir une chance,
si lapprentissage est bien fait, dobtenir le modle idal, cest--dire celui qui rend parfaitement compte
de tout ce qui est dterministe dans le processus. Abordons prsent le problme de lapprentissage de ce
modle. On suppose que des squences de mesures des entres et des sorties correspondantes sont
disponibles : on se place dans le cadre de lapprentissage non adaptatif.
Dans tout ce qui suit, on considrera que le prdicteur dont on dsire effectuer lapprentissage est sous sa
forme canonique (dfinie dans la section Forme canonique des rseaux de neurones boucls ), cest--
dire quil est sous la forme :

x ( k + 1) = ( x ( k ) , u ( k ))
g ( k + 1) = ( x ( k ) , u ( k ))
Les rseaux de neurones
167
CHAPITRE 2

o x(k) est lensemble minimal, compos de variables, qui permet de calculer compltement ltat du
modle linstant k+1, connaissant ltat du modle et ses variables externes linstant k, et o les fonc-
tions vectorielles F et y sont ralises par un ou plusieurs rseaux de neurones non boucls. est lordre
de la forme canonique. Cette forme est donc la reprsentation dtat minimale ; si le vecteur dtat est de
la forme

g(k )

g(k ) = g(k 1)
M

g(k v + 1)

la forme canonique constitue un modle entre-sortie : Prdictions du modle Variables dtat


seule la sortie intervient dans le vecteur dtat. Dans la linstant k+1 linstant k+1
suite, pour simplifier, on considrera que les fonctions
F et y sont ralises par un seul rseau plusieurs g(k+1) x(k+1)
sorties, que lon dsignera sous le terme de rseau
non boucl de la forme canonique (figure 2-74).
Deux cas doivent tre envisags : Rseau de neurones non boucl
on effectue une modlisation bote noire : il est de la forme canonique
naturel de choisir, ds la conception, un prdicteur
sous forme canonique, car il ny a aucune raison den
choisir un autre ;
on effectue une modlisation partir de connaissances u(k) x(k)
qui suggrent un prdicteur qui nest pas sous forme
canonique : il faut alors, pralablement lapprentis-
sage, trouver la forme canonique quivalente de ce Variables externes Variables dtat
linstant k linstant k
prdicteur, ce qui est toujours possible. La section inti-
tule Mise sous forme canonique des modles Figure 2-74. Rseau de neurones non boucl
dynamiques est consacre cette question. de la forme canonique

Dans les paragraphes qui suivent, on supposera donc


toujours que le modle dont on cherche raliser lapprentissage a t mis sous forme canonique.
On distinguera lapprentissage des modles non boucls et celui des modles boucls.

Apprentissage non adaptatif de modles entre-sortie non boucls :


apprentissage dirig
On a vu que, si lhypothse de la prsence dun bruit dtat seul permet de dcrire le comportement dun
processus, le modle idal est un modle non boucl, dont les variables sont les signaux de commande et
les valeurs de la grandeur modliser mesures sur le processus aux n instants prcdents. Lapprentis-
sage de ce modle est dit dirig par le processus, puisque ce sont les mesures issues du processus qui sont
utilises comme variables du prdicteur pendant lapprentissage, comme cela est indiqu sur la figure 2-75
(cet apprentissage est appel teacher forcing en anglais). Le modle est donc cal en permanence sur
les mesures de la grandeur modliser.
Lapprentissage de ce modle seffectue exactement comme celui dun rseau pour la modlisation
statique. Lensemble dapprentissage de ce rseau est constitu de N couples {xk, yk} (k = 1 N), o N est
la longueur de la squence dapprentissage, et o
Lapprentissage statistique
168

x = u ( k ) , u ( k 1) ,..., u ( k m + 1) , y p ( k ) , y p ( k 1) ,..., y p ( k n + 1) T
k

yk = y ( k + 1)
p

Lapprentissage se fait par minimisation de la fonction


de cot g(xk,w)
N

(
J (w ) = y p ( k ) g ( xk , w ) )
2

k =1

par rapport aux paramtres w du rseau non boucl de Rseau de neurones non boucl
la forme canonique. de la forme canonique
Le pige du prdicteur stupide
En apprentissage dirig, le modle prend en considration, chaque
pas de temps, les valeurs de la grandeur modliser mesures sur le ..... .....
processus. Il est donc trs facile dobtenir des rsultats qui peuvent
donner limpression dune grande qualit, surtout si lon se contente u(k-1) u(k-m) yp(k-1) yp(k-2) yp(k-n)
destimer graphiquement celle-ci en superposant la courbe relle et la Figure 2-75. Apprentissage dirig dun modle
courbe prdite. Cela peut tre trompeur : en effet, un prdicteur dynamique sous forme canonique
stupide constitu dun simple retard dune unit de temps, cest--
dire un prdicteur qui prdit que la sortie linstant k + 1 sera gale
la sortie mesure linstant k, peut galement donner dexcellents rsultats : il suft pour cela que la sortie du processus varie peu entre
deux instants dchantillonnage. Il est donc trs important, lorsque lon a effectu un apprentissage dirig, de comparer la prcision du
modle obtenu celle du prdicteur stupide . Les dsillusions sont frquentes...

Apprentissage non adaptatif de modles entre-sortie boucls :


apprentissage semi-dirig
On a vu que, si lhypothse de la prsence dun bruit de sortie seul, ou dun bruit de sortie et dun bruit
dtat, permet de dcrire le comportement dun processus, le modle idal est un modle boucl dont
les variables sont
les signaux de commande et les prdictions du modle aux n instants prcdents (si lon fait lhypothse
de lexistence dun bruit de sortie seul) ;
les signaux de commande, les prdictions du modle et les erreurs de modlisation sur un horizon
convenable p (si lon fait lhypothse NARMAX).
Hypothse bruit de sortie
Le modle tant boucl, son apprentissage, laide dune squence de mesures de longueur N, ncessite
de dplier le rseau boucl en un grand rseau non boucl, compos de N copies identiques (cest--
dire qui possdent toutes les mmes paramtres). Les variables de la copie k (reprsente sur la figure 2-76)
sont :
le vecteur u(k) = [u(k), ..., u(k-m+1)]T (pour simplifier, on suppose ici quil y a un seul signal de
commande ; sil y en a plusieurs, le vecteur des variables de commande est la concatnation des
vecteurs constitus des valeurs de chacun de ces signaux sur lhorizon m),
le vecteur des prdictions linstant k et aux n-1 instants prcdents [g(k), ..., g(k-n+1)]T.
Le vecteur de sortie de la copie k est le vecteur des prdictions linstant k+1 et aux n-1 instants prc-
dents [g(k), ..., g(k-n+2)]T. Le rseau ne calcule donc que g(k+1), les autres composantes du vecteur des
prdictions tant dduites de celles du prcdent vecteur des prdictions par dcalage dune unit de
Les rseaux de neurones
169
CHAPITRE 2

temps. Le vecteur des sorties de la copie k constitue le vecteur des variables de la copie suivante, corres-
pondant linstant k+1. Le dpliement temporel pour lapprentissage dun rseau dordre 2, avec m = 1,
laide dune squence de longueur N, est reprsent sur la figure 2-77.
Le concepteur doit choisir le vecteur des variables linstant initial. Si la grandeur modliser est connue
au cours des n premiers instants, il est naturel de prendre ces valeurs pour ltat initial. Les valeurs de la
grandeur modliser ninterviennent donc que pour linitialisation : cest la raison pour laquelle cet algo-
rithme est appel semi-dirig, par opposition aux algorithmes dirigs qui sont utiliss pour les rseaux non
boucls, dans lesquels les mesures effectues sur le processus interviennent tous les instants (figure 2-75).
Remarque trs importante
Toutes les copies tant identiques, il fautt utiliser la technique des poids partags, dcrite plus haut.
Vecteur des prdictions
linstant k +1 et aux n -1 instants prcdents

g(k+1) g(k) g(k-n+3) g(k-n+2)

Figure 2-76. Copie k


du rseau non boucl
de la forme canonique
Rseau non boucl pour un apprentissage
semi-dirig
de la forme canonique

...... ......
u(k) u(k-m+1) g(k) g(k-1) g(k-n+2) g(k-n+1)

u(k) Vecteur des prdictions


linstant k et aux n -1 instants prcdents

g(N)

Rseau non boucl