Apprentissage
Sous la direction de Grard Dreyfus
statistique
Rseaux de neurones Cartes topologiques
Machines vecteurs supports
CD-R
r le
om
Su
li v r e
Cinq exemples de modles, offe
avec donnes et code source t a
vec ce
r
Neuro One 6.10.7*, outil
de cration de modles neuronaux
Compilateur C pour Windows.
Bibliothque non linaire
MonaEx70.dll, niveau 0.
* Version dvaluation de 6 semaines
pour MS-Windows NT, 2000, 2003, XP
Prvision
Data mining
Bio-ingnierie
Reconnaissance de formes
Robotique et commande de processus
Apprentissage
statistique
CHEZ LE MME DITEUR
Autres ouvrages
Cet ouvrage est la troisime dition, avec mise jour et nouveau titre,
de louvrage paru lorigine sous le titre
Rseaux de neurones Mthodologie et applications
(ISBN: 978-2-212-11464-5)
Je remercie la direction scientifique de lONERA et le chef de projet Jean-Louis Gobert pour le soutien
accord des recherches dordre gnral sur les rseaux de neurones notamment dans le cadre du projet
fdrateur de contrle actif des coulements.
Je tiens remercier parmi mes tudiants en thse actuels ou passs, ceux qui ont directement contribu
faire progresser notre comprhension collective du contrle neuronal savoir : Emmanuel Dauc
(Universit dAix-Marseille), Alain Dutech (INRIA, Nancy), Marc Lion (ingnieur informaticien),
Laurent Perrinet (ONERA-DTIM). Il faut aussi mentionner les tudiants de Suparo dont jai guid les
projets lan dernier et dont les ractions mont aides amliorer le contenu des chapitres 4 et 5.
Enfin, je voudrais ajouter mes remerciements personnels Grard Dreyfus pour le dialogue scientifique
qui sest instaur entre nous travers ces changes trs enrichissants pour moi. Bien conscient que les
justifications mathmatiques ne suffisent pas valuer lintrt dun algorithme, jai donc attach un
grand prix lexprience pratique que Grard ma transmise par ses observations.
Manuel Samuelides
Lapprentissage statistique
II
Je remercie mes tudiants du DEA de Sciences Cognitives de Grenoble. Au fil des annes, ils ont
contribu faire voluer mon cours par leurs remarques et leurs questions. Ils ont apport des corrections
mes notes, dont une partie a servi de base la rdaction du chapitre 6.
Le travail avec mes tudiants de thse : Juan Manuel Torres Moreno, Arnaud Buhot, Sebastian Risau
Gusman, Christelle Godin, ma apport la joie de la recherche partage, et a enrichi ma comprhension
du domaine de lapprentissage. Je les en remercie chaleureusement.
Enfin, je tiens remercier mon collgue Bernard Amy pour sa relecture critique, amicale et pleine de
remarques pertinentes.
Mirta B. Gordon
Le chapitre qui est prsent est le rsultat de nombreux efforts, il reprsente une collaboration fructueuse
entre informaticiens, physiciens et mathmaticiens. Nous tenons remercier amicalement tous les cher-
cheurs qui, par leur travail ou lintrt quils lui ont port, ont permis la ralisation de ce travail et tout
particulirement : Mziane Yacoub, Carlos Mejia, Michel Crpon, Awa Niang, Ludvine Gross, F. Anouar,
Philippe Daigremont et Dominique Frayssinet.
Fouad Badran, Sylvie Thiria
Je tiens remercier tous les collaborateurs du CEA et les tudiants qui ont particip ces travaux de
recherche. Sans tre exhaustif, je tiens exprimer toute ma gratitude Caroline Privault, Dominique
Derou-Madeline, Muriel Pitiot, Jol Feraud, Jean-Marc Bollon, Georges Gonon, Claire Jausions, Pierre
Puget et enfin Jean-Jacques Niez, qui a initi les recherches en rseaux de neurones au CEA-LETI.
Laurent Hrault
Sommaire
Introduction 1
Premier exemple : un problme lmentaire dapprentissage statistique 2
Point de vue algorithmique 3
Point de vue statistique 4
Quelques dfinitions concernant les modles 5
Modles statiques 5
Modles dynamiques 6
Deux exemples acadmiques dapprentissage supervis 7
Un exemple de modlisation pour la prdiction 7
Un exemple de classification 11
Conclusion 16
lments de thorie de lapprentissage 16
Fonction de perte, erreur de prdiction thorique 17
Dilemme biais-variance 22
De la thorie la pratique 25
Remplacer des intgrales par des sommes 26
Bornes sur lerreur de gnralisation 27
Minimisation du risque structurel 30
Conception de modles en pratique 30
Collecte et prtraitement des donnes 30
Les donnes sont prexistantes 30
Les donnes peuvent tre spcifies par le concepteur 30
Prtraitement des donnes 31
Slection des variables 31
Apprentissage des modles 32
Slection de modles 32
Slection de modles 32
Validation simple (hold-out) 32
Lapprentissage statistique
IV
Introduction 73
Rseaux de neurones : dfinitions et proprits 73
Les neurones 74
Les rseaux de neurones 75
Proprit fondamentale des rseaux de neurones statiques (non boucls) :
lapproximation parcimonieuse 82
quoi servent les rseaux de neurones non boucls apprentissage supervis ?
Modlisation statique et discrimination (classification) 84
quoi servent les rseaux de neurones apprentissage
non supervis ? Analyse et visualisation de donnes 87
Sommaire
V
Pr-traitements 204
Pr-traitements des entres 204
Pr-traitement des sorties pour la classification supervise 204
Pr-traitement des sorties pour la rgression 205
Rduction du nombre de composantes 206
Analyse en composantes principales 206
Principe de lACP 206
Analyse en composantes curvilignes 210
Formalisation de lanalyse en composantes curvilignes 211
Algorithme danalyse en composantes curvilignes 212
Mise en uvre de lanalyse en composantes curvilignes 213
Qualit de la projection 214
Difficults prsentes par lanalyse en composantes curvilignes 214
Sommaire
VII
Apprentissage adaptatif dun rseau de neurones par la mthode du filtrage de Kalman 252
Rseaux neuronaux rcurrents ou boucls 254
Simulateur neuronal dun systme dynamique command en boucle ouverte 254
Simulateur neuronal dun systme dynamique command en boucle ferme 255
Quelques rseaux boucls particuliers 255
Mise sous forme canonique des rseaux boucls 258
Apprentissage des rseaux de neurones rcurrents ou boucls 258
Apprentissage dirig (teacher forcing) 259
Dpliement de la forme canonique et rtropropagation travers le temps 260
Apprentissage en temps rel des rseaux boucls 262
Application des rseaux neuronaux boucls lidentification de systmes dynamiques
commands mesurs 263
Complments algorithmiques et thoriques 264
Calcul du gain de Kalman et propagation de la covariance 264
Importance de la distribution des retards dans un rseau rcurrent 266
Bibliographie 267
Gnralits sur la commande en boucle ferme des systmes non linaires 269
Principe de la commande en boucle ferme 269
Commandabilit 270
Stabilit des systmes dynamiques commands 271
Synthse dune commande neuronale par inversion du modle du processus 273
Inversion directe 273
Utilisation dun modle de rfrence 276
Commande avec modle interne 277
Commande prdictive et utilisation des rseaux rcurrents 278
Programmation dynamique et commande optimale 280
Exemple de problme dterministe espace dtats discret 280
Exemple de problme de dcision markovienne 281
Dfinition dun problme de dcision markovienne 282
Programmation dynamique horizon fini 286
Programmation dynamique horizon infini et cot actualis 287
Problmes de dcision markovienne partiellement observs 288
Apprentissage par renforcement et programmation neuro-dynamique 289
valuation dune politique par la mthode de Monte-Carlo et apprentissage
par renforcement 289
Sommaire
IX
6 La discrimination 301
Exemple 2 436
Exemple 3 437
Exemple 4 437
Exemple 5 437
Installation des exemples 437
Compiler le code source 438
Excuter le code source 438
Excuter le code source Visual Basic 439
Visualiser les modles 440
La librairie NDK (Neuro Developer Kit) 440
Programme de dmonstration de la librairie 440
Les compilateurs C 441
Licence 442
Index 443
Avant-propos et guide de lecture
En une vingtaine dannes, lapprentissage artificiel est devenu une branche majeure des mathmatiques
appliques, lintersection des statistiques et de lintelligence artificielle. Son objectif est de raliser des
modles qui apprennent par lexemple : il sappuie sur des donnes numriques (rsultats de mesures
ou de simulations), contrairement aux modles de connaissances qui sappuient sur des quations
issues des premiers principes de la physique, de la chimie, de la biologie, de lconomie, etc. Lapprentis-
sage statistique est dune grande utilit lorsque lon cherche modliser des processus complexes,
souvent non linaires, pour lesquels les connaissances thoriques sont trop imprcises pour permettre des
prdictions prcises. Ses domaines dapplications sont multiples : fouille de donnes, bio-informatique,
gnie des procds, aide au diagnostic mdical, tlcommunications, interface cerveau-machines, et bien
dautres.
Cet ouvrage reflte en partie lvolution de cette discipline, depuis ses balbutiements au dbut des
annes 1980, jusqu sa situation actuelle ; il na pas du tout la prtention de faire un point, mme partiel,
sur lensemble des dveloppements passs et actuels, mais plutt dinsister sur les principes et sur les
mthodes prouvs, dont les bases scientifiques sont sres. Dans un domaine sans cesse parcouru de
modes multiples et phmres, il est utile, pour qui cherche acqurir les connaissances et principes de
base, dinsister sur les aspects prennes du domaine.
Cet ouvrage fait suite Rseaux de neurones, mthodologies et applications, des mmes auteurs, paru
en 2000, rdit en 2004, chez le mme diteur, puis publi en traduction anglaise chez Springer.
Consacr essentiellement aux rseaux de neurones et aux cartes auto-adaptatives, il a largement contribu
populariser ces techniques et convaincre leurs utilisateurs quil est possible dobtenir des rsultats
remarquables, condition de mettre en uvre une mthodologie de conception rigoureuse, scientifique-
ment fonde, dans un domaine o lempirisme a longtemps tenu lieu de mthode.
Tout en restant fidle lesprit de cet ouvrage, combinant fondements mathmatiques et mthodologie de
mise en uvre, les auteurs ont largi le champ de la prsentation, afin de permettre au lecteur daborder
dautres mthodes dapprentissage statistique que celles qui sont directement dcrites dans cet ouvrage.
En effet, les succs de lapprentissage dans un grand nombre de domaines ont pouss au dveloppement
de trs nombreuses variantes, souvent destines rpondre efficacement aux exigences de telle ou telle
classe dapplications. Toutes ces variantes ont nanmoins des bases thoriques et des aspects mthodolo-
giques communs, quil est important davoir prsents lesprit.
Le terme dapprentissage, comme celui de rseau de neurones, voque videmment le fonctionnement du
cerveau. Il ne faut pourtant pas sattendre trouver ici dexplications sur les mcanismes de traitement des
informations dans les systmes nerveux ; ces derniers sont dune grande complexit, rsultant de
processus lectriques et chimiques subtils, encore mal compris en dpit de la grande quantit de donnes
exprimentales disponibles. Si les mthodes dapprentissage statistique peuvent tre dune grande utilit
pour crer des modles empiriques de telle ou telle fonction ralise par le systme nerveux, celles qui
sont dcrites dans cet ouvrage nont aucunement la prtention dimiter, mme vaguement, le fonctionne-
ment du cerveau. Lapprentissage artificiel, notamment statistique, permettra-t-il un jour de donner aux
ordinateurs des capacits analogues celles des tres humains ? Se rapprochera-t-on de cet objectif en
perfectionnant les techniques actuelles dapprentissage, ou bien des approches radicalement nouvelles
sont-elles indispensables ? Faut-il sinspirer de ce que lon sait, ou croit savoir, sur le fonctionnement du
cerveau ? Ces questions font lobjet de dbats passionns, et passionnants, au sein de la communaut
scientifique : on nen trouvera pas les rponses ici.
Lapprentissage statistique
XII
Guide de lecture
La varit des motivations qui peuvent amener le lecteur aborder cet ouvrage justifie sans doute un guide
de lecture. En effet, les applications de lapprentissage statistique ne ncessitent pas toutes la mise en
uvre des mmes mthodes.
Le premier chapitre ( Lapprentissage statistique : pourquoi, comment ? ) constitue une prsentation
gnrale des principes de lapprentissage statistique et des problmes fondamentaux rsoudre. partir
dexemples acadmiques trs simples, le lecteur est amen dcouvrir les problmes que pose la concep-
tion de modles par apprentissage. Ces problmes sont ensuite formaliss par la prsentation de quelques
lments de la thorie de lapprentissage. La conception des modles les plus simples les modles
linaires en leurs paramtres est dcrite. Enfin, les diffrentes tapes de la conception dun modle par
apprentissage statistique sont dtailles : slection de variables, apprentissage, slection de modle, test
du modle slectionn.
Le chapitre 2 est entirement consacr aux rseaux de neurones, qui constituent une des familles de
modles les plus utiliss. Les lecteurs qui sintressent un problme de modlisation statique liront ce
chapitre jusqu la section Techniques et mthodologie de conception de modles statiques (rseaux
non boucls) incluse. Ils tireront galement profit de la lecture du chapitre 3 ( Complments de mtho-
dologie pour la modlisation : rduction de dimension et validation de modle par r-chantillonnage ).
Les lecteurs qui se posent un problme de modlisation dynamique liront le chapitre 2 en entier, le
chapitre 3 et le chapitre 4 ( Identification neuronale de systmes dynamiques commands et rseaux
boucls (rcurrents) . Sils veulent utiliser ce modle au sein dun dispositif de commande de processus,
ils liront ensuite le chapitre 5 ( Apprentissage dune commande en boucle ferme ).
Les lecteurs qui sintressent un problme de classification supervise (ou discrimination) liront le
chapitre 1, la section Rseaux de neurones apprentissage supervis et discrimination du chapitre 2,
puis le chapitres 3 ( Complments de mthodologie pour la modlisation : rduction de dimension et
validation de modle par r-chantillonnage ) et surtout le chapitre 6 ( Discrimination ), qui introduit,
de manire originale, les machines vecteurs supports.
Enfin, les lecteurs qui cherchent rsoudre un problme qui relve de lapprentissage non supervis
passeront du chapitre 1 au chapitre 3, puis au chapitre 7 ( Cartes auto-organisatrices et classification
automatique ).
Avant-propos
XIII
Chapitres 1 et 2 Grard Dreyfus est professeur lcole Suprieure de Physique et de Chimie Indus-
trielles (ESPCI-Paristech), et directeur du Laboratoire dlectronique de cet tablis-
sement. Il enseigne lapprentissage statistique lESPCI, ainsi que dans plusieurs
masters et mastres. Depuis 1988, il organise chaque anne deux sessions de forma-
tion continue pour ingnieurs, consacres lapprentissage statistique et ses appli-
cations industrielles et financires. Depuis 1982, les recherches de son laboratoire
sont entirement consacres la modlisation et lapprentissage, pour lingnierie
et la neurobiologie.
ESPCI, Laboratoire dlectronique, 10 rue Vauquelin, F 75005 Paris France
Chapitre 3 Jean-Marc Martinez, ingnieur au Centre dtudes de Saclay, effectue des recher-
ches dans le domaine des mthodes adaptes la supervision de la simulation. Il
enseigne les mthodes dapprentissage statistique lINSTN de Saclay et vry en
collaboration avec le LSC, unit mixte CEA Universit.
DM2S/SFME Centre dtudes de Saclay, 91191 Gif sur Yvette France
Lapprentissage statistique
XIV
Introduction
Une des tches essentielles du cerveau consiste transformer des informations en connaissances : identi-
fier les lettres qui constituent un texte, les assembler en mots et en phrases, en extraire un sens, sont des
activits qui nous paraissent naturelles une fois lapprentissage ncessaire accompli avec succs.
Lobjectif de lapprentissage statistique est dimiter, laide dalgorithmes excuts par des ordinateurs,
la capacit quont les tres vivants apprendre par lexemple. Ainsi, pour apprendre un enfant la lecture
des lettres ou des chiffres, on lui prsente des exemples de ceux-ci, crits dans des styles et avec des
polices diffrents. On ne fournit gnralement pas lenfant une description analytique et discursive de la
forme et de la topologie des caractres : on se contente de lui montrer des exemples. la fin de lappren-
tissage, on attend de lenfant quil soit capable de lire non seulement tous les chiffres et lettres qui lui ont
t prsents durant son apprentissage, mais galement tous les chiffres et lettres quil est susceptible de
rencontrer : en dautres termes, on attend de lui quil ait une capacit de gnralisation partir des exem-
ples qui lui ont t prsents. De mme, lissue de lapprentissage dun modle statistique partir
dexemples, celui-ci doit tre capable de gnraliser, cest--dire de fournir un rsultat correct, dans des
situations quil na pas connues pendant lapprentissage.
Considrons deux exemples simples de tches qui peuvent tre accomplies par apprentissage artificiel :
Dans les centres de tri postal, la lecture automatique des codes postaux, et des autres lments de
ladresse des lettres et paquets, est frquemment effectue laide de modles obtenus par apprentissage
statistique, partir dexemples de chacune des classes de chiffres. Il sagit l dun problme de
classification : chaque chiffre inconnu doit tre attribu une classe parmi les 10 classes de chiffres
possibles (ou tre attribu une classe dite de rejet si le chiffre est trop mal crit pour tre reconnu
par la machine : lobjet postal doit alors tre trait manuellement).
Dans lindustrie pharmaceutique, on cherche prdire lactivit thrapeutique dune molcule partir
de sa structure, avant mme de synthtiser cette molcule, afin dviter quune synthse coteuse risque
de se rvler finalement inutile. Cette prdiction est frquemment effectue par des modles, construits
par apprentissage statistique, partir de bases de donnes de molcules dont les activits thrapeutiques
sont connues.
Ces deux problmes, quoique trs diffrents, ont une caractristique commune essentielle : ils ne peuvent
pas tre rsolus par lapplication de connaissances existant a priori. Il nexiste pas dquation mathma-
tique, issue des connaissances des chimistes et des pharmaciens, qui permette de prdire prcisment
lactivit dune molcule connaissant sa structure ; de mme, il nexiste pas dquation qui dcrive les
proprits topologiques des chiffres manuscrits. Cest dans de telles conditions que le recours lappren-
Lapprentissage statistique
2
tissage statistique partir dexemples se rvle trs fructueux. Nous prsenterons bien dautres exemples
dapplications dans ce chapitre et les suivants.
Cet ouvrage prsente trois grandes familles de modles statistiques obtenus par apprentissage artificiel
les rseaux de neurones, les machines vecteur supports et les cartes auto-adaptatives qui connaissent
un grand succs, depuis plusieurs annes ; ils font lobjet de trs nombreuses applications.
Lobjectif de ce chapitre est de prsenter les bases de la conception dun modle par apprentissage, de
manire aussi intuitive que possible, mais avec la rigueur ncessaire pour une mise en uvre raisonnable
et lobtention de rsultats fiables. On prsente tout dabord un exemple trs lmentaire de modlisation
par apprentissage, qui montre la dualit entre lapproche algorithmique, traditionnelle en apprentissage,
dune part, et lapproche statistique, qui en est devenue indissociable, dautre part. La notion fondamen-
tale tant celle de modle, on prsente ensuite quelques dfinitions qui prcisent ce que lon entend par
modle dans cet ouvrage ; on introduit notamment la distinction entre modles linaires et modles non
linaires en les paramtres, ainsi que la distinction entre modles statiques et modles dynamiques. La
section suivante dcrit deux problmes acadmiques dapprentissage, lun dans le domaine de la classifi-
cation, lautre dans celui de la prdiction ; ces exemples simples permettent de mettre en vidence le
dilemme biais-variance, qui constitue un problme central pour la pratique de lapprentissage statistique.
On prsente ensuite, de manire plus formelle, les lments de la thorie de lapprentissage : fonction de
perte, erreur de prdiction thorique, classifieur de Bayes, dilemme biais-variance. Il sagit l essentielle-
ment de rsultats asymptotiques, valables dans lhypothse o le nombre dexemples est infini. La
cinquime section est plus proche de la pratique, en ce sens que les rsultats qui y sont prsents tiennent
compte du fait que les donnes sont en nombre fini : ce sont les bornes sur lerreur de prdiction, fournies
par la thorie de V. Vapnik. Les quatre sections suivantes sont de nature entirement pratique : elles expo-
sent les diffrentes tches accomplir pour concevoir un modle par apprentissage collecte des donnes,
prtraitements, slection des variables, apprentissage, slection de modles. Ces deux dernires tches
font lobjet de deux sections suivies dun rsum de la stratgie de conception de modles. On prsente
ensuite a conception des modles les plus simples : les modles linaires en leurs paramtres. Enfin, la
dernire section du chapitre fournit les lments de statistiques ncessaires une bonne comprhension
de la mise en uvre des mthodes dcrites tout au long de louvrage.
Dans cet ouvrage, toutes les variables seront regroupes en un vecteur not x, et tous les paramtres en un
vecteur not w. Un modle statique sera dsign par g(x, w) : aprs apprentissage, cest--dire estimation
des paramtres w, la valeur que prend la fonction, lorsque les variables prennent un ensemble de valeurs
x, constitue la prdiction effectue par le modle. Les modles dynamiques seront dfinis dans la section
suivante, intitule Quelques dfinitions concernant les modles .
titre dexemple trs simple de modle statique, supposons que lon ait effectu N mesures (p1, p2, ,
pN) du poids dun objet, avec des balances et dans des lieux diffrents. Nous cherchons estimer le poids
de cet objet. Nous observons que les rsultats des mesures sont tous peu prs identiques, des fluctua-
tions prs qui peuvent tre dues limprcision des mesures, aux rglages diffrents des balances, ou
des variations locales de lacclration de la pesanteur. On peut donc supposer raisonnablement que la
masse de lobjet est constante ; en consquence, la premire tape de conception dun modle prdictif
consiste postuler un modle de la forme
g ( x, w ) = w ,
o w est un paramtre constant dont la valeur est lestimation du poids de lobjet. La deuxime tape consiste
estimer la valeur de w partir des mesures disponibles : cest ce qui constitue lapprentissage proprement
dit. Une fois lapprentissage termin, le modle fournit une estimation du poids de lobjet, donc une prdic-
tion du rsultat de la mesure de celle-ci, quels que soient la balance utilise et le lieu de la mesure.
Cet exemple contient donc, sous une forme trs simplifie, les tapes que nous avons dcrites plus haut :
On sest fix un objectif : prdire la valeur dune grandeur ; dans cet exemple trs simple, cette valeur
est constante, mais, en gnral, la valeur prdite dpend de variables x.
On a postul un modle g(x, w), o x est le vecteur des variables du modle, et w est le vecteur des para-
mtres du modle ; dans cet exemple, il ny a pas de variable puisque la grandeur prdire est constante,
et il y a un seul paramtre w. Le modle postul est donc simplement la fonction constante g(x, w) = w.
Il reste alors estimer lunique paramtre du modle, cest--dire effectuer lapprentissage du modle
partir des donnes disponibles.
Cet apprentissage peut tre considr sous deux points de vue, qui suggrent deux mthodes destimation
diffrentes ; elles conduisent videmment au mme rsultat.
( )
J ( w ) = pk g ( x k , w ) ,
2
k =1
cest--dire la somme des carrs des diffrences entre les prdictions g(xk, w) et les mesures pk. xk dsigne
le vecteur des valeurs que prennent les variables lors de la mesure k. Puisque nous avons postul un
modle constant, cette fonction de cot scrit
N
J ( w ) = ( pk w ) .
2
k =1
Pour trouver la valeur de w pour laquelle cette fonction est minimale, il suffit dcrire que sa drive est
nulle :
Lapprentissage statistique
4
dJ ( w )
= 0,
dw
ce qui donne :
1 N
w= pk .
N k =1
Le meilleur modle prdictif, au sens de la distance des moindres carrs que nous avons choisie, et
compte tenu des donnes dont nous disposons, sous lhypothse que la masse de lobjet est constante, est
donc
1 N
g ( x, w ) = pk .
N k =1
Le poids prdit est donc simplement la moyenne des poids mesurs.
1 N
pk .
N k =1
1 N
On retrouve donc le modle prdictif obtenu par lapproche algorithmique : g ( x, w ) = pk .
N k =1
Ayant ainsi dtermin le modle par apprentissage, il est trs important destimer la confiance que lon
peut avoir en cette prdiction : pour cela, on calcule un intervalle de confiance sur la prdiction fournie.
Lapprentissage statistique : pourquoi, comment ?
5
CHAPITRE 1
Le calcul de lintervalle de confiance sur la moyenne dobservations est dcrit dans la dernire section de
ce chapitre.
Ces deux points de vue, algorithmique et statistique, ont longtemps t spars. Les tout premiers dve-
loppements de la thorie de lapprentissage, apparus dans les annes 1980, taient essentiellement
inspirs par le point de vue algorithmique, ce qui nintressait gure les statisticiens. Ce nest que dans les
annes 1990 quune vritable synergie sest cre entre les deux approches, permettant le dveloppement
de mthodologies efficaces et fiables pour la conception de modles par apprentissage.
Modles statiques
Un modle statique est une fonction paramtre note g ( x, w ), o x est le vecteur dont les composantes
sont les valeurs des variables, et o w est le vecteur des paramtres du modle.
o fi est une fonction connue, non paramtre, ou paramtres connus. Ce modle peut encore scrire
sous la forme dun produit scalaire :
g ( x, w ) = w f ( x ),
o f (x) est le vecteur dont les composantes sont les fonctions fi(x).
Les polynmes, par exemple, sont des modles linaires en leurs paramtres : les fonctions fi(x) sont les
monmes des variables x. Les polynmes sont nanmoins non linaires en leurs variables.
On appelle modle linaire un modle qui est linaire en ses paramtres et en ses variables. Les modles
linaires sont donc de la forme :
p
g ( x, w ) = wi xi = w x .
i =1
Un modle affine est un modle linaire qui contient une constante additive :
p 1
g ( x, w ) = w0 + wi xi .
i =1
Lapprentissage statistique
6
Remarque
Un modle afne peut donc tre considr comme un modle linaire dont une des variables est constante, gale 1. Il est donc inutile,
en gnral, de faire une distinction entre modles linaires et modles afnes.
o les fonctions fi sont des fonctions non linaires, paramtres par les composantes du vecteur w. Le
vecteur w a donc pour composantes les paramtres wi (i = 1 p) et les composantes de w. Les rseaux de
neurones, qui sont largement tudis dans cet ouvrage, constituent un exemple de modles non linaires
en leurs paramtres et non linaires en leurs variables.
Modles dynamiques
Dans les modles dcrits dans la section prcdente, le temps ne joue aucun rle fonctionnel : si les varia-
bles x sont indpendantes du temps, la valeur fournie par le modle (ou sortie du modle) est indpen-
dante du temps. Les modles dynamiques, en revanche, ont une forme de mmoire : la sortie du modle
un instant donn dpend de ses sorties passes. En consquence, elle peut voluer dans le temps, partir
dun tat initial, mme si les variables x sont constantes, voire nulles.
La trs grande majorit des applications des modles statistiques sont ralises laide dordinateurs, ou
de circuits lectroniques numriques. Dans les deux cas, les mesures des variables sont effectues inter-
valles rguliers, dont la dure est appele priode dchantillonnage. De mme, les prdictions du modle
ne sont pas fournies de manire continue, mais intervalles rguliers, gnralement caractriss par la
mme priode dchantillonnage que les mesures des variables. De tels systmes sont dits temps discret,
par opposition aux systmes physiques naturels, qui sont des systmes temps continu.
Ces derniers sont dcrits par des modles dynamiques temps continu, qui sont des quations (ou des
systmes dquations) diffrentielles du type :
dy
= g ( y, x, w )
dt
o t dsigne le temps, y la prdiction effectue par le modle, x et w les vecteurs des variables et des para-
mtres respectivement.
Pour les modles temps discret, le temps nest plus une variable continue :
t = kT
o T dsigne la priode dchantillonnage et k est un nombre entier positif. La prdiction de la valeur prise
par la grandeur modliser linstant kT, connaissant les prdictions effectues aux n instants prcdents,
et les valeurs des variables aux m instants prcdents, peut alors tre mise sous la forme :
o n et n sont des entiers positifs ; n est appel ordre du modle. Cette forme de modle est assez natu-
relle, mais nous verrons, dans les sections du chapitre 2 consacres la modlisation dynamique bote
noire , et dans les chapitres 4 et 5, quil existe des formes plus gnrales de modles dynamiques.
Comme pour les modles statiques, la fonction g(y, x, w) peut tre soit linaire, soit non linaire, par
rapport ses variables et ses paramtres. Dans la suite de ce chapitre, nous ne considrerons que des
modles statiques ; les modles dynamiques seront abords dans les chapitres 2, 4 et 5.
Cest donc un modle d+1 paramtres w0, w1, , wd. Le modle le plus simple de cette famille est le
modle constant g(x, w) = w0, mis en uvre dans la section intitule Premier exemple .
Pour effectuer lapprentissage de ces modles, on peut utiliser la mthode des moindres carrs, dj
mentionne. Les dtails en seront dcrits plus loin, dans la section intitule Conception de modles
linaires par rapport leur paramtres ; pour linstant, il est intressant dobserver les rsultats de ces
apprentissages, reprsents sur la figure 1-2 pour d = 1 (fonction affine), d = 6 et d = 10 ; le mme
graphique comporte galement une reprsentation de la fonction 10 sin x / x.
20
d=1
d=6
Figure 1-2.
Trois modles
d = 10 polynomiaux
10 sinx / x
-5
-2 x +3
Le modle affine (d = 1) ne rend pas du tout compte des observations car il na pas la souplesse souhai-
table pour sadapter aux donnes ; dans le jargon de lapprentissage statistique, on dira que la complexit
du modle est insuffisante. linverse, le modle polynomial de degr 10 est suffisamment complexe
pour passer trs prcisment par tous les points dapprentissage ; on observe nanmoins que cette prci-
sion sur lensemble dapprentissage est obtenue au dtriment des qualits de gnralisation du modle :
cest le phnomne de surajustement. En effet, au voisinage de x = 2 comme au voisinage de x = +3, ce
modle fournit des prdictions trs loignes de la ralit reprsente en trait plein. En revanche, le
modle polynomial de degr 6 prsente un bon compromis : la courbe ne passe pas exactement par tous
les points ce qui est normal puisque ces points rsultent en partie dun tirage alatoire mais elle est
assez proche de la vraie fonction 10 sinx / x.
Afin de rendre ces considrations plus quantitatives, on a constitu, outre lensemble dapprentissage, un
deuxime ensemble de donnes, dit ensemble de test, indpendant du prcdent, mais dont les NT
Lapprentissage statistique : pourquoi, comment ?
9
CHAPITRE 1
lments sont issus de la mme distribution de probabilit. On dfinit lerreur quadratique moyenne sur
lensemble dapprentissage (EQMA) et lerreur quadratique moyenne sur lensemble de test (EQMT) :
1 NA p NT
(
yk g ( x k , w ) ) 1
( y g ( xk , w ) )
2 2
EQMA = EQMT = p
k .
N A k =1 NT k =1
Lensemble de test, comprenant NT = 1000 lments, est reprsent sur la figure 1-3. De plus, 100 ensem-
bles dapprentissage de NA = 15 lments chacun ont t constitus.
+10
Figure 1-3.
Ensemble de test
yp
-4
-2 x +3
100 modles ont t crs partir de ces ensembles dapprentissage, et, pour chacun de ces modles,
lEQMA et lEQMT ont t calcules. La figure 1-4 montre lvolution des moyennes des EQMA et
EQMT, en fonction de la complexit (degr) du modle polynomial postul.
Remarque 1
Le fait de prsenter des moyennes des EQMA et EQMT, sur 100 modles obtenus partir de 100 ensembles dapprentissage diffrents,
permet dviter lobservation de phnomnes lis une ralisation particulire du bruit prsent dans les observations dun ensemble
dapprentissage donn. Dans la pratique, on ne dispose videmment que dun seul ensemble dapprentissage.
Remarque 2
Dans la pratique, si lon disposait dun ensemble de 1 000 exemples, on utiliserait beaucoup plus que 15 exemples pour effectuer lappren-
tissage. Par exemple, on utiliserait 500 exemples pour lapprentissage et 500 pour tester le modle. Dans cette section, nous nous plaons
volontairement dans un cadre acadmique, pour mettre en vidence les phnomnes importants. La mthodologie adopter pour la
conception de modles est prsente dans la section de ce chapitre intitule La conception de modle en pratique , et elle est large-
ment dveloppe dans le chapitre 2.
Lapprentissage statistique
10
6
EQMT EQMA
5
Figure 1-4.
Erreurs
quadratiques
4 moyennes
sur lensemble
dapprentissage
et sur lensemble
3 de test
0
0 2 4 6 8 10 12 14
Degr du modle polynomial
On observe que lerreur dapprentissage (EQMA) diminue lorsque la complexit du modle augmente :
le modle apprend de mieux en mieux les donnes dapprentissage. En revanche, lerreur sur lensemble
de test (EQMT) passe par un optimum (d = 6) puis augmente : laugmentation de la complexit du modle
au-del de d = 6 se traduit par une dgradation de ses capacits de gnralisation.
Remarque
Les brusques variations de lEQMA et de lEQMT observes lorsque lon passe du degr 3 au degr 4 sont dues la nature particulire de
lexemple tudi : en effet, dans le domaine de variation de x considr, la fonction sin x / x prsente deux points dinexion (points o la
drive seconde de la fonction est nulle). Or un polynme de degr d a au plus d 2 points dinexion : pour que le modle polynomial
puisse reproduire les deux points dinexion de la fonction gnratrice des donnes, il faut donc quil soit au moins de degr 4.
On observe galement que lEQMT reste toujours suprieure lcart-type du bruit (qui vaut 1 dans cet
exemple), et que lEQMT du modle qui a la meilleure gnralisation est voisine de lcart-type du bruit.
Ainsi, le meilleur modle ralise un compromis entre la prcision de lapprentissage et la qualit de la gn-
ralisation. Si le modle postul est trop peu complexe, lapprentissage et la gnralisation sont peu prcis ;
si le modle est trop complexe, lapprentissage est satisfaisant, mais la gnralisation ne lest pas. Ce
compromis entre la qualit de lapprentissage et celle de la gnralisation, gouvern par la complexit du
modle, est connu sous le terme de dilemme biais-variance : un modle qui a un biais faible apprend trs
bien les points dapprentissage, mais il peut avoir une variance leve car il peut tre fortement tributaire de
dtails de lensemble dapprentissage (modle surajust). En revanche, un modle peut avoir un biais lev
Lapprentissage statistique : pourquoi, comment ?
11
CHAPITRE 1
(il napprend pas parfaitement les lments de lensemble dapprentissage) mais une variance faible (il ne
dpend pas des dtails de lensemble dapprentissage). Le phnomne observ dans cet exemple est absolu-
ment gnral, comme nous le dmontrerons dans la section intitule Dilemme biais-variance .
Dans la section intitule lments de thorie de lapprentissage , on donnera une expression quantita-
tive de la notion de complexit. On montrera notamment que, pour les modles polynomiaux, la
complexit nest rien dautre que le nombre de paramtres du modle, soit d + 1 pour un polynme de
degr d ; on montrera galement que le dilemme biais-variance est gouvern par le rapport du nombre de
paramtres au nombre dexemples disponibles.
Retrouvons prsent le mme phnomne sur un second exemple acadmique, qui est cette fois un
problme de classification.
Un exemple de classification
3 Rappelons quun problme de classification
consiste affecter un objet inconnu une classe
parmi plusieurs. Considrons un problme deux
2
classes A et B. On souhaite que soit attribue tout
lment de la classe A une tiquette yp = +1, et
1 tout lment de B une tiquette yp = 1. On dispose
dun ensemble dapprentissage, constitu dexem-
ples de chacune des classes, dont la classe est
connue : des tiquettes exactes leur ont t affec-
x2
0
tes. Dans le problme considr ici, chaque
objet est dcrit par un vecteur x deux
-1
composantes : on peut donc le reprsenter par un
point dans le plan des variables (x1, x2). La figure 1-5
-2 reprsente un ensemble dapprentissage compre-
nant 80 exemples par classe. Les exemples de la
classe A sont reprsents par des croix, ceux de la
-3
-3 -2 -1 0 1 2 3 classe B par des cercles. On cherche la frontire
1
x entre ces classes, cest--dire une ligne, dans ce
plan, qui spare les exemples avec un nombre
Figure 1-5. Ensemble dapprentissage pour un problme derreurs minimal : on souhaite que la plupart des
acadmique de classification exemples dune classe (voire tous) soient dun ct
de la frontire, et que la plupart des exemples de
lautre classe (voire tous) soient de lautre ct ; on dit quil y a une erreur de classification lorsquun
exemple est situ du mauvais ct de la frontire.
Comme dans lexemple de modlisation, on prsente ici un problme acadmique : le processus gnra-
teur des donnes est connu, ce qui nest pas le cas pour un problme rel. Les exemples de lensemble
dapprentissage ont t tirs de deux distributions gaussiennes isotropes dcart-type gal 1, dont les
centres sont respectivement le point (x1 = + 0,5 ; x2 = 0,5) pour la classe A, et (x1 = 0,5 ; x2 = + 0,5)
pour la classe B. On dmontrera, dans la section intitule Classifieur de Bayes , que la diagonale du
carr, qui est laxe de symtrie du problme, est la frontire pour laquelle le risque derreur de classifica-
tion est minimal. On voit que cette frontire thorique idale ne spare pas parfaitement bien tous les
exemples dapprentissage : le taux derreur sur lensemble dapprentissage nest pas nul si lon choisit
cette frontire, mais nous montrerons que le taux derreur sur lensemble de tous les objets, engendrs par
le mme processus gnrateur, mais nappartenant pas lensemble dapprentissage, est minimal.
Lapprentissage statistique
12
Le classifieur de Bayes prsente donc une gnralisation optimale ; malheureusement, on ne peut le dter-
miner que si les distributions des exemples sont connues, ce qui nest gnralement pas le cas dans un
problme rel. On peut seulement sefforcer de trouver un classifieur qui en soit proche. Cest ce qui va
tre tent par les deux mthodes dcrites ci-dessous.
Pour visualiser les rsultats, le calcul est effectu pour 10 000 points disposs rgulirement sur une grille
de 100 100 points. La figure 1-6 montre les rsultats obtenus pour k = 1, k = 7, k = 21 et k = 159 (cette
dernire valeur est la valeur maximale de k puisque lensemble dapprentissage comporte en tout
160 exemples) ; les points affects la classe A par le classifieur sont reprsents en gris fonc, ceux qui
sont affects la classe B en gris clair.
Pour k = 1, on observe que la frontire est trs irrgulire, et dfinit des lots de lune des classes dans
lautre classe. Ce phnomne sexplique facilement : comme chaque point de lensemble dapprentissage
est son propre plus proche voisin, il est forcment bien class. La frontire dpend donc compltement de
lensemble dapprentissage choisi : un autre tirage alatoire de points dans les mmes distributions gaus-
siennes aurait produit une frontire trs diffrente. Cest un modle qui a un biais faible (tous les exemples
de lensemble dapprentissage tant bien appris, le taux derreur sur lensemble dapprentissage est nul)
et une variance leve (la frontire varie beaucoup si lon change lensemble dapprentissage). La capa-
cit de gnralisation est donc certainement trs faible, le modle tant compltement surajust
lensemble dapprentissage disponible. La croix en traits pais (x1 = 2, x2 = 2,5), qui nappartient pas
lensemble dapprentissage, est mal classe.
Lorsque lon augmente k, la frontire devient plus rgulire, et plus proche de la frontire optimale (k = 7,
k = 21). La croix en traits pais est correctement classe dans lensemble des croix. Pour k = 159, on
observe en revanche que la frontire devient trs rgulire, mais quelle est trs loigne de la solution
optimale (la diagonale du carr). La croix en traits pais est nouveau mal classe.
On passe ainsi de modles de faible biais et grande variance (faibles valeurs de k) des modles de faible
variance mais de biais lev (grandes valeurs de k). Comme dans lexemple prcdent, on voit apparatre
la ncessit de trouver un compromis satisfaisant entre le biais et la variance ; ce compromis dpend la
valeur de 1 / k.
3 3
2 2
1 1
x2
x2
0 0
-1 -1
-2 -2
-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x1 x1
k=1 k=7
3 3
2 2
1 1
x2
x2
0 0
-1 -1
-2 -2
-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x1 x1
k = 21 k = 159
Figure 1-6. Classification par la mthode des k plus proches voisins
Lapprentissage statistique
14
1
g(x) = ykp
k k plus proches
voisins de x
40
35
Ensemble de test Figure 1-9.
Taux derreur
Taux derreur de classification (%)
en fonction
30 du nombre
dexemples,
complexit fixe
25
Limite de Bayes
20
15
Ensemble dapprentissage
10
5
0 4 8 12 16 20
Nombre dexemples par classe
Conclusion
Dans cette section, deux problmes acadmiques simples dapprentissage supervis ont t prsents : un
exemple de prdiction et un exemple de classification. Ces deux exemples ont permis de mettre en
vidence un problme central de lapprentissage artificiel : le dilemme biais-variance, cest--dire la
ncessit de trouver le meilleur compromis possible entre la capacit du modle apprendre les exemples
dapprentissage et sa capacit gnraliser des situations non apprises. Ces observations empiriques
vont prsent tre justifies de manire plus rigoureuse.
y p , g ( x, w ) 0,
o yp est la valeur souhaite et g(x, w) est la valeur prdite par le modle, dont les paramtres sont les
composantes du vecteur w, tant donn le vecteur de variables x. Pour une tche de prdiction, yp est la
valeur mesure de la grandeur prdire ; pour une tche de classification deux classes, yp vaut +1 pour
un objet dune classe et 1 (ou 0) pour un objet de lautre classe.
Exemples
Une distance naturelle, trs frquemment utilise, est lerreur quadratique de modlisation :
y p , g ( x ,w ) = y p g ( x ,w ) .
2
y p , g ( x ,w ) = y p g ( x ,w ) .
P 2 = E = ( y , g ( x, w )) p
p
Y p ,X
dy p dx
P 2 == E X EY p X ( )
o EY p X ( ) dsigne lesprance mathmatique de la variable alatoire Y p X , cest--dire lesp- ( )
rance mathmatique de la fonction de perte pour les prdictions effectues par le modle pour un vecteur
de variables x donn.
Dmonstration
( )
La probabilit conjointe peut scrire pY p ,X = pY p y p x p X . Lerreur de prdiction thorique scrit donc
Lapprentissage statistique
18
( ) (
P 2 = y p , g ( x ,w ) pY p y p x p X dy p d x )
( ) (
= y p , g ( x ,w ) pY p y p x dy p p X d x )
= E X EY p X ( ) .
Considrons un exemple caractris par le vecteur de variables x. En ce point, le meilleur modle est le
modle pour lequel lerreur de prdiction thorique est minimum. Appliquons cette proprit successive-
ment deux tches : la prdiction et la classification.
Prdiction
Comme indiqu plus haut, la fonction de perte la plus frquemment utilise pour la prdiction est
y p , g ( x, w ) = y p g ( x, w )
2
f ( x ) = EY p X
Dmonstration
Rappelons que lesprance mathmatique de la fonction de perte est donne par :
( )
EY p X ( ) = y P g ( x ,w ) pY p y p x dy p . ( )
2
( )
d y P g ( x ,w ) 2 p p y p x dy p
=
Y
( )
dg ( x ,w )
g ( x ,w )=f ( x )
( ) (
= 2 y P f ( x ) pY p y p x dy p )
= 2 y pY p P
( y x ) dy
p p
(
2f ( x ) pY p y p x dy p . )
La premire intgrale nest autre que lesprance mathmatique de Yp tant donn x ; la seconde est gale 1 par dnition de la densit
de probabilit. On obtient ainsi : EY p X = f ( x ).
La distribution de probabilit des observations tant inconnue, la fonction de rgression est inconnue.
Pour connatre sa valeur en x, il faudrait raliser une infinit de mesures de la grandeur yp pour une valeur
donne des variables x et faire la moyenne des rsultats de ces mesures, ce qui nest videmment pas
raliste.
Cette fonction doit tre telle que lerreur de prdiction thorique soit minimale (on trouvera dans le
chapitre 6 un traitement beaucoup plus dtaill de ce problme).
Rgle de dcision de Bayes
Pour la prdiction, considre dans la section prcdente, on a mis en uvre, pour dfinir lerreur tho-
rique, la fonction de perte des moindres carrs. Pour la classification, on ne cherche pas approcher les
valeurs des rsultats de mesures, mais classer correctement des objets. On utilise donc une autre fonc-
tion de perte, mieux adapte ce problme :
y p ,sgn ( g ( x, w )) = 0 si y p = sgn ( g ( x, w ))
y p , sgn ( g ( x, w )) = 1 si y p sgn ( g ( x, w ))
Ainsi, la fonction de perte vaut 1 si le classifieur commet une erreur de classement pour lobjet dcrit par
x, et 0 sinon. Contrairement au cas de la prdiction, cette fonction est valeurs discrtes. Lesprance
mathmatique de la variable alatoire discrte nest autre que la probabilit pour que le classifieur
considr commette une erreur de classification pour un objet dcrit par x ; en effet :
E ( x ) = 1 Pr (1 x ) + 0 Pr ( 0 x )
= Pr (1 x ) .
Cette quantit est inconnue : pour lestimer, il faudrait disposer dune infinit dobjets dcrits par x, dont
les classes sont connues, et compter la fraction de ces objets qui est mal classe par le classifieur consi-
dr.
La variable alatoire est fonction de Yp. Son esprance mathmatique peut donc scrire :
( ) (
E ( x ) = +1,sgn ( g ( x, w )) PrY p ( +1 x ) + 1,sgn ( g ( x,w )
w )) PrY p ( 1 x ) .
La probabilit dappartenance dun objet une classe C connaissant le vecteur de variables x qui dcrit
cet objet, note PrY p ( C x ), est appele probabilit a posteriori de la classe C pour lobjet dcrit par x.
On remarque que E ( x ) ne peut prendre que deux valeurs :
E ( x ) = PrY p ( +1 x ) si sgn ( g ( x, w )) = 1,
E ( x ) = PrY p ( 1 x ) si sgn ( g ( x, w )) = +1.
Supposons que la probabilit a posteriori de la classe A au point x soit suprieure celle de la classe B :
Rappelons que lon cherche la fonction g ( x, w ) pour laquelle la probabilit derreur de classification au
point x, cest--dire E ( x ), soit minimum. La fonction g ( x, w ) pour laquelle E ( x ) est minimum est
donc telle que sgn ( g ( x, w )) = +1, puisque, dans ce cas, E ( x ) = PrY p ( 1 x ), qui est la plus petite des deux
valeurs possibles.
linverse, si PrY p ( 1 x ) > PrY p ( +1 x ), la fonction g ( x, w ) qui garantit le plus petit taux derreur en x est
telle que sgn ( g ( x, w )) = 1.
Lapprentissage statistique
20
En rsum, le meilleur classifieur possible est celui qui, pour tout x, affecte lobjet dcrit par x la classe
dont la probabilit a posteriori est la plus grande en ce point.
Cette rgle de dcision (dite rgle de Bayes) garantit que le nombre derreurs de classification est
minimal ; pour pouvoir la mettre en uvre, il faut calculer (ou estimer) les probabilits a posteriori des
classes.
Classifieur de Bayes
Le classifieur de Bayes utilise, pour le calcul des probabilits a posteriori, la formule de Bayes : tant
donn un problme c classes Ci (i = 1 c), la probabilit a posteriori de la classe Ci est donne par la
relation
pX ( x Ci ) PrCi
Pr ( Ci x ) =
( x C ) Pr
c
p X j Cj
j =1
( )
o pX x C j est la densit de probabilit du vecteur x des variables observes pour les objets de la classe
Cj (ou vraisemblance du vecteur x dans la classe Cj), et PrC j est la probabilit a priori de la classe Cj,
cest--dire la probabilit pour quun objet tir au hasard appartienne la classe Cj.
Si toutes les classes ont la mme probabilit a priori 1/c, la rgle de Bayes revient classer lobjet inconnu
x dans la classe pour laquelle x a la plus grande vraisemblance : cest une application de la mthode du
maximum de vraisemblance.
Ainsi, si lon connat analytiquement les vraisemblances, et si lon connat les probabilits a priori des
classes, on peut calculer exactement les probabilits a posteriori.
Reprenons le cas considr plus haut, dans la section intitule un exemple de classification : deux
classes A et B dans un espace deux dimensions, telles que les vraisemblances des variables sont gaus-
siennes, de mme variance , de centres xA (x1A, x2A) et xB (x1B, x2B) :
( x x )2 ( x x )2
pX ( x A ) =
1
exp 1 21A exp 2 22 A
2 2 2
( x x )2 ( x x )2
pX ( x B ) =
1
exp 1 21B exp 2 22 B .
2 2 2
Supposons que les probabilits a priori des classes soient les mmes, gales 0,5.
Dans lexemple considr plus haut, chaque classe tait reprsente par le mme nombre dexemples. Si la probabilit a priori des classes
est estime par la frquence des exemples, cest--dire le rapport du nombre dexemples dune classe au nombre total dexemples, on est
dans le cas o les deux probabilits a priori sont gales 0,5.
Lapprentissage statistique : pourquoi, comment ?
21
CHAPITRE 1
1 ( x x )2 ( x x )2
exp 1 21A exp 2 22 A
0, 5
2 2 2
Pr ( A x ) =
1 (x x )
2
(x x ) 2
1 ( x x )2 ( x x )2
0, 5 exp 1 21A exp 2 22 A + 0, 5 exp 1 21B exp 2 22 B
2 2 2 2 2 2
1 ( x1 x1B )2 ( x 2 x 2 B )2
0, 5 exp exp
2
2 2 2 2
Pr ( B x ) = .
0, 5
1
exp
( x1 x1A )
2
exp
( x2 x2 A )
2
+ 0, 5
1
exp
( x1 x1B )
2
( x 2 x 2 B )2
exp
2 2 2 2 2 2 2 2 2 2
La rgle de classification de Bayes affecte lobjet dcrit par x la classe dont la probabilit a posteriori est
la plus grande (ou, puisque les probabilits a priori sont gales, la classe pour laquelle la vraisemblance
de x est la plus grande).
La frontire entre les classes est donc le lieu des points, dans lespace des vecteurs x, o les vraisem-
blances sont gales : cest le lieu des points tels que
( x x )2 ( x x )2 ( x x )2 ( x x )2
exp 1 21A exp 2 22 A = exp 1 21B exp 2 22 B .
2 2 2 2
soit encore
( x1 x1A )2 + ( x2 x2 A )2 = ( x1 x1B )2 + ( x2 x2 B )2 .
La frontire optimale entre les classes est donc le lieu des points quidistants des centres des
distributions : cest la mdiatrice du segment de droite qui joint ces centres.
Dans lexemple considr plus haut, les centres des gaussiennes taient symtriques par rapport la
diagonale du carr reprsent sur la figure 1-6 et la figure 1-8, donc la meilleure frontire possible entre
les classes tait la diagonale de ce carr. Le rsultat le plus proche du rsultat thorique tait le sparateur
linaire de la figure 1-8 ; en effet, on avait postul un modle linaire, et celui-ci tait vrai au sens
statistique du terme, cest--dire que la solution optimale du problme appartenait la famille des fonc-
tions dans laquelle nous cherchions une solution par apprentissage. On tait donc dans les meilleures
conditions possibles pour trouver une bonne solution par apprentissage.
Connaissant la surface de sparation fournie par le classifieur de Bayes, et sachant que les classes ont le
mme nombre dlments, il est facile de trouver le taux derreur de ce classifieur : cest la probabilit de
trouver un lment de la classe A (classe des +) dans le demi-plan suprieur gauche (ou, par symtrie, la
probabilit de trouver un lment de B (classe des o) dans le demi-plan complmentaire) :
+
1 ( x x )2 ( x x )2
exp 1 21A exp 2 22 A dx1dx2,
2
2
x2 > x1 2
Lapprentissage statistique
22
Dilemme biais-variance
Les deux exemples acadmiques considrs en dbut de chapitre ont permis de mettre en vidence le
dilemme biais-variance. Muni des lments thoriques de la section prcdente, on peut prsent forma-
liser ce problme.
Considrons le cas de la prdiction par un modle dont les paramtres sont dtermins par apprentissage ;
comme indiqu plus haut, la fonction de perte la plus frquemment utilise dans ce cas est le carr de
lerreur de modlisation :
y p , g ( x, w ) = y p g ( x, w )
2
P 2 = E X EY p X y p g ( x, w ) .
2
Cherchons lerreur de prdiction en un point x de lespace des variables
P 2 ( x ) = EY p X y p g ( x, w ) ,
2
en supposant que les observations yp effectues en ce point x sont des ralisations de la variable alatoire
Y p = f (x) +
o est une variable alatoire desprance mathmatique nulle et de variance 2, et o f(x) est une fonc-
tion certaine ; lesprance mathmatique de Yp est donc f(x), la fonction de rgression de yp, dont on a vu
plus haut que cest le meilleur modle possible au sens de la fonction de perte choisie.
Supposons enfin que le modle soit obtenu par apprentissage : les paramtres w du modle doivent donc
tre considrs comme des ralisations dun vecteur alatoire W qui dpend des ralisations de Yp
Lapprentissage statistique : pourquoi, comment ?
23
CHAPITRE 1
prsentes dans lensemble dapprentissage ; de mme, les prdictions g(x, w) peuvent tre considres
comme des ralisations dune variable alatoire G(x, W) qui dpendent de Yp. Pour rendre les quations
plus lisibles, on remplace ici la notation varX par var (X) et EX par E(X).
Lerreur de prdiction thorique au point x est alors donne par :
P 2 ( x ) = 2 + var G ( x, W ) + E f ( x ) G ( x, W ) ,
2
Dmonstration
Rappelons que, pour une variable alatoire Z, on a la relation
E Z 2 = varZ + [E Z ] .
2
Le modle tant construit par apprentissage, ses paramtres, donc les prdictions du modle, sont eux-mmes des ralisations de varia-
bles alatoires W et G(x, W) par lintermdiaire de Yp. On peut donc crire :
P 2 ( x ) == E Y p G ( x ,W ) = var Y p G ( x ,w ) + E Y p G ( x ,W )
2 2
= var Y p f ( x ) + f ( x ) G ( x ,W ) + E Y p f ( x ) + f ( x ) G ( x ,W )
2
= var + f ( x ) G ( x ,W ) + E + f ( x ) G ( x ,W ) .
2
La fonction f(x) tant certaine (elle ne dpend pas de W, donc de lensemble dapprentissage), sa variance est nulle. Dautre part, lesp-
rance mathmatique de est nulle : on a donc nalement :
P 2 ( x ) = 2 + var G ( x ,W ) + E f ( x ) G ( x ,W ) .
2
Le premier terme de la somme est la variance du bruit de mesure. Le deuxime est la variance de la prdic-
tion du modle au point x, qui reprsente la sensibilit du modle lensemble dapprentissage. Le troi-
sime est le biais du modle, cest--dire le carr de lesprance mathmatique de lcart entre les prdic-
tions fournies par le modle et celles qui sont fournies par le meilleur modle possible (la fonction de
rgression f(x)).
Cette relation trs importante appelle plusieurs commentaires :
La qualit dun modle ne peut tre value que par comparaison entre son erreur de prdiction et la
variance du bruit sur les mesures. Un modle qui fournit des prdictions en dsaccord de 10 % avec les
mesures est un excellent modle si les mesures ont elles-mmes une prcision de 10 % ; mais si la prci-
sion sur les mesures est de 1 %, le modle est trs mauvais : il faut chercher lamliorer. Si la prcision
sur les mesures est de 20 %, la performance de 10% annonce pour le modle est trs suspecte : son esti-
mation doit tre remise en cause. Les trois termes de la somme tant positifs, lerreur de prdiction tho-
rique ne peut tre infrieure la variance des observations en x, cest--dire la variance du bruit qui
affecte les mesures ; en dautres termes, on ne peut pas esprer quun modle, conu par apprentissage,
fournisse des prdictions plus prcises que les mesures partir desquelles il a t construit. Cest ce qui
a t observ sur la figure 1-4, o le minimum de la racine carre de lerreur de prdiction thorique,
estime par lEQMT, tait de lordre de lcart-type du bruit.
On retrouve par cette relation le fait que le meilleur modle est la fonction de rgression : en effet, si
g(x, w) = f(x), la variance est nulle puisque le modle ne dpend pas de w, et le biais est nul ; lerreur de
prdiction est donc la plus petite possible, gale la variance du bruit.
Lapprentissage statistique
24
Si le modle ne dpend pas de paramtres ajustables, la variance est nulle, mais le biais peut tre trs
grand puisque le modle ne dpend pas des donnes. Par exemple, si g(x, w) = 0, la variance est nulle et
le biais vaut f ( x ) .
2
Dans les exemples acadmiques de prdiction et de classification que nous avons prsents, nous avons
observ que le biais et la variance varient en sens inverse en fonction de la complexit du modle : un
modle trop complexe par rapport aux donnes dont on dispose possde une variance leve et un biais
faible, alors quun modle de complexit insuffisante a une variance faible mais un biais lev. Comme
lerreur de gnralisation fait intervenir la somme de ces deux termes, elle passe par un optimum qui est
au moins gal la variance du bruit. Cest exactement ce que nous avons observ sur la figure 1-4 :
lerreur quadratique moyenne sur lensemble de test, qui est une estimation de lerreur de gnralisation,
passe par un minimum pour un polynme de degr 6, qui prsente donc la complexit optimale compte
tenu des donnes dapprentissage dont on dispose.
La relation qui vient dtre tablie fournit lerreur de prdiction thorique en un point x. Lerreur de
prdiction thorique est
P 2 = E X P 2 ( x ) = P 2 ( x ) pX dx
= 2 + E X var G ( x, W ) + E X E f ( x ) G ( x, W ) .
2
Remarque
Lesprance mathmatique EX na pas le mme sens que lesprance mathmatique E : la premire porte sur toutes les conditions expri-
mentales possibles, tandis que la seconde porte sur toutes les ralisations possibles de lensemble dapprentissage.
Pour vrifier numriquement cette relation, reprenons lexemple de la modlisation par apprentissage
partir de donnes qui ont t cres artificiellement en ajoutant la fonction 10 sin(x)/x un bruit pseudo-
alatoire de variance gale 1, en NA = 15 points xk. Pour estimer le biais et la variance en un point x, 100
ensembles dapprentissage diffrents ont t crs, en tirant au hasard, dans une distribution normale
centre, 100 valeurs de yp pour chaque valeur de xk ; on a fait lapprentissage de 100 modles diffrents
g(x, wi), i = 1 100, cest--dire que 100 vecteurs de paramtres ont t estims par la mthode des moin-
dres carrs (qui sera dcrite plus loin). Un ensemble de test de 1 000 points a t cr, et, en chaque point
de cet ensemble, le biais et la variance du modle de paramtres wi ont t estims :
2
1 100 sin xktest
estimation du biais du modle g(x, wi) au point x test
k :
100 i =1 xk
( )
10 test g xktest , wi
estimation de la variance du modle g(x, wi) au point xktest :
2
1 100
99 i =1
( )
g xktest , w i
1 100
100 j =1
( )
g xktest , w j .
( )
Lerreur de prdiction P 2 xktest est estime par :
( )) .
100
1
(
yktest g xktest ,wi
2
100 i =1
Finalement, les esprances mathmatiques de ces trois quantits sont estimes par la moyenne de chacune
delles sur les 1 000 points de test.
Lapprentissage statistique : pourquoi, comment ?
25
CHAPITRE 1
sur un ensemble
de donnes indpendant
de lensemble dapprentissage
sur lensemble
dapprentissage
Complexit du modle
De la thorie la pratique
Les rsultats qui ont t prsents dans la section prcdente sont des rsultats asymptotiques, cest--dire
quils sont exacts si lon dispose dune quantit infinie de donnes. Ils sont trs utiles, car ils expliquent
les grandes lignes des phnomnes que lon observe, et mettent en vidence les problmes quil faut
rsoudre. Nanmoins, dans une situation relle de mise en uvre des mthodes dapprentissage artificiel,
on dispose toujours dune quantit finie de donnes, insuffisante pour estimer de manire trs prcise les
Lapprentissage statistique
26
intgrales ncessaires au calcul des esprances mathmatiques ou des variances ; de plus, les distributions
de probabilits auxquelles obissent les donnes sont galement inconnues. Dans cette section, on
prsente des rsultats thoriques sur lesquels il est possible de sappuyer pour trouver des mthodes prati-
ques de conception de modles par apprentissage. Le lecteur qui ne cherche pas approfondir la thorie
de lapprentissage peut sans dommage omettre de lire cette section et passer directement la section inti-
tule La conception de modles en pratique .
P 2 = E = ( y , g ( x, w )) p
p
Y p ,X
dy p dx
est minimale. Lintgrale ntant pas calculable, il convient donc de lestimer laide des donnes dispo-
nibles. On estime donc lerreur de prdiction thorique par lerreur de prdiction empirique (galement
appele risque empirique)
1 N
P *2 = (
ykp , g ( xk , w )
N k =1
)
( )
o ykp , g ( xk , w ) est la fonction de perte choisie.
Lapport fondamental de la thorie de lapprentissage, par rapport aux statistiques classiques, rside dans
ltude de la manire dont lerreur empirique converge (ou ne converge pas) vers lerreur thorique. Ainsi,
en statistique, on montre que la moyenne est un estimateur non biais de lesprance mathmatique ; la
thorie de lapprentissage, pour sa part, sintresse la faon dont la moyenne converge vers lesprance
mathmatique lorsque le nombre dexemples augmente. Ainsi on peut valuer le nombre dexemples
ncessaires pour estimer lesprance mathmatique avec une prcision donne, ou bien valuer lerreur
que lon commet en estimant lesprance mathmatique par la moyenne, pour un nombre dexemples
donn.
Comme indiqu plus haut, la fonction de perte la plus utilise dans le cas de la prdiction est le carr de
lerreur, et lerreur de prdiction empirique est donne par
1 N p
(
yk g ( xk , w ) )
2
P *2 =
N k =1
o la somme porte sur un ensemble de donnes convenablement choisies parmi les donnes disponibles.
La premire tche consiste estimer les paramtres w, cest--dire effectuer lapprentissage proprement
dit. Pour cela, on choisit, parmi les donnes disponibles, un ensemble dapprentissage, de cardinal NA, et
lon cherche, laide dalgorithmes appropris, le vecteur w pour lequel la fonction de cot
NA
(
J = ykp g ( xk , w ) )
k =1
est minimale. Rappelons que, dans le cas o est le carr de lerreur, la fonction
Lapprentissage statistique : pourquoi, comment ?
27
CHAPITRE 1
NA
(
J = ykp g ( xk , w ) )
2
k =1
Supposons donc que lon ait trouv le minimum de la fonction de cot choisie ; la valeur de ce minimum
est-elle reprsentative de la qualit des prdictions que fournira le modle, muni des paramtres ainsi
dtermins, pour des valeurs de x qui ne font pas partie de lensemble dapprentissage ? Les exemples
prcdents montrent que la rponse est gnralement ngative. Ainsi, la figure 1-4 montre que lerreur
quadratique moyenne sur lensemble dapprentissage (EQMA), qui vaut J , est trs infrieure lerreur
quadratique moyenne sur lensemble de test pour des modles trop complexes (de degr suprieur ou gal
7). De mme, la figure 1-9 montre que lerreur sur lensemble dapprentissage est trs optimiste, cest-
-dire trs infrieure lerreur sur lensemble de test, lorsque le nombre dexemples est petit. Dautre part,
lerreur sur lensemble de test elle-mme nest quune estimation, laide dun nombre fini dexemples,
de lerreur de prdiction thorique. On peut donc en tirer deux enseignements :
dune part, il ne faut gnralement pas estimer la performance dun modle partir des rsultats de
lapprentissage ;
dautre part, il faut estimer le mieux possible lerreur de prdiction.
Les deux sections suivantes dcrivent, dune part, des lments thoriques qui permettent de borner
lerreur que lon commet en estimant les capacits de gnralisation partir des estimations obtenues
laide de donnes en nombre fini, et, dautre part, des lments mthodologiques qui permettent de dfinir
les bonnes pratiques pour la conception de modles par apprentissage.
Le rsultat le plus remarquable de cette thorie consiste en une expression quantitative de la notion de
complexit du modle : tant donne une famille de fonction g(x, w), la complexit de cette famille peut
tre caractrise par une grandeur, appele dimension de Vapnik-Chervonenkis. Le fait quil suffise dune
seule grandeur pour dfinir la complexit dune famille de fonctions quelconque est trs remarquable ; il
faut nanmoins admettre que le calcul de la dimension de Vapnik-Chervonenkis pour une famille de fonc-
tions nest pas toujours simple.
Pour la famille des polynmes de degr d, la dimension de Vapnik-Chervonenkis est gale au nombre de
paramtres du modle, soit d+1.
Exemple
Considrons la famille des fonctions afnes deux varia-
bles x1 et x2. Il est facile de prouver que la dimension de
Vapnik-Chervonenkis de cette famille de fonctions est
gale 3 : la gure 1-13 montre que les points appartenant
toutes les congurations possibles de 3 points apparte-
nant deux classes, en dimension 2, peuvent tre spars
par une fonction afne. En revanche, la gure 1-14 montre
une conguration de 4 points qui ne sont pas sparables
par une fonction de cette famille. Cette conguration admet
Figure 1-13. Toute configuration de 3 points dans le plan,
nanmoins un sparateur quadratique (une hyperbole), ce appartenant deux classes, admet un sparateur affine.
qui prouve que la dimension de Vapnik-Chervonenkis des
fonctions afnes de deux variables est gale 3, et que
celle des fonctions quadratiques de deux variables est
suprieure 3 ; comme indiqu plus haut, elle est gale au
nombre de paramtres, soit 6 pour les polynmes du
second degr deux variables.
La dimension de Vapnik-Chervonenkis est Figure 1-14. Une configuration de 4 points qui nadmet
gnralement une fonction croissante du pas de sparateur affine, mais qui admet un sparateur
quadratique.
nombre de paramtres. Mais ce nest pas
toujours le cas. Ainsi, la fonction sgn sin wx ( )
a un seul paramtre, mais peut sparer un nombre quelconque de points : il suffit de choisir une longueur
donde 2/w suffisamment petite. Sa dimension de Vapnik-Chervonenkis est infinie (figure 1-15).
de Vapnik-Chervonenkis
x ox oo x o xx o x xo x o xx o de la fonction sin(wx) est infinie.
x
Cette dfinition de la complexit permet dtablir des bornes sur lerreur commise en remplaant lerreur
de prdiction thorique P2 par une erreur empirique P*2 estime sur lensemble dapprentissage. Ainsi,
supposons que lon effectue lapprentissage dun classifieur en cherchant la fonction indicatrice
1 + sgn g ( x, w )
( x, w ) = (de valeur 0 ou 1, comme indiqu plus haut) qui minimise une erreur empi-
2
rique P*2(w) sur un ensemble dapprentissage de cardinal NA. Soit h la dimension de Vapnik-
Lapprentissage statistique : pourquoi, comment ?
29
CHAPITRE 1
Chervonenkis de g(x, w). On a le rsultat suivant : si NA > h, alors, avec une probabilit au moins gale
1 , pour toute fonction de cette famille, la diffrence entre lerreur de gnralisation (inconnue) P2(w)
commise par cette fonction et lerreur empirique P*2(w) calcule sur les donnes dapprentissage est
borne suprieurement par la quantit
E ( N A , h, ) 4 P *2 ( w )
B ( N A , h, ) = 1 + 1 + ,
2 E ( N A , h, )
N
h ln 2 A + 1 ln
4
o E ( N A , h, ) = 4
h
.
NA
( )
De plus, pour la fonction g x , w * pour laquelle lerreur empirique est minimale (cest--dire pour le
modle de la famille considre qui est trouv par apprentissage), avec une probabilit au moins gale
1-2, la diffrence entre lerreur de gnralisation P2(w*) commise par cette fonction et la plus petite
erreur de gnralisation qui puisse tre commise par un modle de cette famille est borne suprieurement par :
-ln E ( N A , h, ) 4
B * ( N A , h, ) = + 1 + 1 + .
2NA 2 E ( N A , h, )
La figure 1-16 montre
lvolution de B*(NA, h,
) en fonction du nombre
dexemples et de la
40 dimension de Vapnik-
35
Chervonenkis ( = 10-2).
On observe que cette
30 borne crot lorsque le
nombre dexemples
)
25
B * NA ,h,
Dans la pratique, la mise en uvre de ces bornes est peu utile, car elles sont gnralement trs
pessimistes ; elles peuvent ventuellement tre utilises pour comparer des modles entre eux. Nan-
moins, lapproche possde le trs grand mrite de mettre en vidence des comportements universels de
familles de fonctions, indpendamment de la distribution des exemples, pour des nombres dexemples
Lapprentissage statistique
30
finis, et de fournir des guides pour la conception de modles utiles dans des applications difficiles. Ainsi,
les machines vecteurs supports, dcrites dans le chapitre 6, permettent un contrle sur la dimension de
Vapnik-Chervonenkis.
le nombre dexpriences, en neffectuant que celles qui sont rellement utiles pour la conception du
modle.
u u
u' = ,
su
o u dsigne la moyenne de la grandeur u considre
1 N
u = uk ,
N k =1
et su est lestimateur de lcart-type de u :
1 N
(u u ) 2
su = .
N 1 k =1
degr d vaut ( n + d )!, o n est le nombre de variables ; elle crot donc trs rapidement avec n. Conserver
n! d !
un contrle sur le nombre de variables est donc un lment important dans une stratgie de modlisation
qui cherche matriser la complexit des modles. Nous dcrirons plus en dtail, dans ce chapitre, le
problme de la slection de variables et nous proposerons une mthode efficace pour le rsoudre.
Lapprentissage statistique
32
Les rsultats de la slection de variables sont susceptibles de remettre en cause des ides reues concer-
nant le phnomne modliser, ou, au contraire, de conforter des conjectures ou des intuitions concernant
linfluence des variables candidates sur la grandeur modliser.
On peut galement souhaiter diminuer le nombre de variables en rduisant la dimension de lespace de
reprsentation de la grandeur que lon cherche modliser. Les principales mthodes utilises dans ce but
sont lAnalyse en Composantes Principales (ACP), lAnalyse en Composantes Indpendantes (ACI, ou
ICA pour Independent Component Analysis) ou encore lAnalyse en Composantes Curvilignes (ACC).
LACP et lACC sont dcrites dans le chapitre 3 de cet ouvrage.
Slection de modles
Comme indiqu plus haut, la mthode de minimisation du risque structurel conduit concevoir des
modles de complexits diffrentes et choisir celui qui est susceptible davoir les meilleures proprits
de gnralisation.
Nous avons vu quil est impossible, en gnral, destimer la capacit de gnralisation dun modle
partir des rsultats de lapprentissage ; une telle procdure conduirait systmatiquement slectionner un
modle de biais faible et de variance leve, donc surajust. Pour slectionner le meilleur modle parmi
des modles de complexits diffrentes, il convient donc de les comparer sur la base des prdictions quils
effectuent sur des donnes qui nont pas servi lapprentissage. Nous dcrivons ci-dessous, dans la
section intitule Slection de modles , les mthodes les plus couramment utilises.
Slection de modles
Comme indiqu plus haut, la slection de modles est une tape cruciale dans la conception dun modle
par apprentissage. Nous dcrivons ici les trois mthodes les plus frquemment mises en uvre.
1 NA p
(
yk g ( x k , w ) )
2
EQMA =
N A k =1
o la somme porte sur les lments de lensemble dapprentissage.
Lapprentissage statistique : pourquoi, comment ?
33
CHAPITRE 1
Un ensemble de validation de taille NV, disjoint de lensemble dapprentissage, mais issu de la mme
distribution de probabilit, qui est utilis pour comparer les performances des modles du point de vue
de leur aptitude gnraliser. On calcule, pour chaque modle, son Erreur Quadratique Moyenne de
Validation (EQMV)
NV
( y )
1
g ( xk , w )
2
EQMV = p
k
NV k =1
( y )
1
g ( xk , w )
2
EQMT = p
k
NT k =1
o la somme porte sur les lments de la base de test ; ces donnes ne doivent videmment pas tre utili-
ses pendant toute la phase de slection de modle.
Parmi lensemble des modles dont on a effectu lapprentissage, on choisit videmment celui dont
lEQMV est la plus petite ; si plusieurs modles de complexits diffrentes peuvent prtendre tre
choisis car leurs EQMV sont petites, et du mme ordre de grandeur, on choisit celui dont la complexit
est la plus faible.
Une fois dtermine la famille de fonctions de complexit optimale, on effectue un dernier apprentissage
avec lensemble des donnes utilises pralablement pour lapprentissage et la validation ; la performance
du modle ainsi obtenu est estime sur les donnes rserves pour le test.
(y g ( x k , wi ) )
2
Si = p
k
k sous-ensemble
de validaation i
Apprentissage
Validation
Test
Figure 1-18. Validation croise
Leave-one-out
Le leave-one-out (galement appel jackknife) est la limite de la validation croise, dans laquelle le
nombre de partitions D de lensemble dapprentissage-validation est gal au nombre de ses lments N.
Chaque sous-ensemble de validation est donc constitu dun seul exemple. Pour une famille de fonctions
de complexit donne, il faut donc raliser autant dapprentissages quil y a dexemples dans la base
dapprentissage-validation. Pour chaque exemple k exclu de lensemble dapprentissage, on calcule
lerreur de prdiction
rk k = ykp g( x, w k )
o g(x, w-k) dsigne le modle, de paramtres w-k, obtenu lorsque lexemple k est exclu de lensemble
dapprentissage.
Une fois la procdure effectue, on calcule le score de leave-one-out
1 N k
rk ( )
2
Et = .
N k =1
Comme dans les cas prcdents, on choisit le modle qui a le plus petit score de leave-one-out ; si
plusieurs modles de complexits diffrentes peuvent prtendre tre choisis car leurs scores de leave-
Lapprentissage statistique : pourquoi, comment ?
35
CHAPITRE 1
one-out sont petits, et du mme ordre de grandeur, on choisit celui dont la complexit est la plus faible.
Lapprentissage final est effectu avec lensemble des donnes disponibles.
3
Score de leave-one-out
La figure 1-19 montre le score de leave-one-out et
EQMA lEQMA en fonction du degr du modle polyno-
2,5 cart-type du bruit mial, pour lexemple tudi plus haut dans la
section intitule Un exemple de modlisation
pour la prdiction . Les rsultats sont remarqua-
2 blement voisins de ceux qui sont reprsents sur la
figure 1-4 ; mais, la diffrence de ces derniers,
lerreur de gnralisation nest pas estime sur un
1,5
ensemble de test de 1 000 exemples (il est tout
fait exceptionnel de disposer de donnes de test
1 aussi abondantes), mais avec les seuls 30 points
disponibles. La procdure conduit la slection
dun polynme de degr 6 ; il faut noter que les
0,5
0 2 4 6 8 10 12
rsultats prsents ici sont une moyenne sur
Degr du modle polynomial 100 ensembles dapprentissage.
Figure 1-19. EQMA et score de leave-one-out moyens
sur 100 bases dapprentissage comprenant chacune
30 exemples
6 Dans la pratique, on ne dispose que dun ensemble
Score de leave-one-out
dapprentissage, ce qui introduit une plus grande
EQMA
5 variabilit dans les rsultats ; ainsi, dans le cas
cart-type du bruit
reprsent sur la figure 1-20, les modles de degr
4 6 et 8 peuvent prtendre tre choisis ; compte
tenu du fait que les scores de leave-one-out sont
3
trs voisins, on choisit le modle de degr 6.
Cette technique est donc gourmande en temps de
2 calcul, en raison du grand nombre dapprentissages
ncessaires. Le calcul du PRESS, dcrit dans la
1
section Conception de modles linaires de ce
chapitre, et la mthode du leave-one-out virtuel,
qui sera dcrite dans le chapitre 2, constituent des
0
0 2 4 6 8 10 12 alternatives beaucoup plus conomiques en temps
Degr du modle polynomial de calcul.
Figure 1-20. EQMA et score de leave-one-out
pour un seul ensemble dapprentissage
Slection de variables
Comme soulign plus haut, la slection de variables constitue un lment important dans une stratgie de
conception dun modle par apprentissage ; elle contribue en effet la diminution de la complexit dun
modle. Louvrage [GUYON 2006] fournit une excellente vue densemble des approches modernes de la
slection de variables.
Lapprentissage statistique
36
Cadre thorique
Cette section pose les bases thoriques ncessaires une apprhension gnrale du problme de slection
de variables. Le lecteur peu soucieux de ce cadre thorique peut sans dommage omettre la lecture de cette
section et passer directement la section intitule Mthode de la variable sonde .
La prsentation qui suit est inspire de lintroduction de [GUYON 2006].
Lobjectif de la slection de variables est de discerner, dans un ensemble de variables candidates {x1, x2,
xn}, qui constituent le vecteur de variables que nous avons not x dans les sections prcdentes, celles
qui sont pertinentes pour la modlisation de la grandeur yp. Comme prcdemment, ces variables peuvent
tre modlises comme des ralisations des composantes X1, X2, , Xn dun vecteur alatoire X. On
dsigne par Xi le vecteur dont les composantes sont celles de X lexception de la variable xi. Enfin, on
dsigne par Si un vecteur alatoire dont les composantes sont un sous-ensemble des composantes de Xi
(Si peut tre identique Xi). En rsum, le vecteur X modlise toutes les variables candidates, le vecteur
Xi modlise le vecteur des variables candidates dont on a supprim la variable i, et le vecteur Si modlise
le vecteur des variables candidates dont on a supprim au moins la variable i, et ventuellement dautres
variables.
Il va de soi que la variable i est certainement non pertinente pour prdire la grandeur yp si et seulement si
les variables xi et yp varient indpendamment lune de lautre lorsque toutes les autres variables sont
fixes, ce qui peut scrire :
( ) ( ) (
pX ,Y p Xi , Y p S i = p Xi Xi S i pY p Y p S i .
i
)
Une variable qui est pertinente nobit donc pas cette relation. Pour savoir si une variable est peu perti-
nente ou trs pertinente, il est donc naturel de chercher savoir si le membre de gauche de cette galit
est peu diffrent, ou trs diffrent, du membre de droite. Sagissant de distributions de probabilits, une
diffrence sexprime gnralement par la distance de Kullback-Leibler entre les distributions. La
distance de Kullback-Leibler entre deux distributions de probabilits pU et pV est dfinie par la
relation [KULLBACK 1959] :
+
pU
pV ln p du dv.
V
( )
+
p X ,Y p Xi , Y p S i
(
I Xi , Y S p i
) i
( )
= pX ,Y p Xi , Y p S i ln i
( ) (
pXi Xi S i pY p Y p S i )
dxi dy p .
Lapprentissage statistique : pourquoi, comment ?
37
CHAPITRE 1
Cette quantit nest autre que linformation mutuelle entre Xi et Yp, tant donnes toutes les autres varia-
bles. Plus elle est grande, plus la variable xi est pertinente pour la prdiction de yp, toutes les autres varia-
bles tant connues.
Puisque lon cherche un indice de pertinence qui soit indpendant des autres variables candidates, il est
naturel de proposer comme indice de pertinence, pour la variable i, la moyenne de linformation
mutuelle :
( )( )
r ( i ) = Pr S i I Xi , Y p S i .
S i
On peut alors fixer un seuil et dcider de rejeter toutes les variables telles que
r ( i ) < .
Il faut nanmoins remarquer que les intgrales qui interviennent dans lexpression de lindice de perti-
nence ne sont pas calculables, puisque lon ne dispose que dun nombre fini N de ralisations de xi et de
yp. Ce critre de slection nest donc pas applicable en pratique ; en revanche, on peut, au moins en prin-
cipe, estimer la probabilit pour que lindice de pertinence soit suprieur un seuil , et dcider que la
variable candidate doit tre rejete si la probabilit pour que son indice de pertinence soit suprieur au
seuil est infrieure une quantit :
Pr ( r ( i, N ) > ) <
o r(i, N) dsigne lindice de pertinence estim pour la variable i partir dun chantillon de N exemples.
Les mthodes qui ncessitent lestimation de densits de probabilit sont gnralement de mise en uvre
dlicate, notamment lorsque les exemples sont en nombre limit. Nous dcrivons ci-dessous une mthode
simple et robuste qui est fonde sur lestimation de corrlations.
Pr ( r ( i, N ) > ) < .
Lapprentissage statistique
38
Dans cette expression, fi(x) peut tre soit la variable xi elle-mme, qui est alors appele variable
primaire , soit une fonction non paramtre des variables, alors appele variable secondaire . Pour
simplifier, on dsignera dans la suite par zi la variable candidate de numro i, quil sagisse dune variable
primaire ou dune variable secondaire :
p
g ( x, w ) = wi zi .
i =1
Lapprentissage statistique : pourquoi, comment ?
39
CHAPITRE 1
La figure 1-22 illustre la notion de variables primaire et secondaire, laide dun graphisme qui sera large-
ment utilis dans la suite de louvrage. Les cercles reprsentent des fonctions ; le cercle contenant un
signe reprsente une fonction sommation. Les carrs ne ralisent aucune fonction : ils symbolisent
simplement les variables du modle. Le modle reprsent gauche est un modle linaire en ses para-
mtres et en ses variables : les variables primaires et secondaires sont identiques. Le modle de droite est
un modle linaire en ses paramtres mais non linaire en ses variables ; les variables secondaires sont
obtenues partir des variables primaires par des transformations non linaires non paramtres. Ainsi, le
modle de droite pourrait reprsenter un polynme, les fonctions i tant des monmes des variables
primaires.
g(x, w)
g(x, w)
w1 w2 wp
z1 z2 Variables secondaires zp
w1 w2 wp
1 x2 Variables primaires xp
...
1 x2 xm
Variables primaires
Le carr du coefficient de corrlation entre deux variables alatoires U et V centres (de moyenne nulle),
dont on connat N ralisations, est estim par la quantit
(u v )
2
k k
k =1
r2
U ,V = N N
.
uk2 vk2
k =1 k =1
Cette quantit a une interprtation gomtrique simple. Considrons lespace des observations, de dimen-
sion N. Dans cet espace, la grandeur u est reprsente par un vecteur u, dont chaque composante est une
observation uk de u. Le carr du coefficient de corrlation est alors le carr du cosinus de langle uv entre
les vecteurs u et v dans cet espace :
r2
= cos uv 2
=
( u v)
2
U ,V
(u u )(v v )
Lapprentissage statistique
40
o le symbole reprsente le produit scalaire dans lespace des observations. Le coefficient de corrlation
est donc compris entre zro (observations non corrles, vecteurs reprsentatifs orthogonaux dans
lespace des observations) et 1 (observations compltement corrles, vecteurs reprsentatifs colinaires).
Ainsi, le coefficient de corrlation entre la grandeur modliser yp et la variable candidate zi est donn
par :
r2
=
(y p
k zi ) 2
Y p , Zi
(y p
k )
ykp ( zi zi )
p
o yk et zi sont les vecteurs reprsentatifs, dans lespace des observations, de la grandeur modliser et
de la variable candidate de numro i (primaire ou secondaire) respectivement.
Attention
Ne pas confondre z et zi. Le vecteur z, qui intervient par exemple dans la notation du modle g(z, w), dsigne le vecteur des variables du
modle : il est de dimension p. En revanche, le vecteur zi reprsente la variable numro i du modle dans lespace des observations : il est
de dimension N, o N dsigne le nombre dobservations.
partir de ce coefficient de corrlation, lindice de pertinence des variables candidates est dfini comme
le rang de la variable candidate dans un classement tabli par orthogonalisation de Gram-Schmidt
[CHEN 1989]. La procdure est la suivante :
calculer les coefficients de corrlation entre ykp et les p variables candidates, et choisir la variable candi-
date zi la plus corrle ykp ;
projeter le vecteur ykp et toutes les variables non slectionnes sur le sous-espace orthogonal la variable
zi ;
itrer dans ce sous-espace.
Les variables sont donc slectionnes les unes aprs les autres. chaque orthogonalisation, la contribu-
p
tion de la dernire variable slectionne au vecteur yk est supprime ; on obtient donc bien un classe-
ment des variables par ordre de pertinence dcroissante. Il est alors naturel de considrer que le rang dune
variable dans ce classement est le reflet de la pertinence de cette variable par rapport la modlisation que
lon cherche effectuer.
La figure 1-23 illustre le processus dans un cas trs
simple o lon aurait trois exemples (N = 3) et deux
variables primaires ou secondaires candidates (p =
2), reprsentes par les vecteurs z1 et z2 dans lespace yp
des observations. La premire tape a pour effet de
slectionner la variable z1, car langle entre z1 et yP z1
est plus petit que langle entre z2 et yp. La deuxime
tape consiste projeter orthogonalement yP et la
variable non slectionne z2 sur le sous-espace ortho-
gonal z1. Toutes les variables candidates tant clas-
ses, le processus sarrte alors. Sil y avait plus de z21 yp1
deux variables candidates, le mme processus serait
itr dans le sous-espace orthogonal z1.
Remarque 1 z2
En pratique, il est prfrable dutiliser une variante de lalgorithme de
Figure 1-23. Orthogonalisation de Gram-Schmidt pour
Gram-Schmidt, appele algorithme de Gram-Schmidt modi, qui le classement de deux variables candidates dans un
est plus stable numriquement [BJRCK 1967]. espace des observations de dimension trois
Lapprentissage statistique : pourquoi, comment ?
41
CHAPITRE 1
Remarque 2
Lalgorithme dorthogonalisation de Gram-Schmidt dcrit ci-dessus est un cas particulier dun algorithme dapprentissage de modles
linaires, dcrit plus loin dans la section Moindres carrs par orthogonalisation de Gram-Schmidt
Exemple important x2
Pour illustrer limportance de considrer les variables secondaires, et de ne pas se limiter aux varia-
1 2
bles primaires, considrons un problme simple de classication, illustr sur la gure 1-24.
On dispose de quatre exemples, appartenant deux classes : la classe A, reprsente par des croix,
o +
laquelle on affecte ltiquette yp = +1, et la classe B, reprsente par des cercles, laquelle on
affecte ltiquette yp = 1. Considrons comme variables candidates les variables primaires z1 = x1, z2
3 4 x1
= x2, ainsi que la variable secondaire z3 = x1 x2. Dans lespace des observations, de dimension 4, les
vecteurs reprsentatifs des variables candidates sont (les numros des observations sont indiqus + o
sur la gure 1-24)
1 +1 1 Figure 1-24.
+1 +1 +1 Exemple illustrant
z1 = ; z 2 = ; z 3 = limportance des variables
1 1 +1 secondaires
+1 1 1
et le vecteur reprsentatif de la grandeur modliser est
1
+1
y = .
p
+1
1
( ) ( )
2 2
Aucune des deux variables primaires, prise sparment, nest pertinente pour la prdiction de yp, puisque z 1 y p = 0 et z 2 y p = 0.
En revanche, le coefcient de corrlation entre z3 et yp vaut 1. Par consquent, la variable secondaire x1x2 dtermine entirement le
modle, alors que les variables primaires sont compltement inoprantes pour rsoudre ce problme de classication (connu sous le nom
de problme du OU exclusif ou problme du XOR ) avec des modles linaires en leurs paramtres. Le modle g(x, w) = x1x2
spare compltement les exemples disponibles puisque sgn(g(x, w)) = +1 pour les exemples de la classe A et sgn(g(x, w)) = 1 pour ceux
de la classe B. Il faut nanmoins remarquer que le problme peut tre rsolu avec comme variables x1 et x2 si lon met en uvre des mod-
les non linaires en leurs paramtres, des rseaux de neurones par exemple.
Cette procdure est risque : en effet, la dcision de rejet est fonde sur le classement dun seul vecteur
reprsentatif de la variable sonde, donc dune seule ralisation de ce vecteur alatoire. Si lon procdait
un autre tirage des valeurs de la variable sonde, on obtiendrait trs probablement un autre rang, dans le
classement, pour cette variable : on prendrait donc une autre dcision de rejet. En dautres termes, le rang
de la variable sonde est lui-mme une variable alatoire, dont la distribution de probabilit est une estima-
tion de la distribution de probabilit du rang des variables non pertinentes.
Prsentation rigoureuse
Cette dernire remarque renvoie la condition de rejet tablie dans la section Cadre thorique : une
variable candidate i est rejete si
Pr ( r ( i, N ) > ) <
o r(i, N) est lindice de pertinence de la variable i, estim partir de N observations. Dans le cadre de la
mthode de la variable sonde, lindice de pertinence est le rang (i, N) de la variable candidate i ; la
variable i est donc dautant plus pertinente que son rang est petit. Lquation prcdente scrit alors :
Pr ( ( i, N ) < 0 ) <
o 0 est le rang au-del duquel les variables candidates doivent tre rejetes. Or on souhaite que toutes
les ralisations de la variable sonde soient rejetes ; lapplication de la relation prcdente aux variables
sondes scrit donc :
Pr ( S < 0 ) <
(distribution inconnue)
valeur de fixe, le seuil de rejet 0 est le
du rang des variables
0,1
rang tel quune ralisation de la variable 0,08
sonde soit classe au-dessus de ce rang Variables non pertinentes
(distribution estime par celle des variables sondes)
avec une probabilit infrieure , ou
0,06
0,8
Probabilit cumule
dure ne contrle pas le risque de rejeter dventuelles variables pertinentes qui seraient classes au-del
du rang 15 ( risque de deuxime espce ) ; on verra, dans la section intitule Limitations de la
mthode , quil est nanmoins possible destimer ce risque, sans toutefois le contrler.
En pratique, deux techniques sont utilisables pour engendrer les ralisations de la variable sonde :
mlanger alatoirement les observations des variables candidates ;
tirer des nombres alatoires dans une distribution de moyenne nulle et de variance 1, puisque les varia-
bles candidates ont t pralablement normalises et centres, comme indiqu plus haut dans la section
Prtraitement des donnes .
Si les variables candidates obissent une distribution gaussienne, on peut lgitimement considrer que
la variable sonde est gaussienne. Alors, la probabilit cumule du rang de la variable sonde peut tre
calcule analytiquement [STOPPIGLIA 2003], de sorte quil est inutile dengendrer des ralisations de la
variable sonde. On procde de la manire suivante : chaque tape du classement par la mthode de
Gram-Schmidt, on calcule la probabilit cumule du rang de la variable sonde, et, lorsque celle-ci atteint
la valeur choisie, on arrte le processus.
Si les variables nobissent pas une distribution gaussienne, on estime la probabilit cumule du rang de
la variable sonde. Pour cela, on engendre un grand nombre de ralisations de la variable sonde, et lon
procde lorthogonalisation de Gram-Schmidt. Chaque fois quune ralisation de la variable sonde est
rencontre, on en prend note et lon enlve cette variable du classement : on obtient ainsi une estimation
empirique de la probabilit cumule du rang de la variable sonde. Comme dans le cas prcdent, on arrte
le processus lorsque lestimation de la probabilit cumule atteint la valeur fixe lavance.
La figure 1-26 illustre cette approche laide dun 1 X
X
du rang de la variable sonde
Calcule
dun ensemble de 15 observations, on cherche 0,6
X
X
Limitations de la mthode
La principale limitation de la mthode de la variable sonde rsulte de lutilisation de lalgorithme de
Gram-Schmidt, qui exige que le nombre de variables slectionnes soit suprieur au nombre dexemples.
Il convient de noter que cette limitation porte sur le nombre de variables slectionnes, et non sur le
nombre de variables candidates : laide de la mthode de la variable sonde, on peut traiter des problmes
o le nombre de variables candidates est trs suprieur au nombre dexemples.
Lapprentissage statistique
44
Dautre part, la mthode contrle directement le risque de faux positif, cest--dire le risque de conserver
une variable alors quelle nest pas pertinente. Elle ne contrle pas directement le risque de faux ngatif,
cest--dire le risque de rejeter une variable alors quelle est pertinente. Nanmoins, il est possible de
conserver galement un contrle sur ce phnomne en estimant le taux de fausse dcouverte (false
discovery rate ou FDR), comme dcrit dans [DREYFUS 2006].
On observe que le taux derreur de classification moyen (en moyenne sur les 100 bases de donnes),
obtenu par un classifieur construit avec les descripteurs slectionns, est trs voisin du taux derreur de
classification obtenu par un classifieur tabli avec les vraies variables. Un test dhypothse (voir la
dernire section de ce chapitre) accepte lhypothse que la diffrence entre les taux derreurs moyens est
infrieur 0,125, cest dire une erreur sur 800 ; en dautres termes, la diffrence observe entre les taux
derreurs des deux classifieurs nest pas significative, puisque chaque base de donnes comprend
800 exemples dapprentissage. Cela signifie que, lorsque la mthode na trouv quune des deux vraies
variables, lautre variable slectionne permettait de discriminer les exemples de manire aussi prcise
que la vraie variable qui na pas t dcouverte. Les rsultats sont semblables sur les bases de test.
titre de comparaison, les taux derreurs sont denviron 45 % si les deux variables sont choisies alatoi-
rement, et de 30 % si une des vraies variables est utilise, lautre variable tant choisie alatoirement. Si
lon utilise un risque de 1% ( = 0,1), les trois premires variables du classement sont slectionnes, ce
qui ne dgrade pas les rsultats de manire significative [STOPPIGLIA 2003].
Exemple 2
On construit 100 bases de donnes de 100 exemples tirs de distributions gaussiennes deux variables x1
et x2, les centres tant dans les positions du problme du XOR (figure 1-24) ; 50 variables alatoires non
pertinentes sont ajoutes lensemble des variables candidates. On utilise cette fois, outre les variables
primaires, les monmes du second degr de celles-ci, ce qui produit en tout 1 326 variables candidates
dont 52 variables indpendantes. Comme indiqu plus haut, la seule variable pertinente pour rsoudre ce
problme est le produit x1x2 ; avec un risque de 1%, cest effectivement la seule variable slectionne.
Lapprentissage statistique : pourquoi, comment ?
45
CHAPITRE 1
EY p = w p z .
Nous cherchons construire un modle g, partir dun ensemble de N mesures { ykp, k = 1 N} qui cons-
tituent un ensemble de ralisations de la variable alatoire Yp ; nous dsignons par yp le vecteur, de dimen-
sion N, dont les composantes sont les ykp. Ce modle dpend de lensemble des mesures utilises pour sa
construction : il est donc lui-mme une ralisation dune variable alatoire G.
Supposons que lon ait dtermin un ensemble de Q variables qui contient certainement les variables
mesurables pertinentes pour la grandeur modliser. Un modle contenant toutes les variables mesurables
pertinentes est appel modle complet. On cherche alors un modle de la forme
GQ = W Q z Q
o zQ est le vecteur des variables du modle (de dimension Q+1 puisque, outre les variables pertinentes,
le vecteur des variables contient une composante constante gale 1) et o W est un vecteur alatoire qui
dpend de la ralisation du vecteur Yp utilise pour la construction du modle. Rappelons que lon dit que
ce modle complet est vrai, pour indiquer quil existe certainement une ralisation wp du vecteur alatoire
W telle que gQ = EY p .
Supposons que lapprentissage soit effectu par minimisation de la fonction de cot des moindres carrs
( ) (y )
N
J ( w ) = ykp gQ ( z k , w ) gQ ( z, w ) ,
2 2
= p
k =1
o w dsigne une ralisation du vecteur des paramtres W, zk est le vecteur des Q+1 variables pour
lexemple k, et o gQ(z, w) est le vecteur des valeurs des ralisations de GQ pour les N mesures effectues.
Q
Soit wmc le vecteur des paramtres pour lequel la fonction de cot J est minimum. Le modle obtenu est
donc de la forme gQ = wmc Q
z , et lon peut dfinir le vecteur gQ = Zwmc
Q
, o :
gQ est le vecteur dont les N composantes sont les prdictions du modle pour chacune des N mesures
effectues ;
Lapprentissage statistique
46
Z est une matrice (dite matrice des observations) dont la colonne i (i = 1 Q+1) est le vecteur zi dont les
composantes sont les N mesures de la variable numro i : la matrice Z a donc N lignes et Q+1 colonnes :
z 11 z 1, Q + 1
O z 2, Q + 1
Z = z 21
M O M
z N, 1 z N, Q + 1
On se pose la question suivante : les Q variables du modle complet sont-elles toutes pertinentes ? Pour
rpondre cette question, on remarque que, si une variable nest pas pertinente, le paramtre correspon-
dant du modle complet doit tre gal zro. On appelle sous-modle du modle complet un modle
obtenu en mettant zro un ou plusieurs paramtres du modle complet. Pour rpondre la question
pose, il faut donc comparer le modle complet tous ses sous-modles. Considrons un de ceux-ci, par
exemple le modle dont le vecteur w a ses q dernires composantes (numrotes de Q-q+2 Q+1) gales
Qq Qq
zro : gQ q = Zwmc , o wmc est le vecteur de paramtres obtenus en minimisant la fonction de cot des
( )
moindres carrs J ( w ) = y p gQ q ( z, w ) sous la contrainte que les q dernires composantes du vecteur
2
des paramtres soient nulles. On veut tester lhypothse nulle H0 : les q derniers paramtres du vecteur
alatoire W sont nuls. Si cette hypothse est vraie, la variable alatoire
2 2 2
N Q 1 Y GQ q Y GQ N Q 1 GQ GQ-q
p p
U= 2
= 2
q Y p GQ q Y p GQ
Supposons que lon dispose dune trs grande quantit de mesures ; si lhypothse nulle est vraie, le
numrateur de U est trs petit car le procd de minimisation de la fonction de cot donne des valeurs
nulles aux q paramtres inutiles du modle complet, donc gQ et gQ-q sont trs voisins. Si lhypothse
nulle est fausse, les deux modles ne peuvent pas tre trs voisins, mme si le nombre de mesures est trs
grand, puisque le sous-modle est trop pauvre pour rendre compte des donnes exprimentales. On
comprend ainsi que la valeur de la ralisation de U doit tre petite si lhypothse nulle est vraie.
Le test de Fisher consiste donc choisir un risque , et trouver, en inversant la distribution de probabilit
cumule de Fisher, la valeur u telle que Pr(u < u ) = . On calcule alors la quantit u (ralisation de la
variable U avec les mesures disponibles) :
Lapprentissage statistique : pourquoi, comment ?
47
CHAPITRE 1
( ) ( )
2 2
Qq
N Q 1 y gQ q z , wmc y p gQ z , wmc
p Q
u=
( )
2
q y p gQ z , wmc
Q
Si lon nest pas sr que la valeur de choisie pour effectuer cette procdure est optimale, on peut ajouter
une boucle extrieure portant sur diffrentes valeurs de .
Cette stratgie est applicable toute mthode de slection de variables fonde sur un classement des varia-
bles par ordre de pertinence.
Rappelons quil existe un grand nombre de mthodes de slection de variables. La mthode de la variable
sonde, dcrite ici, a t prsente car elle est simple et robuste ; elle a t valide sur une grande varit
dapplications ; nanmoins, il ny a pas de mthode miracle, et dans certains cas, dautres mthodes
peuvent se rvler plus efficaces. Une synthse trs complte des mthodes modernes de slection de
variables est prsente dans louvrage [GUYON 2006].
o les fonctions fi(x) sont des fonctions non paramtres des variables (composantes du vecteur x), dites
variables primaires. Ces fonctions peuvent tre considres comme des variables secondaires zi, de sorte
que lon crira de manire gnrale un modle linaire en ses paramtres sous la forme
p
g ( z, w ) = wi zi
i =1
o les variables zi peuvent tre soit les variables primaires elles-mmes, soit des variables secondaires
dduites des variables primaires par une transformation non paramtre (ou paramtres fixs). On crira
aussi un tel modle sous la forme
g ( z, w ) = w z
y p , g ( z, w ) = y p g ( z, w )
2
de sorte que lon cherche les paramtres pour lesquels la fonction de cot des moindres carrs J(w) est
minimum :
NA
(
J ( w ) = ykp g ( z k , w ) )
2
k =1
o NA est le nombre dexemples de lensemble dapprentissage, zk est le vecteur des variables pour
lexemple k, et ykp est la valeur de la grandeur modliser pour lexemple k.
Dans la section intitule Variable sonde et test de Fisher , on a dfini la matrice des observations Z, qui
est une matrice N lignes et p colonnes, dont llment zij est la valeur prise par la variable numro j du
modle pour lexemple i de lensemble dapprentissage :
z 11 z 1, p
O z 2, p .
Z = z 21
M O M
z N, 1 z N, p
J ( w ) = y p g ( z, w )
2
o yp est le vecteur dont les N composantes sont les valeurs de la grandeur mesurer pour chacun des N
exemples, et g(z, w) est le vecteur dont les N composantes sont les prdictions du modle pour chacun des
exemples. Le vecteur wmc est le vecteur pour lequel la fonction de cot est minimum :
dJ ( w )
w J = = 0,
dw w=wmc
qui reprsente un ensemble de p quations, dont les p inconnues sont les paramtres wi, i = 1 p. Comme
la fonction J(w) est quadratique en fonction des wi, sa drive par rapport wi est linaire : il sagit donc
dun systme linaire de p quations p inconnues, appeles quations canoniques.
On montre facilement que cette quation scrit
w J = 2 ZT y p Zwmc = 0( )
o ZT dsigne la transpose de la matrice Z, soit encore
( )
1
wmc = ZT Z ZT y p .
Lapprentissage statistique
50
Exemple 70
r2 = 0,89
Considrons un modle afne une variable (p = 2) comme 60 wmc1 = - 0,3
wmc2 = 5,9
reprsent sur la gure 1-27 :
50
yp
tions dune variable alatoire gaussienne de moyenne nulle et 20
Fonction de rgression
dcart-type gal 3. Rappelons que, dans un problme raliste, y=2+5x
10
la fonction de rgression est inconnue : lobjectif de lapprentis-
sage est de trouver un modle qui soit aussi proche que possible 0
1 x1
-20
-2 0 2 4 6 8 10
XT X = N .
k =1
N
2
xk
k =1
( x k )
k =1
( )
1
Par application de la relation w mc = X T X X T y p , on trouve les paramtres du modle afne :
N N N
N x k y kp x k y kp
k =1 k =1 k =1
xy p x y p
w mc 2 = 2
= 2
N
N x2 x
N (xk ) xk
2
k =1 k =1
1 N p 1 N
w mc 1 = y w mc 2 N x k = y p w mc 2 x
N k =1 k k =1
Remarque 1
La droite des moindres carrs passe par le centre de gravit des mesures.
En effet : g ( x ,w ) = w mc 1 + w mc 2 x = y p w mc 2 x + w mc 2 x = y p .
Remarque 2
xy p
Si les donnes sont centres ( x = y p = 0), la droite des moindres carrs passe par lorigine car wmc1 = 0. De plus : w mc 2 =
x2
1 N
(x x )
2
= 1 = x 2 , par consquent w mc 2 = xy .
p
Si, de plus, les donnes sont normalises, on a en outre
N k =1
Lapprentissage statistique : pourquoi, comment ?
51
CHAPITRE 1
Proprit
Le vecteur des paramtres wmc trouvs par la mthode des moindres carrs est un estimateur non
biais des paramtres wp de la fonction de rgression.
Dmonstration
( ) ( ) ( )
1 1 1
On a vu plus haut que w mc = Z T Z Z T y p. Par consquent : E w mc = Z T Z Z T EY p = Z T Z Z T ZW p = W p, ce qui prouve la
proprit.
Thorme de Gauss-Markov
Thorme
Les paramtres des modles obtenus par minimisation de la fonction de cot des moindres carrs sont
les paramtres de variance minimum.
Ainsi, dans la mesure o cest laugmentation de la variance qui produit le surajustement, la minimisation
de la fonction de cot des moindres carrs permet de limiter le phnomne (sans toutefois le supprimer,
bien entendu). Lexpression de la variance des paramtres est tablie plus loin, dans la section Variance
des paramtres dun modle linaire .
0,14 0,14
0,12 0,12
0,10 0,10
Frquence de wmc1
Frquence de wmc2
0,08 0,08
0,06 0,06
0,04 0,04
0,02 0,02
0 0
1,5 2 2,5 4,5 5 5,5
wmc1 wmc2
Figure 1-28. Distributions des paramtres dun modle linaire avec bruit gaussien
( g ( x, w ) g ( x, w ) ) ( y )
N
mc mc
p
yp
k =1
r= (N >> 1).
( ) ( )
N N
g ( x, wmc ) g ( x, wmc )
2 2
yp yp
k =1 k =1
Pour juger de la qualit du modle, on utilise le coefficient de dtermination, dont on dmontre quil est
une ralisation du carr du coefficient de corrlation entre les prdictions du modle et les observations :
N
( g ( xk, wmc ) y )
p 2
2
r = k--------------------------------------------------------
=1
N
-.
( yk y )
p p 2
k=1
Lapprentissage statistique : pourquoi, comment ?
53
CHAPITRE 1
r =
2
.
x2 (y ) p 2
Remarque
On retrouve ici la formule du carr du coefcient de corrlation introduit comme critre de pertinence dans la section Slection de
variables ; on trouve galement dans cette section linterprtation gomtrique de ce coefcient.
Pour juger visuellement de la qualit dun modle, il est trs commode dutiliser son diagramme de
dispersion, qui prsente les valeurs prdites par le modle en fonction des valeurs exprimentales
correspondantes : les points de ce diagramme sont dautant plus proches de la premire bissectrice que la
qualit de lapprentissage est meilleure.
Remarque trs importante
Rappelons quun apprentissage de trs bonne qualit ne signie pas que le modle obtenu soit capable de gnraliser correctement : un
modle qui a parfaitement appris les donnes dapprentissage peut tre surajust, donc gnraliser trs mal. Il faut ainsi considrer le
diagramme de dispersion sur les donnes dapprentissage pour juger de la qualit de lapprentissage, mais galement le diagramme de
dispersion sur des donnes non utilises pour lapprentissage, an destimer la capacit de gnralisation du modle.
Interprtation gomtrique 50
Prdictions du modle
p 10
g ( z, w ) = wi zi = w z
i =1 0
-10
est obtenu par la relation
( )
1 -20
wmc = ZT Z ZT y p -20 0 20 40 60 80
Mesures
o Z est la matrice des observations. Par consquent, Figure 1-29. Diagramme de dispersion pour les donnes
reprsentes sur la Figure 1-27.
le vecteur g(z, wmc) des prdictions du modle sur
lensemble dapprentissage est donn par
(
g ( z, wmc ) = Zwmc = Z ZT Z )
1
ZT y p
Or la matrice Z ( Z Z ) T 1
ZT (de dimensions N, N) nest autre que la matrice de projection orthogonale sur
les vecteurs colonnes de la matrice Z. Le vecteur des prdictions du modle sur lensemble dapprentis-
sage est donc la projection orthogonale du vecteur yp sur le sous-espace de lespace des observations
dfini par les vecteurs colonnes de la matrice des observations Z. Ce dernier sous-espace est appel
espace des estimations .
Lapprentissage statistique
54
Remarque
( )
1
La matrice Z Z T Z Z T est souvent appele matrice chapeau et note H. En effet, le vecteur des estimations effectues par le
modle partir des observations y est souvent not y , donc y = Hy : la matrice H est la matrice qui met un chapeau sur y.
Z = 1 z2 .
Vecteur des estimations
1 z du modle
3
z1
Lespace des estimations est donc le sous-
v = z
espace dfini par les vecteurs colonnes de Z,
2
z
nots u et v respectivement. Le vecteur des 3
prdictions du modle pour lensemble Figure 1-30. Mthode des moindres carrs : interprtation
dapprentissage, ou vecteur des estimations, gomtrique
est la projection orthogonale du vecteur des
observations yp sur le sous-espace des estimations. Le vecteur des diffrences entre les mesures et les prdic-
tions sur lensemble dapprentissage est appel vecteur des rsidus. Le carr de son module est donc la somme
des carrs des erreurs sur les lments de lensemble dapprentissage. De tous les vecteurs qui joignent lextr-
mit de yp un point du sous-espace des estimations, cest celui qui a le plus petit module.
o Z est la matrice des observations. Si lon considre que les observations sont des ralisations de varia-
bles alatoires, le vecteur des paramtres est lui-mme une ralisation dun vecteur alatoire
( )
1
Wmc = ZT Z ZT Y p. Si les mesures de yp sont indpendantes et de mme variance 2, la variance du
vecteur alatoire Yp est la matrice
varY p = I NN 2.
o INN est la matrice identit de dimension N. La variance du vecteur des paramtres dun modle linaire
obtenu par la mthode des moindres carrs est donc :
( )
1
varWmc = ZT Z 2.
Lapprentissage statistique : pourquoi, comment ?
55
CHAPITRE 1
Dmonstration
Daprs la proprit rappele ci-dessous dans la section variance dun vecteur alatoire , on a :
( ) (( Z Z ) Z ) = ( Z Z ) Z (( Z Z ) Z )
1 1 T 1 1 T
varWmc = Z T Z Z T varY p T T T T T T 2
= (Z Z ) ( ) ( )
1 1 1
T
ZT Z ZT Z 2 = ZT Z 2
( ) 1 1
I NN si p << N, de sorte que var G ( z, Wmc ) z T z . ( )
1
donnes , ZT Z
N N
p
( ( ))
p p p
( )
Dautre part : E z z T z = E z zk2 = E z zk2 = E z zk ( )
+ varzk . Les donnes tant supposes
2
k =1 k =1 k =1 k =1
normalises et centres, le premier terme de la somme est nul, et le second est gal p. Il reste donc :
p
E z var G ( z, W ) = .
N
Ainsi, on retrouve le fait que, lorsque lon 0,22
par une moyenne sur 1 000 points de test. On Figure 1-31. Variance dun modle polynomial
observe que la variance augmente linairement en fonction du degr du polynme (N = 100, p = 2 21)
avec le nombre de paramtres, la pente de la droite
valant 1/N, conformment la relation dmontre ci-dessus.
Lapprentissage statistique
56
Remarque
Dans lexemple dcrit par la gure 1-11, la variance (reprsente par le symbole x) ne varie pas linairement avec le degr du polynme. Ceci
est d au fait que lexpression de la variance que lon vient dtablir est vraie dans la limite des trs grands ensembles dapprentissage (N inni) ;
pour N = 100 cette relation est raisonnablement bien vrie (gure 1-31) mais ce nest pas le cas si N vaut seulement 15 (gure 1-11).
( ) 1
1
ZT Z = N .
( zk )
2
k =1
Si lon effectue lapprentissage avec les N exemples disponibles, le paramtre wmc vaut alors :
N
z y p
k k
( )
1
k =1
wmc = Z Z T
Z y =
T p
N .
zk2
k =1
Supposons que lon retire lexemple i de lensemble des donnes disponibles, et que lon effectue
lapprentissage avec tous les autres exemples. Le paramtre du modle devient :
N
z y p
k k
z y
N
p
zi yip
k =1 k k
i k i
w mc = N
= k =1
N .
zk2 zk2
k =1 k =1
k i k i
Lapprentissage statistique : pourquoi, comment ?
57
CHAPITRE 1
Linfluence du retrait de lexemple i sur le modle se traduit donc par la variation de son unique
paramtre :
N N
i
z y p
k k zi yip z y p
k k
ri
k =1
w mc wmc = k =1
N
N
= zi N
z 2
k z 2
k z 2
k
k =1 k =1 k =1
k i k i
o ri est le rsidu (erreur de modlisation) sur lexemple i lorsque celui-ci est dans lensemble
dapprentissage :
N
z y p
k k
ri = y wmc zi = y
i
p
i
p k=1
N
zi .
zk2
k =1
Montrons prsent que lon peut calculer lerreur rii commise lorsque lexemple i a t retir de
lensemble dapprentissage en fonction de ri :
ri i ri = wmc
i
(
wmc zi = zi2 ) N
ri
= zi2 N
ri ,
z 2
k z 2
k z 2
i
k =1 k =1
k i
et par consquent :
ri z2
ri i = avec hii = N i .
1 hii
zk2
k =1
Cette relation rend donc inutile la ralisation de N apprentissages successifs, puisque lon peut calculer
exactement lerreur de modlisation qui aurait t commise sur lexemple i si celui-ci avait t retir de
lensemble dapprentissage.
La quantit hii est appele levier de lexemple i, compris entre 0 et 1. Elle est prsente de manire plus
dtaille dans la section suivante.
partir de cette relation, on peut dfinir le PRESS (Predicted REsidual Sum of Squares) Ep, par analogie
avec le score de leave-one-out Et :
2
1 N ri .
Ep =
N k =1 1 hii
Dans le chapitre 2, une extension de ces rsultats aux modles non linaires sera prsente sous le nom de
leave-one-out virtuel .
Lapprentissage statistique
58
Les leviers
Ce rsultat peut tre tendu au cas o le modle possde p paramtres. Le levier de lexemple i est alors
llment diagonal i de la matrice chapeau
( )
1
H = Z ZT Z Z T.
Cette matrice tant une matrice de projection orthogonale, les leviers possdent les proprits suivantes
(aisment vrifies sur lexpression des leviers dans le cas dun modle un seul paramtre, prsent dans
la section prcdente) :
N
0 < hii < 1 ; hii = p .
i =1
Cette dernire relation fournit une interprtation intressante des leviers : le levier de lexemple i est la
proportion des paramtres qui est utilise pour modliser lexemple i. Ainsi, un exemple qui possde un
grand levier a une grande importance pour le modle : en dautres termes, le modle est trs sensible au
bruit prsent sur la mesure de yp pour lexemple i. Il y a un risque de surajustement lexemple i.
Cet effet est illustr sur la figure 1-32.
1 + 1 +
(a) (b)
0,6 0,6
0,2 + 0,2
+ +
- 0,2 - 0,2
+
- 0,6
+ - 0,6
+
-1 -1
-1 - 0,6 - 0,2 x 0,2 0,6 1 -1 - 0,6 - 0,2 x 0,2 0,6 1
1 +
(c)
Leviers = 0,495
0,6
0,2 +
+
- 0,2 Leviers = 0,005
+
- 0,6
-1
-1 - 0,6 - 0,2 x 0,2 0,6 1
Figure 1-32. Interprtation des leviers
Lapprentissage statistique : pourquoi, comment ?
59
CHAPITRE 1
On dispose de 4 points exprimentaux, et lon postule un modle un paramtre. La figure (a) montre le
modle linaire ainsi obtenu. Supposons quune autre mesure effectue en x = 0,1 donne un rsultat
diffrent, comme indiqu sur la figure (b) ; on obtient alors le modle reprsent en trait plein, trs peu
diffrent du modle prcdent, reprsent en pointill. Supposons en revanche que ce soit le point en
x = 1 qui soit affect (figure (c)). On obtient alors le modle reprsent en trait plein, trs diffrent du
modle initial. On observe ainsi que le point situ en x = 1 a beaucoup plus dinfluence sur le modle
que le point situ en x = 0,1. Ceci se traduit par des leviers de valeurs trs diffrentes, dans un facteur
peu prs gal 100 : les points situs en x = 1 et x = 1 sont 100 fois plus importants pour le modle que
les points situs en x = 0,1 et x = + 0,1. Les expriences qui ont t effectues pour obtenir ces deux
rsultats taient donc peu prs inutiles : il aurait t plus profitable de rpter les mesures en x = 1 et x = +
1, afin de moyenner le bruit en ces points. On note que, conformment ce qui a t indiqu plus haut,
la somme des leviers est gale 1, qui est le nombre de paramtres du modle postul.
Cette illustration numrique met en lumire lintrt des plans dexpriences, qui permettent de choisir
les mesures les plus judicieuses pour tablir un modle prdictif prcis.
On considre lespace des observations, de dimension N, dans lequel la grandeur modliser est repr-
sente par un vecteur yp, et chacune des variables est reprsente par un vecteur zi, i = 1 p ; rappelons
que p est le nombre de paramtres du modle et que N est le nombre dobservations de lensemble
dapprentissage. Lalgorithme est une application simple du thorme des trois perpendiculaires :
choisir une variable i reprsente par le vecteur zi ;
y p zi
projeter yp sur la direction de zi, ce qui fournit le paramtre wmci de la variable i : wmci = ;
zi
projeter le vecteur des rsidus ri = y p wmci zi , le vecteur yp, et tous les vecteurs zji sur le sous-espace
orthogonal zi ;
projeter la projection de yp sur la projection dun deuxime vecteur zj, ce qui fournit un deuxime para-
mtre du modle ;
itrer jusqu puisement des variables du modle.
La figure 1-33 prsente lalgorithme dans le cas N = 3, p = 2. Les prdictions du modle pour lensemble
dapprentissage sont reprsentes par g(z, w), projection orthogonale de yp sur lespace des estimations,
qui est donc une combinaison linaire de z1 et z2. On peut obtenir ce vecteur en projetant dabord sur un
des vecteurs des variables (ici z1), puis en projetant orthogonalement r1 et z2 sur le sous-espace orthogonal
z1. Ce rsultat sobtient par application rpte du thorme des trois perpendiculaires.
Lapprentissage statistique
60
Dfinition
Soit pY(y) la densit de probabilit dune variable alatoire Y : la probabilit pour que la valeur dune
ralisation de Y soit comprise entre y et y+dy vaut pY(y)dy.
Ainsi, si lon traite une grandeur mesurable comme une variable alatoire, on fait comme si le rsultat de
la mesure de cette grandeur tait le rsultat dun tirage au sort dans un ensemble de valeurs possibles de
y, avec la distribution (gnralement inconnue) pY(y). Utiliser une variable alatoire pour modliser le
rsultat dune mesure ne signifie pas du tout que lon considre la grandeur mesure comme rgie par des
lois non dterministes : la variable alatoire est un outil mathmatique, dont lutilisation est trs commode
lorsque les facteurs qui dterminent le rsultat de la mesure ne sont pas connus, ou sont connus mais non
matriss ni mesurs.
Ainsi, le lancer dun d est un phnomne parfaitement dterministe, qui obit toutes les lois de la
physique : si lon connaissait la position initiale de la main du joueur, si lon pouvait mesurer la vitesse
initiale du d, et si lon connaissait les caractristiques mcaniques de la matire dont sont constitus le
d et la table sur laquelle on le lance, on pourrait prdire exactement le rsultat du lancer. Dans la pratique,
comme toutes ces grandeurs ne sont pas connues et pas mesures, il est commode de modliser ce rsultat
comme la ralisation dune variable alatoire. Dans ce cas particulier, cette variable Y est une variable
discrte, qui ne peut prendre que 6 valeurs, et, pour un d non pip, la probabilit de ralisation de
chacune de ces valeurs est gale 1/6.
Lapprentissage statistique : pourquoi, comment ?
61
CHAPITRE 1
De mme, les mthodes statistiques sont susceptibles de prvoir les rsultats dune lection, alors que
chaque citoyen ne vote pas au hasard, mais en fonction de ses convictions.
Proprit
Remarque
Toute ralisation y de la variable alatoire Y tant comprise entre et + , on a videmment
+
FY ( ) = 0, FY ( + ) = 1 et pY ( y ) dy = 1.
-
Variable certaine
Une variable certaine de valeur y0 est une variable alatoire dont la densit de probabilit est une
distribution de Dirac ( y y0 ).
0,2
Deux variables alatoires X et Y sont indpendantes si la probabilit de ralisation dune des variables
est indpendante de la probabilit de ralisation de lautre. On a donc pX ,Y ( x, y ) = p X ( x ) pY ( y ).
pX ,Y ( x, y ) = pY ( y x ) pX ( x ) = p X ( x y ) pY ( y )
Remarque :
Si les variables sont indpendantes : pY ( y x ) = pY ( y ) et p X ( x y ) = p X ( x ).
Vecteur alatoire
Un vecteur alatoire est un vecteur dont les composantes sont des variables alatoires.
Dfinition
+
Lesprance mathmatique dune variable alatoire Y est EY = ypY ( y ) dy.
Lesprance mathmatique dune variable alatoire est donc le premier moment de sa densit de probabi-
lit.
Proprits
Il est facile de dmontrer les proprits suivantes :
lesprance mathmatique dune somme de variables alatoires est la somme des esprances mathma-
tiques des variables alatoires ;
lesprance mathmatique du produit de deux variables indpendantes est gale au produit de leurs
esprances mathmatiques ;
lesprance mathmatique dune variable certaine de valeur y0 est gale y0 ;
si une variable Y obit une distribution uniforme sur un intervalle [a, b], son esprance mathmatique
vaut (a+b)/2 ;
si une variable Y suit une loi gaussienne de moyenne , son esprance mathmatique vaut .
Lapprentissage statistique : pourquoi, comment ?
63
CHAPITRE 1
Comme nous lavons vu dans la section lments de la thorie de lapprentissage , lobjectif de tout
apprentissage est dobtenir une estimation fiable de lesprance mathmatique de la grandeur modliser.
cet effet, il est utile dintroduire le concept destimateur.
Dfinition
Un estimateur H dun paramtre de la distribution dune variable alatoire observable Y est dit non
biais si son esprance mathmatique EH est gale ce paramtre. Alors une ralisation de H
constitue une estimation non biaise du paramtre de la distribution.
Daprs la dnition prcdente, un estimateur dune variable certaine est non biais si son esprance mathmatique est gale la valeur
de la variable certaine.
Ainsi, chercher estimer les paramtres w dun modle, cest--dire faire lapprentissage dun modle,
revient chercher des estimateurs non biaiss des paramtres, ces derniers tant considrs comme des
variables certaines. Cest cette approche, dite frquentiste, qui est dcrite dans le prsent ouvrage.
Lapproche bayesienne qui considre les paramtres du modle comme des variables alatoires, permet
galement dobtenir dexcellents rsultats, comme dcrit par exemple dans [NEAL 1996] ; la description
de cette approche sort du cadre de cet ouvrage.
Considrons la variable alatoire M = (Y1 + Y2 + + YN) / N. Puisque lesprance mathmatique dune somme de variables alatoires est
la somme des esprances mathmatiques de ces variables, on a videmment EM = EY : lesprance mathmatique de la variable alatoire
M (appele moyenne ) est bien gale lesprance mathmatique de la variable alatoire Y. La grandeur m = (y1 + y2 + + yN) / N,
ralisation de lestimateur de lesprance mathmatique de Y, constitue une estimation non biaise de cette dernire.
Il reste valuer la qualit de cette estimation : le fait quelle soit non biaise ne garantit pas quelle soit
prcise : sa prcision dpend du nombre et de la qualit des mesures effectues, cest--dire de la
dispersion des mesures autour de lesprance mathmatique. Pour caractriser numriquement cette
dispersion, on utilise la notion de variance.
Lapprentissage statistique
64
Dfinition
Remarque
La variance est galement lesprance mathmatique de [Y EY ] : varY = E Y E 2 .
2
( Y )
Proprits
Une variable certaine a une variance nulle.
varY = EY 2 ( EY ) .
2
varaY = a 2 varY .
Si une variable alatoire obit une distribution uniforme sur un intervalle [a, b], sa variance vaut
(ba)2/12.
Si une variable alatoire obit une loi gaussienne dcart-type , sa variance vaut 2.
1 N
(Y M ) est un estimateur non biais de la variance de Y.
2
La variable alatoire S 2 =
N 1 i =1 i
Si lon dispose de N rsultats de mesures yi, il faut donc, pour estimer la variance, calculer dabord la
1 N
valeur de la moyenne m = yi , puis calculer lestimation de la variance par la relation :
N i =1
1 N
( yi m ) .
2
s2 =
N 1 i =1
Lestimation de la variance permet donc dvaluer, de manire quantitative, la dispersion des rsultats des
mesures autour de leur moyenne. La moyenne tant elle-mme une variable alatoire, elle possde une
variance : on pourrait effectuer plusieurs sries de mesures, calculer la moyenne de chacune de ces sries,
puis estimer la variance de la moyenne, laquelle caractriserait la dispersion de lestimation de la grandeur
modliser. Nanmoins, cette procdure est lourde puisquelle requiert que lon effectue plusieurs sries
de mesures, dans des conditions supposes identiques.
Lapprentissage statistique : pourquoi, comment ?
65
CHAPITRE 1
Remarque
On a vu plus haut que
varY = E Y E 2 .
( Y)
La variance dune variable alatoire est donc la covariance de cette variable et delle-mme.
u1
u 2 , de dimension p, sa variance est la matrice (p, p) donne
tant donn un vecteur alatoire U =
M
up
par :
Proprit
Loi de Student
Si Y1 est une variable de distribution normale, et si Y2 est une variable alatoire, indpendante de Y1, obis-
Y1
sant une loi de Pearson N degrs de libert, alors la variable alatoire Z = obit une loi de
Y2 / N
Student N degrs de libert.
Lapprentissage statistique
66
Loi de Fisher
Si Y1 est une variable alatoire de Pearson N1 degrs de libert, et si Y2 est une variable alatoire de
Y / N1
Pearson N2 degrs de libert, alors la variable alatoire Z = 1 obit une loi de Fisher N1 et N2
degrs de libert. Y2 / N2
Intervalles de confiance
Dans les sections prcdentes, nous avons vu que lestimation dune grandeur dpend la fois du nombre
dexpriences et de la variabilit des observations. On peut combiner lgamment la taille de lchantillon
et sa variabilit pour valuer la diffrence qui peut exister entre lestimation dune grandeur et sa vraie
valeur.
Dfinition
Un intervalle de confiance, au seuil de confiance 1 , pour une variable alatoire Y, est un intervalle
qui, avec une probabilit 1 , contient la valeur de lesprance mathmatique de Y.
En consquence, plus lintervalle de confiance est petit, plus on peut avoir confiance en lestimation de la
grandeur modliser.
Ainsi, supposons que lon ait ralis 100 ensembles de mesures ; partir de celles-ci, on peut calculer 100
moyennes, 100 estimations de la variance, et 100 intervalles de confiance 95 % ( = 0,05). Alors, pour
95 % de ces ensembles de donnes, lintervalle de confiance contient la moyenne ; on ne peut videm-
ment pas garantir que, pour un ensemble particulier de mesures, la vraie valeur soit lintrieur de linter-
valle de confiance calcul partir de cet ensemble de mesures.
z1
dinverser la fonction de rpartition de Z, cest--dire trouver la valeur z1 de z telle que Pr(z < z1) = / 2,
et la valeur z2 de z telle que Pr(z > z2) = / 2. Une fois dtermines les valeurs de z1 et de z2, on inverse la
fonction Z(Y) afin de trouver les valeurs a et b de y telles que Pr(a < y < b) = 1 .
Il est facile de dmontrer que la somme de N variables gaussiennes indpendantes est une variable gaus-
sienne dont la moyenne est la somme des moyennes, et dont la variance est la somme des variances. Ici
les distributions des N variables sont identiques, dont la moyenne est une gaussienne de moyenne N et
de variance N2. Leur moyenne M obit donc une loi gaussienne de moyenne et de variance 2/N ; par
consquent la variable alatoire M obit une loi normale (gaussienne de moyenne nulle et de
/ N
variance unit).
Rappelons que lon cherche tablir deux bornes pour lesprance mathmatique , qui doivent tre de la
forme m a, o m est la moyenne des mesures et a le demi-intervalle de confiance. On peut prvoir que
lintervalle de confiance crot avec la variance des mesures et dcrot avec leur nombre.
1 N Comme 2indiqu
plus haut, lestimateur non biais de la variance est la variable alatoire S 2 = 2(Yi M ) . Il est
N 1 i
commode de normaliser cette variable en la divisant par son esprance mathmatique =1 ; les variables Y
i
tant supposes gaussiennes, la variable alatoire M est galement gaussienne, donc (N 1) S2/ 2 est la
somme de N 1 variables gaussiennes indpendantes (il ny a que N 1 variables indpendantes puisque
M dpend des Yi) ; elle obit donc une loi de Pearson.
M
Dautre part, comme indiqu plus haut, la variable alatoire obit une loi normale.
/ N
M
M
Par consquent, la variable alatoire Z = / N = obit une loi de Student N 1 degrs
S /
2 2
S2 / N
de libert. La distribution de Student tant symtrique, il suffit alors de chercher la valeur de z0 telle
quune variable de Student soit comprise entre z0 et +z0 avec la probabilit 1 , soit encore telle quune
variable de Student soit comprise entre et z0 avec la probabilit / 2. partir des rsultats exprimen-
taux, on peut calculer une ralisation m de M, une ralisation s de S, et une ralisation z de Z par les rela-
1 N 1 N m
( yi m ) et z = 2 . Avec une probabilit 1 , lestimation m de
2
tions m = yi , s =
N i =1 N 1 i =1 s /N
se trouve lintrieur de lintervalle de confiance si z est dans lintervalle [ z0, + z0] :
m
z0 < < + z0
s2 / N
soit
m z0 s 2 / N < < m + z0 s 2 / N .
Lintervalle de confiance recherch est donc lintervalle centr sur lestimation de la moyenne m, et de
demi-largeur z0 s 2 / N .
Lapprentissage statistique
68
Variable de Student
voisine dune distribution normale) ; pour un 1
Tests dhypothse
On a vu plus haut que des tapes importantes dans la conception dun modle par apprentissage artificiel,
telles que la slection de variables ou la slection de modles, ncessitent de prendre des dcisions (slec-
tionner ou rejeter un modle ou une variable) partir des informations disponibles, qui sont gnralement
en nombre limit. Il faut donc prendre ces dcisions de manire raisonne. Les tests dhypothse sont les
outils appropris pour ce genre de situation. Ils permettent de faire une hypothse et dtablir une des deux
conclusions suivantes, avec un risque derreur fix :
les donnes confirment cette hypothse,
le fait que les donnes semblent confirmer cette hypothse est simplement le rsultat dun concours de
circonstances improbable, li la petite taille de lchantillon et la variabilit des mesures.
De nombreux tests dhypothses, adapts une grande varit de situations, ont t proposs (voir par
exemple [LEHMANN 1993]).
Le principe dun test dhypothse est le suivant : pour tester la validit dune hypothse (appele
hypothse nulle et traditionnellement note H0), on cherche tablir lexpression dune variable ala-
toire qui suit une loi connue si lhypothse nulle est vraie, et dont on peut calculer une ralisation partir
des donnes disponibles. Si la probabilit pour que cette ralisation se trouve dans un intervalle donn est
trop faible , on considre que la probabilit pour que lhypothse nulle soit vraie est trop faible : on la
rejette donc.
Lapprentissage statistique : pourquoi, comment ?
69
CHAPITRE 1
titre de premire illustration, supposons quun modle prdise que la grandeur modliser, par exemple
lunique paramtre dun modle constant, a une certaine valeur w0. On dispose dun ensemble de N obser-
vations de cette grandeur, et lon veut savoir si elles confirment lhypothse selon laquelle la grandeur a
pour vraie valeur w0. Ces mesures sont modlises comme des ralisations de N variables alatoires Yi
supposes gaussiennes, desprance mathmatique et de variance 2. Lhypothse nulle est donc
H0 : w0 = , et lhypothse alternative est w0 .
Nous avons vu dans la section prcdente que, si lhypothse nulle est vraie, cest--dire si w0 = , la
M w0
variable alatoire Z = , obit une loi de Student N 1 degrs de libert (M est lestimateur de
S2 / N
2
lesprance mathmatique, S est lestimateur de la variance). partir des N donnes disponibles, on peut
calculer une ralisation z de cette variable alatoire. Dautre part on peut calculer la valeur z0 telle que la
probabilit pour quune ralisation de la variable alatoire soit lextrieur de lintervalle [ z0, +z0] est
gale au risque choisi 1 . Si la ralisation observe z est lextrieur de cet intervalle, on peut consi-
drer que les donnes ne confirment pas de manire significative lhypothse H0 ; on rejette donc celle-ci,
avec un risque 1 de se tromper. En outre, il faut dfinir le niveau de risque derreur, not 1 , que
lon est dispos admettre, lerreur consistant rejeter lhypothse nulle alors quelle est vraie (erreur de
type 1).
Supposons par exemple quune thorie prvoie quune grandeur vaut w0 = 1. Supposons que lon dispose
de 100 mesures de cette grandeur, dont la moyenne m vaut 2 et lcart-type vaut s = 10 : ces mesures sont
donc trs disperses autour de la moyenne. On se pose la question : ces donnes confirment-elles lhypo-
thse selon laquelle w0 vaut 1 ? La ralisation de la variable alatoire z vaut
m w0
z= = 1.
s2 / N
En se reportant la figure 1-35, on voit que z0 2
(pour = 0,95), de sorte que z est dans lintervalle
[ z0, +z0]. On accepte donc lhypothse nulle au
vu des donnes disponibles. linverse, si les 5
nulle. 1
ACCEPTATION
La certitude avec laquelle on accepte lhypo- 0 DE LHYPOTHSE NULLE
Notons que la p-valeur de z = 0 vaut 1, ce qui veut dire que lon accepte lhypothse nulle avec la plus
grande certitude possible ; cest naturel, puisque z = 0 correspond au cas o la moyenne est gale la
valeur postule de lesprance mathmatique.
Remarque
Dans ce cas particulier, le test dhypothse consiste regarder si la valeur de la moyenne dont on fait lhypothse se trouve dans lintervalle
de conance calcul au paragraphe prcdent, et rejeter lhypothse nulle si cette valeur est lextrieur de cet intervalle.
Un autre exemple de test dhypothses (test de Fisher) est dcrit dans la section Slection de variables .
Conclusion
Dans ce chapitre, les fondements de lapprentissage statistique et de sa mise en uvre ont t dcrits de
manire succincte ; on en trouvera une prsentation beaucoup plus dtaille dans [HASTIE 2001] par
exemple. Pendant longtemps, les efforts de recherche en apprentissage artificiel ont port essentiellement
sur les familles de modles et les algorithmes dapprentissage. Le nombre et la varit des applications,
leur difficult et leur exigence croissantes, ont rendu ncessaires la mise en place dun corps de doctrine
et dune mthodologie qui englobent tous les aspects de la conception de modle par apprentissage
statistique : slection de variables, slection de modle, planification dexpriences, estimation dinter-
valles de confiance sur les prdictions, sont au moins aussi importantes que lapprentissage lui-mme. Les
mthodes qui ont t dcrites ou esquisses dans ce chapitre peuvent tre mises en uvre pour la plupart
des grandes familles de modles. Les chapitres suivants de cet ouvrage sont consacrs diffrents types
de modles rseaux de neurones, cartes auto-organisatrices, machines vecteurs supports dont on
montrera les spcificits, la mise en uvre, et les applications.
Bibliographie
BJRCK A. [1967], Solving linear least squares problems by Gram-Schmidt orthogonalization. BIT, 7,
p. 1-27.
CHEN S., BILLINGS S. A., LUO W. [1989], Orthogonal least squares methods and their application to non-
linear system identification, International Journal of Control, 50, p. 1873-1896.
DRAPER N. R., SMITH H. [1998], Applied regression analysis, John Wiley & Sons.
DREYFUS G., GUYON I. [2006], Assessment Methods, in Feature Extraction, Foundations and Applica-
tions, I. Guyon, S. Gunn, M. Nikraveh, L. Zadeh, eds. (Springer), p. 65-88.
GUYON I., GUNN S., NIKRAVESH M., ZADEH L. [2006], Feature Extraction, Foundations and Applications,
Springer.
HASTIE T, TIBSHIRANI R., FRIEDMAN J. [2001], The elements of statistical learning, data mining, infer-
ence and predictions, Springer.
KULLBACK S. [1959], Information Theory and Statistics, Dover Publications.
LAGARDE DE J. [1983], Initiation lanalyse des donnes, Dunod, Paris.
LEHMANN E. L. [1993], Testing statistical hypotheses, Chapman & Hall.
MOOD A. M., GRAYBILL F. A., BOES D. C. [1974], Introduction to the Theory of Statistics, McGraw-Hill.
NEAL R. M. [1996] Bayesian Learning for Neural Networks, Springer.
Lapprentissage statistique : pourquoi, comment ?
71
CHAPITRE 1
Introduction
Le premier chapitre de cet ouvrage a prsent les principes de lapprentissage statistique, ainsi quune
mthodologie globale permettant de rsoudre les problmes pratiques qui se posent lorsque lon souhaite
concevoir un modle prcis et fiable. Il reste appliquer ces principes des familles de modles rpondant
des besoins spcifiques notamment, en ce qui concerne ce chapitre, aux rseaux de neurones.
Le terme de rseau de neurones suggre un lien fort avec la biologie. Ce lien existe : les mthodes
mathmatiques dcrites dans ce chapitre ont t appliques avec succs la modlisation des systmes
nerveux vivants. Nanmoins, le terme est plus mtaphorique que scientifique : si le lien avec la biologie a
constitu une motivation majeure des pionniers du domaine, les rels dveloppements des rseaux de
neurones sont de nature purement mathmatique et statistique ; leurs applications se situent dans des
domaines qui nont gnralement aucun rapport avec la neurobiologie. Cest la raison pour laquelle, aprs
avoir fourni les dfinitions essentielles et nonc la proprit fondamentale des rseaux de neurones
lapproximation non linaire parcimonieuse , les classes de problmes que les rseaux de neurones sont
susceptibles de rsoudre sont rappeles : modlisation non linaire statique ou dynamique, classification
(discrimination), modlisation semi-physique ( bote grise ) et traitement de donnes structures
(graphes). Des applications trs diverses, choisies en raison de leur caractre exemplaire, sont dcrites en
dtail afin de fournir au lecteur des ides prcises sur le type de problmes auxquels les rseaux de
neurones sont susceptibles dapporter des solutions lgantes.
Cest seulement aprs avoir dcrit ces applications que sont prsents, de manire plus dtaille, les algo-
rithmes et la mthodologie de conception quil convient de suivre pour obtenir des rsultats solides. Les
tapes de conception, dcrites de manire gnrique dans le premier chapitre, sont abordes en dtail ici :
slection des variables, apprentissage, slection de modles statiques. Les modles dynamiques sont
galement prsents dans une optique de mthodologie ; ils sont dcrits de manire plus dtaille dans le
chapitre 4. Des complments thoriques et algorithmiques clturent ce chapitre.
( ) ( )
g x , w = wi f i x
i =1
Lapprentissage statistique
74
o le vecteur w est le vecteur des paramtres du modle, et o les fonctions fi(x) sont des fonctions non
paramtres, ou paramtres fixs et connus, des variables x.
Les rseaux de neurones entrent dans la catgorie des modles non linaires en leurs paramtres. La
forme la plus courante de rseau de neurones statique est une extension simple de la relation prcdente :
p
g ( x, w ) = wi fi ( x, w )
i =1
o les fonctions fi(x, w), appeles neurones , sont des fonctions paramtres qui seront dfinies dans
la section suivante.
Les neurones
Dfinition
Suivant en cela lusage, on utilisera frquemment, par abus de langage, le terme de neurone linaire
pour dsigner une fonction paramtre linaire ou affine (qui nest donc pas borne).
Les variables sur lesquelles opre le neurone sont souvent y
dsignes sous le terme dentres du neurone, et la valeur de la
fonction sous le terme de sortie. Reprenant le graphisme de la
figure 1-22 du premier chapitre, il est commode de reprsenter
graphiquement un neurone comme indiqu sur la figure 2-1.
Cette reprsentation est le reflet de linspiration biologique qui
a t lorigine de la premire vague dintrt pour f
les neurones formels, dans les annes 1940 1970
[McCULLOCH 1943] [MINSKY 1969].
La fonction f peut tre paramtre de manire quelconque.
Deux types de paramtrage sont frquemment utiliss :
les paramtres sont attachs aux variables du neurone : la x1 x2 xn
sortie du neurone est une fonction non linaire dune combi-
naison des variables {xi} pondres par les paramtres {wi}, Figure 2-1. Un neurone ralise une fonction
qui sont alors souvent dsigns sous le nom de poids ou, non linaire paramtre borne y = f (x, w)
en raison de linspiration biologique des rseaux de neurones, o les composantes du vecteur x
poids synaptiques . Conformment lusage (galement sont les variables et celles du vecteur w
sont les paramtres.
inspir par la biologie), cette combinaison linaire sera
appele potentiel dans tout cet ouvrage. Le potentiel v le
plus frquemment utilis est la somme pondre, laquelle sajoute un terme constant ou biais 1 :
n
v = w0 + wi xi .
i =1
1. Ce terme de biais est malheureux, mais consacr par lusage. Il na rien voir le biais dun estimateur, dfini dans la section
lments de statistiques du premier chapitre.
Les rseaux de neurones
75
CHAPITRE 2
La fonction f est appele fonction dactivation. Pour des raisons qui seront exposes plus loin, il est
recommand dutiliser pour f une fonction sigmode (cest--dire une fonction en forme de s )
symtrique par rapport lorigine, telle que la tangente hyperbolique ou la fonction Arctangente. Ainsi,
dans la trs grande majorit des applications qui seront dcrites dans ce chapitre, la sortie dun neurone
a pour quation :
n
y = th w0 + wi xi .
i =1
Le biais w0 peut tre considr comme le produit du paramtre w0 par la constante 1, de sorte quil est
commode dintroduire une variable gale 1 dans le vecteur des variables. La relation prcdente peut
alors scrire :
y = th ( w x )
n 2
( xi wi )
y = exp i =1
2 wn2+1
o les paramtres wi, i = 1 n sont les coordonnes du centre de la gaussienne, et wn+1 est son cart-type.
Dans les complments thoriques et algorithmiques, en fin de chapitre, dautres exemples de neurones
sont prsents.
La diffrence pratique essentielle entre les deux types de neurones qui viennent dtre dcrits est la
suivante : les neurones tels que les RBF ou les ondelettes ont des non-linarits locales, qui tendent vers
zro dans toutes les directions de lespace des variables ; leur zone dinfluence est donc limite dans
lespace, ce qui nest pas le cas des neurones fonction dactivation sigmode.
Dans le premier chapitre, on a introduit la distinction entre modles statiques et modles dynamiques.
Bien entendu, la mme distinction sapplique aux rseaux de neurones : on diffrencie les rseaux stati-
ques (ou rseaux non boucls) et les rseaux dynamiques (ou rseaux boucls).
Lapprentissage statistique
76
Dfinition
Un rseau de neurones non boucl ralise une (ou plusieurs) fonction(s) de ses entres par composition des
fonctions ralises par chacun des neurones.
Un rseau de neurones non boucl peut donc tre imagin comme un ensemble de neurones connects
entre eux, linformation circulant des entres vers les sorties sans retour en arrire . On peut alors
reprsenter le rseau par un graphe acyclique dont les nuds sont les neurones et les artes les
connexions entre ceux-ci. Si lon se dplace dans le rseau, partir dun neurone quelconque, en
suivant les connexions et en respectant leurs sens, on ne peut pas revenir au neurone de dpart. La repr-
sentation de la topologie dun rseau par un graphe est trs utile, notamment pour les rseaux boucls,
comme on le verra dans la section Rseaux de neurones dynamiques . Les neurones qui effectuent le
dernier calcul de la composition de fonctions sont les neurones de sortie ; ceux qui effectuent des calculs
intermdiaires sont les neurones cachs (voir figure 2-2).
Remarque
Le terme de connexions doit tre pris dans un sens mtaphorique : dans la trs grande majorit des applications, les oprations effec-
tues par un rseau de neurones sont programmes (nimporte quel langage de programmation convient) et excutes par un ordinateur
conventionnel. Le rseau de neurones nest donc pas, en gnral, un objet tel quun circuit lectronique, et les connexions nont pas de
ralit physique ; nanmoins, le terme de connexion, issu des origines biologiques des rseaux de neurones, est pass dans lusage, car
il est commode quoique trompeur ; il a mme donn naissance au terme de connexionnisme.
Rseaux couches
La seule contrainte sur le graphe des connexions dun
rseau de neurones non boucl est quil ne contient
pas de cycle. On peut donc imaginer une grande ..... Ns neurone(s) de sortie
varit de topologies pour ces rseaux. Nanmoins,
pour des raisons qui seront dveloppes dans la
section Proprit fondamentale , la trs grande .... Nc neurones cachs
majorit des applications des rseaux de neurones
mettent en jeu des rseaux couches , dont un x1 x2 x3 .... xn
exemple est reprsent sur la figure 2-2. n variables
Figure 2-2. Un rseau de neurones n variables,
Forme gnrale
une couche de Nc neurones cachs et Ns neurones
Ce rseau ralise NS fonctions algbriques des de sortie
n variables du rseau ; chacune des sorties est une
fonction, ralise par le neurone de sortie correspondant, des fonctions non linaires ralises par
les neurones cachs.
Le temps ne joue aucun rle fonctionnel dans un rseau de neurones non boucl : si les variables sont
indpendantes du temps, les sorties le sont galement. Le temps ncessaire pour le calcul de la fonction
ralise par chaque neurone est ngligeable et, fonctionnellement, on peut considrer ce calcul comme
instantan. Pour cette raison, les rseaux non boucls sont souvent appels rseaux statiques , par
opposition aux rseaux boucls ou dynamiques qui seront introduits plus loin.
Les rseaux de neurones
77
CHAPITRE 2
Terminologie
Les rseaux de neurones non boucls couches, dont les neurones cachs ont une fonction dactivation sigmode, sont souvent appels
Perceptrons multicouche (ou MLP pour Multi-Layer Perceptron).
proscrire
On mentionne souvent, outre la couche cache et la couche de sortie, une couche dentre voire des neurones dentre . Cette
expression est trompeuse, car les entres (reprsentes par des carrs sur la gure 2-2) ne sont pas des neurones : elles ne ralisent
aucun traitement de linformation.
Forme de rseau la plus utile : les rseaux une couche cache de sigmodes
et un neurone de sortie linaire
Comme indiqu dans le chapitre 1 et rappel au dbut de ce chapitre, lextension la plus naturelle des
modles linaires de la forme :
p
g ( x, w ) = wi fi ( x )
i =1
W1
Le modle reprsent sur la figure 2-3 a pour
expression : x x0 x1 x2 .... xn n variables + un biais
n
Nc x0=1
(qui relient les n+1 variables du rseau aux Nc neurones cachs). Cette proprit a des consquences importantes qui seront examines
dans la section Proprit fondamentale .
Ce quil faut retenir
Un rseau de neurones non boucl est une fonction non linaire de ses variables et de ses paramtres.
Quest-ce quun rseau de neurones zro neurone cach ?
Un rseau de neurones non boucl sans neurone cach, avec un neurone de sortie linaire, ralise simplement une fonction linaire de ses
entres. On peut donc considrer tout systme linaire comme un rseau de neurones, ce qui ne prsente aucun intrt, ni thorique ni pratique.
Les termes directs
Si la relation que lon cherche raliser entre les variables et les sorties prsente une importante composante linaire, il peut tre utile
dajouter, la structure de rseau couches qui vient dtre dcrite, des termes linaires, parfois appels termes directs , qui se tradui-
sent, dans la reprsentation graphique du rseau, par des connexions directes entre les entres et le neurone de sortie (gure 2-4). Par
exemple, pour un rseau dont les fonctions dactivation sont des sigmodes, le modle devient :
Nc
n n
g ( x ,w ) = w Nc +1,i th w ij x j + w i 0 + w Nc +1,0 + w Nc +1,k x k
i =1
j =1 k =1
= w 2 f (W1x ) + w 3 x '
o w3 est un vecteur de dimension n et x est le vecteur de composantes {x1, , xn}, cest--dire le vecteur x dpourvu du biais.
g(x, w)
Nc+1
Termes directs
w2 w3
f 1 1 .... Nc
W1
n
x j wij ( )
2
Nc
g ( x, w ) = wN c +1,i exp
j =1
i ==1 2 wi2
o x est le vecteur des entres du rseau (de dimension n) et w est le vecteur des paramtres du rseau (de
dimension (n+2) Nc+1) [BROOMHEAD 1988] [MOODY 1989] ; les neurones cachs sont numrots de 1
Nc, et le neurone de sortie porte le numro Nc+1.
Remarquons que deux catgories de paramtres interviennent ici : ceux de la dernire couche (qui relient
les Nc fonctions radiales au neurone de sortie) et les paramtres des fonctions radiales (centres et carts-
Les rseaux de neurones
79
CHAPITRE 2
types pour des fonctions radiales gaussiennes). Les connexions de la premire couche ont toutes des para-
mtres gaux 1. Dans ces rseaux, la sortie est une fonction linaire des paramtres de la dernire
couche de connexions, et elle est une fonction non linaire des paramtres des gaussiennes. Les cons-
quences de cette proprit seront examines plus loin.
Les rseaux dondelettes ont exactement la mme structure, lquation de la gaussienne tant remplace
par celle dune ondelette multidimensionnelle. Les paramtres attachs la non-linarit sont alors les
centres et les dilatations des ondelettes [BENVENISTE 1994] [OUSSAR 2000].
Forme gnrale
Larchitecture la plus gnrale, pour un rseau de neurones, est celle des rseaux boucls , dont le
graphe des connexions est cyclique : lorsque lon se dplace dans le rseau en suivant le sens des
connexions, il est possible de trouver au moins un chemin qui revient son point de dpart (un tel chemin
est dsign sous le terme de cycle ). La sortie dun neurone du rseau peut donc tre fonction delle-
mme ; ceci nest videmment concevable que si la notion de temps est explicitement prise en considra-
tion.
lheure actuelle, limmense majorit des applications des rseaux de neurones est ralise par des
systmes numriques (ordinateurs conventionnels ou circuits numriques spcialiss pour le traitement de
signal) : il est donc naturel de se placer dans le cadre des systmes temps discret, rgis par des
quations aux diffrences (ou quations rcurrentes , do le terme de rseaux rcurrents ). Ces
quations jouent le mme rle, en temps discret, que les quations diffrentielles en temps continu.
Ainsi, chaque connexion dun rseau de neurones boucl (ou chaque arte de son graphe) est attach,
outre un paramtre comme pour les rseaux non boucls, un retard, multiple entier (ventuellement nul)
de lunit de temps choisie. Une grandeur, un instant donn, ne pouvant pas tre fonction de sa propre
valeur au mme instant, tout cycle du graphe du rseau doit contenir au moins une arte dont le retard
nest pas nul.
Dfinition
Un rseau de neurones boucl temps discret ralise une (ou plusieurs) quation(s) aux diffrences non
linaires, par composition des fonctions ralises par chacun des neurones et des retards associs chacune
des connexions.
Proprit
Tout cycle du graphe des connexions dun rseau de neurones boucl doit comprendre au moins une
connexion de retard non nul.
La figure 2-5 prsente un exemple de rseau de neurones boucl. Les chiffres dans les carrs indiquent le
retard attach chaque connexion, exprim en multiple de lunit de temps (ou priode dchantillonnage)
T. Ce rseau contient un cycle qui part du neurone 3 et revient celui-ci en passant par le neurone 4 ; la
connexion de 4 vers 3 ayant un retard non nul, ce rseau est causal.
Lapprentissage statistique
80
Explications g(kT)
linstant kT : le neurone 3 calcule y3(kT) en fonction de y4[(k 1)T], u1(kT), u2[(k 1)T] (o k est un
entier positif et yi(kT) dsigne la sortie du neurone i linstant kT). Le neurone 4 calcule y4(kT) en
5
fonction de y3(kT) et u2(kT). Le neurone 5 calcule la sortie du rseau de neurones, g(kT), en fonction
de y3(kT), y4[(k 1)T] et u1(kT). Les quations rcurrentes qui gouvernent le rseau sont donc :
y3 (k) = f3 [y4 (k 1) u1 (k), u2 (k 1)] 0 1
y4 (k) = f4 [y3 (k), u2 (k)]
g (k) = f5 [y (k), y4 (k 1), u1 (k)] 0
3 0 4
o, pour allger les notations, la priode dchantillonnage T a t omise. f3, f4, f5 sont les fonctions 1
non linaires ralises par les neurones 3, 4 et 5 respectivement.
0 1 0
Forme canonique des rseaux de neurones boucls
Dans la mesure o les rseaux de neurones boucls ralisent des quations u1(kT) u2(kT)
rcurrentes non linaires, il est utile dexaminer les liens entre ces modles
non linaires et les modles dynamiques linaires, utiliss notamment en Figure 2-5. Un rseau
automatique des systmes linaires. de neurones boucl
deux variables.
La description la plus gnrale dun systme linaire est la description dtat : Les chiffres dans les carrs
x ( k ) = Ax ( k 1) + Bu ( k 1) indiquent le retard attach
chaque connexion,
g ( k ) = Cx ( k ) + Du ( k ) multiple de lunit de temps
(ou priode dchantillon-
o x(k) est le vecteur des variables dtat linstant (discret) kT, u(k) est le nage) T. Le rseau contient
vecteur des variables de commande linstant kT, g(k) est le vecteur des un cycle qui part du
neurone 3, va au neurone 4,
prvisions du modle linstant kT, et A, B, C, D sont des matrices. Rappe- et revient au neurone 3.
lons que les variables dtat sont un ensemble de variables, en nombre
minimal, telles que lon peut calculer leurs valeurs linstant (k+1)T si lon connat leurs valeurs initiales
et si lon connat les valeurs des variables de commande tout instant compris entre 0 et kT. Le nombre
de variables dtat est appel ordre du systme.
De manire analogue, on dfinit la forme canonique dun systme non linaire temps discret par les
quations suivantes :
x ( k ) = ( x ( k 1) , u ( k 1))
g ( k ) = ( x ( k 1) , u ( k 1)) Prdictions du modle Variables dtat
linstant k linstant k
( )
g (k ) = f5 z 3 , z 4 ,u 1 (k ) .
Ces quations sont bien identiques celles de la forme non canonique :
y3 (k) = f3 [y4 (k 1) u1 (k), u2 (k 1)]
y4 (k) = f4 [y3 (k), u2 (k)]
g (k) = f5 [y3 (k), y4 (k 1), u1 (k)]
en identiant z 3 y 3 (k ) et z 4 y 4 (k 1) .
Les rseaux boucls (et leur forme canonique) seront tudis en dtail dans la section Techniques et
mthodologie de conception de modles dynamiques de ce chapitre, ainsi que dans les chapitres 4 et 8.
Rsum
Les dfinitions essentielles concernant les rseaux de neurones ont t prsentes dans cette section.
Reprenant la distinction gnrale entre modles statiques et modles dynamiques, on a introduit :
les rseaux de neurones non boucls, statiques, qui ralisent des fonctions non linaires ;
les rseaux de neurones boucls, dynamiques, rgis par des quations aux diffrences (ou quations
rcurrentes) non linaires.
On a vu galement que tout rseau de neurones boucl peut tre mis sous une forme canonique, compre-
nant un rseau de neurones non boucl dont les variables dtat sont ramenes ses entres avec un retard
unit.
Llment de base est donc le rseau de neurones non boucl ; ses proprits sont exposes dans la
section suivante.
Lapprentissage statistique
82
4
nombre de paramtres dun modle non linaire. Par Polynme
exemple, le nombre de paramtres dun polynme de de degr 5
nombre de variables est petit, de lordre de 1 ou 2. En revanche, ds que le nombre de variables devient
suprieur 2, il est gnralement avantageux de mettre en uvre des rseaux de neurones avec une
couche de neurones cachs non-linarit sigmode, plutt que des polynmes, ou des rseaux de RBF
ou dondelettes paramtres fixs. Si, en revanche, on considre que les centres et carts-types des RBF
gaussiennes (ou les centres et les dilatations des ondelettes) sont des paramtres ajustables au mme titre
que les paramtres des connexions, il ny a pas, lheure actuelle, davantage mathmatiquement
dmontr utiliser un type de neurones plutt quun autre. En revanche, des arguments pratiques dcisifs
peuvent justifier une prfrence : connaissances a priori sur le type de non-linarit souhaitable, caractre
localis ou non de la fonction, rapidit de calcul, facilit dinitialisation de lapprentissage (voir la section
Initialisation des paramtres ), facilit de ralisation en circuit spcialis, etc.
Expliquons qualitativement lorigine de la parcimonie. Considrons un modle linaire par rapport ses
paramtres, un modle polynomial par exemple :
g(x) = 4 + 2x + 4x2 0,5x3.
Le modle g(x) est une combinaison linaire des fonctions y = 1, y = x, y = x2, y = x3, avec les paramtres
w0 = 4, w1 = 2, w2 = 4, w3 = 0,5. Ces fonctions ont une forme qui est fixe une fois pour toutes.
Considrons prsent le modle neuronal reprsent sur la figure 2-9, g(x, w)
dont lquation est :
g(x) = 0,5 2 th(10 + 0,5 x) + 3 th(1+ 0,25 x) 2 th(3 0,25 x).
Ce modle est aussi une combinaison linaire de fonctions (y = 1,
w2
y = th(10 + 0,5 x), y = th(1+ 0,25 x), y = th(3 0,25 x)), mais la 0,5 -2 3 -2
forme de ces fonctions dpend des valeurs des paramtres de la
matrice W1. f 1
0,15
g Paramtres
0 -1,02 0,1
1 2,73
5 6 2 1,02 0,05
3 2,73
4 7,23 0 Figure 2-10. Interpolation
4
5 4,58 dune parabole
1 3 0 2 6 -4,57 -0,005 par un rseau 2 neurones
cachs : (a) rseau ;
x 1 -0,1 (b) points dapprentissage
-0.15 -0,1 -0,05 0 0,05 0,1 0,15 (croix) et modle aprs
(a)
(a (b)
(b
18
apprentissage ;
6
(c) fonctions ralises
4 par les deux neurones cachs
14
(sigmodes) aprs
2
apprentissage ; (d) points
10
0 de test (croix) et modle
aprs apprentissage :
-2 6 lapproximation se dgrade
-4 en dehors de la zone
2 dapprentissage.
-6
-8 -2
-1 -0,5 0 0,5 1 -1 -0,5 0 0,5 1
(c) (d)
Remarque
Bien entendu, approcher une parabole une variable par un rseau de neurones ne prsente aucun intrt pratique, puisque la parabole
a deux paramtres alors que le rseau de neurones en a sept ! La seule justication de cet exemple est que, tant mono-dimensionnel, il
permet dutiliser des reprsentations graphiques simples.
Le plus souvent, le problme qui se pose est celui qui a t tudi en dtail dans le chapitre 1 : on dispose
dun ensemble de variables mesures {xk, k = 1 N} et dun ensemble de mesures {yp(xk), k = 1 N}
dune grandeur relative un processus de nature quelconque (physique, chimique, biologique, finan-
cier...). On suppose quil existe une relation entre le vecteur des variables x et la grandeur modliser, et
lon cherche dterminer une forme mathmatique de cette relation, valable dans le domaine o les
mesures ont t effectues, sachant que (1) les mesures sont en nombre fini, et que (2) ces mesures sont
certainement entaches de bruit. De plus, toutes les variables qui dterminent la grandeur modliser ne
sont pas forcment mesures. En dautres termes, on cherche tablir un modle du processus, partir des
mesures disponibles, et delles seules : on dit que lon effectue une modlisation bote noire . On
tudiera plus loin la modlisation bote noire du comportement dun processus (lactionneur hydrau-
lique dun bras de robot) : lensemble de variables {x} est constitu dune seule variable (langle douver-
ture de la vanne dadmission de liquide hydraulique) et la grandeur yp est la pression dhuile dans laction-
neur. On verra galement plus loin un exemple de prdiction de proprits chimiques ou dactivits
thrapeutiques de molcules : on cherche une relation dterministe entre une proprit des molcules (par
exemple leurs points dbullition, leur action anti-HIV, leur toxicit) et des descripteurs de ces mol-
cules (masse molaire, nombre datomes, volume , moment dipolaire, etc.) ; on peut ainsi prdire les
proprits ou activits thrapeutiques de molcules dont la synthse na pas t effectue. Le lecteur
rencontrera dans cet ouvrage de nombreux cas de ce genre.
Le terme de bote noire qui vient dtre introduit soppose au terme de modle de connaissance ou
modle de comportement interne , qui dsigne un modle mathmatique tabli partir dune analyse
physique (ou chimique, physico-chimique, conomique, etc.) du processus que lon tudie ; ce modle
peut contenir un nombre limit de paramtres ajustables, qui possdent une signification physique. On
verra, dans la section Modlisation dynamique bote grise , que les rseaux de neurones peuvent tre
utiliss pour llaboration de modles semi-physiques , intermdiaires entre les modles botes
noires et les modles de connaissance.
Modlisation statique
Rappelons que lapprentissage statistique dun modle consiste estimer les valeurs des paramtres du
modle pour lesquelles lerreur de prdiction empirique est minimale. Le plus souvent, pour la modlisa-
tion par rseau de neurones, la fonction de perte utilise est le carr de lerreur de modlisation, de sorte
que la fonction de cot minimiser est la fonction de cot des moindres carrs
N
(
J ( w ) = ykp g ( x k , w ) )
2
k =1
p
o y est la valeur prise par la grandeur modliser pour lexemple k, et g(xk, w) est la prdiction du
k
modle pour lexemple k. Rappelons galement que lon a dmontr, au chapitre 1, que le meilleur
modle possible est la fonction de rgression du processus, laquelle est inconnue. La dmarche de mod-
lisation consiste donc postuler un modle de complexit donne (un rseau de neurones trois neurones
cachs, par exemple), en effectuer lapprentissage par des mthodes qui seront dcrites dans la section
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl , et estimer la capa-
cit de gnralisation de ce modle, afin de la comparer celles dautres modles, de complexits diff-
rentes. Cette estimation permet finalement de choisir le meilleur modle compte tenu des donnes dispo-
nibles.
Cette procdure pose deux questions, centrales dans la pratique des rseaux de neurones :
comment, en pratique, dans une famille de rseaux de neurones de complexit donne, trouver celui
pour lequel la fonction de cot des moindres carrs est minimale ?
Lapprentissage statistique
86
une fois que celui-ci a t trouv, comment juger si ses capacits de gnralisation sont satisfaisantes ?
Ces questions pratiques seront abordes en dtail dans la section Techniques et mthodologie de
conception de modles statiques .
Classification (discrimination)
Comme indiqu dans le chapitre 1, classer un ensemble dobjets, cest attribuer chacun une classe (ou
catgorie ) parmi plusieurs classes dfinies lavance. Cette tche est appele classification ou
discrimination . Un algorithme qui ralise automatiquement une classification est appel classifieur.
Les applications des classifieurs sont trs nombreuses : dans le domaine de la reconnaissance des formes
(chiffres et caractres manuscrits ou imprims, images, parole, signaux temporels...), mais galement
dans bien dautres domaines (conomie, finance, sociologie, traitement du langage...). De manire gn-
rale, on dsignera sous le terme de forme nimporte quel objet dcrit par un ensemble de nombres
( descripteurs ) : ainsi, une image pourra tre dcrite par lensemble des valeurs dintensit de
ses pixels (contraction de picture elements ou lments dimage), un signal temporel par ses valeurs
successives au cours dune priode de temps dfinie, une entreprise par lensemble des lments de son
bilan, un texte par lensemble des mots importants quil contient, etc. Schmatiquement, la question
laquelle un classifieur doit apporter un lment de rponse est du type : le caractre inconnu est-il un a,
un b, un c, etc. ? Le signal observ est-il normal ou anormal ? Lentreprise examine constitue-t-elle un
excellent, trs bon, bon, mdiocre, mauvais, trs mauvais, support dinvestissement ? La dpche
dagence reue est-elle relative une prise de participation entre entreprises ? Y aura-t-il demain une
alerte la pollution par lozone ? Les statisticiens appellent aussi classification la tche qui consiste
regrouper des donnes qui se ressemblent dans des classes qui ne sont pas dfinies lavance ; les rseaux
de neurones apprentissage non supervis, mentionns dans le chapitre 1 et dcrits en dtail dans le
chapitre 7, peuvent raliser ce genre de tches ; il y a donc une certaine confusion dans les termes. On
sefforcera toujours de prciser ce dont il sagit, lorsque le contexte ne rend pas la distinction vidente.
Dans tout ce paragraphe, on considre le cas o les classes sont connues lavance.
Il faut noter que le classifieur nest pas ncessairement conu pour donner une rponse complte : il peut
apporter seulement un lment de rponse. En effet, il faut bien distinguer laide la dcision et la dci-
sion elle-mme : un classifieur peut apporter une information qui aidera un tre humain, ou un systme
automatique, prendre une dcision concernant lappartenance de lobjet inconnu telle ou telle classe.
Historiquement, les premiers rseaux de neurones utiliss pour la classification taient conus pour
fournir une dcision. Nanmoins, on a vu, dans le chapitre 1, que lon peut galement, par apprentissage,
obtenir une information beaucoup plus riche et fine quune simple dcision binaire : on peut estimer la
probabilit dappartenance de lobjet inconnu chacune des classes. Ceci permet notamment de conce-
voir des systmes de reconnaissance complexes qui utilisent plusieurs systmes de classification diff-
rents, chacun deux fournissant une estimation de la probabilit dappartenance de lobjet inconnu
chacune des classes. La dcision finale est prise au vu de ces estimations et en fonction, par exemple, des
domaines dexcellence de chacun des classifieurs.
De mme, dans le domaine de la fouille de donnes (data mining), une problmatique de plus en plus
frquente est celle du filtrage dinformation : trouver automatiquement, dans un corpus de donnes,
les textes qui sont pertinents pour un thme donn, et prsenter ces textes par ordre de probabilit de perti-
nence dcroissante, afin que lutilisateur puisse faire un choix rapide parmi les documents qui lui sont
prsents. L encore, il est indispensable que le classifieur ne se contente pas de donner une rponse
binaire (document pertinent ou non), mais bien quil dtermine une probabilit dappartenance une
classe. Comme on le verra plus loin, les modles obtenus par apprentissage, notamment les rseaux de
neurones non boucls, sont bien adapts ce type de tche, dont limportance est de plus en plus vidente.
Les rseaux de neurones
87
CHAPITRE 2
Modlisation semi-physique
Il est trs frquent, notamment dans lindustrie manufacturire, que lon dispose dun modle de connais-
sance dun procd, mais que celui-ci ne soit pas satisfaisant ; cela peut sexpliquer par plusieurs raisons :
le modle peut tre insuffisamment prcis pour lobjectif que lon sest fix. Par exemple, si lon dsire
dtecter une anomalie de fonctionnement en analysant la diffrence entre ltat du processus prvu par
le modle du fonctionnement normal et ltat rellement mesur, il faut que le modle de fonctionne-
ment normal soit prcis ;
le modle peut tre prcis, mais tre trop complexe pour pouvoir tre intgr numriquement en temps
rel (pour une application de surveillance ou de commande, par exemple).
Si lon dispose de mesures, on peut alors lgitimement dcider davoir recours un modle bote
noire , non linaire si ncessaire. Toutefois il serait nanmoins maladroit dabandonner compltement
toutes les connaissances accumules lors de la conception du modle, pour construire un autre modle
fond uniquement sur les mesures. La modlisation semi-physique permet de rconcilier ces deux points
de vue, en utilisant toutes les connaissances avres dont on peut disposer sur le processus (sous rserve
quelles soient sous la forme dquations algbriques ou diffrentielles) pour structurer le rseau et dfinir
son architecture. La mthodologie de conception dun tel modle sera prsente dans la section
Modlisation dynamique bote grise , et un exemple dapplication industrielle sera dcrit dans la
section Modlisation semi-physique dun procd manufacturier .
La commande de processus
Commander un systme, cest lui imposer une dynamique de rponse une commande. Sil sagit dune
rgulation, il faut imposer au systme de rester dans un tat dtermin quelles que soient les perturbations,
mesurables ou non, auxquelles il est soumis : pour un systme de rgulation de vitesse dune voiture
(cruise control), il faut agir automatiquement sur lacclrateur afin que la voiture conserve une vitesse
constante gale la vitesse de consigne, indpendamment de perturbations telles que des bourrasques de
vent, des changements de la pente de la route, etc. Sil sagit dun systme de poursuite, il faut imposer
celui-ci de suivre une trajectoire de consigne : par exemple, dans un fermenteur, agir sur le systme de
chauffage pour que la temprature suive un profil temporel dtermin lavance, indpendamment de la
temprature du four, de la temprature des ingrdients que lon ajoute durant la fermentation, des rac-
tions exothermiques ou endothermiques qui peuvent se produire, etc. Pour raliser ces tches, il faut gn-
ralement disposer dun modle qui, si les non-linarits sont importantes, peut tre un rseau de neurones.
Le chapitre 5 est entirement consacr la commande de processus non linaires.
Il peut donc tre avantageux de mettre en uvre des rseaux de neurones pour toute application ncessi-
tant de trouver, par apprentissage, une relation non linaire entre des donnes numriques.
Sous quelles conditions peut-on utiliser une telle approche ?
Une premire condition est ncessaire mais non suffisante : puisque les rseaux de neurones utilisent
des techniques issues des statistiques, il faut disposer dun ensemble de donnes de taille suffisamment
grande, et bien reprsentatif.
Une fois ces donnes recueillies, il faut sassurer de lintrt rel dun modle non linaire pour lappli-
cation considre : en effet, la mise en uvre dun modle linaire (ou affine) est toujours plus simple,
et moins coteuse en temps de calcul, que celle dun rseau de neurones. Par consquent, en labsence
de toute connaissance a priori sur lintrt dun modle non linaire, il faut dabord utiliser les
mthodes simples et prouves dlaboration dun modle linaire, qui ont t exposes dans le chapitre
1. Sil apparat que la prcision du modle est insuffisante bien que toutes les variables pertinentes
soient prsentes dans le modle, alors on doit envisager la mise en uvre de modles non linaires tels
que les rseaux de neurones.
Si les donnes sont disponibles, et si lon sest assur quun modle non linaire est utile, il faut sinter-
roger sur lopportunit dutiliser un rseau de neurones de prfrence une autre famille de fonctions non
linaire, les polynmes par exemple. Comme indiqu plus haut, les rseaux de neurones, notamment
fonction dactivation sigmode, sont dautant plus avantageux que le nombre de variables est grand ;
dans la majorit des cas, grand signifie, en pratique et de manire empirique, suprieur ou gal 3.
En rsum : si lon dispose de donnes numriques suffisamment nombreuses et reprsentatives, il est
gnralement avantageux dutiliser des rseaux de neurones dans toute application mettant en jeu lesti-
mation des paramtres dune fonction non linaire possdant au moins trois variables. Si le nombre
de variables est suprieur ou gal 3, il est gnralement avantageux dutiliser des rseaux de neurones
fonction dactivation sigmode ; dans le cas contraire, des rseaux de neurones utilisant des RBF centres
et carts-types fixs, ou des ondelettes centres et dilatations fixs, ou encore des polynmes, peuvent tre
aussi prcis et plus simples mettre en uvre.
Bien entendu, si les donnes ne sont pas numriques (mais linguistiques, par exemple), les rseaux de
neurones ne peuvent les traiter directement. Il faut avoir recours des prtraitements permettant de
quantifier ces donnes (par exemple, laide de techniques issues de la thorie des ensembles flous).
dexpriences prsente quelques lments qui permettent de construire itrativement un plan dexp-
riences pour un modle neuronal.
k =1
o xk dsigne le vecteur des valeurs des variables pour lexemple k, et ykp la valeur de la mesure correspon-
dante.
Si lon met en uvre des modles linaires en leurs paramtres (des fonctions radiales gaussiennes dont
les centres et carts-types sont fixs, par exemple), les mthodes dcrites dans le chapitre 1, section
Conception de modles linaires , sont directement applicables. La qualit du rsultat dpend essen-
tiellement du choix des centres et les carts-types des fonctions non linaires mises en uvre ; ce choix
doit tre effectu par des techniques de slection de modle analogues celles qui sont dcrites dans la
section Slection de modles du chapitre 1.
Si, en revanche, on met en uvre des modles non linaires en leurs paramtres, tels que des Percep-
trons multicouche ou des rseaux de RBF centres et carts-types variables, on doit rsoudre un
problme doptimisation non linaire multivariable. Les mthodes utilises cet effet seront exposes
en dtail dans la section Estimation des paramtres (apprentissage) dun rseau de neurones non
boucl . Il sagit de techniques itratives qui, partir dun rseau muni de paramtres dont les valeurs
sont alatoires, modifient ceux-ci jusqu ce quun minimum de la fonction de cot empirique soit
atteint, ou quun critre darrt soit satisfait.
Dans ce dernier cas, les techniques doptimisation sont des mthodes de gradient : elles sont fondes sur
le calcul, chaque itration, du gradient de la fonction de cot par rapport aux paramtres du modle,
gradient qui est ensuite utilis pour calculer une modification des paramtres. Le calcul du gradient peut
tre effectu de diverses manires : il en est une, appele rtropropagation (voir la section valuation
Lapprentissage statistique
92
du gradient de la fonction de cot ), qui est gnralement plus conome que les autres en termes de
nombres doprations arithmtiques effectuer pour valuer le gradient. Contrairement une ide trop
rpandue, la rtropropagation nest pas un algorithme dapprentissage : cest simplement une technique
dvaluation du gradient de la fonction de cot, qui est frquemment, mais pas obligatoirement, utilise
au sein dalgorithmes dapprentissage. Il faut noter que, contrairement bien des affirmations, ce nest pas
linvention de la rtropropagation qui a permis lapprentissage des rseaux de neurones couches ; en
effet, les spcialistes de traitement du signal connaissaient, bien avant la rtropropagation, des mthodes
dvaluation du gradient dune fonction de cot des moindres carrs, mthodes qui auraient pu tre mises
en uvre pour effectuer lapprentissage de rseaux [MARCOS 1992].
Ces algorithmes dapprentissage ont fait dnormes progrs au cours des dernires annes. Alors que, au
dbut des annes 1990, les publications faisaient tat de dizaines ou de centaines de milliers ditrations,
reprsentant des journes de calcul sur des ordinateurs puissants, les nombres ditrations typiques
lheure actuelle sont de lordre de quelques dizaines quelques centaines. La figure 2-12 montre le drou-
lement de lapprentissage dun modle une variable.
2 2
1,5 5 itrations 1,5 10 itrations
1
0,5 0,5
0
-0,5 -0,5
-1
-1,5 -1,5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
2 2
1,5 30 itrations 1,5 50 itrations
1 1
0,5 0,5
0 0
-0,5 -0,5
-1 -1
-1,5 -1,5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
Figure 2-12. Apprentissage dun rseau de neurones une variable et 3 neurones cachs. Le trait continu reprsente
la prdiction du modle aprs 5, 10, 30 et 50 itrations de lalgorithme dapprentissage (reproduit avec lautorisation de
Netral S.A.).
Les rseaux de neurones
93
CHAPITRE 2
Les croix reprsentent les mesures de lensemble dapprentissage. Initialement, on donne aux paramtres
du rseau des valeurs petites (voir la section Initialisation des paramtres ). Le rsultat obtenu au
bout de 50 itrations est satisfaisant visuellement ; quantitativement, lEQMA et lEQMT (cette
dernire tant calcule sur un ensemble de points non reprsents sur la figure) sont du mme ordre de
grandeur, et de lordre de lcart-type du bruit, de sorte que le modle est satisfaisant.
Conclusion
Dans ce paragraphe, on a expliqu quand et comment utiliser les rseaux de neurones pour la modlisa-
tion. Rappelons que lutilisation des rseaux de neurones peut tre avantageuse chaque fois que lon
cherche tablir une relation non linaire entre des donnes numriques. Les rseaux de neurones entrent
dans le cadre gnral des mthodes statistiques dapprentissage dcrites dans le chapitre 1. Une vue gn-
rale de la mise en uvre de ces mthodes a t prsente, en insistant sur les conditions qui doivent tre
remplies pour quun rseau de neurones donne des rsultats satisfaisants. Les techniques dapprentissage,
de slection de variables et de slection de modle proprement dites, dont lefficacit conditionne en
grande partie les performances des rseaux, seront abordes en dtail dans la section Techniques et
mthodologie de conception de modles statiques .
dutilisation des classifieurs statistiques, considrons quelques exemples plus ou moins acadmiques, qui
illustrent plusieurs aspects de cette tche. Pour chacun des exemples, on se posera trois questions :
les connaissances a priori sur le problme permettent-elles de dterminer simplement des descripteurs
pertinents ?
ces descripteurs sont-ils mesurables (ou calculables partir de mesures) ?
quel est le rle de la classe de rejet ?
Les exemples suivants sont extraits de [STOPPIGLIA 1997].
Chacun a eu loccasion dutiliser un distributeur de tickets de mtro, ou un automate de page, qui recon-
nat les pices de monnaie utilises en paiement, et rejette les pices fausses ou trangres. Considrons
ce problme sous langle des trois questions ci-dessus :
il est facile de dterminer des descripteurs pertinents : le diamtre de la pice, son poids, son paisseur,
la composition de lalliage, etc. ; ces descripteurs sont en petit nombre (les nouvelles pices de monnaie
sont conues de manire en faciliter la discrimination) ;
les descripteurs sont des grandeurs physiques mesurables ;
la classe de rejet peut tre aussi grande que lon veut : elle nest limite que par la patience des usagers
qui naiment pas voir leurs pices rejetes sans raison ; ainsi, dans lespace des descripteurs, les classes
sont de petits paralllpipdes dlimits par les seuils de tolrance qui tiennent compte de la varia-
bilit de la fabrication et des erreurs de mesure ; tout le reste de lespace constitue la classe de rejet.
Dans ces conditions, il est facile de concevoir un automate qui met en uvre des rgles simples portant
sur les descripteurs des pices classer. Ces rgles rsultent dune analyse du problme, effectue par les
concepteurs de la machine, qui conduit un arbre de dcision implant dans lautomate. Dans un tel cas,
lutilisation dune mthode statistique de classification nest pas approprie.
Considrons prsent lvaluation du confort dune voiture. Pour prvoir les ractions des clients poten-
tiels la mise sur le march dun nouveau modle, les constructeurs automobiles ont recours des
panels dindividus, supposs reprsentatifs de la clientle, qui doivent mettre un jugement sur le
confort. Mais quest-ce que le confort ? Cest une notion complexe dans laquelle interviennent la qualit
de la suspension, la conception des siges, linsonorisation du vhicule, la visibilit, etc. Exprimer un
jugement (classer le confort du vhicule dans lune des trois classes bon , moyen , insuffisant )
est alors un processus impossible formaliser, fond sur des impressions plus que sur des mesures. Ce
problme a donc les caractristiques suivantes :
les descripteurs ne sont pas forcment tous connus et exprims clairement par les membres des panels ;
mme si les descripteurs sont bien dfinis, les jugements sont trs variables : deux personnes places
dans les mmes conditions peuvent mettre des jugements diffrents ;
les descripteurs ne sont pas ncessairement mesurables ;
il ny a pas de classe de rejet : un consommateur a forcment une opinion sur le confort de sa voiture.
Le fait que les descripteurs ne soient pas connus et pas ncessairement mesurables empche (ou rend trs
difficile) lutilisation dune mthode de classification statistique. Dans ce contexte, une mthode de clas-
sification floue serait mieux adapte.
La reconnaissance automatique des chiffres manuscrits, par exemple celle des codes postaux, a fait lobjet
de nombreuses tudes et ralisations. Considrons ce problme sous les mmes angles que les deux exem-
ples prcdents :
contrairement au cas du tri des pices de monnaie, la variabilit des styles dcriture pose un problme
majeur pour le choix des descripteurs ; nanmoins, contrairement au cas de lvaluation du confort, les
personnes qui savent lire identifient gnralement de la mme manire une image de chiffre donne
(sauf si le chiffre est vraiment mal crit) ;
Les rseaux de neurones
95
CHAPITRE 2
les descripteurs sont des nombres que lon peut extraire de limage : dans le cas dune description de
bas niveau , cest lintensit des pixels ; dans le cas dune description de haut niveau , cest le
nombre de boucles, de pointes, leur position, lorientation et la position des segments, etc. ;
la taille de la classe de rejet constitue un critre de performance : pour un taux derreur donn, le pour-
centage de rejet doit tre aussi faible que possible. En effet, tout objet postal rejet ncessite linterven-
tion dun prpos, et il est plus coteux denvoyer une lettre dans une mauvaise direction que davoir
recours une intervention humaine pour lire le code postal. Le cahier des charges est donc exprim de
la manire suivante : pour un taux derreur donn (par exemple 1 %), on veut un taux de rejet aussi
faible que possible. En effet, il serait facile de concevoir un classifieur qui ne se trompe jamais : il suffi-
rait quil ne prenne jamais de dcision. Compte tenu des donnes conomiques du problme, un bon
classifieur est un classifieur qui prend une dcision le plus souvent possible, tout en ne se trompant pas
plus dune fois sur cent. Si les conditions conomiques taient inverses, cest--dire si une erreur
cotait moins cher que lintervention dun expert, le critre de qualit serait diffrent : on chercherait
obtenir le taux derreur le plus petit possible pour un taux de rejet donn (cest le cas pour les diagnos-
tics mdicaux automatiss lchelle de toute une population, o lintervention dun mdecin cote
plus cher quune erreur de diagnostic de type faux positif ).
Dans ces conditions, la mise en uvre dune mthode statistique telle que les rseaux de neurone est
opportune, sous rserve que lon dispose dune base de donnes convenable. Le problme central est celui
du choix de la reprsentation des donnes. Cest dailleurs le cas dans la majorit des problmes de clas-
sification non acadmiques : la rflexion du concepteur, et la mise en uvre de techniques de prtraite-
ment des donnes adaptes au problme (des exemples sont dcrits dans le chapitre 3), sont bien souvent
plus importantes que lalgorithme de classification lui-mme.
pX ( x Ci ) PrCi
Pr ( Ci x ) =
( x C ) Pr
c
p X j Cj
j =1
o Pr ( Ci x ) dsigne la probabilit a posteriori de la classe Ci sachant que lon observe lobjet dcrit par
le vecteur x, pX ( x Ci ) dsigne la vraisemblance du vecteur de descripteurs x sachant que lobjet dcrit par
x appartient la classe Ci, et o PrC dsigne la probabilit a priori de la classe Ci. Le classifieur de Bayes
i
consiste en lestimation de la probabilit a posteriori dun objet dcrit par x laide de la formule de
Bayes, suivie dune prise de dcision selon la rgle de dcision de Bayes : attribuer lobjet la classe dont
la probabilit a posteriori est la plus grande. Ce classifieur est le meilleur possible si toutes les erreurs ont
le mme cot. Son utilisation ncessite nanmoins de connatre aussi prcisment que possible les proba-
bilits a priori et les vraisemblances ; ces dernires sont particulirement difficiles estimer lorsque le
vecteur x est de grande dimension, ce qui est frquent dans des applications relles. Le classifieur de
Bayes prsente donc un intrt plus thorique que pratique. Il peut nanmoins servir de rfrence lorsque
lon cherche valuer la qualit dun classifieur : on peut appliquer celui-ci un problme fictif pour
lequel les probabilits a priori et les vraisemblances sont connues exactement, et comparer ses perfor-
Lapprentissage statistique
96
mances celles du classifieur de Bayes sur ce mme problme. Introduisons ici le problme fictif laide
duquel on testera quelques classifieurs.
Il sagit dun problme deux classes et
une variable ; les lments de la classe A sont des Classe A Classe B
ralisations de nombres alatoires obissant une
loi qui est la somme de deux gaussiennes ; ceux de -15 -10 -5 0 +5 +10
la classe B sont des ralisations de nombres ala- Figure 2-13. Densits de probabilit pour les classes A
toires obissant une loi uniforme dans un inter- et B
valle born (figure 2-13).
On peut donc calculer analytiquement les probabi-
1
lits a posteriori (figure 2-14), et dterminer les
limites de chaque classe (figure 2-15). Pour estimer 0,5
le taux derreur, on ralise un grand nombre
dexemples de chaque classe et lon compte la 0
proportion de ces ralisations qui se trouve du -15 -10 -5 0 +5
mauvais ct des limites dtermines par le Figure 2-14. Probabilit a posteriori de la classe A,
classifieur de Bayes ; dans ce problme, on dispose calcule par la formule de Bayes
de 600 exemples pour chaque classe (figure 2-16)
partir desquels, par simple dnombrement, on estime le taux derreur 30,1 %. Ainsi, on peut affirmer
que, pour ce problme, aucun classifieur, aussi bien conu soit-il, ne peut raliser une performance
meilleure que 69,9 % de classification correcte ; le meilleur classifieur rel est celui qui sapproche le plus
de cette limite thorique.
A B A B A 600 exemples
-15 -10 -5 0 +5
0 Rpartition des 1200 exemples
Figure 2-15. Classification ralise par le classifieur
de Bayes
600 exemples
-15 -10 -5 0 5 10
Classification et rgression
Le lien entre classification et estimation de la fonction de rgression stablit de manire trs simple dans
le cas dun problme deux classes. On montrera ensuite comment on peut traiter les problmes plus de
deux classes.
Proprit
Dmonstration
La fonction de rgression de (x) est lesprance mathmatique de tant donn x, note E x . Or,
E x = Pr ( = 1 x ) 1+ Pr ( = 0 x ) 0 = Pr ( = 1 x )
Le problme de lestimation de la probabilit a posteriori des classes ramne donc au problme de lesti-
mation de la fonction de rgression dune variable alatoire, ce qui peut tre ralis avec nimporte quelle
famille de fonctions bornes (les probabilits doivent tre comprises entre 0 et 1), notamment avec des
rseaux de neurones dont le neurone de sortie a une fonction dactivation sigmode, par exemple une
tangente hyperbolique. Cette dernire tant comprise entre 1 et +1, lestimation de la probabilit est
obtenue par 1 + g ( x, w ) 2 , o g(x, w) est la prdiction du modle. On peut aussi utiliser une fonction
sigmode du type 1 : variant entre 0 et 1, elle peut directement approcher une probabilit. La
1 + exp ( v )
figure 2-17 illustre cette approche : on effectue lapprentissage partir dun ensemble de couples
(xk, ykp), o xk est la valeur du descripteur x pour lexemple k, et ykp = +1 ou 1 selon que lexemple k
appartient la classe C1 ou la classe C2 (la figure prsente les rsultats aprs transformation ramenant
lestimation entre 0 et +1). Aprs estimation de la probabilit a posteriori, la frontire est dfinie comme
le lieu des points pour lesquels les probabilits a posteriori sont gales 0,5 (rgle de dcision de Bayes).
Estimation de la probabilit
Classe C1
a posteriori de la classe C1
0 Classe C2 sachant que lon observe le descripteur x1
1
Figure 2-17. Estimation
Frontire entre de la probabilit a posteriori
Pr (C1 | x)
00 0 0 0000000000000000
x1 x
La complexit de la frontire entre les classes dpend de la complexit du modle choisi. Le modle le plus
simple est le modle sans neurone cach, avec un neurone de sortie fonction sigmode. Il dfinit une surface
de sparation qui est une droite pour un problme deux variables, un plan pour un problme trois variables,
et une surface appele hyperplan dans les autres cas. Considrons en effet un classifieur un neurone :
g ( x, w ) = th ( v ) avec v = w x .
Aprs apprentissage, et aprs la transformation mentionne ci-dessus pour que la prdiction du modle
puisse constituer une estimation dune probabilit, cette dernire devient :
Lapprentissage statistique
98
1 + th ( w x )
.
2
La frontire est le lieu des points o les
probabilits a posteriori sont gales 1
0,5, donc le lieu des points pour
g(x1,x2,w0,w1,w2)
lesquels th(wx) = 0, soit encore : 0,8 Frontire entre les classes:
w x = 0, 0,6 ( ) ( )
Pr C1 x = Pr C2 x = 0,5
2 1
1 0,8
Frontire entre les classes:
0
( ) ( )
g(x, w)
0,6 Pr C1 x = Pr C2 x = 0,5
-1
x2
0,4
-2
0,2
-3
0
-4
4 5
2
-5 0
-2 0
-6 x2 -4 x1
-5 0 5 -6 -5
x1
Figure 2-19. Classification non linaire par un rseau de neurones deux neurones cachs et un neurone de sortie
activation sigmode
Les rseaux de neurones
99
CHAPITRE 2
Lexcellent ouvrage [BISHOP 1995] est entirement consacr la mise en uvre de rseaux de neurones
pour la classification. Le chapitre 6 du prsent ouvrage prsente en dtail les rseaux de neurones
(binaires ou non) ainsi que les machines vecteurs supports pour la classification.
Problme C classes
Lorsque le problme de classification est un problme plus de deux classes, plusieurs approches sont
possibles :
rsoudre globalement le problme en estimant simultanment, pour un objet donn, ses probabilits
dappartenance aux diffrentes classes ;
diviser le problme en sous-problmes deux classes, concevoir un ensemble de classifieurs deux
deux et combiner les rsultats de ces derniers pour estimer les probabilits a posteriori globales.
Ces deux approches vont tre examines successivement.
Approche globale
Cette approche est frquemment mise en uvre, bien
C neurones quelle ne soit pas toujours la plus efficace pour des
..... fonction dactivation problmes difficiles. Elle consiste utiliser un rseau
sigmode
de neurones C sorties (figure 2-20), le rsultat tant
.... cod laide dun code 1-parmi-C : lvnement
lobjet appartient la classe Ci est associ un
vecteur g dont seule la composante i est gale 1, les
x1 x2 x3 .... xn Descripteurs autres composantes tant gales 0. De manire
analogue au cas de deux classes, on dmontre facile-
Figure 2-20. Classification non linaire C classes : ment que lesprance mathmatique de chacune des
Perceptron multicouche C neurones de sortie
fonction dactivation sigmode composantes est gale la probabilit a posteriori de la
classe correspondante.
Terminologie
Dans le jargon des rseaux de neurones, un codage un-parmi-C est appel codage grand-mre . Cette appellation provient de la
neurobiologie : lune des thories de la reprsentation des informations dans les systmes nerveux soutient que certains de nos neurones
sont spcialiss dans la reconnaissance de formes usuelles, notamment du visage de notre grand-mre.
Il convient de noter plusieurs diffrences pratiques entre un Perceptron multicouche pour la classification
et un Perceptron multicouche pour la modlisation statique :
contrairement au cas de la modlisation, les neurones de sortie dun rseau pour la classification ont une
fonction dactivation sigmode, pour assurer que lestimation de la probabilit soit comprise entre 0 et
1 ; on trouvera, dans le chapitre 6, une justification thorique lutilisation de la tangente hyperbolique
comme fonction dactivation des neurones de sortie pour la classification ;
pour la classification, il est parfois plus efficace, pour estimer les probabilits, de minimiser la fonction
de cot dentropie croise plutt que la fonction de cot des moindres carrs [HOPFIELD 1987] [BAUM
1988] [HAMPSHIRE 1990] ; les algorithmes dapprentissage qui seront prsents dans la section
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl sappliquent sans
difficult pour cette fonction de cot :
C
g ( x , w) 1 gi ( xk , w )
J = ik ln i kk (
+ 1 i ln
k
)
i 1 i
k
k i =1
o ik est la valeur (0 ou 1) de la variable indicatrice pour la sortie i lorsque lon prsente lentre
lexemple k, dcrit par le vecteur de descripteurs xk, et o gi(xk,w) est la valeur de la sortie i du classifieur
Lapprentissage statistique
100
pour cet exemple. On vrifie facilement que cette fonction est minimale lorsque tous les exemples sont
correctement classs.
Bien entendu, il convient de vrifier que la somme des sorties vaut 1 la fin de lapprentissage. La
mthode Softmax permet de garantir que cette condition est automatiquement remplie [BRIDLE 1990].
Cette difficult ne se prsente videmment pas si lon utilise un ensemble de classifieurs deux deux .
Comme indiqu dans le Classification : Thorique Estime avec 4 neurones cachs
chapitre 1, le dilemme 1
biais-variance existe pour
la classification comme
pour la rgression. Des 0,5
exemples de surajustement
en classification ont t
prsents dans le chapitre 0
1, figure 1-6. Il faut donc -15 -10 -5 0 5 10
mettre en uvre, pour (a)
slectionner le meilleur
modle, les techniques de
slection de modles intro- Classification : Thorique Estime avec 5 neurones cachs
duites dans le chapitre 1. 1
Essentiellement, il faut
trouver un rseau dont les
taux derreurs de classifi- 0,5
cation sur lensemble
dapprentissage et sur un
ensemble de validation 0
soient du mme ordre de -15 -10 -5 0 5 10
grandeur, et les plus petits (b)
possibles.
La figure 2-21 montre un
Classification : Thorique Estime avec 6 neurones cachs
exemple de surajustement 1
dans lestimation de la
probabilit dappartenance
la classe A pour lexem- 0,5
ple prsent sur la figure
2-16 ; on voit que le rseau
4 neurones cachs est trop 0
peu complexe pour estimer -15 -10 -5 0 5 10
correctement la probabi- (c)
lit, alors quun rseau Figure 2-21. Estimation des probabilits dappartenance la classe A avec trois
6 neurones cachs sajuste classifieurs de complexits diffrentes : (a) 4 neurones cachs (complexit insuffisante),
sur les fluctuations de la (b) 5 neurones cachs (performance trs proche de la meilleure performance thorique),
(c) 6 neurones cachs (surajustement manifeste)
densit des points utiliss
pour lapprentissage. Le
taux de classification incorrecte, estim sur un ensemble de validation de plusieurs millions de points, est
de 30,3 %, alors que le classifieur thorique de Bayes donne une erreur minimale de 30,1 %. On vrifie
bien ici que les rseaux de neurones peuvent approcher les meilleures performances possibles, celles du
classifieur thorique de Bayes.
Les rseaux de neurones
101
CHAPITRE 2
Classification 2 2
Il est souvent beaucoup plus sr, pour des problmes difficiles, de traiter une classification C classes
comme C(C-1)/2 problmes de classification 2 classes, pour les raisons suivantes :
on peut bnficier de nombreux rsultats et algorithmes, notamment concernant la sparation linaire
entre classes. Ces lments sont largement dvelopps dans le chapitre 6 ; ils seront introduits trs bri-
vement dans le paragraphe suivant, intitul Sparabilit linaire ;
on obtient des rseaux beaucoup plus petits, dont lapprentissage est court et la manipulation simple ;
chacun deux ayant une seule sortie, son interprtation comme une probabilit est immdiate ;
les descripteurs pertinents pour sparer la classe A de la classe B ne sont pas ncessairement les mmes
que ceux utiles pour discriminer la classe A de la classe C. En reconnaissance de formes notamment, le
fait de ne pas utiliser tous les descripteurs, mais seulement ceux qui sont utiles, constitue un avantage
considrable ; les techniques de slection des variables exposes dans le chapitre 1 sont directement
utilisables.
Une fois que les C(C-1)/2 probabilits des classes deux deux ont t estimes, ventuellement par de
simples rseaux sans couche cache, la probabilit pour quun objet dcrit par le vecteur de descripteurs
x appartienne la classe Ci est calcule par la relation [PRICE 1994] :
Pr ( Ci x ) =
1
C
1
Pr (C 2 )
j =1 ij
j i
o C est le nombre de classes et Prij la probabilit dappartenance de lobjet la classe i, estime par le
rseau de neurones qui spare la classe Ci de la classe Cj.
Sparabilit linaire
Deux ensembles dobjets dcrits dans un espace de N descripteurs, appartenant deux classes diffrentes,
sont dits linairement sparables sils peuvent tre spars sans erreurs par un hyperplan dans lespace
des variables.
Si des exemples sont linairement sparables, un rseau de neurones un seul neurone (galement appel
Perceptron ), fonction dactivation en chelon, peut les sparer. Ce classifieur est de la forme :
+1 si x w 0
g ( x, w ) =
1 si x w < 0
On peut donc considrer un Perceptron comme la limite dun rseau un seul neurone, lorsque la pente
lorigine de la tangente hyperbolique tend vers linfini. La frontire est lhyperplan dquation xw = 0.
Lorsque lon dcoupe le problme en sous-problmes de sparation de classes deux deux, il apparat que
la sparation linaire entre deux classes prsente trs souvent une complexit suffisante ; il est mme
frquent que, dans des problmes multiclasses rputs difficiles , les exemples soient, en fait, linaire-
ment sparables si lon considre les classes deux deux. Or, dans ce dernier cas, des algorithmes simples
et lgants permettent de trouver une trs bonne solution, comme expliqu en dtail dans le chapitre 6 : la
premire tape, dans la conception dun classifieur, est donc de chercher savoir si les exemples des
classes sont sparables deux deux. Lalgorithme de Ho et Kashyap [HO 1965], largement antrieur aux
rseaux de neurones, fournit rapidement une rponse cette question :
si les exemples sont linairement sparables, lalgorithme converge en un nombre fini ditrations vers
une solution ;
Lapprentissage statistique
102
si les exemples ne sont pas linairement sparables, lalgorithme lindique galement aprs un nombre
fini ditrations.
Par exemple, pour la base de donnes de codes postaux fournie par le National Institute of Standards and
Technology, qui a servi de support de trs nombreux travaux, les classes de chiffres sont linairement
sparables deux deux, mme si lon utilise une reprsentation par pixels [KNERR 1992] ! De mme, il
existe une base de donnes, relative des signaux sonar, qui a fait lobjet de trs nombreuses tudes et a
donn lieu la conception de nombreux classifieurs fort compliqus ; en quelques secondes de calcul,
lalgorithme de Ho et Kashyap montre que les exemples des deux classes sont linairement sparables. Il
est donc tout fait inutile, pour cette application, de concevoir un classifieur plus complexe quun rseau
un neurone ; cette application sera reprise dans le chapitre 6.
pour chaque paire de classes, effectuer la slection des variables selon les mthodes dcrites dans le
chapitre 1 ; en effet, il nest pas du tout certain que les mmes descripteurs soient utiles pour sparer les
classes A et B et pour sparer les classes A et C ;
pour chaque paire de classes, tester la sparabilit linaire des exemples des classes deux deux laide
de lalgorithme de Ho et Kashyap ;
pour toutes les classes dont les exemples sont sparables deux deux, mettre en uvre les mthodes de
sparation linaire (dcrites dans le chapitre 6), et obtenir une estimation des probabilits a posteriori ;
pour les classes non linairement sparables, mettre en uvre de petits Perceptrons multicouches ou des
Perceptrons sphriques dcrits dans le chapitre 6, avec estimation des probabilits ; mettre en uvre des
mthodes de validation croise ou de leave-one-out (voir chapitres 1 et 2) pour la slection de modles ;
estimer la probabilit dappartenance chaque classe partir des probabilits dtermines ltape
prcdente, selon la formule indique plus haut dans la section Classification 2 2 ;
fixer les seuils de dcision pour dfinir les classes de rejet.
Cette stratgie constitue une variante de la procdure STEPNET [KNERR 1990] [KNERR 1991], utilise
efficacement dans plusieurs applications industrielles.
Dans la planification dun tel projet, il ne faut pas sous-estimer le temps ncessaire pour la premire et
pour la dernire tape : dans les applications relles non triviales, ce sont frquemment les deux tapes les
plus longues. La dernire dentre elles est susceptible de remettre en cause les rsultats obtenus lors des
tapes prcdentes.
Les rseaux de neurones
103
CHAPITRE 2
Lapplication de cette stratgie est videmment limite par le fait que le nombre de classifieurs varie
comme le carr du nombre de classes. Nanmoins, chacun des classifieurs est trs simple, de sorte que
cette dmarche sapplique sans difficult jusqu quelques dizaines de classes, ce qui couvre limmense
majorit des applications. Si le nombre de classes est plus lev, il faut avoir recours des stratgies
hirarchiques.
Rappelons que le chapitre 6 est entirement consacr la classification. Il prsente notamment les
machines vecteurs supports, qui sont des outils de classification trs puissants, notamment par le fait
quils permettent de contrler la complexit du modle.
Lide de lapprentissage partir de donnes structures remonte au dbut des annes 1990, o les
mmoires auto-associatives rcursives ont t conues afin de fournir un codage compact pour une
catgorie particulire de graphes appels arbres [POLLAK 1990]. Une synthse sur le dveloppement
de lapprentissage numrique partir de donnes structures est prsente dans [GOULON 2005].
Le principe des graph machines est simple : au lieu de construire une fonction g(x, w) qui est la mme
pour tous les exemples, on construit, pour chaque graphe, une fonction (ou machine dans le jargon de
lapprentissage) par combinaison de fonctions lmentaires, cette combinaison ayant la structure du
graphe. Les fonctions lmentaires qui constituent les machines sont identiques, mais cest la faon de les
combiner qui change dun exemple lautre : cest elle qui reflte la structure du graphe auquel on veut
associer la grandeur que lon cherche prdire.
Ainsi, au lieu de concevoir une seule machine qui ralise la prdiction pour tous les exemples, on construit
autant de machines que dexemples ; toutes ces machines ont des structures diffrentes, qui refltent la
structure des donnes que lon veut traiter, mais elles sont constitues des mmes fonctions munies des
mmes paramtres. Les sections suivantes prsentent cette approche de manire un peu plus dtaille.
Lapprentissage statistique
104
Dfinitions
Graphes acycliques
Rappelons quun graphe est dfini par un ensemble de nuds et un ensemble dartes entre ces nuds, les
artes pouvant tre orientes. Sil nest pas possible de trouver un chemin dans le graphe, respectant
lorientation des artes, dont le point de dpart et le point darrive sont identiques, le graphe est dit
acyclique.
La figure 2-22 reprsente un ensemble de trois graphes ; les machines correspondantes sont obtenues en
remplaant chaque nud par une fonction paramtre f(z, w), o w est le vecteur des paramtres. La fonc-
tion du nud qui effectue le dernier calcul (nud racine ) peut tre diffrente des autres ; elle est note
F(z, W). Pour chaque graphe acyclique Gi, on construit une fonction gi ( graph machine ) qui est une
combinaison de fonctions paramtres ( fonctions de nuds ) identiques. Ces fonctions de nuds
peuvent tre, par exemple, des rseaux de neurones ; les fonctions gi sont parfois appeles rseaux
rcursifs [FRASCONI 1998].
Graphe G1: g w, W ( x 1, x 2, x 3, x 4 ) = F W ( x 4, f ( z 1, w ), f ( z 2, w ), f ( z 3, w ), W ) o :
1
x1, x2, x3, sont des vecteurs de variables, de dimension X1, qui fournissent une information sur les
nuds ; ces variables ne sont pas obligatoires, mais elles peuvent tre utiles pour fournir une informa-
tion spcifique aux nuds (un exemple en est prsent dans la section Aide la dcouverte de
mdicaments ). Si ces informations ne sont pas utiles, on a X1= 0, et, dans ce cas, la valeur de
gw1 ,W ( x1 , x2 , x3 , x4 ) ne dpend que du graphe et des paramtres des fonctions de nud ;
z1, z2, z3 sont des vecteurs de dimension D1 + 1 ; soit dk le degr du nud k, cest--dire le nombre
dartes adjacentes ce nud, et M1 = maxkdk . On a : D1 = M1 + X1 ; dans cet exemple M1 = 3, donc
D1 = 3. Ces vecteurs sont construits de la manire suivante :
pour tous les nuds, la premire composante z0 est gale 1 ;
pour le nud k, de degr dk, les composantes 2 dk + 1 de zk sont les valeurs de fw calcules
par les nuds parents du nud k, cest--dire les nuds j tels quil existe dans le graphe une
arte oriente de j vers k ; si dk < Mk, les composantes dk + 2 M1 + 1 sont gales zro ; si
X1 = 0, les composantes M1 + 2 M1 + 1 + X1 sont les composantes de xk.
7 7
9
4
10 8
6
5 4
6
1 3 5
1 2 3 3
1
Graphe G1
2 2 4
Graphe G2 Graphe G3
Figure 2-22. Trois graphes acycliques orients
Les rseaux de neurones
105
CHAPITRE 2
Dans lexemple reprsent sur la figure 2-22, sil nest pas ncessaire de fournir une information sur les
nuds (X1 = 0), on a D1 = 3.
Graphe G2 :
( ( ( ) )
gw2 ,W ( x1 , x2 , x 3 , x4 , x5 , x6 , x7 ) = FW x 7 , f ( z6 , w ) , fw x5 , f ( z 4 , w ) , fw x3 , f ( z2 , w ) , f ( z1 , w ) , w , w , W )
o les vecteurs x1 x7 et z1 z6 sont construits comme les variables correspondantes de G1, avec M2= 2.
Sil nest pas ncessaire dtiqueter les nuds (X2 = 0), on a :
D2 = 2, z1 = z2 = z 4 = z6 = (1 0 0 ) , z 3 = 1 ( f ( z1 , w ) )
f ( z2 , w ) , z5 = 1 ( f ( z3 , w ) )
f ( z4 , w ) ,
T T T
( f ( z5 , w ) f ( z6 , w ) )
T
z7 = 1
Graphe G3 :
( ( ( ( ( ) ( ) ) ) )
gw3 ,W ( x1 ,..., x10 ) = FW x10 , fw x9 , fw x8 , f ( z 7 , w ), f x6 , f x5 , fw ( z 4 , w ), w , f x3 , f ( z2 , w ), f ( z1 , w ), w , w , w , w , W )
o les vecteurs x1 x10 et z1 z9 sont construits comme indiqu plus haut, avec M3= 2.
Si ces trois graphes sont utiliss comme ensemble dapprentissage, les trois graph machines doivent
possder les mmes fonctions de nuds, de sorte que le nombre de variables de la fonction de nud soit
D = max Di , i = 1 3.
i
Graphes cycliques
Les graph machines peuvent manipuler les cycles et les artes parallles, ce qui est important notamment
pour leurs applications en aide la dcouverte de mdicaments. Le graphe initial subit un prtraitement
qui consiste supprimer des artes, en nombre gal au nombre de cycles, et dtruire toutes les artes
parallles sauf une ; de plus, on affecte chaque nud une tiquette qui est gale son degr dans le
graphe initial, ce qui permet de conserver linformation complte sur la structure du graphe original.
Enfin, on choisit un nud racine et lon affecte les orientations convenables aux artes.
Apprentissage
Lapprentissage des graph machines entre dans le cadre habituel de minimisation du risque structurel,
prsent dans le chapitre 1. Il ncessite la dfinition dune fonction de perte et la minimisation dune fonc-
tion de cot par rapport aux paramtres de la fonction de nud. La fonction de cot peut, si ncessaire,
contenir un ou des termes de rgularisation (voir la section Apprentissage avec rgularisation ). Typi-
quement, la fonction de cot est de la forme :
N
(
J ( w, W ) = yip gwi ,W )
2
+ 1 w + 2 W
i =1
o N est le nombre dexemples de lensemble dapprentissage, yip est la valeur de la grandeur modliser
pour lexemple i, 1 et 2 sont des constantes de rgularisation convenablement choisies. Rappelons que
les paramtres w et W sont les mmes pour toutes les machines i, de sorte quil faut utiliser la technique
des poids partags qui sera dcrite dans la section valuation du gradient sous contrainte dgalit
des paramtres .
Lapprentissage statistique
106
Les algorithmes doptimisation, dcrits dans la section Modification des paramtres en fonction du
gradient de la fonction de cot sont directement applicables.
fw ( x ) = w0 + w1 z1 + w2 z2 + w3 z3 .
Toutes les artes tant quivalentes, on a w1 = w2 = w3 = w. Il ny a donc que deux paramtres indpen-
dants, w et w0.
Ce problme admet une solution vidente : w = w0 = 1. Ainsi, pour le graphe G1, on a :
( )
gw1 ,W ( x1 , x2 , x3 , x4 ) = f 1, f ( z1 , w ) , f ( z2 , w ) , f ( z 3 , w ) ,w = w0 + 3w1w0 = 4
gw4 ( x1 , x2 , x3 , x4 , x5 ) = f ( z5 , w )
avec :
x1 = 2, x2 = 2, x3 = 3, x4 = 1, x5 = 2, z1 = z2 = (1 0 0 0 2 ) ,
T
( f ( z1 , w ) )
f ( z2 , w ) 0 3 , z 4 = (1 0 0 0 1) , z5 = 1 ( f ( z3 , w ) f ( z4 , w ) 0 2 .)
T T T
z3 = 1
Postulons nouveau une fonction de nud affine f ( z, w ) = w0 + w1 z1 + w2 z2 + w3 z3 + w4 z4 . On a une
solution vidente : w0 = 0, w1 = w2 = w3 =1, w4 = 0,5. On obtient alors, pour le graphe G4 par exemple :
Les rseaux de neurones
107
CHAPITRE 2
gw4 ( x1 , x2 , x3 , x4 , x5 ) = 1 + 2 w + 2 w 2 = 5
obtenus pour lapprentissage de lindice de Wiener Figure 2-24. Prdiction de lindice de Wiener
dun graphe, cest--dire lapprentissage de la somme par une graph machine
des distances entre ses nuds. La base de donnes
utilise contient 150 graphes engendrs alatoirement, dont les indices de Wiener varient entre 1 et 426.
Les rsultats prsents ont t obtenus avec des fonctions de nuds qui sont des rseaux de neurones
4 neurones cachs ; la slection de modle a t effectue par validation croise. Dautres problmes
acadmiques sont dcrits dans [GOULON 2007].
Des exemples dapplication des graph machines la prdiction de proprits et dactivits de molcules
sont prsents dans la section Aide la dcouverte de mdicaments .
Exemples dapplications
Introduction
Le dbut de ce chapitre a t consacr lexpos du contexte mathmatique qui est essentiel pour
comprendre ce que sont rellement les rseaux de neurones et les principes sur lesquels repose leur mise
en uvre. Certains aspects peuvent paratre un peu techniques , mais il est important davoir bien
compris ces bases. En effet, la simplicit mme de mise en uvre des rseaux de neurones constitue un
danger, car elle peut conduire une application irrflchie qui donne des performances mdiocres ou
mauvaises.
Les rponses aux questions que se pose tout ingnieur ou chercheur qui envisage dutiliser des rseaux de
neurones peuvent galement tre claires par lexpos de quelques applications typiques. Bien entendu,
il nest pas question ici de faire un expos exhaustif des applications des rseaux de neurones : plusieurs
livres ny suffiraient pas. Il sagit plutt de montrer quelques applications ayant un caractre exemplaire,
en insistant sur les raisons pour lesquelles les rseaux de neurones ont un apport important, voire dcisif.
Reconnaissance de formes :
la lecture automatique de codes postaux
Cest sans doute dans le domaine de la reconnaissance de caractres que les rseaux de neurones ont
acquis leurs lettres de noblesse, et ont prouv quils constituent des alternatives fiables dautres
mthodes de classification. On citera ici quelques exemples et rsultats, qui sappuient sur les considra-
tions pratiques dveloppes dans le paragraphe consacr aux rseaux de neurones pour la classification.
Lapprentissage statistique
108
Connectivit complte
30 neurones cachs
Connectivit partielle
(poids partags)
12 x 64
neurones cachs
Connectivit partielle
(poids partags)
256 variables
Lentre du rseau est une matrice de 16 16 pixels. Une premire couche de neurones cachs est
compose de 12 ensembles de 64 neurones cachs, chacun des 64 neurones cachs recevant des informa-
tions concernant un champ rceptif de 5 5 pixels. Ces ensembles de 64 neurones sont appels
cartes de caractristiques , car les variables de tous les neurones dune carte donne sont affectes des
mmes paramtres (technique des poids partags , dcrite dans la section valuation du gradient
sous contrainte dgalit des paramtres ). Ainsi, on fait agir le mme oprateur, localement, sur chaque
ensemble de 25 pixels, de sorte que lensemble des sorties dun groupe de 64 neurones constitue une carte
du rsultat de lapplication de loprateur limage. Si la technique des oprateurs locaux est classique en
traitement dimages, loriginalit de la prsente mthode rside dans le fait que ces derniers ne sont pas
conus par lingnieur : ils sont dtermins par apprentissage partir dexemples. Lopration est renou-
Lapprentissage statistique
110
vele dans une deuxime couche doprateurs qui traitent les rsultats de la premire couche. On obtient
ainsi 12 cartes de 16 neurones cachs, soit 192 neurones dont les sorties constituent le vecteur de descrip-
teurs utilis pour la classification. Celle-ci est effectue avec un rseau une couche de 30 neurones
cachs et 10 neurones de sortie. Les neurones de sortie utilisent un codage 1-parmi-C, qui a t dfini
plus haut : il y a autant de neurones dans la couche de sortie que de classes. La sortie du neurone i doit
tre gale 1 si la forme classer appartient la classe i, et doit tre sinon gale 0.
Ainsi, un tel rseau ralise automatiquement le prtraitement et la classification, oprations qui sont tradi-
tionnellement conues sparment. Le prix payer est videmment une certaine lourdeur dapprentissage
et, compte tenu du grand nombre de paramtres, la ncessit de faire preuve dune grande vigilance rela-
tivement au surajustement.
Pour traiter le mme problme, une approche trs diffrente [KNERR 1992] consiste raliser un prtrai-
tement plus labor de limage, afin dextraire des caractristiques discriminantes qui permettent
dutiliser un classifieur relativement simple. Le prtraitement est la dtection de contours suivie dune
normalisation, qui produit 4 cartes de caractristiques de 64 lments, soit un vecteur de 256 compo-
santes. Mettant en uvre la mthodologie de conception dun classifieur dcrite plus haut, les dix classes
ont t spares deux deux : 45 classifieurs diffrents ont t labors, dont lapprentissage a t effectu
sparment et qui sont trs simples puisque, dans lapplication considre, il se trouve que tous les exem-
ples de lensemble dapprentissage sont linairement sparables deux deux. Chacun des 45 classifieurs
est donc constitu dun seul neurone.
La figure 2-27 montre les 18 erreurs commises par ce classifieur sur les 9 000 caractres de la base de
donnes USPS. Pour chaque chiffre manuscrit, lindication en haut droite est la classe dappartenance
du chiffre indique dans la base, et le chiffre en bas droite est la classe affecte par le classifieur. On
remarquera notamment le cas du dernier chiffre (en bas droite de la figure) qui est reconnu comme un
chiffre 1 alors quil est class dans la base comme un chiffre 8, ce qui est videmment une erreur dtique-
tage.
Le tableau 2-1 met en vidence lamlioration de performances qui rsulte de la mise en uvre dune
meilleure reprsentation : aprs ajustement des seuils de dcision afin dobtenir, dans les deux cas, un taux
derreur de 1 %, le taux de rejet pour la reprsentation par pixels est beaucoup plus lev que pour la
reprsentation par caractristiques. Il faut noter que les deux reprsentations ont la mme dimension (dans
les deux cas, chaque chiffre est reprsent par un vecteur de 256 composantes) : lamlioration ne
provient pas de la compacit de la reprsentation, mais de sa bonne adquation au problme pos. Cest
la rflexion de lingnieur qui fait la diffrence.
1,2
1,0
0,8
0,6
0,4
0,2
0
1 5 9 13 17 21 25 29 33 37 41
Couple de classes
Pixels Caractristiques
Figure 2-28. Distances entre classes pour deux reprsentations : la reprsentation par cartes de caractristiques loigne
les classes les unes des autres, et donc facilite le travail ultrieur des classifieurs
Taux de chiffres bien classs Taux de rejet Taux dexemples mal classs
Reprsentation par pixels 70,9 % 28,1 % 1%
Reprsentation par caractristiques 90,3 % 8,7 % 1%
Tableau 2-1
seur qui dpend de la frquence du champ magntique. Ces courants sont dtects par un second
bobinage ; la prsence de dfauts dans le mtal modifie le signal recueilli, la fois en amplitude et en
phase. Ainsi, le signal induit constitue une signature des dfauts. Comme il existe toujours plusieurs cat-
gories de dfauts, qui peuvent tre plus ou moins graves, il est important de pouvoir non seulement
dtecter ces dfauts, mais encore les classer. Il faut aussi pouvoir faire une distinction entre des dfauts et
des phnomnes normaux qui peuvent galement avoir une influence sur le signal : la jointure entre deux
rails provoque une modification des courants de Foucault, analogue celle engendre par une fissure,
alors quil sagit dun vnement normal (mais sa position est connue, ce qui facilite la discrimination).
Dans lapplication considre, le systme de cration et de dtection des courants de Foucault est mont
sous la voiture, quelques dizaines de millimtres du rail, comme reprsent sur la figure 2-29.
Comme toujours, le choix des descripteurs du signal conditionne en grande partie lefficacit de la discri-
mination. Comme il sagit ici dimages mono-dimensionnelles (par opposition aux images
bidimensionnelles traites prcdemment), on peut utiliser un relativement petit nombre de descrip-
teurs qui sont fonds sur les composantes de Fourier du signal, condition que ces descripteurs soient
bien choisis. La mthode de la variable sonde, expose dans le chapitre 1, a t mise en uvre pour dve-
lopper cette application [OUKHELLOU 1998].
linformation quil juge pertinente, devient une ncessit absolue. Comme la plupart de ces outils sont
destins tre utiliss dans un cadre professionnel, les exigences de fiabilit et de convivialit sont trs
importantes ; les problmes rsoudre pour satisfaire ces exigences sont nombreux et difficiles. Laccs
linformation pertinente peut tre ralise en fournissant un utilisateur des documents pertinents, ou
en lui proposant des passages de documents pertinents (ou des rponses des questions). Le premier cas
relve du domaine de la recherche de textes, le second du domaine de lextraction dinformations.
La catgorisation de textes, appele galement filtrage , consiste trouver, dans un ensemble de docu-
ments (comme un fil de dpches dagence de presse, ou un ensemble de pages Web), ceux relatifs un sujet
dfini par avance. On peut ainsi fournir un utilisateur, en temps rel, toutes les informations importantes
pour lexercice de son mtier. Dans ce cas, lutilisateur nexprime pas son intrt par une requte, mais par
un ensemble de documents pertinents qui dfinissent un thme ou une catgorie. Pour un thme donn, la
catgorisation consiste donc rsoudre un problme de classification supervise deux classes ; celui-ci
peut tre rsolu notamment par les mthodes dcrites dans cet ouvrage : les rseaux de neurones, les
machines vecteurs supports (chapitre 6) ou les modles de Markov cachs (chapitre 4).
Cest un problme trs difficile, qui va bien au-del de la recherche par mots-cls. En effet, supposons,
que lon cherche slectionner, dans le flot des dpches de lAFP, celles qui sont pertinentes pour le
thme prises de participations entre entreprises ; des textes qui contiennent les phrases : la socit A
a rachet la socit B ou bien A est entr dans le capital de B hauteur de 10 % , ou encore A vient
de franchir la hausse le cap des 20 % des parts sociales de B , sont tous pertinents, et pourtant ils ne
contiennent aucun des mots qui dfinissent le thme. En revanche, la phrase la participation des commu-
nistes au gouvernement inquite les chefs dentreprises nest pas pertinente, bien quelle contienne deux
des mots du thme.
Lapplication (extraite de [STRICKER 2000]) a t dveloppe pour la Caisse des dpts et consignations,
qui offre, sur lintranet du groupe, un service de filtrage de dpches de lAFP en temps rel. Les objectifs
sont doubles :
dveloppement dune application permettant un utilisateur dobtenir automatiquement un filtre
dinformation sur un thme de son choix, sous rserve de fournir des exemples de textes pertinents pour
le thme considr ;
dveloppement dun outil permettant de surveiller lobsolescence des filtres classiques, constitus de
systmes base de rgles.
Pour atteindre le second objectif, on fabrique une copie dun filtre base de rgles avec un filtre utilisant
un rseau de neurones. Comme le rseau de neurones fournit une probabilit de pertinence et non une
rponse binaire, il est possible danalyser les plus grandes divergences entre les deux filtres : les docu-
ments considrs comme pertinents par la mthode base de rgles, mais obtenant une probabilit proche
de zro avec le rseau de neurones, et les documents considrs comme non pertinents avec le premier et
obtenant une probabilit de pertinence proche de un avec le second [WOLINSKI 2000].
Le premier de ces objectifs consiste donc en la conception et la ralisation dun systme de cration auto-
matique de filtres, dont la caractristique majeure est labsence dintervention dun expert, par opposition
la mise en uvre dun systme base de rgles. Il sagit donc de concevoir un systme de discrimination
deux classes ; partir dune base de documents tiquets comme pertinents ou non pertinents pour le
thme considr, il faut :
trouver une reprsentation des textes par des nombres, reprsentation qui doit tre aussi compacte que
possible ;
concevoir et mettre en uvre un classifieur utilisant cette reprsentation.
Le problme de la reprsentation des textes, et donc de la slection des variables, est videmment central
dans cette application.
Lapprentissage statistique
114
3
par ordre de R(m, t) dcroissant, on supprime la seconde
moiti de la liste, et lon construit un vecteur boolen v(t) tel
2
que vi(t) = 1 si le mot i est prsent dans la liste, et 0 sinon. On
calcule enfin le vecteur v = v ( t ) , o la somme porte sur tous
1
0 t
0 1 2 3 4 5 les documents pertinents : le vocabulaire spcifique du thme
log r(m)
est lensemble des mots dont la composante dans v est non
Figure 2-30. Vrification exprimentale
de la loi de Zipf sur le corpus Reuters, nulle. La figure 2-30 montre que, sur le corpus des dpches
et reprsentation des mots du vocabulaire Reuters, la loi de Zipf est assez bien vrifie, et que les mots
spcifique au thme Falkland petroleum du vocabulaire spcifique du thme Falkland petroleum
exploration exploration sont bien au milieu de la distribution.
Slection finale
lintrieur du vocabulaire spcifique ainsi dfini, qui peut tre encore vaste (une quelques centaines
de mots), une slection finale est effectue par la mthode de la variable sonde, dcrite dans le chapitre 1.
la fin de cette tape, il apparat que, en moyenne sur 500 thmes tudis, le vocabulaire spcifique dun
thme comprend 25 mots, ce qui est tout fait raisonnable pour un vecteur de variables dun rseau de
Les rseaux de neurones
115
CHAPITRE 2
neurones. Nanmoins, cette reprsentation nest pas encore satisfaisante, mme si elle est compacte. En
effet, les mots seuls sont ambigus : dans une application comme celle-ci, il est indispensable de tenir
compte du contexte.
Dtermination du contexte
Pour introduire le contexte dans la reprsentation des textes, on cherche des mots de contexte dans une
fentre de 5 mots de part et dautre de chaque mot du vocabulaire spcifique. On dfinit :
des mots de contexte positifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabu-
laire spcifique, dans les documents pertinents ;
des mots de contexte ngatifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabu-
laire spcifique, dans les documents non pertinents.
Pour slectionner les mots de contexte, on utilise exactement la mme procdure que pour la dtermination
du vocabulaire spcifique. Typiquement, pour lexemple de prise de participation entre entreprises , on
constate que pour le mot capital , qui fait partie du vocabulaire spcifique, les mots dtient et
droits se trouvent dans les mots de contexte spcifique, et les mots risque et fonds dans le
contexte ngatif.
En moyenne sur 500 thmes diffrents, un thme est dfini par 25 mots de vocabulaire spcifique, chacun
de ces mots ayant 3 mots de contexte.
des poids a t mise en uvre dans cette application ; on en verra leffet dans la section consacre
lapprentissage avec rgularisation.
0,8
0,8
Scor e
0,6
0,385 0,6
0,4 0,343 0,326 0,317
0,237 0,234
0,185 0,177
0,2 0,4 0,335
0,099 0,081
0,253
0
) 0,158
r2 r1
) ) ) r1
)
2) 2) 00
) 0) 0,2
N po po r 9r o0
2R R
N
rf2 fr2 U
N N er no rp
(S ( S2 k9 k 9r (K ( KU (M n trp a nt 0,0078
C ( o (o n IG a . (
D D
C ft ft eg
e en /S .( U 0
IC IC so so eg IT U s
ro ro ijm ijm IR rs er ICDC Microsoft Rutgers U Rutgers U (antrpms00)
ic ic .N N t ge u tg
M M U . u R (S2RNsamp) (ok9rfr2ps) (antrpnms00)
U R
Figure 2-32. Rsultats de lpreuve de routing de TREC-9 : en noir : rsultats obtenus par la mthode dcrite ci-dessus ;
en gris : rsultats obtenus par dautres mthodes
Pourquoi les mthodes dapprentissage statistique peuvent-elles tre mises en uvre avec profit dans ce
contexte ? Si lon admet quil existe une relation dterministe entre certains descripteurs de la molcule
et la proprit que lon veut prdire, alors on est ramen un problme de dtermination de la fonction de
rgression de la proprit envisage, en fonction des descripteurs choisis.
La premire question quil convient de se poser est celle des donnes utilisables pour lapprentissage et pour
lvaluation des performances du rseau. Compte tenu de limportance des enjeux, il existe de nombreuses
bases de donnes concernant des proprits telles que le point dbullition, la solubilit dans leau ou le coeffi-
cient de partage eau-octanol, ou encore des activits telles que laction anti-VIH, la toxicit, etc.
La deuxime question se poser est celle des variables pertinentes pour le modle envisag. Ici, les
connaissances du chimiste doivent ncessairement guider le choix de ces variables. On peut envisager
plusieurs catgories de descripteurs :
des descripteurs chimiques tels que la masse molculaire, le nombre datomes de carbone ;
des descripteurs gomtriques tels que le volume de la molcule, sa surface, son ovalit ;
des descripteurs lectriques tels que les charges portes par les diffrents atomes, le moment dipolaire ;
etc.
Pour chaque proprit que lon cherche prdire, il faut donc tablir un ensemble de descripteurs que lon
peut supposer pertinents, et utiliser une technique de slection de variables, comme celles dcrites dans le
premier chapitre, afin de dterminer les descripteurs qui sont rellement utiles pour les molcules et la
proprit considres. En raison de leur parcimonie, des rseaux de neurones de trs petite taille (5
7 neurones cachs) fournissent gnralement des rsultats de meilleure qualit que les techniques de
rgression multilinaire habituellement mises en uvre dans ce domaine [DUPRAT 1998].
Nanmoins, les proprits et activits des molcules dpendent en grande partie de la structure de celles-
ci ; cest pourquoi il est particulirement intressant dutiliser des mthodes de rgression ou de classifi-
cation de donnes structures telles que les graph machines dcrites prcdemment dans la section
Modlisation et classification de donnes structures . En effet, elles permettent de saffranchir
compltement de la dtermination, du calcul et de la slection des descripteurs, puisque la structure
chimique dtermine directement les prdictions du modle.
titre dexemple, considrons la prdiction des 9
Ensemble dapprentissage-validation
proprits anti-VIH de drivs de la ttrahydroimi-
8 Ensemble de test
dazobenzo-diazepinone (TIBO), qui agit en
bloquant lactivit de lenzyme qui permet la dupli-
Activit prdite
7
cation du rtrovirus. Lactivit est exprime quanti-
tativement par le rapport log(1/IC50), o IC50 est la 6
concentration en TIBO qui produit linhibition de
50 % de lenzyme responsable de la duplication. 5
Les rsultats sont prsents sur la figure 2-33 ; ils
4
sont de meilleure qualit que ceux obtenus par les
mthodes conventionnelles, y compris les rseaux 3
de neurones, avec le grand avantage de supprimer 3 4 5 6 7 8 9
Activit mesure
les phases de conception, calcul et slection des
descripteurs [GOULON 2006]. Figure 2-33. Prdiction dune activit anti-VIH
fonction de nud constitue dun rseau de neurones 3 neurones cachs, qui ne commet aucune erreur,
ni sur les donnes dapprentissage, ni sur les donnes de test.
De nombreux autres exemples dapplications sont dcrits dans [GOULON 2007].
6 neurones
1600
cachs
1500
1400
1300
1200
1100
1000
900
800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700
(a)
1600
1500
Polynme de degr 3
1400
1300
1200
1100
1000
900
800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700
(b)
1600
1500
0 neurones cachs
1400 (modle linaire)
1300
1200
1100
1000
900
800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700
(c)
Figure 2-34. Diagrammes de dispersion (temprature prdite en fonction de la temprature observe) pour la prdiction
de la temprature de liquidus de verres doxydes en fonction de la composition, pour trois modles diffrents.
Lapprentissage statistique
120
le temps ncessaire pour intgrer numriquement les quations diffrentielles et les quations aux dri-
ves partielles du modle de connaissance est suprieur, de plusieurs ordres de grandeur, la dure
dune soudure : on ne peut donc pas utiliser un tel modle pour une prdiction en temps rel ;
certains paramtres physiques, qui interviennent dans les quations du modle de connaissance, sont
mal connus.
La modlisation par apprentissage est donc une alternative intressante un modle de connaissance. Le
procd tant non linaire et prsentant plusieurs variables, les rseaux de neurones sont de bons candi-
dats pour effectuer une prdiction, en temps rel, du diamtre du point fondu, et donc de la qualit de la
soudure, en fonction de mesures effectues pendant la soudure [MONARI 1999].
Les difficults sont, dune part, le choix des variables du modle et, dautre part, le fait que la constitution
dune base de donnes est onreuse : le nombre dexemples est donc limit.
Les grandeurs candidates pour constituer des variables du modle sont des grandeurs mcaniques et lec-
triques qui peuvent tre mesures durant le processus. La slection des variables a t effectue laide
des mthodes dcrites dans le chapitre 1, et le choix ainsi effectu a t valid par les experts impliqus
dans le dveloppement du modle de connaissance du procd.
Comme il nexiste pas de mthode non destructive simple pour prdire le diamtre du point fondu, la base
de donnes est construite de la manire suivante : un ensemble de soudures est effectu dans des condi-
tions bien contrles ; elles sont ensuite arraches ( dboutonnes ) et le diamtre du bouton fondu ,
qui reste solidaire dune des tles, est mesur. Cest un processus long et coteux, de sorte que lensemble
dapprentissage initial comprenait seulement 250 exemples. En utilisant lestimation des intervalles de
confiance qui sera expose dans la section Effet du retrait dun exemple sur lintervalle de confiance
pour sa prdiction , un plan dexpriences a t tabli, qui a permis denrichir progressivement la base
de donnes disponible. La moiti de ces donnes a t utilise pour lapprentissage, lautre pour le test ;
la slection de modle a t effectue par la procdure de leave-one-out virtuel, de sorte quil na pas t
ncessaire dutiliser un ensemble de validation.
La figure 2-35 prsente des diagrammes de dispersion typiques, o chaque prdiction figure avec son
intervalle de confiance. Lerreur de gnralisation estime (score de leave-one-out, voir chapitre 1 et
section Slection de modles du prsent chapitre) est de 0,27 mm, et lEQMT de lordre de 0,23 mm.
Ces quantits tant de lordre de grandeur de lincertitude de mesure, ces rsultats sont trs satisfaisants.
8 8
Diamtre prdit (mm)
Diamtre prdit (mm)
7 7
6 6
Figure 2-35.
5 5 Diagrammes
de dispersion
4 4 pour la prdiction
du diamtre
3 3 de soudures
par points,
2 2 et intervalles
2 3 4 5 6 7 8 2 3 4 5 6 7 8 de confiance sur
Diamtre mesur (mm) Diamtre mesur (mm) les prdictions
Les rseaux de neurones
121
CHAPITRE 2
Application en robotique :
modlisation de lactionneur hydraulique dun bras de robot
On cherche concevoir un modle dun bras de robot dont la position est commande par un actionneur
hydraulique. La position du bras dpend de la pression de liquide hydraulique dans lactionneur, pression
commande par louverture dune vanne. Il sagit dun processus dynamique, command en temps discret ;
comme indiqu dans la section quoi servent les rseaux de neurones boucls ? , on omet de mentionner
la priode dchantillonnage T afin dallger les notations. Les variations de louverture de la vanne, cest--
dire la squence de signaux de commande {u(k)}, et la pression dhuile correspondante, cest--dire la
squence de la grandeur modliser {yp(k)}, sont reprsentes sur la figure 2-36. Cet ensemble de donnes
contient 1 024 points de mesure : la premire moiti dentre eux est utilise pour lapprentissage, la seconde
pour lestimation de la performance (squence de test). On ne dispose daucune autre information sur le
processus : on a donc ncessairement recours une modlisation bote noire.
1,5
Commande
1
0,5
-0,5
-1
-1,5
0 200 400 (a) 600 800 1000
-2
-4
0 200 400 (b) 600 800 1000
Figure 2-36. Squences dapprentissage et de test pour la modlisation dun bras de robot
Lexamen des donnes montre que le processus nest certainement pas linaire et que, compte tenu des
oscillations observes en rponse des variations de u(k) qui sont presque des chelons, le processus est
au moins dordre 2. On observe aussi que les squences dapprentissage et de test nexplorent quapproxi-
mativement le mme domaine de fonctionnement (signaux de sortie et de commande de mme type et de
mme amplitude). On note quaux instants 600 et 850 environ de la squence de validation, lamplitude
Lapprentissage statistique
122
g ( k + 1) = x1 ( k + 1) = 1 ( x1 ( k ) , x2 ( k ) , u ( k ))
x2 ( k + 1) = 2 ( x1 ( k ) , x2 ( k ) , u ( k ))
g(k+1) = x1(k+1)
x2(k+1)
q-1
5 yp
g
1 u(k) x2(k)
-5
g(k) = x1(k) 0 100 200 300 400 500
Figure 2-37. Modle neuronal dtat pour lactionneur Figure 2-38. Modlisation dtat de lactionneur hydraulique
hydraulique. La sortie est lune des variables dtat.
Lerreur quadratique moyenne obtenue avec le modle de la figure 2-37 est de 0,07 sur la squence
dapprentissage et de 0,12 sur la squence de validation, ce qui est une trs bonne performance compte
tenu de la reprsentativit des donnes disponibles. Les rsultats obtenus sur la squence de test sont
reprsents sur la figure 2-38. Les dfauts de modlisation rsultent du fait quil y ait des perturbations
non mesures, qui ne figurent pas dans les variables du rseau.
tion optimale du rseau et une bonne anticipation des difficults qui peuvent rsulter de pluies impor-
tantes. La fiabilit du systme dpend donc largement de la fiabilit des capteurs des niveaux deau dans
les collecteurs : il est donc important de pouvoir dtecter automatiquement quun capteur est en panne
[ROUSSEL 2001].
La possibilit de crer, par apprentissage, des modles statiques ou dynamiques a permis la ralisation de
nombreux systmes de dtection de dysfonctionnements : si lon dispose dun modle prcis du fonction-
nement normal du processus que lon veut surveiller, et que lon observe une diffrence significative entre
les prdictions du modle et les mesures effectues, on peut en conclure que le systme est en fonction-
nement anormal ou, dans lexemple dcrit ici, que le capteur considr est en panne.
Deux types de pannes doivent tre considrs :
capteur bloqu (fournissant une mesure constante) ;
capteur subissant une drive lente.
Ces deux types de pannes peuvent tres dtects en utilisant des rseaux de neurones boucls, notamment
des modles NARMAX, qui seront dcrits en dtail dans la section Techniques et mthodologie de
conception de modles dynamiques de ce chapitre, ainsi que dans le chapitre 4. Ainsi, la figure 2-39
montre clairement la diffrence de comportement de lerreur de modlisation lorsque le capteur est en
fonctionnement normal et lorsquil drive.
0,04
Erreur moyenne de modlisation
0,02
0
1 3 5 7 9 11 13
-0,02
Drive Figure 2-39.
-0,04
Fonctionnement Dtection
-0,06 normal de panne
de capteur dans
-0,08 un collecteur
deau pluviale
-0,10
-0,12
Jour
il faut gnralement disposer dun modle de celui-ci ; les rseaux de neurones interviennent donc dans
les systmes de commande non linaires comme modles du processus, soit pendant la phase dappren-
tissage, soit en tant qulment du systme de commande lui-mme (commande avec modle interne).
Dautre part, llaboration du signal de commande (par exemple langle dont il faut faire tourner le volant,
et la vitesse angulaire avec laquelle il faut le faire tourner) partir de linformation de consigne (le cap
que doit suivre le vhicule) implique gnralement la ralisation dune fonction non linaire, donc les
rseaux de neurones peuvent avantageusement assurer cette fonction : celle du correcteur.
Le vhicule exprimental REMI est quip dactionneurs (moteur lectrique pour faire tourner le volant,
actionneur hydraulique pour le circuit de freinage, moteur lectrique pour le papillon dadmission dair)
et de capteurs de deux types :
des capteurs qui permettent de connatre ltat du vhicule (capteurs proprioceptifs) : odomtres sur les
roues, capteur angulaire sur le volant et le papillon dadmission dair, capteur hydraulique sur le circuit
de freinage ;
un capteur qui permet de connatre la position du vhicule par rapport au monde extrieur (capteur
extroceptif) : une centrale inertielle.
Le systme de navigation et de pilotage est constitu des lments suivants :
un module de planification qui, partir de lobjectif atteindre et des contraintes (routes), dtermine la
trajectoire que doit suivre le vhicule, et le profil de vitesse respecter durant le trajet ;
un module de guidage, qui labore les consignes de cap et de vitesse ;
un module de pilotage, qui dtermine les positions souhaites pour les actionneurs ;
un module de commande des actionneurs eux-mmes.
Dans cette structure, les rseaux de neurones interviennent au niveau du pilotage pour dterminer les
actions souhaitables en fonction des consignes de cap et de vitesse [RIVALS 1994] [RIVALS 1995].
Lapplication a ncessit la conception et la ralisation de deux systmes de commande destins raliser
deux tches :
la commande du volant, pour maintenir le vhicule sur sa trajectoire : un rgulateur neuronal de la posi-
tion a t ralis, qui permet une erreur latrale maximale de 40 cm, pour des courbures jusqu 0,1 m-1,
et des dvers jusqu 30 %, sur route et en tout-terrain ; cet asservissement a mis en uvre, en certains
de ses lments, une modlisation semi-physique ;
la commande de lacclrateur et du frein, pour respecter le profil de vitesse impos par le module de
guidage.
Il faut noter que les divers rseaux de neurones mis en jeu dans cette application, quils jouent le rle de
modles ou de correcteurs, sont tous de trs petite taille (moins dune dizaine de neurones cachs). Leur
mise en uvre en temps rel na ncessit aucun matriel spcialis : ils ont t raliss sous forme
uniquement logicielle, excuts sur une carte microprocesseur standard qui remplissait diverses autres
fonctions.
jusqu prsent. On reprendra ici les lments de mthodologie exposs succinctement dans le premier
chapitre : slection de variables, apprentissage, slection de modles.
(
J ( w ) = ykp g ( x k , w ) . )
2
k =1
Les mthodes qui peuvent tre mises en uvre pour minimiser la fonction de cot sont de deux types :
des mthodes non adaptatives dapprentissage : elles consistent estimer les paramtres du modle par
minimisation de la fonction de cot des moindres carrs, qui tient compte simultanment de tous les
exemples de lensemble dapprentissage ; lutilisation dune telle mthode ncessite videmment que
les N exemples soient disponibles ds le dbut de lapprentissage ;
des mthodes adaptatives dapprentissage : elles consistent modifier les paramtres du modle,
successivement en utilisant la fonction de perte relative chaque exemple k : ( xk , w ) = ykp g ( xk , w ) . ( )
2
Cette technique est la seule qui soit applicable lorsquon dsire effectuer lapprentissage sans attendre
que tous les exemples soient disponibles ; elle permet galement de mettre jour un modle si le
processus quil modlise est soumis des drives lentes (usures, encrassements).
Terminologie
En anglais, on dsigne lapprentissage non adaptatif sous le terme de batch training ou off-line training, et lapprentissage adaptatif sous le
terme de on-line training.
Lapprentissage non adaptatif, le plus frquemment utilis, est dcrit dans la section suivante.
Les rseaux de neurones
127
CHAPITRE 2
Terminologie
Pour lapprentissage non adaptatif, on utilise aussi, au lieu du terme ditration, le terme dpoque.
Ces deux points vont tre abords successivement ; on rappelle tout dabord le pralable indispensable :
la normalisation des variables.
Normalisation des variables et de la grandeur modliser
Rappelons que, avant tout apprentissage, il est indispensable de normaliser et de centrer toutes
les variables, ainsi que la grandeur modliser. La procdure de normalisation a t dcrite dans le
chapitre 1, section Prtraitement des donnes .
valuation du gradient de la fonction de cot
Lorsque le modle postul est un rseau de neurones, lvaluation du gradient de la fonction de cot peut
tre effectue dune faon conomique laide dun algorithme appel algorithme de rtropropagation
[RUMELHART 1986] [WERBOS 1974], devenu tellement populaire quil apparat parfois comme synonyme
dapprentissage de rseaux de neurones. En ralit, lalgorithme de rtropropagation nest pas un algo-
rithme dapprentissage, mais un ingrdient dans une procdure dapprentissage. On montrera dailleurs
quil est possible dvaluer le gradient au moyen dune autre mthode que la rtropropagation.
proscrire
On trouve trop souvent lexpression rseau de neurones rtropropagation (quand ce nest pas rseau backprop ...) pour dsigner
un rseau de neurones non boucl. Cette expression est doublement absurde : dune part, il est parfaitement possible de faire lapprentis-
sage dun rseau non boucl sans utiliser la rtropropagation, comme on le verra dans le paragraphe intitul valuation du gradient de
la fonction de cot dans le sens direct ; dautre part, on utilise aussi la rtropropagation dans lapprentissage de rseaux boucls, comme
on le montrera dans les paragraphes consacrs lapprentissage de modles dynamiques. Il ny a donc aucun lien entre larchitecture du
rseau (boucl ou non boucl) et lutilisation, ou la non-utilisation, de la rtropropagation.
Lapprentissage statistique
128
ni
yi = f ( vi ) = f wij x ij ,
j =1
o x ij dsigne la variable j du neurone i. Les ni variables du neurone i peuvent tre soit les sorties
dautres neurones, soit les variables du rseau. Dans toute la suite, x ij dsignera donc indiffremment soit
la sortie yj du neurone j, soit la variable j du rseau, lune ou lautre constituant une variable du neurone i.
La fonction de cot dont on cherche valuer le gradient est de la forme :
N N
(
J ( w ) = ykp g ( x k , w ) ) = ( x , w ),
2
k
k =1 k =1
o (xk,w) est la fonction de perte relative lexemple k. Pour valuer le gradient de la fonction de cot,
il suffit donc dvaluer le gradient de la fonction de perte relative lobservation k, et de faire ensuite la
somme sur tous les exemples.
Lalgorithme de rtropropagation consiste essentiellement en lapplication rpte de la rgle des drives
composes. On remarque tout dabord que la fonction de perte ne dpend du paramtre wij que par linter-
mdiaire de la valeur de la sortie du neurone i, qui est elle-mme fonction uniquement du potentiel du
neurone i ; on peut donc crire :
( x, w ) ( x, w ) vi
w = w = ik x ij ,k ,
ij vi x = xk
ij x = x
x = xk k
o
( x, w )
= ik dsigne la valeur du gradient de la fonction de perte par rapport au potentiel du
vi x = xk
neurone i lorsque les valeurs des variables du rseau sont celles qui correspondent lexemple k ;
v
i = x ij ,k dsigne la valeur de la drive partielle du potentiel du neurone i par rapport au para-
wij x = xk
mtre wij lorsque les variables du rseau sont celles qui correspondent lexemple k ;
x ij ,k est la valeur de la variable j du neurone i lorsque les variables du rseau sont celles qui correspon-
dent lexemple k.
Cette dernire quantit est entirement calculable si lon connat les valeurs des paramtres. Or celles-ci
sont connues tout moment pendant lapprentissage, puisquelles ont initialement des valeurs alatoires,
qui sont ensuite modifies selon les algorithmes qui seront prsents dans la section Modification des
paramtres en fonction du gradient de la fonction de cot ; les quantits x ij ,k sont donc connues. Il reste
donc valuer les quantits ik prsentes dans le membre de droite de lquation. On va dmontrer que ces
quantits peuvent tre avantageusement calcules dune manire rcursive en menant les calculs depuis la
(ou les) sortie(s) du rseau vers ses entres.
Les rseaux de neurones
129
CHAPITRE 2
En effet :
pour le neurone de sortie, de potentiel vs :
( x, w ) p 2 g ( x, w )
sk = =
vs x = xk vs ( yk g ( xk , w )) = 2e ( xk , w )
vs x = xk
,
o e ( xk , w ) = ykp g ( x k , w ) est lerreur de modlisation commise par le rseau, muni du vecteur de para-
mtres w, pour lexemple xk.
Or, la prdiction du modle est le rsultat du calcul du neurone de sortie ; cette relation scrit donc :
( ) ( )
sk = 2 e ( xk , w ) f vsk , o f vsk dsigne la drive de la fonction dactivation du neurone de sortie
lorsque les entres du rseau sont celles de lexemple k. Si, comme cest le cas lorsque le rseau est
utilis en modlisation, le neurone de sortie est linaire, lexpression se rduit : sk = 2 e ( xk ,w ) ;
pour un neurone cach i : la fonction de cot ne dpend du potentiel du neurone i que par lintermdiaire
des potentiels des neurones m dont une des variables est la valeur de la sortie du neurone i, cest--dire
de tous les neurones qui, dans le graphe des connexions du rseau, sont adjacents au neurone i, entre ce
neurone et la sortie :
( x, w ) ( x, w ) vm v
ik = = mk m .
vi x = xk m vm x = x vi x = x
k k
m vi x = xk
Dsignant par vmk le potentiel du neurone m lorsque les variables du rseau sont celles de lexemple k, on
v
( )
a : vmk = wmi xim,k = wmi f vik . Par consquent m
vi x = xk
( )
= wmi f vik .
i i
Ainsi, les quantits ik peuvent tre calcules rcursivement, en parcourant le graphe des connexions
dans le sens rtrograde , depuis la (les) sortie(s) vers les variables du rseau (ce qui explique le terme
de rtropropagation).
Une fois que les gradients des fonctions de perte ont t calculs, il suffit den faire la somme pour obtenir
le gradient de la fonction de cot.
Rsum de la rtropropagation
Lalgorithme de rtropropagation comporte deux phases pour chaque exemple k :
une phase de propagation, au cours de laquelle les variables correspondant lexemple k sont utilises
pour calculer les sorties et les potentiels de tous les neurones ;
une phase de rtropropagation, au cours de laquelle sont calcules les quantits ik .
Une fois que ces quantits sont disponibles, on calcule les gradients des fonctions de perte par les relations
( x, w ) J ( w ) N ( x k , w )
w = k i , puis le gradient du cot total
x = .
ij x = xk
i j ,k
wij k =1 wij
Lalgorithme de rtropropagation peut tre interprt sous une forme graphique, en introduisant le
rseau adjoint du rseau dont on veut estimer les paramtres. Cette approche, parfois utile, est
prsente dans le chapitre 4 traitant de lidentification de systmes dynamiques.
Lapprentissage statistique
130
Remarque importante
Lalgorithme de rtropropagation a t prsent ici dans le cadre de la minimisation de la fonction de cot des moindres carrs. Il est facile
de ladapter au calcul du gradient de nimporte quelle autre fonction de cot drivable, notamment, pour la classication, la fonction de
cot dentropie croise.
( x, w ) g ( x, w )
w
=
x = xk ijw k (
y p g ( x, w ) 2
)
x = xk
(
= 2 e x k , w ) .
wij x = xk
ij
Or, g(x, w) est la sortie dun neurone du rseau, donc la dernire drive peut tre calcule rcursivement
par le mme procd que toutes les autres. Une fois valu le gradient de la fonction de perte pour chaque
exemple, on fait la somme de ces gradients comme pour la rtropropagation.
Comparaison entre lvaluation du gradient de la fonction de cot par rtropropagation et par calcul
dans le sens direct
Les calculs qui viennent dtre exposs montrent que la rtropropagation ncessite lvaluation dun
gradient par neurone, alors que le calcul direct requiert lvaluation dun gradient par connexion. Comme
le nombre de connexions est peu prs proportionnel au carr du nombre de neurones, le nombre
dvaluations de gradient est plus important pour le calcul direct que pour la rtropropagation.
Donc, pour lapprentissage de rseaux non boucls, on utilisera avantageusement la rtropropagation pour
valuer le gradient de la fonction de cot.
Les rseaux de neurones
131
CHAPITRE 2
valuation du gradient sous contrainte dgalit des paramtres : les poids partags
On a vu dans la section Modlisation et classification de donnes structures , quil est ncessaire, pour
lapprentissage des graph machines, deffectuer lapprentissage sous la contrainte quun certain nombre
de paramtres doivent tre gaux entre eux la fin de lapprentissage. On retrouve la mme contrainte
pour lapprentissage des rseaux de convolution (section Reconnaissance des formes : la lecture auto-
matique de codes postaux ). Enfin, la mme contrainte est impose pour lapprentissage des rseaux
dynamiques, qui sera abord dans la section Techniques et mthodologie de conception de modles
dynamiques . Cette contrainte est appele contrainte des poids partags , introduite initialement dans
le contexte de la reconnaissance de la parole [WAIBEL 1989]). Or on verra, dans la section suivante, que
lvolution des paramtres, chaque itration de lalgorithme dapprentissage, dpend du gradient de la
fonction de cot ; pour que plusieurs paramtres restent gaux, il faut donc que le gradient de la fonction
de cot utilis pour leur mise jour soit le mme pour tous.
Supposons donc que, dans un mme rseau, v paramtres doivent tre gaux :
w1 = w2 = = wv = w
On peut crire le gradient de la fonction de cot sous la forme :
J J w1 J w2 J w ,
= + + ... +
w w1 w w2 w w w
w1 w2 w J J
or = = ... = = 1, donc = .
w w w w i =1 wi
Ainsi, lorsquun rseau contient des poids partags, il faut, chaque itration, effectuer la rtropropaga-
tion de la manire habituelle pour calculer les gradients par rapport ces paramtres, puis calculer la
somme de ces gradients, et affecter cette valeur chacun de ces gradients, avant de procder la modifi-
cation de ces paramtres.
Modification des paramtres en fonction du gradient de la fonction de cot
Dans la section prcdente, on a vu comment valuer le gradient de la fonction de cot par rapport aux
paramtres du modle, chaque itration du processus dapprentissage. Une fois que lon dispose de cette
valuation, on effectue une modification des paramtres, afin dapprocher dun minimum de la fonction
de cot. On examine prsent quelques algorithmes de minimisation itrative des paramtres du modle.
La mthode du gradient simple
La mthode du gradient simple consiste modifier les paramtres par la formule suivante, litration i
de lapprentissage :
Au voisinage dun minimum de la fonction de cot, le gradient de cette dernire tend vers zro : lvolu-
tion du vecteur des coefficients devient donc trs lente. Il en va de mme si la fonction de cot prsente
des plateaux o sa pente est trs faible ; ces plateaux peuvent tre trs loigns dun minimum, et,
dans la pratique, il est impossible de savoir si une volution trs lente du gradient est due au fait que lon
est au voisinage dun minimum, ou que lon se trouve sur un plateau de la fonction de cot.
Si la courbure de la surface de cot varie beaucoup, la direction du gradient peut tre trs diffrente de
la direction qui mnerait vers le minimum ; cest le cas si le minimum recherch se trouve dans une
valle longue et troite (les courbes de niveau sont des ellipsodes allongs au voisinage du
minimum), comme on le voit galement sur la figure 2-40.
Figure 2-40.
Minimisation
de la fonction
de cot par
la mthode
du gradient
simple
Pour porter remde au premier inconvnient, de trs nombreuses heuristiques ont t proposes, avec des
succs divers. Les mthodes de recherche unidimensionnelle (notamment celle qui est prsente dans les
complments thoriques et algorithmiques la fin de ce chapitre), fondes sur des principes solides, sont
recommandes.
Pour faire face aux deux autres problmes, on utilise des mthodes du second ordre qui, au lieu de modi-
fier les coefficients uniquement en fonction du gradient de la fonction de cot, utilisent les drives
secondes de cette dernire. Certaines de ces mthodes font galement intervenir un paramtre suscep-
tible dtre choisi laide de mthodes de recherche unidimensionnelle.
Les grandes lignes des mthodes du second ordre les plus frquemment utilises, ainsi que les mthodes
de recherche unidimensionnelle du pas, sont prsentes dans les sections suivantes.
Les mthodes de gradient du second ordre
Toutes les mthodes du second ordre sont drives de la mthode de Newton, dont on dcrit ici le principe.
Le dveloppement de Taylor dune fonction f(x) dune seule variable x au voisinage dun minimum x* est
donn par la relation :
d2 f
f ( x ) = f ( x *) +
1
2
( )
( x x *)2 2 + O x 3 ,
dx x = x*
car le gradient de la fonction de cot f(x) est nul au minimum. Une approximation du gradient de la fonc-
tion de cot au voisinage du minimum est obtenue aisment partir de la relation prcdente, en la dri-
vant par rapport w :
df d2 f
( x x *) 2 .
dx dx x = x*
Les rseaux de neurones
133
CHAPITRE 2
Par consquent, lorsque la variable x est au voisinage de x*, on pourrait atteindre ce minimum en une
seule itration si lon connaissait la drive seconde de la fonction son minimum : il suffirait pour cela
-----
df
-
dx
de modifier la variable w de la quantit x = ----------------------
2
-.
d--------f
d x2
x = x*
Le mme raisonnement sapplique une fonction de plusieurs variables, la drive seconde tant
2 f
remplace par la matrice hessienne H(w) de la fonction optimiser, de terme gnral : pour
xi x j
atteindre le minimum de la fonction de cot en une itration, il suffirait dappliquer au vecteur des poids
la modification suivante (sous rserve que la matrice hessienne soit inversible) :
x = H ( x *) f ( x ) .
1
Remarque
Ainsi, la diffrence de la mthode du gradient simple, les mthodes du second ordre adoptent une direction de dplacement, dans
lespace des variables, qui nest plus la direction du gradient, mais qui rsulte dune transformation linaire de celui-ci.
Cette dernire formule nest videmment pas applicable en pratique, puisque le vecteur x* nest pas
connu. Nanmoins, elle suggre plusieurs techniques qui mettent en uvre une approximation itrative de
la matrice hessienne (ou de son inverse). Deux dentre elles seront prsentes en annexe thorique et algo-
rithmique de ce chapitre : la mthode de Broyden-Fletcher-Goldfarb-Shanno (algorithme BFGS,
[BROYDEN 1970]) et lalgorithme de Levenberg-Marquardt ([LEVENBERG 1944] [MARQUARDT 1963]). Il
faut noter que ces mthodes ne sont pas spcifiques aux rseaux de neurones : ce sont des mthodes trs
gnrales doptimisation. On en trouvera des descriptions dtailles dans [PRESS 1992] ; cet ouvrage
prsente galement la technique du gradient conjugu , qui utilise la matrice hessienne de manire
implicite.
Pour lapprentissage des rseaux de neurones, la fonction optimiser f(x) en fonction des variables x nest
autre que la fonction de cot J(w), quil faut optimiser par rapport aux paramtres w du rseau. Le gradient
de J(w) est valu par lalgorithme de rtropropagation dcrit plus haut.
Que faire en pratique ?
En premier lieu, il ne faut pas utiliser la mthode du gradient simple et ses variantes, dont les temps de
convergence (en nombre ditrations) sont suprieurs de plusieurs ordres de grandeur ceux des
mthodes du second ordre (voir ci-aprs le paragraphe prsentant quelques problmes tests). Lutilisation
de la mthode du gradient simple ne peut se justifier que dans le cas o lon utilise de trs gros rseaux
(plusieurs milliers de paramtres), ce qui peut se produire pour des problmes de classification dans
lesquels les objets classer ont de trs nombreux descripteurs (typiquement, des images reprsentes par
des descripteurs de bas niveau). Dans ce cas, on arrte la descente avant datteindre un minimum de la
fonction de cot, afin dviter le surajustement ; cette technique, dite darrt prmatur (early stopping),
constitue une forme de rgularisation, sur laquelle on reviendra dans la section consacre lapprentis-
sage avec rgularisation.
Remarque
On mentionne souvent dans la littrature lheuristique du terme de moment (momentum term [PLAUT 1986]) qui consiste ajouter au
terme de gradient J un terme proportionnel la variation des coefcients litration prcdente [w(i 1) w (i 2)] ; on ralise ainsi
une sorte de ltre passe-bas qui peut viter les oscillations et augmenter un peu la vitesse de convergence si est bien choisi.
Lapprentissage statistique
134
Le choix entre les mthodes de BFGS et de Levenberg-Marquardt repose essentiellement sur des consi-
drations relatives au temps de calcul et la taille de la mmoire. La mthode de BFGS ncessite de
choisir le moment o lon passe du gradient simple BFGS ; il ny a pas, cet effet, de rgle fonde sur
des arguments thoriques. Quelques ttonnements sont parfois ncessaires pour trouver le bon
nombre ditrations (typiquement, une centaine), mais celui-ci nest pas critique. La mthode de Leven-
berg-Marquardt ne prsente pas cet inconvnient, mais elle devient lourde pour des gros rseaux (une
centaine de paramtres), en raison de linversion de matrice ncessaire chaque itration. Globalement,
on a donc intrt choisir la mthode de Levenberg-Marquardt si le rseau est petit , et celle de BFGS
dans le cas contraire. Si lon dispose du temps ncessaire, il est recommand dessayer les deux. La
mthode du gradient conjugu peut galement constituer une solution efficace au problme doptimisa-
tion de la fonction de cot.
Initialisation des paramtres
Quelle que soit la mthode mise en uvre, il est ncessaire de fixer les valeurs des paramtres du rseau
au dbut de lapprentissage. Les considrations suivantes doivent guider linitialisation de ces grandeurs :
les paramtres relatifs aux biais (entres constantes gales 1) doivent tre initialiss zro, pour
sassurer que les sigmodes des neurones sont initialement situes autour de zro ; alors, si les entres,
ainsi que les paramtres (autres que ceux des biais), ont t normaliss et centrs comme cela est recom-
mand plus haut, les valeurs des sorties des neurones cachs le sont galement ;
il reste sassurer que ces valeurs des sorties des neurones cachs ne sont pas trop voisines de +1 ou 1.
En effet, rappelons que le gradient de la fonction de cot, qui est le moteur de la minimisation,
dpend de la drive de la fonction dactivation des neurones cachs par rapport au potentiel. Or, au
voisinage de leurs saturations +1 et 1, les drives des sigmodes sont voisines de zro : dans ces
conditions, le processus de minimisation ne dmarre pas.
Soit n le nombre de variables du modle ; chaque neurone a donc n1 variables xi et un biais. Les param-
tres non nuls doivent tre suffisamment petits pour que les potentiels des neurones cachs aient une
variance de lordre de 1, afin que les sigmodes ne soient pas satures. Supposons que les xi puissent tre
considres comme des variables alatoires indpendantes Xi, tires de distributions identiques, centres
et normalises. On veut tirer les paramtres initiaux au hasard dans une distribution centre autour de
zro, dont on cherche la variance. Rappelons que le paramtre relatif au biais est initialis zro comme
n
indiqu lalina prcdent. Le potentiel v = wi xi de chaque neurone est donc la somme de n 1 varia-
i =1
bles alatoires qui sont les produits de variables alatoires indpendantes, centres, ayant toutes la mme
distribution. On dmontre facilement, partir des dfinitions et proprits indiques dans les notions
lmentaires de statistiques prsentes la fin du chapitre 1, que lon a :
varV = ( n 1) varWi varXi
problmes matre-lve , qui sera introduit dans le paragraphe suivant, est beaucoup plus difficile
russir avec des RBF ou des ondelettes quavec des rseaux de sigmodes. Il faut mettre en uvre une stra-
tgie plus labore, dcrite en dtail dans [OUSSAR 2000] : on prpare une bibliothque dondelettes
ou de RBF, cest--dire un ensemble dun grand nombre de ces fonctions, et lon applique une mthode
de slection analogue aux mthodes de slection des variables dcrites plus haut. On effectue ensuite
lapprentissage en donnant aux paramtres les valeurs des paramtres des ondelettes, ou des RBF, qui ont
t slectionnes.
Lexprience dannes denseignement et de recherche montre quil est trs facile dcrire un algorithme
dapprentissage faux, ou un programme dapprentissage bogu , qui converge nanmoins, parfois trs
lentement, et aboutit un modle qui nest pas compltement ridicule. Les erreurs algorithmiques ou de
programmation peuvent alors passer inaperues si lon ne fait pas preuve de vigilance. Il est donc impor-
tant de tester la validit dune procdure dapprentissage que lon a crite soi-mme, ou tlcharge
gratuitement sur le Web.
cet effet, la mthode suivante (souvent appele problme matre-lve ) est commode et simple
mettre en uvre. On cre un rseau de neurones, le rseau matre , dont les paramtres sont arbitraires,
mais fixs et connus (par exemple, tirs au hasard, une fois pour toutes, dans une distribution uniforme
entre 4 et +4). On utilise ce rseau pour crer une base dapprentissage, aussi grande que lon veut, en
lui prsentant des variables alatoires (par exemple, tires dans une distribution uniforme entre 1 et +1)
et en calculant les sorties correspondantes. On utilise cette base pour faire lapprentissage dun second
rseau (le rseau lve ) qui a le mme nombre de variables et le mme nombre de neurones cachs
que le rseau matre. Si lalgorithme dapprentissage et le programme sont corrects, on doit retrouver les
paramtres du rseau matre avec une prcision correspondant aux seules erreurs darrondi (typiquement,
lerreur quadratique moyenne est de lordre de 1030, et chaque paramtre du rseau lve est gal au para-
mtre correspondant du rseau matre, aux erreurs darrondi prs). Si ce nest pas le cas, lalgorithme
dapprentissage, et/ou sa programmation, doivent gnralement tre mis en cause.
Remarque
La structure du rseau lve obtenu est identique celle du rseau matre une permutation prs pour les neurones cachs. Cest une
consquence du thorme dunicit [SONTAG 1993].
Remarque
Pour les mmes problmes, le taux de russite est strictement nul si lon utilise lalgorithme du gradient simple ou du gradient stochastique
(dcrit dans la section suivante), avec ou sans terme de moment.
Il faut noter que le problme matre-lve est difficile pour certaines architectures en raison dun grand
nombre de minima locaux. Cest pourquoi il est recommand de tester tout algorithme ou procdure
dapprentissage sur les architectures que lon vient de mentionner.
En rsum
Rsumons ici la dmarche quil convient dadopter pour lapprentissage dun rseau non boucl, dont on
a fix le nombre de variables, ainsi que le nombre de neurones cachs :
initialiser les paramtres selon la mthode indique dans le paragraphe prcdent ;
calculer le gradient de la fonction de cot par lalgorithme de rtropropagation ;
modifier les paramtres par une mthode de minimisation (gradient simple, BFGS, Levenberg-
Marquardt, gradient conjugu...) ;
si un nombre maximal ditrations (ou poques) a t atteint, ou si la variation du module du vecteur des
poids est infrieure une limite fixe, ou si la variation du module du gradient est infrieure une limite
fixe (lalgorithme nvolue plus), ou encore si le module du gradient de la fonction de cot est infrieur
une valeur fixe (on est arriv un minimum ou dans un voisinage trs proche), arrter la procdure ;
sinon, reprendre le calcul du gradient et effectuer une nouvelle itration.
w k +1 = w k k J k w k( )
o wk dsigne la valeur du vecteur des paramtres aprs litration k, cest--dire aprs prsentation de
lexemple k et modification correspondante des coefficients. Pour lapprentissage adaptatif des modles
linaires, cet algorithme est appel algorithme LMS .
Certains rsultats empiriques suggrent que la mthode du gradient stochastique permet dviter les
minima locaux. Il ny a aucun lment thorique qui appuie cette affirmation.
Une autre technique, inspire notamment du filtrage adaptatif, a t utilise pour lapprentissage adaptatif des
rseaux de neurones : le filtre de Kalman tendu [PUSKORIUS 1994]. Elle est plus efficace que le gradient
Les rseaux de neurones
137
CHAPITRE 2
stochastique en termes de vitesse de convergence, mais elle est beaucoup plus lourde en termes de nombre
doprations par itration. Cette approche est prsente en dtail au chapitre 4 du prsent ouvrage.
2
riser les fonctions rgulires. La fonction mini-
1,5
miser est alors de la forme : J = J + , o J est,
1
par exemple, la fonction de cot des moindres carrs.
0,5
La fonction la plus largement utilise est celle qui
0
pnalise les modles ayant des paramtres levs :
= wi (mthode de modration des poids
2
-0,5
0 2 4 6 8 10 12 14
i Degr du polynme
ou weight decay ).
Figure 2-41. volution exponentielle du module
Notons galement que les machines vecteurs du vecteur des paramtres en fonction
supports, dcrites en dtail dans le chapitre 6, doivent de la complexit de modles polynomiaux
leur efficacit au fait quelles contiennent intrinsque-
ment un processus de rgularisation.
Lapprentissage statistique
138
Arrt prmatur
Principe
Comme dans la section prcdente, lapprentissage consiste minimiser, grce un algorithme itratif,
une fonction de cot calcule sur la base dapprentissage, par exemple la fonction de cot des moindres
carrs. La diffrence avec lapprentissage sans rgularisation rside dans le critre darrt de
lapprentissage : on arrte celui-ci prmaturment, cest--dire avant convergence complte de lalgo-
rithme. Ainsi, le modle ne sajuste pas trop finement aux donnes dapprentissage : le surajustement est
limit. La difficult rside alors videmment dans la dtermination du moment o arrter lapprentissage.
La mthode la plus classique consiste suivre lvolution de la fonction de cot sur une base de valida-
tion, et arrter les itrations lorsque le cot calcul sur cette base commence crotre.
Exemple (tir de [STRICKER 2000])
Il sagit dun problme de classification deux classes ; comme indiqu dans le chapitre 1, on dsire que
la sortie du rseau soit +1 pour tous les lments de lune des classes (classe A), et 0 pour tous les
lments de lautre classe (classe B). Aprs apprentissage, la sortie est une estimation de la probabilit
dappartenance de lobjet inconnu la classe A. Dans ce problme, lespace de description est un espace
deux dimensions, et les exemples sont tirs de deux distributions qui se recouvrent partiellement,
comme indiqu sur la figure 2-42.
Dans cet exemple acadmique, les distributions sont connues a priori : il est donc possible de calculer, par
la formule de Bayes, la probabilit dappartenance dun objet dcrit par les coordonnes (x, y) la classe
A, comme indiqu au chapitre 1 ; la figure 2-43 montre les probabilits a posteriori dappartenance la
classe A, calcules par la formule de Bayes.
1 1
0,8
)
0
Pr A x,y
-1
0,6
0,4
(
-2
0,2
-3
-4 -3 -2 -1 0 1 2 3 4 0
Figure 2-42. Les exemples de la classe A 5
5
(cercles) sont tirs dune distribution 0
de probabilit qui est le produit de deux 0
distributions gaussiennes selon x et y ;
y x
-5 -5
la distribution selon x est une gaussienne
centre en 1, dcart-type 1, et la distribu- Figure 2-43. Probabilit dappartenance la classe A calcule
tion selon y est une gaussienne centre en 1 et par la formule de Bayes
dcart-type 0,5. Les exemples de la classe B
(croix) sont tirs dune distribution
de probabilit qui est le produit de deux
distributions de probabilit selon x et y ;
la distribution selon x est la somme de deux
gaussiennes dcart-type 0,5, centres en 2
et 1.
Les rseaux de neurones
139
CHAPITRE 2
Lapprentissage est effectu laide de 500 points. La figure 2-44 montre les probabilits a posteriori esti-
mes par un rseau 2 neurones cachs et par un rseau 10 neurones cachs.
1 1
0,8 0,8
)
)
Pr A x,y
Pr A x,y
0,6 0,6
0,4 0,4
(
(
0,2 0,2
0 0
4
4 4
0 0 0
0
x -4 -4 y x y
-4 -4
Figure 2-44. Probabilits a posteriori estimes par un rseau 2 neurones cachs ( gauche) et par un rseau 10 neurones
cachs ( droite)
On constate que le rsultat obtenu avec un rseau 2 neurones cachs est trs proche de la surface tho-
rique reprsente sur la figure 2-43, alors que la surface obtenue avec 10 neurones cachs est quasi
binaire : dans la zone de recouvrement entre les classes, une trs petite variation de lun des descripteurs
x ou y entrane une brusque variation de la probabilit dappartenance. Le rseau 10 neurones cachs est
donc exagrment spcialis sur les exemples proches de la zone de recouvrement : il est surajust.
Ces variations sont trs caractristiques des rseaux dont les paramtres sont suffisamment grands pour
que les sigmodes des neurones cachs soient toujours dans leurs zones satures , comme illustr sur
la figure 2-45.
0,8
0,6
0,4
Erreur sur la base de validation
0,2
0,25
th(wx)
0 2 NC
0,20 5 NC
-0,2 10 NC
0,15
-0,4 0,10
-0,6 0,05
Lvolution de lerreur quadratique moyenne sur la base de validation de 300 exemples, en fonction du
nombre ditrations de lapprentissage, est reprsente sur la figure 2-46, pour divers nombres de
Lapprentissage statistique
140
neurones cachs. On voit quil est difficile de savoir exactement o il faut arrter lapprentissage, car
lerreur porte pour lessentiel sur les exemples qui sont proches de la surface de sparation entre les
classes, ce qui correspond un nombre relativement petit de points.
Cette mthode est donc malaise appliquer, notamment pour les problmes de classification. Cest pour-
quoi lon prfre souvent mettre en uvre des mthodes de rgularisation par pnalisation des paramtres
de fortes valeurs ; il a t prouv thoriquement [SJBERG 1995] que larrt prmatur est quivalent
lintroduction dun terme de pnalisation dans la fonction de cot.
Rgularisation par modration des poids (weight decay)
Pendant lapprentissage, certains paramtres des rseaux 5 et 10 neurones cachs augmentent et finis-
sent par atteindre des valeurs trs leves, exactement comme dans le cas de la rgression polynomiale
illustr par la figure 2-41. Ce nest pas le cas pour le rseau deux neurones cachs.
La mthode de rgularisation par modration des poids a prcisment pour objectif dempcher les para-
mtres de prendre des valeurs exagres, en minimisant, pendant lapprentissage, une fonction de cot J
qui est la somme de la fonction de cot des moindres carrs J (ou de tout autre fonction de cot, telle que
lentropie croise qui est introduite dans le chapitre 1) et dun terme de rgularisation proportionnel la
p
somme des carrs des paramtres : J = J + wi2, o p est le nombre de paramtres du rseau, et est
2 i =1
un hyperparamtre dont la valeur doit tre dtermine par un compromis : si est trop grand, la minimisa-
tion tend faire diminuer les valeurs des paramtres sans se proccuper de lerreur de modlisation ;
linverse, si est trop petit, le terme de rgularisation a trs peu deffet sur lapprentissage, donc le sura-
justement risque dapparatre.
Le principe de la mise en uvre de la mthode est trs simple. On calcule le gradient de la fonction de
cot J par rtropropagation, puis on lui ajoute la contribution du terme de rgularisation :
J = J + w .
Il faut noter nanmoins que tous les paramtres du rseau nont pas le mme effet :
les paramtres de la premire couche de connexions (matrice W1 de la figure 2-3) dterminent la vitesse
de variation des sigmodes des neurones cachs, sauf les lments de W1 relatifs au biais, qui dtermi-
nent une translation horizontale des sigmodes des neurones cachs ;
les paramtres de la deuxime couche de connexions (vecteur w2 de la figure 2-3) dterminent
linfluence de chaque neurone cach sur la sortie, sauf les lments de w2 relatifs au biais, qui dtermi-
nent une translation verticale de la sortie du rseau.
Il est donc naturel dintroduire des hyperparamtres diffrents pour ces diffrents types de paramtres
[MCKAY 1992]. La fonction de cot devient alors :
0
J = J + wi2 + 21 wi2 + 22 wi2,
2 W0 W1 W2
o W0 reprsente lensemble des paramtres des biais des neurones cachs, o W1 reprsente lensemble
des paramtres relatifs aux variables des neurones cachs lexception des biais, et W3 lensemble des
paramtres relatifs aux variables du neurone de sortie (y compris le biais de celui-ci). Il convient donc de
dterminer les valeurs des trois hyperparamtres 0, 1, 2. Dans ce but, [MCKAY 1992] propose une
dmarche fonde statistiquement dune manire solide, mais qui repose sur de nombreuses hypothses et
conduit des calculs lourds. En pratique, il apparat que les valeurs de ces hyperparamtres ne sont pas
critiques ; une dmarche heuristique, qui consiste effectuer plusieurs apprentissages avec des valeurs
Les rseaux de neurones
141
CHAPITRE 2
diffrentes des paramtres, tester les modles obtenus sur un ensemble de donnes de validation, et
choisir le meilleur, est gnralement suffisante.
Voici un exemple de classification deux classes ; il sagit de dterminer, dans un ensemble de textes (les
dpches de lagence France-Presse), celles qui sont pertinentes pour un sujet donn. Cest donc un
problme deux classes (une dpche est soit pertinente, soit non pertinente), pour lequel on dispose
dune base de donnes tiquetes. La base dapprentissage est constitue de 1 400 exemples de dpches
pertinentes et de 8 000 dpches non pertinentes. On mesure la qualit du classement laide dun indice
F qui est calcul partir de la prcision du classifieur (pourcentage de documents rellement pertinents
dans lensemble des documents considrs comme pertinents par le classifieur) et de son taux de rappel
(pourcentage de documents considrs comme pertinents par le classifieur parmi les documents pertinents
prsents dans la base de donnes). La performance du classifieur est dautant meilleure que F est grand.
On considre un classifieur zro neurone cach, et un neurone de sortie fonction dactivation sigmode,
cest--dire un sparateur linaire. Il nest videmment pas possible de rduire le nombre de ses param-
tres tout en maintenant constant le nombre de ses variables : seules les mthodes de rgularisation peuvent
viter le surajustement. La figure 2-47 montre lvolution de F sur la base de test, lorsque aucune mthode
de rgularisation nest mise en uvre, en fonction des proportions des exemples pertinents et non perti-
nents dans la base dapprentissage. La figure 2-48 montre la norme du vecteur des paramtres w des
rseaux correspondants. On observe que les performances se dgradent, et que, corrlativement, la norme
des paramtres augmente lorsque le nombre dlments de la base dapprentissage diminue.
0,95 5000
4000
0,90
3000
0,85
2000
0,80
1000
0,75 0
8000 8000
6000 1500 6000 1500
4000 1000 4000 1000
2000 500 2000 500
Nombre de textes non pertinents 0 Nombre de textes pertinents Nombre de textes non pertinents Nombre de textes pertinents
0 0
dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage
Figure 2-47. Apprentissage sans rgularisation : Figure 2-48. Norme des paramtres en fonction
volution de lefficacit dun classifieur linaire du nombre de textes de la base dapprentissage
en fonction des proportions des exemples pertinents
et non pertinents dans la base dapprentissage
Avec les mmes bases dapprentissage et de test, on a effectu un apprentissage avec arrt prmatur. Les
rsultats (indice de performance F et norme des paramtres), prsents sur la figure 2-49, montrent que
les performances sont sensiblement amliores dans la zone o le nombre dexemples de la base
dapprentissage est faible, mais quelles sont dgrades dans la zone o les exemples sont nombreux
(F < 0,9), ce qui prouve que larrt de lapprentissage ne permet pas dexploiter au mieux les donnes
prsentes dans la base dapprentissage. La norme du vecteur des paramtres (non reprsente sur la
figure) est trs faible dans tout le domaine explor.
Lapprentissage statistique
142
F sur la
F sur la
base
base
de test
de test
1
0,95 0,95
0,90 0,90
0,85 0,85
0,80 0,80
0,75 0,75
8000 8000
6000 1500 6000 1500
4000 1000 4000 1000
2000 500 2000 500
Nombre de textes non pertinents 0 0 Nombre de textes pertinents Nombre de textes non pertinents 0 0 Nombre de textes pertinents
dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage
Figure 2-49. Apprentissage avec rgularisation par arrt Figure 2-50. Apprentissage avec rgularisation
prmatur : volution de lefficacit dun classifieur par modration des poids : volution de la norme
linaire en fonction des proportions des exemples des poids en fonction des proportions des exemples
pertinents et non pertinents dans la base dapprentissage pertinents et non pertinents dans la base dapprentissage
La mthode de modration des poids a galement t mise en uvre sur cet exemple, en utilisant deux
hyperparamtres : un pour le biais (b = 0,001) et un pour les connexions entre les entres et le neurone
de sortie (1 = 1). Les rsultats sont prsents sur la figure 2-50 ; on observe que, cette fois, les perfor-
mances sont nettement amliores dans la zone o le nombre dexemples est faible, et que, contrairement
au cas de larrt prmatur, elles restent satisfaisantes dans la zone o les exemples sont nombreux. Il faut
noter quaucun effort particulier na t fourni pour optimiser les hyperparamtres. Comme prcdem-
ment, la norme du vecteur des paramtres reste uniformment faible.
Remarque
On peut galement pnaliser les modles dont les sorties varient trop vite, en pnalisant les valeurs leves des drives [BISHOP 1993].
Slection de modles
Dans le chapitre 1, le dilemme biais-variance et les mthodes de slection de modles dont il ncessite la
mise en uvre ont t dcrits en dtail. Les trois mthodes principales qui ont t prsentes validation
simple, validation croise et leave-one-out peuvent tre appliques directement lapprentissage des
rseaux de neurones comme lapprentissage des modles linaires. Nanmoins, les modles non
linaires en leurs paramtres ont une particularit quil faut prendre en considration : la fonction de cot
des moindres carrs prsente des minima locaux, de sorte que des initialisations diffrentes des param-
tres peuvent produire, en fin dapprentissage, des modles dont les performances sont diffrentes bien
quils aient la mme complexit.
Pour un modle non linaire par rapport ses paramtres, la problmatique de la slection de modle est
donc double :
parmi les modles de mme complexit, trouver celui qui ralise le meilleur compromis biais-variance ;
parmi les meilleurs modles de complexits diffrentes, de trouver celui qui ralise le meilleur
compromis biais-variance.
Toutes les techniques qui sont prsentes dans cette section ont pour objet, dune part, dliminer les
modles manifestement surajusts, et, dautre part, destimer lerreur de gnralisation des autres
modles, afin de choisir celui qui commet la plus petite erreur de gnralisation. On commencera donc,
en prliminaire, par montrer comment il est possible dliminer les modles manifestement surajusts.
Deux techniques de slection seront ensuite abordes :
une mthode globale de slection par estimation de lerreur de gnralisation : la validation croise ;
une mthode locale de slection qui permet destimer linfluence de chaque exemple sur le modle : la
mthode LOCL (Local Overfitting Control via Leverages), fonde sur la mthode des moindres carrs
locaux, qui fait appel notamment lestimation dintervalles de confiance pour les prdictions du
rseau.
Ces deux approches seront combines pour construire une mthodologie complte de conception de
modles non linaires.
existe donc, dans le modle, des paramtres redondants : le modle considr possde trop de paramtres,
donc une variance certainement trop grande. Un tel modle doit donc tre limin de lensemble des
modles candidats la slection. De plus, cette dficience du rang a un effet ngatif sur le droulement de
lapprentissage [SAARINEN 1993] [ZHOU 1998].
Calcul de la matrice jacobienne
Dans la section consacre lestimation des paramtres dun modle non linaire, on a vu que lon peut
facilement calculer, par rtropropagation, le gradient de la fonction de cot :
(
J y g ( x, w ) )
2
g ( x, w )
p
=
w
wi
(
= 2 y p g ( x, w ) ) wi
.
i
Si lerreur de modlisation yp g(x, w) vaut 1/2, le gradient de la fonction de cot est gal au gradient
de la prdiction du modle. Ainsi, la matrice jacobienne est aisment calcule par rtropropagation dune
erreur gale 1/2. Le temps supplmentaire ncessit par le calcul de la matrice jacobienne est donc
marginal, puisquil sagit dun calcul de rtropropagation effectu une seule fois par modle, la fin de
lapprentissage, alors que la rtropropagation est effectue lors de chaque itration de lapprentissage.
( p1 , p2 ) =
1
2
(
D p1 , p2 + D ( p2 , p1 ) .
)
On effectue donc plusieurs partitions alatoires de la base de donnes, et lon choisit, parmi ces partitions,
celle pour laquelle la distance de Kullback-Leibler entre la base dapprentissage et la base de validation
est la plus petite. Le tirage dun grand nombre de partitions et le calcul de la distance de Kullback-Leibler
tant beaucoup plus rapide quun apprentissage, on divise ainsi le temps de calcul par un facteur de lordre
de 5 par rapport une validation croise avec D = 5. Si lon fait lhypothse que les distributions sont deux
gaussiennes p1(1, 1) et p2(2, 2), la distance de Kullback-Leibler scrit :
( 2
+ 22 )
=
1
4 12 22
( )
12 22 + ( 1 2 )2 .
Les rseaux de neurones
145
CHAPITRE 2
On trouvera la dmonstration de cette relation dans les complments thoriques et algorithmiques en fin
de chapitre.
Cette heuristique se rvle trs utile pour une mise au point rapide dun premier modle ; elle peut tre
affine ensuite par une validation croise conventionnelle, ou par un leave-one-out virtuel .
Validation croise
La validation croise a t dcrite dans le chapitre 1. La slection de modles seffectue en partant du
modle le plus simple (modle zro neurone cach, cest--dire modle linaire), et en augmentant
progressivement la complexit des modles (pour des modles neuronaux : en augmentant le nombre de
neurones cachs).
Remarque
On pourrait aussi augmenter le nombre de couches de neurones cachs. Pour les problmes de modlisation, cela ne peut tre envisag
que dans une deuxime tape : une fois que lon a obtenu un modle satisfaisant avec une couche de neurones cachs, on peut, si le
temps disponible le permet, essayer damliorer un peu les performances en augmentant le nombre de couches caches, tout en dimi-
nuant le nombre de neurones par couche. Cette procdure apporte parfois une amlioration, gnralement marginale. En revanche, si lon
na pas obtenu de rsultats satisfaisants avec une couche cache, il est illusoire desprer en obtenir en augmentant le nombre de couches
caches.
Pour chaque famille de modles, on calcule le score de validation croise. Le surajustement se traduit par
une augmentation significative du score de validation croise. On arrte la procdure lorsque cette
augmentation apparat, et lon slectionne la complexit pour laquelle la plus petite EQMV a t obtenue.
On effectue alors lapprentissage dun modle de cette complexit laide de lensemble des donnes
disponibles (tout en laissant de ct des donnes destines au test de ce modle).
Leave-one-out
Rappelons que lestimation de lerreur de gnralisation par leave-one-out est un cas particulier de la vali-
dation croise, pour lequel D = N : litration k, on extrait lexemple k de lensemble dapprentissage,
on effectue des apprentissages (avec des initialisations diffrentes des paramtres) avec les N-1 lments
de la base dapprentissage. Pour chacun des modles obtenus, on calcule lerreur de prdiction commise
sur lobservation k lorsque celle-ci est extraite de lensemble dapprentissage, et lon retient la plus petite
1 N k 2
de ces erreurs, note rk k . On dfinit le score de leave-one-out Et = rk . On utilise ce score,
N k =1
( )
comme dans le cas de la validation croise, en augmentant progressivement la complexit des modles.
Cette technique a linconvnient dtre trs lourde en temps de calcul, mais on dmontre que le score de
validation croise est un estimateur non biais de lerreur de gnralisation [VAPNIK 1995].
Dans les sections suivantes, on prsente une autre technique, trs avantageuse, qui permet de diviser le
temps de calcul par un facteur N (le nombre dobservations disponibles). Elle est fonde sur lide que le
retrait dun exemple de lensemble dapprentissage ne doit pas beaucoup perturber le modle ; on peut
alors construire un modle localement linaire dans lespace des paramtres, ce qui permet de bnficier
des rsultats thoriques connus, relatifs aux modles linaires.
de la statistique PRESS, qui est exactement le score que lon obtiendrait si lon faisait un leave-one-out
sur les donnes disponibles. Dans ce paragraphe, on montre comment tendre ce rsultat aux modles non
linaires, et calculer le score de leave-one-out virtuel sans avoir raliser un vrai leave-one-out, cest-
-dire en faisant un apprentissage avec toutes les donnes disponibles (en gardant toujours un ensemble
de test). On introduit galement le calcul des leviers des observations pour un modle non linaire.
Approximation locale de la mthode des moindres carrs
Considrons un modle g(x, w*) obtenu par minimisation de la fonction de cot des moindres carrs. Un
dveloppement du modle au premier ordre, dans lespace des paramtres, au voisinage de w*, scrit
g ( x, w ) g ( x, w *) + Z ( w w *)
o Z est la matrice jacobienne du modle, dfinie plus haut. Ce modle est linaire par rapport ses para-
mtres w, et la matrice Z joue exactement le rle de la matrice des observations.
Pour tablir une approximation locale de la solution des moindres carrs wmc, il faut obtenir une approxi-
mation, au premier ordre en w wmc, du gradient de la fonction de cot des moindres carrs ; pour cela, il
faut partir dune approximation du second ordre de cette fonction de cot, donc, dune approximation du
second ordre du modle ([MONARI 2000] ; le mme rsultat est tabli dans [SEBER 1989], mais avec une
dmonstration incorrecte) On obtient alors une approximation de la solution des moindres carrs wmc :
( )
1
wmc w * + ZT Z ZT y p g ( x, w *) .
Ce rsultat est approch dans le cas dun modle non linaire, et il est exact dans le cas dun modle
linaire.
En effet, dans le cas dun modle linaire, Z est la matrice des observations, et g(x, w*) = Z w*. La rela-
tion prcdente devient alors
( ) ( )
1 1
wmc w * + ZT Z ZT y p ZT Z ZT g ( x, w *)
= w * + ( Z Z) ( Z Z) ( )
1 1 1
T
ZT y p T
ZT Zw* = ZT Z ZT y p
ce qui est le rsultat exact, dmontr dans le chapitre 1, section Apprentissage de modles linaires en
leurs paramtres .
( ) rk
k 1
wmc wmc ZT Z zk
1 hkk
o zk est le vecteur dont les composantes sont la k-ime ligne de la matrice jacobienne Z, rk est lerreur de
prdiction (ou rsidu) sur lexemple k lorsque celui-ci fait partie de lensemble dapprentissage :
rk = y p g ( xk , wmc ),
( )( )
T 1
et o hkk = z k ZT Z z k est le levier de lexemple k [LAWRANCE 1995]. Gomtriquement, hkk est la
composante k de la projection, sur le sous-espace des solutions, du vecteur unitaire port par laxe k.
Rappelons (voir chapitre 1) que les leviers sont compris entre 0 et 1, et que leur somme est gale au
nombre de paramtres du modle.
Une procdure numrique efficace de calcul des leviers est prsente dans les complments thoriques et
algorithmiques la fin de ce chapitre.
La mthode du leave-one-out virtuel est une consquence des rsultats prcdents : on dmontre que
lerreur de prdiction commise sur lexemple k, lorsque celui-ci est retir de lensemble dapprentissage,
peut tre estime simplement partir de lerreur de prdiction commise sur ce mme exemple, sil est
dans lensemble dapprentissage :
rk .
rk k =
1 hkk
Comme indiqu dans le chapitre 1, ce rsultat est exact pour un modle linaire, (PRESS, voir par
exemple [ANTONIADIS 1992]), et il est approch pour un modle non linaire.
Remarque
Une approche analogue a t propose dans [HANSEN 1996] pour les modles dont lapprentissage est effectu avec rgularisation.
Illustrons cette mthode sur un exemple acadmique : un ensemble de 50 points dapprentissage est cr
en ajoutant la fonction sinx/x un bruit gaussien de moyenne nulle et de variance 102.
Ensemble dapprentissage
0,3
1 Intervalle de confiance 95 %
Prdiction du modle
0,5
rk k
0 - 0,3 0 0,3
rk
Figure 2-52. Prcision de lestimation des rsidus
par leave-one-out virtuel 1 hkk
Lapprentissage statistique
148
La figure 2-51 reprsente les points de lensemble dapprentissage et la prdiction dun modle
deux neurones cachs. Une procdure conventionnelle de leave-one-out, dcrite au paragraphe prcdent,
a t effectue, fournissant ainsi les valeurs des quantits rk k prsentes en ordonne de la figure 2-52, et
la formule prcdente a t applique, fournissant les valeurs prsentes en abscisse. Le fait que tous les
points soient aligns sur la bissectrice du graphe montre que lapproximation est trs prcise.
On peut donc, dune faon trs avantageuse en temps de calcul, remplacer le score de leave-one-out Et,
qui a t dfini plus haut
(
1 N ( k )
rk )
2
Et =
N k =1
qui constitue une trs bonne approximation de lerreur de gnralisation. Cette quantit est un lment
essentiel de la procdure de slection de modles qui sera expose dans la section suivante : elle fournit
une estimation de lerreur de gnralisation, au prix dun temps de calcul qui est N fois plus petit que la
procdure traditionnelle de leave-one-out, puisque lapprentissage est effectu une seule fois, avec tous
les exemples disponibles, au lieu de ltre N fois avec N-1 exemples.
Effet du retrait dun exemple sur lintervalle de confiance pour sa prdiction
Dans [SEBER 1989], un intervalle de confiance approch est propos pour un modle non linaire, avec
une confiance 1 :
(
EY p ( x ) g ( x, wmc ) tN p s z T ZT Z )
1
z
o tN p est la valeur dune variable de Student N-p degrs de libert et un niveau de confiance 1 , et
s est une estimation de la variance de lerreur de prdiction du modle. La figure 2-51 reprsente linter-
valle de confiance calcul par cette formule, en tous points de lintervalle considr.
Remarque
Il est possible de dnir de nombreux intervalles de conance pour des modles non linaires [TIBSHIRANI 1996], que lon peut soit calculer
analytiquement, soit estimer laide de mthodes de r-chantillonnage, telles que celles qui sont dcrites dans le chapitre 3 de cet
ouvrage. Les intervalles de conance utiliss dans le prsent chapitre ont lavantage de mettre en uvre les mmes quantits que celles
qui permettent de prdire le score de leave-one-out.
(
EY p ( x ) g ( x, wmc ) tN p s z T ZT Z ) z = g ( x, wmc ) tN p s hkk .
1
On voit ainsi que les intervalles de confiance sur les prdictions du modle font intervenir les mmes
quantits hkk que la prdiction du retrait dun exemple sur lerreur de prdiction du modle. Cela nest pas
surprenant car les deux groupes de relations proviennent du mme dveloppement de Taylor du modle
dans lespace des paramtres.
Les rseaux de neurones
149
CHAPITRE 2
Comme dans le cas prcdent, il est possible destimer lintervalle de confiance sur la prdiction dun
exemple extrait de lensemble dapprentissage : tant donn un vecteur de variables xk, lintervalle de
confiance approch sur la prdiction de cet exemple est donn par ([SEBER 1989])
hkk
EY pk ( x ) g ( x, wmc ) tN p s k .
1 hkk
Remarque
Le fait que lintervalle de conance soit nul signie que lon est sr que la prdiction du modle en ce point est exacte. Ce nest pas contra-
dictoire avec le fait que lerreur de prdiction rk ne soit pas nulle. En effet, lerreur de prdiction est la diffrence entre la valeur mesure et
la valeur prdite : elle est due la fois lerreur de modlisation (diffrence entre la grandeur prdite et son esprance mathmatique
inconnue) et au bruit (diffrence entre la grandeur mesure et son esprance mathmatique inconnue). Si le modle est parfait, lerreur de
prdiction est due uniquement au bruit. On ne peut donc avoir un levier nul que si la famille de fonctions dans laquelle on cherche lapproxi-
mation de la rgression contient la fonction de rgression elle-mme.
Si un levier est trs proche de 1, le vecteur unitaire port par laxe correspondant lexemple k est trs
proche du sous-espace des solutions ; cet exemple est donc presque parfaitement appris, et il a une trs
grande influence sur les paramtres du modle. Lerreur de prdiction sur cet exemple est presque nulle
lorsque lexemple fait partie de lensemble dapprentissage, et elle est trs grande lorsque lexemple
nen fait pas partie. Le modle est donc exagrment ajust cet exemple. Lintervalle de confiance est
trs petit lorsque lexemple fait partie de lensemble dapprentissage, et il est trs grand lorsque
lexemple en est extrait.
Lapprentissage statistique
150
Remarque
Pour un modle linaire par rapport aux paramtres, la premire tape est trs simple puisque la fonction de cot ne possde quun
minimum : on effectue un seul apprentissage.
Ayant effectu ce choix pour plusieurs familles de fonctions de complexits croissantes, on choisit le
meilleur modle, selon une procdure qui sera dcrite dans la section Choix de la complexit
optimale .
Slection dun modle dans une famille de modles de complexit donne : critres globaux
Pour une complexit de modle donne, plusieurs apprentissages sont effectus, et, lissue de chacun
deux, le rang de la matrice jacobienne du modle obtenu est valu. Si cette matrice nest pas de rang
plein, le modle doit tre limin, comme indiqu plus haut.
Il faut noter que, contrairement ce qui a parfois t publi, la valeur du nombre de conditionnement de
la matrice jacobienne ne doit pas tre utilis comme critre de comparaison entre modles. Ainsi, dans
[RIVALS 2000] [RIVALS 2004], les auteurs indiquent que les modles dont la matrice de conditionnement
est suprieure 108 doivent tre rejets. Dans [OUSSAR 2004], de nombreux contre-exemples montrent
quil ny a essentiellement aucun rapport entre le surajustement et le nombre de conditionnement de la
matrice jacobienne : des modles trs fortement surajusts peuvent avoir des nombres de conditionnement
infrieurs cette limite, et des modles dont le nombre de conditionnement est trs suprieur cette limite
peuvent ne pas prsenter de surajustement.
Remarque
Le fait de trouver, pour une complexit donne, que le minimum global de la fonction de cot correspond un modle dont la matrice jaco-
bienne nest pas de rang plein ne signie pas que tous les modles de mme complexit doivent tre limins : un minimum local peut fort
bien fournir un excellent modle mme si le minimum global fournit un modle surajust. On retrouve ici une ide analogue celle de larrt
prmatur, qui a t expose dans la section consacre la rgularisation : choisir un modle qui ne correspond pas au minimum global
de la fonction de cot peut constituer une forme de rgularisation.
Ayant effectu cette premire limination, il faut faire une slection parmi les modles restants. Dans ce
but, on met en uvre la technique du leave-one-out virtuel , dcrite plus haut. Rappelons la dfinition
du score de leave-one-out virtuel
Les rseaux de neurones
151
CHAPITRE 2
2
1 N rk .
Ep =
N k =1 1 hkk
Il doit tre compar lerreur quadratique moyenne sur lensemble dapprentissage (EQMA), dfinie plus
haut :
1 N
rk ( )
2
EA = .
N k =1
Rappelons galement que, dans la procdure de leave-one-out virtuel, lapprentissage est effectu partir
de tous les exemples disponibles, lexception des exemples de lensemble de test. Cest donc bien la
mme quantit N qui est prsente dans les relations prsentes ci-dessus pour Ep et EA.
N
Si tous les leviers sont gaux p/N, on a : E p = E . Ep et EA sont gaux dans la limite des grands ensembles dapprentissage pour
N p A
un modle sans surajustement, ce qui est normal puisque la diffrence entre lEQMA et lerreur de gnralisation est due au fait que le
nombre dlments de lensemble dapprentissage est ni : si lon disposait dun nombre inni dexemples, on pourrait connatre exacte-
ment la fonction de rgression.
Pour illustrer cela, considrons lexemple dun rseau 4 neurones cachs, dont lapprentissage est
effectu laide des exemples reprsents sur la figure 2-51. Cinq cents apprentissages ont t effectus,
avec des initialisations diffrentes des paramtres, en utilisant lalgorithme de Levenberg-Marquardt. La
figure 2-53 reprsente les rsultats obtenus, avec les conventions suivantes :
pour les modles dont la matrice jacobienne est de rang plein, chaque modle est reprsent par un point
dans un plan ; laxe des abscisses reprsente lEQMA, et laxe des ordonnes le score de leave-one-out
virtuel (estimation de lerreur de gnralisation du modle) ; notez lchelle logarithmique en
ordonnes ;
pour les modles dont la matrice jacobienne nest pas de rang plein, les points correspondants sont
reprsents en dessous du graphique prcdent, sur un axe figurant les EQMA de ces modles.
On remarque :
que la matrice jacobienne du modle dont lEQMA est la plus petite (modle qui a le mieux appris les
donnes ) nest pas de rang plein : ce modle est donc cart ;
que, dans cet exemple, 70 % des minima trouvs nont pas une matrice jacobienne de rang plein ;
que lestimation de lerreur de gnralisation varie de plusieurs ordres de grandeur, ce qui ncessite
lutilisation dune chelle logarithmique pour Ep. Les modles correspondant aux minima dont les
scores de leave-one-out virtuel sont levs sont trs spcialiss sur un ou quelques points, avec des
leviers trs voisins de 1.
Lapprentissage statistique
152
105
de leave-one-out virtuel Ep
104
(chelle logarithmique)
103
Score
10-1
0,075 0,080 0,085 0,09 0,095 0,1 0,105 0,110
Rang(Z) < p
La figure 2-54 montre les prdictions des modles qui ont la plus petite valeur de EA et la plus petite valeur
de Ep (reprsentes respectivement par un cercle gris et par un triangle gris sur la figure 2-53). On
remarque que le modle correspondant au minimum de EA fournit une prdiction plus irrgulire que
le modle correspondant au minimum de Ep. Ce dernier est donc plus satisfaisant ; il faut noter cependant
quil est le modle le plus satisfaisant trouv dans la famille des rseaux 4 neurones cachs. Pour
terminer la slection, il reste comparer ce modle aux meilleurs modles trouvs pour des complexits
diffrentes.
1,5
La figure 2-55 reprsente les scores de leave-one-out virtuel et les EQMA des meilleurs rseaux, trouvs
par cette procdure, pour des complexits croissantes partir dun rseau 0 neurone cach (modle
linaire) jusqu un modle 5 neurones cachs. titre indicatif, on a port aussi, sur ce graphe, lcart-
type du bruit. On note que, comme attendu, lEQMA diminue lorsquon augmente le nombre de neurones
cachs, tandis que le score de leave-one-out virtuel passe par un minimum et augmente lorsque la
complexit du rseau crot. Nanmoins, le choix entre les architectures 2, 3 et 4 neurones cachs nest
pas vident, dans la mesure o les scores de leave-one-out virtuel sont peu diffrents. Le paragraphe
suivant est consacr ce problme : celui du choix de la complexit optimale.
Remarque
partir de 3 neurones cachs, lEQMA passe au-dessous de lcart-type du bruit ; on peut donc en dduire que les modles possdant
plus de 3 neurones cachs sont surajusts. Cela ne peut nanmoins pas tre considr comme un critre pratique de slection sauf si
lcart-type du bruit est connu.
Les rseaux de neurones
153
CHAPITRE 2
0,3
EQMA
0,25
Ep
0,20
cart-type du bruit
0,15
0,10
0,05
0 NC 1 NC 2 NC 3 NC 4 NC 5 NC
Nombre de neurones cachs
Figure 2-55. volution de lEQMA et du score de leave-one-out virtuel en fonction du nombre de neurones cachs
0 0
3 8 3 8 13
-0,5 -0,5
On observe que lintervalle de confiance pour le modle 2 neurones cachs est peu prs uniforme sur
tout le domaine dapprentissage, alors que, pour le modle 4 neurones cachs, lintervalle de confiance
est important dans la rgion [8, 12], o une oscillation de la sortie du modle est observe, dont on nest
pas sr quelle soit significative. Si lon considre la distribution des leviers, reprsente sur la figure 2-
57, on observe une plus grande dispersion de ces derniers pour le modle 4 neurones cachs (traits
griss) que pour le modle 2 neurones cachs (traits noirs).
40
35 p/N
Nombre dexemples
30
25 2 neurones cachs
20 4 neurones cachs
15
10
5
0
0,1 0,3 0,5 0,7 0,9
Leviers
Figure 2-57. Histogramme des leviers pour des modles 2 et 4 neurones cachs
1 N N
= hkk .
N k =1 p
Cette quantit est toujours infrieure 1, et elle vaut 1 si et seulement si tous les leviers sont gaux
p/N.
Elle constitue donc un paramtre normalis qui caractrise la distribution des leviers : plus est proche
de 1, plus la distribution des leviers est troite autour de p/N. Ainsi, parmi les modles de complexits
diffrentes ayant des scores de leave-one-out virtuel du mme ordre de grandeur, on choisira celui qui
possde le paramtre le plus voisin de 1.
On peut galement caractriser la distribution des leviers par son cart-type normalis
2
p
N
N
n =
p ( N p ) k =1
hkk
N
qui vaut zro si tous les leviers sont gaux p/N, et qui vaut 1 dans le pire cas de surapprentissage, cest-
-dire si p leviers sont gaux 1 et les (p N) autres leviers sont gaux zro. Ainsi, un modle est
dautant plus satisfaisant que n est petit.
titre dillustration, la figure 2-58 prsente un modle une variable dont lapprentissage a t effectu
partir des points obtenus en ajoutant un bruit uniforme dcart-type gal 0,1 la courbe reprsente en
trait fin. On observe que les leviers ont une distribution assez peu disperse si lon fait abstraction des
points qui sont aux frontires du domaine, qui ont invitablement une grande importance dans un modle
une variable ; 3 leviers sont suprieurs 0,95 ; de plus, = 0,984 et n = 0,38.
Les rseaux de neurones
155
CHAPITRE 2
2 2
Modle et fonction de rgression
1 1
0,5 0,5
0 0
-0,5 -0,5
-1 -1
-1,5 -1,5
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
1 1
0,8 0,8
Leviers
0,6
Leviers
0,6
0,4 0,4
0,2 0,2
0 0
0 1 2 3 4 5 6 7
0 1 2 3 4 5 6 7
x x
Figure 2-58. Modle, fonction de rgression et leviers Figure 2-59. Modle, fonction de rgression et leviers
pour un modle non surajust pour un modle surajust
partir du mme ensemble dapprentissage, on a obtenu un autre modle, reprsent sur la figure 2-59.
Ce modle prsente clairement un fort surajustement pour 1 x 2. On observe que les leviers sont trs
levs pour ces valeurs de x, et que, pour ce modle, les leviers sont beaucoup plus disperss que dans
lexemple prcdent : on a en effet = 0,979 et n = 0,56.
14 14
12 12
p/N
/
10 10
p/N
8 8
6 6
4 4
2 2
0 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Figure 2-60. Histogrammes des leviers : gauche, pour le modle non surajust (figure 2-58) ;
droite, pour un modle surajust (figure 2-59)
Lapprentissage statistique
156
La figure 2-60 montre lhistogramme des leviers pour chacun des deux modles : la distribution des
leviers du premier est clairement plus troite, avec un pic pour p/N, que la distribution des leviers du
second modle.
Ces exemples montrent clairement que les leviers permettent de reprer localement les risques de surajus-
tement, et doivent donc contribuer la slection du meilleur modle et/ou la planification dexpriences
supplmentaires.
Que faire en pratique ?
Rsumons la dmarche de slection de modle qui vient dtre dcrite.
Raliser les oprations suivantes pour une complexit donne (si les modles sont des rseaux de
neurones : pour un nombre de neurones cachs donn) :
effectuer des apprentissages, avec toutes les donnes disponibles, pour des initialisations diffrentes des
paramtres du rseau ;
valuer le rang de la matrice jacobienne des modles ainsi trouvs et liminer ceux dont la matrice jaco-
bienne est de rang infrieur au nombre de paramtres ajustables du modle ;
pour chaque modle dont la matrice jacobienne est de rang plein, calculer son score de leave-one-out
virtuel et son paramtre n (ou son paramtre ).
Raliser les oprations prcdentes pour des modles de complexits croissantes ; lorsque les scores de
leave-one-out virtuel deviennent trop grands, ou la distribution des leviers trop large, arrter la procdure
et choisir le modle. Deux stratgies sont envisageables :
si lensemble dapprentissage est dfinitivement fix et ne peut pas tre enrichi, il faut choisir, parmi les
modles qui ont de petits scores de leave-one-out virtuel, le modle avec le le plus lev ou le n le
plus faible ;
sil est possible denrichir lensemble dapprentissage en effectuant quelques expriences supplmen-
taires, il est prfrable de choisir un modle lgrement surajust, et deffectuer des expriences suppl-
mentaires dans les zones qui correspondent des leviers levs (ou des intervalles de confiance grands) ;
on choisira alors un modle qui a le score de leave-one-out le plus petit possible, mme sil ne corres-
pond pas la plus grande valeur de , ou la plus petite valeur de n.
laboration de plans dexpriences
Aprs avoir suivi la dmarche dlaboration et de slection de modles qui vient dtre dcrite, il peut
savrer ncessaire de complter la base de donnes utilise pour llaboration du modle. Il convient
alors de construire un plan dexpriences , en profitant des rsultats obtenus lors de llaboration du
modle, notamment des intervalles de confiance. En effet, un intervalle de confiance lev dans une
certaine zone de lespace peut tre d un nombre de points insuffisant. Il suffit donc de reprer les zones
de lespace des variables o les intervalles de confiance sont excessifs, et deffectuer ensuite les mesures
dans ces zones.
On sintresse prsent aux modles dynamiques, dont les variables et les prdictions sont relies entre
elles par des quations diffrentielles, ou, pour des systmes temps discret, par des quations rcur-
rentes ou quations aux diffrences. Dans tout cet ouvrage, on se placera uniquement dans le cadre de
systmes temps discret, car les applications relles des rseaux de neurones dynamiques pour la mod-
lisation font appel des ordinateurs ou des circuits intgrs numriques, qui sont des systmes
chantillonns : les grandeurs ne sont mesures qu des instants discrets, multiples dune priode
dchantillonnage T.
Remarque
Pour allger les notations, on omettra systmatiquement T dans les quations : la valeur dune variable x linstant kT, k entier positif, sera
note x(k).
Le chapitre 4 de cet ouvrage propose une prsentation gnrale des systmes dynamiques non linaires.
Dans le prsent chapitre, on se contentera dune introduction mthodologique succincte de la modlisa-
tion stochastique tats continus, qui dcoule directement des considrations relatives la modlisation
statique dcrite dans les sections prcdentes. Les lments de modlisation dynamique prsents ici sont
suffisants pour aborder, dans la dernire partie de ce chapitre, la mthodologie de modlisation semi-
physique , trs importante en raison de ses applications industrielles.
Reprsentation dtat
Un modle est sous la forme dune reprsentation dtat sil est constitu dun ensemble dquations de
la forme :
o le vecteur x(k) est appel vecteur dtat (dont les composantes sont les variables dtat ), le
vecteur u(k) est le vecteur des variables de commande, b1(k) et b2(k) sont les vecteurs des perturbations,
et le scalaire y(k) est la prdiction fournie par le modle. f est une fonction vectorielle non linaire, et g
est une fonction scalaire non linaire. La dimension du vecteur dtat (cest--dire le nombre de variables
dtat) est appele ordre du modle. Les variables dtat peuvent tre mesures ou non mesures.
Remarque 1
Pour un processus mono-entre u(k), le vecteur u(k) peut tre constitu de u(k) et de valeurs de la commande plusieurs instants passs :
u(k) = [u(k), u(k 1), , u(k m)]T.
Lapprentissage statistique
158
Remarque 2
Les perturbations sont des facteurs qui affectent la sortie, ou ltat, ou les deux la fois, et qui, contrairement aux variables de commande,
ne sont pas mesures ; elles ne peuvent donc pas constituer des variables du modle, bien quelles aient un effet sur la grandeur mod-
liser. Par exemple, pour un four, lintensit qui passe dans la rsistance chauffante est une grandeur de commande ; la dgradation de
lisolant thermique du four et le bruit de mesure du thermocouple constituent des perturbations, que lon peut, si ncessaire, modliser par
des variables alatoires.
Remarque 3
Rien ne soppose ce que la sortie elle-mme soit une des variables dtat (on en verra un exemple dans le paragraphe intitul Que faire
en pratique ? )
Lobjectif du concepteur dun modle sous forme de reprsentation dtat est donc de trouver des approxi-
mations des deux fonctions f et g, par apprentissage, partir de squences des entres, des sorties, et,
ventuellement, des variables dtat si celles-ci sont mesures.
Reprsentation entre-sortie
Un modle est sous la forme dune reprsentation entre-sortie sil est constitu dquations de la forme :
o h est une fonction non linaire, n est lordre du modle, m et p sont deux constantes positives, u(k) est
le vecteur des signaux de commande, b(k) est le vecteur des perturbations. Remarquons que les reprsen-
tations entre-sortie constituent des formes particulires des reprsentations dtat, o le vecteur dtat a
pour composantes [y(k-1), y(k-2), y(k-n)].
Attention
Pour raliser un modle linaire, les reprsentations dtat et entre-sortie sont strictement
quivalentes : le choix de lune ou lautre repose sur des considrations qui ont trait leur commo-
dit, compte tenu des objectifs de la modlisation considre. En revanche, pour la ralisation dun
modle non linaire, une reprsentation dtat est plus gnrale et plus parcimonieuse quune repr-
sentation entre-sortie ([LEVIN 1993]), comme on le verra plus loin sur un exemple ; nanmoins, elle
peut tre plus dlicate mettre en uvre, puisque deux fonctions f et g doivent tre approches, alors
que les modles entre-sortie ncessitent lapproximation de la seule fonction h.
Une fois effectu le choix entre reprsentation entre-sortie et reprsentation dtat, il convient de faire
une hypothse sur la faon dont le bruit intervient dans le processus. Cette distinction fondamentale est
souvent nglige dans la littrature sur les rseaux de neurones, alors quelle est bien connue dans le cas
de la modlisation dynamique linaire, comme on le verra au chapitre 4. On va montrer que lhypothse
effectue sur le bruit conditionne la fois lalgorithme dapprentissage quil faut utiliser et la structure
du modle qui doit tre mis en uvre. On va donc passer en revue les principales hypothses relatives au
bruit, et en dduire, dans chaque cas, la structure du modle dont il faut estimer les paramtres.
sage et lutilisation des modles entre-sortie, puis sur la structure, lapprentissage et lutilisation des
modles dtat.
( )
y p ( k ) = y p ( k 1) ,..., y p ( k n ) , u ( k 1) ,..., u ( k m ) + b ( k )
Remarque
On emploie parfois, au lieu du vocable hypothse , lexpression modle hypothse , traduction de langlais postulated model. Pour viter
toute confusion entre hypothse et modle, et pour ne pas alourdir inutilement la nomenclature, nous nutiliserons pas ces derniers termes.
Par hypothse, le bruit agit donc sur la sortie, non seulement dune manire directe linstant k, mais
galement par lintermdiaire des sorties aux n instants prcdents ; puisque lon souhaite obtenir un
modle tel que lerreur de modlisation linstant k soit gale au bruit au mme instant, il faut quil tienne
compte des sorties du processus aux n instants prcdents. Considrons donc un rseau de neurones non
boucl, reprsent sur la figure 2-62, rgi par lquation
(
g ( k ) = RN y p ( k 1) ,..., y p ( k n ) , u ( k 1) ,...u ( k m ) ,w )
o w est un vecteur des paramtres, et o la fonction RN est ralise par un rseau de neurones (non
boucl). Supposons que lon ait effectu lapprentissage du rseau de neurones RN de telle manire quil
ralise exactement la fonction . On a alors yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel que
lerreur de modlisation soit gale au bruit : cest donc le modle idal, puisquil modlise parfaitement
tout ce qui est dterministe dans le processus, et ne modlise pas le bruit.
Il est important de remarquer que les variables du modle sont les variables de commande et les valeurs
de la grandeur modliser, mesures sur le processus : le modle (galement appel prdicteur ) idal,
reprsent sur la figure 2-62 nest donc pas un rseau de neurones boucl.
Apprentissage du modle : apprentissage dirig
Puisque le modle obtenu est un modle non boucl, son apprentissage seffectue en mettant en uvre les techniques prsentes dans
la section Apprentissage non adaptatif de modles entre-sortie non boucls : apprentissage dirig .
Lapprentissage statistique
160
g(k) g(k)
.....
yp(k-1) yp(k-n+1)
RN
....
RN
q-1
Utilisation du modle
Puisquune partie des variables du prdicteur sont les valeurs de la grandeur modliser, mesures du processus, on ne peut calculer la
sortie quau temps immdiatement suivant : on dit que lon ralise un prdicteur un pas . Si lon dsire utiliser le modle comme simula-
teur, cest--dire prvoir la rponse du processus sur un horizon suprieur un pas dchantillonnage, il faut ncessairement utiliser
comme variables les prdictions faites par le modle aux instants prcdents : le prdicteur nest plus utilis dans des conditions optimales.
(
x p ( k ) = x p ( k 1) ,..., x p ( k n ) , u ( k 1) ,..., u ( k m ) )
p
y ( k ) = x p ( k ) + b ( k )
On suppose donc ici que le bruit est additif sur la sortie
yp(k)
uniquement (figure 2-63) : il intervient en dehors de la
boucle, donc il naffecte que la prdiction. Cette hypo-
thse est connue, en modlisation linaire adaptative,
..... sous les termes d output error ou observateur
xp(k-1) xp(k-n+1) parallle [NARENDRA 1989].
....
Puisque la sortie, linstant k, nest affecte que par le
q-1 bruit ce mme instant, le modle recherch ne doit
pas faire intervenir les valeurs passes de la grandeur
..... ..... .... modliser. Considrons donc un rseau de neurones
xp(k-n)
xp(k-2) boucl, reprsent sur la figure 2-64, rgi par lquation
b(k) u(k-1) u(k-m)
xp(k-1)
g ( k ) = RN ( g ( k 1) ,..., g ( k n ) , u ( k 1) ,..., u ( k m ) , w )
Figure 2-63. Hypothse bruit de sortie
Les rseaux de neurones
161
CHAPITRE 2
Utilisation du modle
Contrairement au cas prcdent, ce modle peut tre utilis comme simulateur dans des conditions optimales. Il peut aussi, bien sr, tre
utilis comme prdicteur un pas.
Illustration
Avant de continuer passer en revue les principales hypothses possibles, on va illustrer limportance du
choix du modle en fonction de la manire dont le bruit intervient dans le processus. Cette illustration est
tire de [NERRAND 1992] et de [NERRAND 1994].
Modlisation dun processus avec bruit de sortie
Considrons un processus, simul sur ordinateur, qui obit aux quations suivantes :
T c + dx p ( k 1)
x p ( k ) = 1 x p ( k 1) + T u ( k 1) ,
a + bx p ( k 1) a + bx p ( k 1)
p
y ( k ) = x p ( k ) + b ( k )
avec a = 0,139, b = 1,2, c = 5,633, d = 0,326, et une priode dchantillonnage T = 0,1 s. b(k) est un
bruit blanc damplitude maximale 0,5. Il sagit donc dun processus avec bruit de sortie. La figure 2-65
montre la rponse du processus simul une squence de crneaux pseudo-alatoires.
Lapprentissage statistique
162
Amplitude
6
ce type de bruit ; on effectue lapprentissage en fonction
4
dune hypothse retenue, et lon compare les rsultats de u
Erreur de modlisation
montre lerreur de modlisation aprs apprentissage 0,4
dun rseau de neurones boucl 5 neurones cachs. 0,2
On observe que lerreur de modlisation est un bruit 0
blanc damplitude 0,5 : on vrifie que, ayant effectu
-0,2
lhypothse exacte et ayant choisi la structure du
-0,4
modle en consquence, lerreur de modlisation est
bien gale au bruit, ce qui constitue le meilleur rsultat 0 100 200 300 400 500 600 700
de modlisation que lon puisse obtenir. Temps (0,1 sec)
Figure 2-66. Erreur de modlisation dun processus
Hypothse bruit dtat avec bruit de sortie aprs apprentissage
Considrons prsent lhypothse (inexacte) avec hypothse bruit de sortie
selon laquelle le bruit serait un bruit dtat.
Conformment cette hypothse, effectuons
Erreur de modlisation
0,4
lapprentissage dun rseau de neurones non
boucl, 5 neurones cachs. La figure 2-67 0,2
reprsente lerreur de modlisation : on vrifie 0
que son amplitude est suprieure 0,5. Le
rsultat est donc moins bon quavec lhypo- -0,2
thse bruit de sortie , ce qui est normal -0,4
puisque cette hypothse est inexacte. Souli-
gnons quil ne sagit pas ici dun problme 0 100 200 300 400 500 600 700
Temps (0,1 sec)
technique (trop ou trop peu de neurones cachs,
algorithme doptimisation inefficace, erreur de Figure 2-67. Erreur de modlisation dun processus avec bruit
programmation), mais dun problme de sortie aprs apprentissage avec lhypothse bruit dtat
fondamental : mme avec le meilleur algo-
rithme dapprentissage possible, et une structure de rseau de neurones parfaitement adapte, on ne pour-
rait pas obtenir une erreur de modlisation gale au bruit, puisque lon a fait une hypothse errone sur le
bruit.
Modlisation dun processus avec bruit dtat
Considrons prsent un processus, simul sur ordinateur, qui obit lquation suivante :
T p c + dy p ( k 1)
y p ( k ) = 1 y ( k 1) + T u ( k 1) + b ( k )
a + bx p ( k 1) a + by ( k 1)
p
Les rseaux de neurones
163
CHAPITRE 2
Il sagit donc dun processus avec bruit dtat, dont la partie dterministe est la mme que dans le cas
prcdent : elle sera donc modlise par un rseau de neurones cinq neurones cachs, comme prcdem-
ment. Faisons nouveau successivement les deux hypothses bruit de sortie et bruit dtat .
Hypothse bruit de sortie 1,5
Erreur de modlisation
Considrons tout dabord lhypothse 1,0
(inexacte) selon laquelle le bruit serait un bruit
de sortie. On a vu que le modle idal est alors 0,5
un modle boucl. La figure 2-68 montre lerreur 0
de modlisation aprs apprentissage dun
rseau de neurones boucl 5 neurones cachs. -0,5
On observe que lerreur de modlisation ne se -1,5
prsente pas du tout comme un bruit blanc : il 0 100 200 300 400 500 600 700
est manifeste que lerreur de modlisation Temps (0,1 sec)
contient de linformation que lapprentissage
Figure 2-68. Erreur de modlisation dun processus avec bruit
du modle na pas permis dapprhender. L dtat aprs apprentissage avec lhypothse bruit
encore, cet chec nest pas d une raison tech- de sortie
nique (modle insuffisamment complexe,
apprentissage inefficace) : cest lhypothse sur le bruit, donc la structure du modle (ici, modle
boucl), qui est en cause.
Hypothse bruit dtat
Erreur de modlisation
0,4
Faisons enfin lhypothse (exacte) selon laquelle le 0,2
bruit serait un bruit dtat. Le modle idal est alors un
0
rseau non boucl. La figure 2-69 montre que lerreur
-0,2
de modlisation a bien toutes les caractristiques dun
bruit blanc damplitude 0,5 : on a bien obtenu un -0,4
prdicteur idal. 0 100 200 300 400 500 600 700
(
x p ( k ) = x p ( k 1) ,..., x p ( k n ) , u ( k 1) ,..., u ( k m ) , b ( k 1) ,...b ( k p ) )
y (k ) = xp (k ) + b(k )
p
reprsent sur la figure 2-70. On nomme parfois cette hypothse NARMAX (Non linaire Auto-Rgressif
Moyenne Ajuste et entres eXognes).
Il faut cette fois que le modle tienne compte simultanment des valeurs passes de la sortie du processus et des
valeurs passes de la sortie du modle. Considrons donc un rseau de neurones boucl, rgi par lquation
(
g ( k ) = RN y p ( k 1) ,...y p ( k n ) , u ( k 1) ,..., u ( k m ) , r ( k 1) ,..., r ( k p ) , w )
o r(k) = yp(k) g(k) (figure 2-71). Supposons que lon ait effectu lapprentissage du rseau de neurones
RN de telle manire quil ralise exactement la fonction . Supposons de plus que lerreur de prdiction
Lapprentissage statistique
164
soit gale au bruit aux p premiers instants : yp(k) g(k) = b(k) pour k = 0 p 1. On a alors
yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel que lerreur de modlisation soit gale au bruit :
cest donc le modle idal, puisquil modlise parfaitement tout ce qui est dterministe dans la reprsen-
tation, et ne modlise pas le bruit.
yp(k)
g(k)
r(k)
+ ...... r(k-p+1)
xp(k) xp(k-1) xp(k-n+1) .... yp(k)
r(k-1)
q-1 RN q-1
x ( k ) = ( x ( k 1) , u ( k 1)) yp(k)
y ( k ) = ( x ( k )) + b ( k )
comme reprsent sur la figure 2-72 pour un modle du
deuxime ordre.
Le bruit nintervenant que dans lquation dobserva-
tion, il na aucune influence sur la dynamique du
modle. Pour des raisons analogues celles qui ont t
dveloppes dans le cas des reprsentations entre- xp1(k)
sortie, le modle idal est un modle boucl, reprsent xp2(k)
sur la figure 2-73 :
x ( k ) = RN ( x ( k 1) , u ( k 1))
y ( k ) = RN ( x ( k )) q-1
x ( k ) = ( x ( k 1) , u ( k 1) , b ( k 1)) g(k)
y ( k ) = ( x ( k ))
Alors, par un argument analogue celui qui a t dve- RN
lopp pour les modles entre-sortie, le modle idal
devrait avoir pour entres, outre les entres de
commande u, les variables dtat du processus. Deux
cas peuvent alors se prsenter : x1(k)
ces variables sont mesures : on peut alors les consi-
x2(k)
drer comme des sorties, et lon est alors ramen un
modle entre-sortie ; le modle est un modle non
boucl, qui peut tre utilis essentiellement comme
prdicteur un pas ; RN
ces variables ne sont pas mesures : on ne peut pas
construire le modle idal ; il convient soit dutiliser q-1
une reprsentation entre-sortie (bien quelle soit
moins parcimonieuse quun modle dtat), soit
dutiliser un modle boucl, non optimal.
x2(k-1)
Hypothse bruit de sortie et bruit dtat u(k)
(reprsentation dtat) x1(k-1)
Supposons enfin que le processus puisse tre dcrit Figure 2-73. Modle idal pour une reprsentation
correctement par les quations : dtat avec lhypothse bruit de sortie
Lapprentissage statistique
166
x ( k ) = ( x ( k 1) , u ( k 1) , b1 ( k 1))
y ( k ) = ( x ( k ))
L encore, deux cas peuvent se prsenter :
si les variables dtat sont mesures, on peut les considrer comme des sorties, et lon est ramen au cas
dune reprsentation entre-sortie, considr prcdemment ;
si les variables dtat ne sont pas mesures, le modle idal doit faire intervenir la fois ltat et la sortie
mesure du processus ; il est donc de la forme :
(
x ( k ) = x ( k 1) , u ( k 1) , y p ( k 1) )
y ( k ) = ( x ( k ))
Tableau 2-2. Consquences des hypothses de bruit sur lapprentissage des modles dtat dynamiques
x ( k + 1) = ( x ( k ) , u ( k ))
g ( k + 1) = ( x ( k ) , u ( k ))
Les rseaux de neurones
167
CHAPITRE 2
o x(k) est lensemble minimal, compos de variables, qui permet de calculer compltement ltat du
modle linstant k+1, connaissant ltat du modle et ses variables externes linstant k, et o les fonc-
tions vectorielles F et y sont ralises par un ou plusieurs rseaux de neurones non boucls. est lordre
de la forme canonique. Cette forme est donc la reprsentation dtat minimale ; si le vecteur dtat est de
la forme
g(k )
g(k ) = g(k 1)
M
g(k v + 1)
x = u ( k ) , u ( k 1) ,..., u ( k m + 1) , y p ( k ) , y p ( k 1) ,..., y p ( k n + 1) T
k
yk = y ( k + 1)
p
(
J (w ) = y p ( k ) g ( xk , w ) )
2
k =1
par rapport aux paramtres w du rseau non boucl de Rseau de neurones non boucl
la forme canonique. de la forme canonique
Le pige du prdicteur stupide
En apprentissage dirig, le modle prend en considration, chaque
pas de temps, les valeurs de la grandeur modliser mesures sur le ..... .....
processus. Il est donc trs facile dobtenir des rsultats qui peuvent
donner limpression dune grande qualit, surtout si lon se contente u(k-1) u(k-m) yp(k-1) yp(k-2) yp(k-n)
destimer graphiquement celle-ci en superposant la courbe relle et la Figure 2-75. Apprentissage dirig dun modle
courbe prdite. Cela peut tre trompeur : en effet, un prdicteur dynamique sous forme canonique
stupide constitu dun simple retard dune unit de temps, cest--
dire un prdicteur qui prdit que la sortie linstant k + 1 sera gale
la sortie mesure linstant k, peut galement donner dexcellents rsultats : il suft pour cela que la sortie du processus varie peu entre
deux instants dchantillonnage. Il est donc trs important, lorsque lon a effectu un apprentissage dirig, de comparer la prcision du
modle obtenu celle du prdicteur stupide . Les dsillusions sont frquentes...
temps. Le vecteur des sorties de la copie k constitue le vecteur des variables de la copie suivante, corres-
pondant linstant k+1. Le dpliement temporel pour lapprentissage dun rseau dordre 2, avec m = 1,
laide dune squence de longueur N, est reprsent sur la figure 2-77.
Le concepteur doit choisir le vecteur des variables linstant initial. Si la grandeur modliser est connue
au cours des n premiers instants, il est naturel de prendre ces valeurs pour ltat initial. Les valeurs de la
grandeur modliser ninterviennent donc que pour linitialisation : cest la raison pour laquelle cet algo-
rithme est appel semi-dirig, par opposition aux algorithmes dirigs qui sont utiliss pour les rseaux non
boucls, dans lesquels les mesures effectues sur le processus interviennent tous les instants (figure 2-75).
Remarque trs importante
Toutes les copies tant identiques, il fautt utiliser la technique des poids partags, dcrite plus haut.
Vecteur des prdictions
linstant k +1 et aux n -1 instants prcdents
...... ......
u(k) u(k-m+1) g(k) g(k-1) g(k-n+2) g(k-n+1)
g(N)
u(N)
Rseau non boucl g(N-1) g(N-2) Figure 2-77.
Dpliement
g(2) g(1) temporel pour
u(k+1) g(k+1) g(k)
lapprentissage
semi-dirig
Rseau non boucl
Rseau non boucl dun rseau
dynamique
u(1) g(1) g(0) dordre 2
u(k)
g(k) g(k-1) sous forme
canonique,
Rseau non boucl avec m = 1
u(0)
g(0) g(0)
Lapprentissage statistique
170
Hypothse NARMAX
Le prdicteur tant boucl, son apprentissage ncessite, comme dans le cas prcdent, de dplier le
rseau en un grand rseau non boucl, compos de N copies identiques (cest--dire possdant toutes les
mmes paramtres). Les variables de la copie k (reprsente sur la figure 2-78) sont :
le vecteur [u(k), ..., u(k-m+1)]T (on suppose, pour simplifier le schma, que le processus a une
seule variable de commande) ;
le vecteur [yp(k), ..., yp(k-n+1)]T ;
le vecteur des erreurs linstant k et aux p instants prcdents [r(k), ...,
r(k-p+1)]T.
Le vecteur de sortie de la copie k est le vecteur des erreurs linstant k+1 et aux p instants prcdents
[r(k+1), ..., r(k-p+2)]T. Le rseau ne calcule donc que r(k+1), les autres composantes du vecteur des
erreurs linstant k+1 tant dduites de celles du vecteur des erreurs linstant k par dcalage dune unit
de temps. Le vecteur des erreurs linstant k+1 entre dans la constitution du vecteur des variables de la
copie suivante, correspondant linstant k+1.
+
Figure 2-78.
g(k+1) yp(k+1) Copie k du rseau non boucl
de la forme canonique
pour lapprentissage
dun modle NARMAX
Rseau non boucl
de la forme canonique
Ce dernier vecteur constitue le vecteur des variables dtat de la copie suivante, correspondant linstant
k+1 (voir figure 2-79).
Pour linitialisation de la premire copie, le problme est plus dlicat que dans les cas prcdents, puisque
ltat initial nest pas connu. On peut, par exemple, prendre un vecteur nul.
Ltat ntant impos que pour la premire copie, il sagit encore dun algorithme semi-dirig.
......
u(k) x1(k) x2(k) xn(k)
Remarque
La remarque concernant le prdicteur stupide , formule propos de lapprentissage dirig des modles entre-sortie, sapplique
galement lapprentissage dirig des modles dtat.
tat prdit
linstant k+1
g(k+1)
x1(k+1) xn(k+1)
Figure 2-80.
Rseau non boucl Rseau non boucl Copie k pour lapprentissage
dun rseau dtat
comprenant deux rseaux
distincts pour ltat et pour
x1p(k) xnp(k) u(k) x1(k+1) xn(k+1) la grandeur modliser
comme indiqu au dbut de la section sur la modlisation dynamique bote noire , les modles dtat
sont plus gnraux et plus parcimonieux, mais dapprentissage moins ais, que les modles entre-
sortie; il est donc recommand dessayer dabord des modles entre-sortie, puis, si ceux-ci ne sont pas
satisfaisants, dessayer des modles dtat ;
des connaissances, mme trs sommaires, sur le processus modliser, fournissent souvent des indica-
tions sur la nature du bruit qui agit sur le processus ;
de mme, lobservation de la rponse du processus fournit souvent des indications concernant lordre
souhaitable pour le modle.
Pour illustrer cette dmarche de conception, on prsente ici un exemple : la modlisation bote noire
de lactionneur hydraulique dun bras de robot utilis pour lexploitation forestire. Les donnes ont t
recueillies par lUniversit de Linkping (Sude)2, et ont fait lobjet de modlisations bote noire
effectues par plusieurs quipes (voir notamment [SJBERG 1995]).
1,5
1 Commande u
0,5
0
Figure 2-81.
-0,5 Squences
dapprentissage
-1 et de test pour
la modlisation
-1,5 de lactionneur
0 200 400 (a) 600 800 1000 dun bras
de robot
Squence d'apprentissage Squence de test
4
Grandeur modliser yp
2
-2
-4
0 200 400 (b) 600 800 1000
La variable de commande est louverture de la vanne dadmission du liquide dans le vrin, et la grandeur
modliser est la pression hydraulique dans lactionneur. Deux squences dobservations sont
disponibles ; chacune delles comprend 512 points. La premire de ces squences est destine lappren-
tissage, la seconde au test. La figure 2-81(a) montre la squence des signaux de commande, et la figure 2-81(b)
reprsente les rponses correspondantes.
Remarque
Aucun ensemble de validation ntant fourni, les performances indiques sont les meilleures performances obtenues sur lensemble de test.
2. Ces donnes proviennent de la Division of Oil Hydraulics and Pneumatics, Dept. of Mechanical Eng., Linkping University, et
nous ont t aimablement communiques par P.-Y. Glorennec (IRISA, Rennes).
Lapprentissage statistique
174
Tout dabord, on observe facilement que le modle doit tre non linaire pour rendre compte des
observations : par exemple, des commandes dont les amplitudes sont dans un rapport 2 (par exemple les
variations rapides prsentes aux instants 10 et 380 environ) nentranent pas des rponses dans un rapport 2.
On ne dispose ici daucune indication sur la physique du dispositif, et notamment sur les sources de
perturbation. Il faut donc tester les hypothses de bruit dtat et de bruit de sortie.
De plus, les rponses des variations brusques (par exemple au voisinage de linstant 220) suggrent que
le modle doit tre dordre suprieur 1.
Enfin, lapplication ne ncessitant pas un apprentissage adaptatif, seuls les apprentissages non adaptatifs
seront envisags.
Modlisation entre-sortie
Comme indiqu plus haut, la modlisation entre-sortie est plus simple mettre en uvre que la modli-
sation dtat : cest donc celle que lon essaie en priorit. En labsence de toute connaissance sur le
processus, il faut faire successivement les hypothses de bruit dtat (apprentissage dirig dun modle
non boucl, modle NARX), de bruit de sortie (apprentissage semi-dirig dun modle boucl), et de
prsence simultane des deux (apprentissage avec prsence simultane, en entre, des prdictions du
modle et des mesures de la sortie du processus).
Les hypothses faisant intervenir un bruit dtat donnent des rsultats de trs mauvaise qualit lorsquils
sont utiliss comme simulateurs, cest--dire si on leur demande une prdiction plus dun pas de temps ;
ils ne seront pas prsents ici. On ne prsente que les rsultats obtenus par modlisation par apprentissage
semi-dirig dun modle boucl. Le meilleur modle est un modle dordre 2, 3 neurones cachs avec
fonction dactivation sigmode, avec un horizon de 1 sur lentre. Son quation est donc :
g ( k ) = RN ( g ( k 1) , g ( k 2 ) , u ( k 1) ,w )
Modlisation dtat
Compte tenu des rsultats obtenus avec les modles entre-sortie, on cherche concevoir des modles
dordre 2. Deux possibilits se prsentent :
modles deux variables dtat (non mesures dans cette application) ;
modles dont la prdiction constitue une des variables dtat (une des variables dtat est donc mesure).
L encore, les modles dont lapprentissage est effectu laide dun algorithme dirig (hypothse bruit
dtat ) donnent de trs mauvais rsultats lorsquils sont tests en simulateurs.
Le tableau 2-3 prsente les meilleurs rsultats obtenus aprs apprentissage semi-dirig mettant en uvre
lalgorithme de Levenberg-Marquardt, pour un rseau trois neurones cachs.
EQMA EQMT
Rseau sans variable dtat mesure 0,091 0,18
Rseau dont une des variables dtat est la sortie 0,071 0,12
Tableau 2-3. Rsultats obtenus aprs apprentissage semi-dirig avec optimisation par lalgorithme de Levenberg-Marquardt
(trois neurones cachs)
Les rseaux de neurones
175
CHAPITRE 2
Le meilleur modle est donc le rseau dont la sortie est une des variables dtat. Son quation est
x1 ( k ) = 1RN ( x1 ( k 1) , x2 ( k 1) , u ( k 1))
x2 ( k ) = RN ( x1 ( k 1) , x2 ( k 1) , u ( k 1))
2
g ( k ) = x2 ( k )
Remarque
notre connaissance, ces rsultats sont les meilleurs rsultats publis sur cette application. On peut en trouver le dtail, ainsi que des
rsultats obtenus avec des rseaux dondelettes, dans [OUSSAR 1998].
Proprit
Tout rseau de neurones boucl, aussi complexe soit-il, peut tre mis sous une forme dtat minimale,
dite forme canonique , laquelle sappliquent directement les algorithmes dcrits dans les para-
graphes prcdents. Ces derniers sont donc compltement gnriques, en ce sens quils sappliquent
nimporte quelle structure de rseau boucl, sous rserve davoir pralablement ramen celle-ci
une forme canonique.
Lapprentissage statistique
176
On va donc montrer comment, tant donne une structure arbitraire de rseau, provenant, par exemple,
dune modlisation de connaissance, on peut trouver la forme canonique correspondante. Cette opration
peut se dcomposer en deux tapes :
dtermination de lordre du rseau ;
dtermination dun vecteur dtat et de la forme canonique correspondante.
Rappel
Lorsquon procde une modlisation purement bote noire , cest--dire que lon ne dispose daucun modle mathmatique, mme
approximatif, dont on dsire sinspirer pour concevoir le modle, on utilise directement la forme canonique : le problme de la mise sous
forme canonique ne se pose pas.
Dfinition
Forme canonique
On appelle forme canonique dun rseau de neurones boucl la forme dtat minimale
x ( k ) = ( x ( k 1) , u ( k 1))
g ( k ) = ( x ( k 1) , u ( k 1))
o x(k) est lensemble minimal, compos de variables, qui permet de calculer compltement ltat
du modle linstant k+1, connaissant ltat du modle et ses entres linstant k, et o les fonctions
F et Y sont des fonctions qui peuvent notamment tre ralises par des rseaux de neurones non
boucls.
est lordre de la forme canonique. Il savre commode, mais pas obligatoire, dutiliser un seul
rseau de neurones pour raliser le prdicteur, dont les variables sont les variables externes et
les variables dtat un instant donn, et les sorties sont les variables dtat et les prdictions
linstant suivant (voir figure 2-6).
x = ( x , x , x , u )
2 1 1 2 3
x 2 = 2 ( x 1, x 3 )
x3 = 3 ( x 1, x 2 )
g = x 3
Un quivalent, en temps discret, de ces quations, tabli laide de la mthode dEuler, est donn par des
relations de la forme :
Les rseaux de neurones
177
CHAPITRE 2
x1 ( k + 1)) = 1 ( x1 ( k ) , x1 ( k 1) , x2 ( k 1) , x3 ( k 1) , u ( k 1))
x2 ( k + 1) = 2 ( x2 ( k + 1) , x3 ( k + 1))
x3 ( k + 1) = 3 ( x3 ( k ) , x3 ( k 1) , x1 ( k 1) , x2 ( k ) , x2 ( k 1))
g ( k + 1) = x3 ( k + 1)
Rappel
La mthode de discrtisation dEuler consiste remplacer la drive f(t) dune fonction linstant kT (o T est la priode dchantillonnage
et k un entier positif) par lexpression approche [f(kT) f((k 1)T)] / T. Dans la section consacre la modlisation bote grise , on
reviendra en dtail sur les problmes de discrtisation des quations diffrentielles dun modle temps continu.
Il est clair que ces quations ne sont pas sous une forme canonique. Il est souhaitable, pour la clart de
lanalyse du rseau, et pour faciliter lapprentissage si les fonctions inconnues sont paramtres, de
connatre le nombre minimal de variables qui permettent de dcrire ce modle, et de le mettre sous forme
canonique. Il faut noter que cette forme canonique nest pas unique : pour un rseau donn, on peut gn-
ralement trouver plusieurs formes canoniques, qui, bien entendu, ont toutes le mme nombre de variables
dtat.
Il savre intressant de reprsenter cette structure par le graphe du rseau, dont les nuds sont
les neurones, et les artes les connexions entre neurones ; on attribue chaque arte une longueur qui est
le retard (exprim en multiple entier, ventuellement nul, de la priode dchantillonnage) associ celle-
ci, et une direction (qui est celle de la circulation de linformation dans la connexion considre). La
longueur dun chemin dans le graphe est gale la somme des longueurs des artes de ce chemin.
Attention
Pour quun rseau de neurones temps discret soit causal, il ne doit pas possder de cycle de
longueur nulle.
Remarque
Un cycle dans un graphe est un chemin qui va dun nud lui-mme, sans passer deux fois par un autre nud, en respectant la direction
des artes. La longueur dun cycle est la somme des longueurs de ses artes.
En effet, si un cycle tait de longueur nulle, cela signifierait que la valeur de la sortie dun neurone du
rseau un instant donn dpendrait de la valeur de cette mme sortie au mme instant.
La figure 2-82 montre une reprsentation des quations du modle sous forme du graphe dun rseau de
neurones boucl ; les nuds 1, 2 et 3 reprsentent des neurones de fonction dactivation 1, 2 et 3,
respectivement, si ces dernires sont connues ; si elles ne le sont pas, chacun de ces nuds reprsente un
rseau de neurones non boucl ralisant une de ces fonctions. Les nombres reprsents dans des carrs
sont les retards associs chacune des connexions, exprims en nombre de priodes dchantillonnage.
Lapprentissage statistique
178
g(k+1)
2
0 2 Figure 2-82
Graphe
1 2 1 2 3 2 1 dun modle
2 0 dynamique
2
2
u(k)
On peut choisir comme vecteur dtat le vecteur z(k) = [x1(k), x2(k-1), x3(k), x3(k-1)]T. La forme canonique
correspondante est reprsente sur la figure 2-83.
g(k+1)
x3(k-1) x2(k)
q-1
2 2 q-1
Elle comprend un rseau non boucl avec trois neurones cachs (le neurone 1, et le neurone 2, qui est
dupliqu dans la forme canonique (avec des poids partags)), un neurone de sortie (le neurone 3), qui est
Les rseaux de neurones
179
CHAPITRE 2
un neurone dtat ; le neurone 1 est galement un neurone dtat. Le modle tant dordre quatre, il y a
quatre sorties dtat, relies aux entres dtat par des retards unit, reprsents par loprateur retard q1.
Remarque
Le rseau reprsent sur la gure 2-83 est strictement quivalent celui qui est reprsent sur la gure 2-82 : il sagit seulement dune
rcriture trs commode, qui permet, en premier lieu, de rendre la structure du modle plus lisible, et surtout dutiliser les algorithmes
dapprentissage conventionnels exposs plus haut, rendant ainsi inutile la conception dun algorithme dapprentissage spcique pour
chaque architecture de rseau.
Cette forme est bien une forme canonique du type reprsent sur la figure 2-6. Les dtails algorithmiques
de la mise sous forme canonique de ce modle sont donns dans [DREYFUS 1998].
chercheur possde sur le processus, condition que celles-ci puissent tre exprimes par des quations
algbriques ou diffrentielles. De surcrot, ce modle peut utiliser des fonctions paramtres, dont les
paramtres sont dtermins par apprentissage. Dans la mesure o lon met en uvre davantage de
connaissances expertes, les donnes exprimentales ncessaires pour estimer les paramtres dune
manire significative peuvent tre en quantit plus rduite.
= f ( x ( t ) , u ( t ))
dx
dt
y ( t ) = g ( x ( t ))
o x est le vecteur des variables dtat, y est le vecteur des grandeurs modliser, u est le vecteur des
signaux de commande, et o f et g sont des fonctions connues. Comme indiqu plus haut, ce modle peut
ne pas tre satisfaisant pour des raisons diverses : les fonctions f et g peuvent tre trop imprcises compte
tenu de lobjectif dutilisation du modle, ou mettre en jeu un trop grand nombre de paramtres, ou encore
ncessiter un temps de calcul trop grand, etc. Dans un modle semi-physique, les fonctions qui ne sont pas
connues avec suffisamment de prcision sont ralises par des rseaux de neurones dont on effectue
lapprentissage partir de donnes exprimentales, tandis que les fonctions qui sont connues dune
manire fiable sont conserves sous forme analytique, ou encore mises sous la forme de neurones dont la
fonction dactivation est connue et ne fait pas intervenir de paramtres ajustables.
En gnral, la conception dun modle semi-physique comprend trois tapes :
tape 1 : obtention, partir du modle de connaissance, dun modle temps discret : cela ncessite le
choix dune mthode de discrtisation approprie ;
tape 2 : apprentissage du modle semi-physique, ou de parties de celui-ci, partir de donnes obtenues
par intgration numrique du modle de connaissance ; cette tape est en gnral ncessaire pour
obtenir de bonnes valeurs initiales des paramtres, qui sont utilises lors de ltape suivante ;
tape 3 : apprentissage du modle semi-physique partir de donnes exprimentales.
Cette stratgie de conception de modle semi-physique va tre illustre au moyen dun exemple simple.
Exemple illustratif
Un modle de connaissance est dcrit par les quations suivantes :
dx1 ( t )
= ( x1 ( t ) + 2 x2 ( t )) + u ( t )
2
dt
dx2 ( t )
= 8, 32 x1 ( t )
dt
y ( t ) = x2 ( t )
Les rseaux de neurones
181
CHAPITRE 2
Les variables dtat x1 et x2 sont mesurables. La figure 2-84 montre la rponse du processus deux
squences dentre ; dans tout ce paragraphe, la squence de gauche est utilise comme ensemble
dapprentissage, et la squence de droite comme ensemble de test.
5 5
y(t) y(t)
4,5 4,5
(ensemble dapprentissage)
4 4
Grandeur modliser
Grandeur modliser
(ensemble dde test)
3,5 3,5
3 3
2,5 2,5
2 2
1,5 1,5
1 u(t) 1 u(t)
0,5 0,5
0 0
0 1000 2000 3000 4000 0 1000 2000 3000 4000
Temps Temps
(a) (b)
Figure 2-84. Rponse du processus deux squences dentre : a) squence dapprentissage, b) squence de test
x1 ( k + 1) = x1 ( k ) + T ( x1 ( k ) + 2 x2 ( k )) + u ( k )
2
x2 ( k + 1) = x2 ( k ) + T ( 8, 32 x1 ( k ))
Le rseau de neurones semi-physique le plus simple est alors dcrit par les quations suivantes :
x1 ( k + 1) = x1 ( k ) + T ( x1 ( k ) + 2 x2 ( k )) + u ( k )
2
x2 ( k + 1) = x2 ( k ) + T ( wx1 ( k ))
o w est un paramtre qui est estim par apprentissage partir des donnes exprimentales. Ces quations
sont sous la forme conventionnelle dun modle dtat : il nest donc pas ncessaire de les mettre sous
forme canonique ; si ce ntait pas le cas, il faudrait avoir recours la technique de mise sous forme cano-
nique dcrite prcdemment. Le rseau ainsi obtenu est reprsent sur la figure 2-86.
Pour simplifier les schmas, lentre constante (biais) ne y(k+1)
sera pas reprsente ; de plus, le temps discret kT sera
simplement not k. Sur la figure 2-86, le neurone 1 ralise x1(k+1) x2(k+1)
une somme pondre s de x1(kT) et x2(kT) avec les poids
3 4
indiqus sur la figure, puis la non-linarit s2, et ajoute
u(kT). Le neurone 2 multiplie son entre par le paramtre
1 T T 1
w. Les neurones 3 et 4 ralisent simplement des sommes
pondres. Si w valait 8,32, les rsultats du modle
1 q-1
seraient exactement les rsultats de lintgration num- 2
rique du modle de connaissance par la mthode dEuler
1 1 2 w
explicite, avec un pas dintgration gal T. Si w est un
paramtre ajustable, sa valeur peut tre estime partir de
donnes exprimentales par apprentissage, en utilisant un
des algorithmes vus plus haut (par exemple, un algo-
u(k) x1(k) x2(k)
rithme semi-dirig si lon suppose que le bruit qui inter-
vient dans le processus est un bruit de sortie). Le para- Figure 2-86. Forme canonique du modle
mtre w serait videmment initialis 8,32 avant de connaissance discrtis par la mthode dEuler
lapprentissage. On peut remarquer que, dans ce cas trs explicite
simple, ltape 2 de lalgorithme nest pas mise en uvre.
La figure 2-87 montre lerreur de modlisation, sur lensemble de test, pour ce modle semi-physique
lmentaire. Lerreur quadratique sur la squence de test vaut 0,08 (contre 0,17 pour le modle de
connaissance) ; dans la mesure o la variance du bruit est de 0,01, on peut penser que le modle peut tre
amlior.
Pour essayer damliorer le modle, on peut donc considrer le deuxime niveau de critique lgard du
modle de connaissance : le fait que le membre de droite de la seconde quation dtat pourrait tre une
fonction non linaire de x1. cet effet, on remplace donc le neurone 2 de la figure 2-86 par un rseau de
neurones statique dont lentre est x1. Le modle qui en rsulte est reprsent sur la figure 2-88, avec
trois neurones cachs (et donc, 6 paramtres ajustables reprsents sur la figure, et 4 paramtres ajustables
relatifs au biais, non reprsents).
Le rseau de neurones non boucl, constitu des neurones non numrots sur la figure 2-88, peut subir un
apprentissage partir de donnes engendres par intgration du modle de connaissance (tape 2 de la
procdure) : bien que ces valeurs ne soient pas trs prcises, les valeurs des paramtres ainsi obtenues
peuvent tre utilises avec profit pour initialiser lapprentissage du modle partir de valeurs exprimentales.
Les rseaux de neurones
183
CHAPITRE 2
y(k+1)
1,5
x1(k+1) x2(k+1)
1
3 44
Ereur de modlisation
0,5 T
1 T 1
0 w 4 w5 w6
1 q-1
-0,5
w1 w2 w3
1
-1
1 2
-1,5
0 500 1000 1500 2000 2500 3000 3500 4000
u(k) x1(k) x2(k)
Temps
Figure 2-87. Erreur de modlisation sur lensemble Figure 2-88. Forme canonique dun modle semi-
de test physique
La figure 2-89 montre lerreur de modlisation obtenue avec ce modle, en utilisant deux neurones dans
la couche cache du rseau bote noire non boucl. Lerreur quadratique moyenne sur lensemble de
test devient gale 0,02, ce qui constitue une amlioration importante par rapport au modle prcdent.
y(k+1)
1,5
x1(k+1) x2(k+1)
1 3 44
Erreur de modlisation
T
0,5
1 T 1
0
1 q-1
-0,5
-1
1 1 2
-1,5
0 1000 2000 3000 4000
Temps u(k) x1(k) x2(k)
Figure 2-89. Erreur de modlisation sur lensemble Figure 2-90. Forme canonique dun modle semi-
de test physique
Les rsultats ntant pas encore satisfaisants (lerreur quadratique sur lensemble de test est deux fois plus
grande que la variance du bruit), on peut mettre en uvre un rseau qui rponde au troisime niveau de
critique mise contre le modle de connaissance : la seconde quation dtat est non linaire par rapport
x1 et par rapport x2. Ce modle est reprsent sur la figure 2-90 (avec trois neurones cachs).
Lapprentissage statistique
184
Erreur de modlisation
dent. La variance de lerreur de modlisation tant 1
gale la variance du bruit (voir figure 2-91), le
0,5
modle peut tre considr comme satisfaisant.
0
Discrtisation du modle
de connaissance -0,5
x ( k + 1) = ( x ( k ) , T )
o T est le pas de discrtisation qui est, le plus souvent, gal la priode dchantillonnage des donnes
exprimentales ;
o k est un entier positif ;
et o la fonction dpend de la technique de discrtisation choisie (on verra au paragraphe suivant des
exemples de techniques de discrtisation).
Un schma de discrtisation implicite transforme la mme quation diffrentielle en une quation
temps discret de la forme suivante :
x ( k + 1) = x ( k + 1) , x ( k ) , T .
La diffrence essentielle entre ces deux formes rside en ceci que la quantit x[(k+1)T] est prsente
uniquement dans le membre de gauche, si lon utilise un schma explicite, tandis que ce terme est prsent
dans les deux membres, si lon utilise un schma implicite. En consquence, si lon veut raliser un
prdicteur un pas, cest--dire un modle qui permette de calculer les quantits linstant (k+1)T,
connaissant les quantits linstant kT, il faut rsoudre une quation non linaire lorsquon utilise un
schma implicite, alors que le calcul est immdiat si lon utilise un schma explicite.
Les rseaux de neurones
185
CHAPITRE 2
De faon plus gnrale, considrons un ensemble dquations dtat crit sous la forme vectorielle :
dx ( t )
= f ( x ( t ) , u ( t ))
dt
K x ( k ) x ( k + 1) + x ( k ) , u ( k ) , T = 0
o K est une matrice et Y est une fonction vectorielle qui dpendent de la technique de discrtisation
utilise, tandis que, si un schma implicite est mis en uvre, les quations discrtises peuvent tre mises
sous la forme gnrale :
K x ( k + 1) x ( k + 1) + x ( k + 1) , x ( k ) , u ( k + 1) , T = 0
L encore, on observe que le calcul du vecteur dtat x[(k+1)T] partir de ltat et des variables linstant
kT est immdiat si lon utilise un schma explicite (si la matrice K est inversible) :
x ( k + 1) = K 1 x ( k ) x ( k ) , u ( k ) , T
alors quil ncessite la rsolution dun systme dquations non linaires si lon utilise un schma impli-
cite.
Exemples
dx
Reprenons lexemple de lquation diffrentielle du premier ordre = f x ( t ) , u ( t ) .
dt
La mthode dEuler explicite consiste considrer que la fonction f est constante, gale f x ( kT ) entre
les instants kT et (k+1)T, de sorte que lintgration de lquation diffrentielle entre kT et (k+1)T donne
immdiatement :
x ( k + 1) = x ( k ) + Tf x ( k )
En revanche, le schma dEuler implicite consiste considrer que la fonction f est constante, gale
f x ( k + 1) T entre kT et (k+1)T, de sorte que lintgration de lquation diffrentielle entre kT et (k+1)T
donne immdiatement :
x ( k + 1) = x ( k ) + Tf x ( k + 1)
De mme, la mthode des trapzes (ou mthode de Tustin) consiste considrer que la fonction f varie
linairement entre kT et (k+1)T, de sorte que lintgration de lquation diffrentielle donne :
f ( x ( k + 1)) + f ( x ( k )) .
T
x ( k + 1) = x ( k ) +
2
Cette mthode est donc une mthode implicite, puisque des valeurs des grandeurs linstant (k+1)T appa-
raissent dans les deux membres de lquation : le calcul de x(k+1) ncessite la rsolution dune quation
algbrique non linaire.
Lapprentissage statistique
186
Application
Considrons le modle de connaissance trait plus haut, dcrit par les quations :
dx1 ( t )
= ( x1 ( t ) + 2 x2 ( t )) + u ( t )
2
dt
dx2 ( t )
= 8, 32 x1 ( t )
dt
y ( t ) = x2 ( t )
Il est facile de vrifier que sa discrtisation par la mthode dEuler explicite donne :
x1 ( k + 1) = x1 ( k ) + T ( x1 ( k ) + 2 x2 ( k )) + u ( k )
2
x2 ( k + 1) = x2 ( k ) + T ( 8, 32 x1 ( k ))
x2 ( k + 1) T ( 8, 32 x1 ( k + 1)) = x2 ( k )
K x ( k + 1) x ( k + 1) + x ( k + 1) , x ( k ) , u ( k + 1) , T = 0
avec :
et :
x ( k ) + Tu ( k + 1)
x ( k + 1) , x ( k ) , u ( k + 1) , T = 1
x2 ( k )
du ( t )
= u ( t ) , > 0
dt
Les rseaux de neurones
187
CHAPITRE 2
Ainsi, u(k + 1) se dduit de u(0) par une progression gomtrique de raison (1 T), qui converge si, et
seulement si, sa raison est infrieure 1, soit T < 2/. Le temps de calcul ncessaire pour intgrer num-
riquement cette quation est donc proportionnel 1/ : si la quantit est trs petite, le temps de calcul
peut tre prohibitif car le pas dchantillonnage doit tre trs fin.
Considrons prsent la discrtisation de la mme quation par la mthode dEuler implicite ; on obtient
alors :
u ( k + 1) u ( k )
= u ( k + 1),
T
soit encore :
1
u ( k + 1) = u(k)
1 + T
Comme le dnominateur du membre de droite est ncessairement suprieur 1, la raison de la progression
gomtrique est infrieure 1 : elle converge donc quelle que soit la valeur de . Ainsi, le choix du pas
dchantillonnage peut tre effectu indpendamment de la valeur de .
Nanmoins, cette proprit se paie, comme cela a t indiqu plus haut, par le fait que, en gnral (et
contrairement lexemple trs simple ci-dessus), on ne peut pas calculer directement les valeurs des quan-
tits linstant (k + 1)T : il faut rsoudre une quation algbrique non linaire. Cela a des consquences
sur la forme du modle neuronal qui en rsulte.
Schmas explicites et schmas implicites : consquences sur larchitecture du modle
neuronal
Un modle de connaissance discrtis par un schma Variables d'tat
explicite est trs simple mettre sous la forme dun linstant k+1
rseau de neurones boucl : comme cela a t vu plus x(k+1)
haut, on a
x ( k + 1) = K 1 x ( k ) x ( k ) , u ( k ) , T Rseau de neurones non boucl
q-1 q-1
ce qui est directement la forme canonique dun rseau
de neurones boucl comme cela est reprsent sur la
figure 2-92, o le rseau de neurones non boucl
x(k)
ralise une approximation de la fonction K1 . u(k-1)
Lexemple didactique prsent plus haut est un
Signaux de commande Variables d'tat
exemple de ralisation dun modle semi-physique linstant k-1 linstant k
partir dun modle physique discrtis par une Figure 2-92. Forme canonique du rseau obtenu
mthode explicite. par discrtisation avec un schma explicite
Lapprentissage statistique
188
Lorsque, pour des raisons de stabilit numrique voques plus haut, on met en uvre une mthode impli-
cite de discrtisation, la ralisation du modle semi-physique sous forme dun rseau de neurones boucl
est moins simple, mais elle est tout fait possible. La description de cette technique dpasse le cadre de
cet ouvrage. Le lecteur en trouvera une description dtaille dans [OUSSAR 2001].
Dans la pratique, lingnieur ou le chercheur, sil se doit davoir compris les fondements des outils quil
utilise ainsi que la mthodologie quil doit imprativement mettre en uvre sil veut obtenir des rsultats
fiables, na certainement ni le got ni le loisir de programmer lui-mme tous les algorithmes qui ont t
prsents. Il a donc le souci de choisir un bon outil pour atteindre ses objectifs.
lheure o ces lignes sont crites, deux types doutils de dveloppement sont disponibles :
des botes outils spcifiques aux rseaux de neurones, lintrieur doutils gnraux de calcul ;
typiquement, Matlab et SAS proposent des botes outils qui permettent un apprentissage et une mise
en uvre aise de rseaux de neurones non boucls ; leffort de programmation est trs rduit pour les
fonctions classiques, mais peut tre important, notamment pour la mise en uvre des lments de
mthodologie qui ne sont pas spcifiquement neuronaux (calcul des leviers, des intervalles de
confiance, du score de leave-one-out virtuel) ou pour celle des rseaux de neurones boucls ;
des outils de dveloppement spcifiques qui incluent une mthodologie complte, et pour lesquels
aucune programmation nest ncessaire ; cest le cas du logiciel franais NeuroOne3 ; ces logiciels
nautorisent pas linfinie varit de la programmation personnelle, mais ils permettent dobtenir rapide-
ment des rsultats dont la qualit dpend videmment de celle des algorithmes implants. Le CD-ROM
joint cet ouvrage propose une version dvaluation de ce logiciel.
Remarque
Il faut aussi mentionner des logiciels universitaires disponibles sur le Web, qui peuvent tre utiles pour une formation, mais qui ne sont pas
conseiller pour la ralisation dapplications ralistes, destines fonctionner en environnement industriel.
Lingnieur ou le chercheur choisira donc son outil en fonction de ses objectifs, de ses mthodes de
travail, des dlais et des obligations de rsultats auxquels il est soumis, et de lampleur de lapplication
raliser ; lidal est videmment de disposer des deux types doutils qui, dans bien des cas, se rvlent trs
complmentaires. En tout tat de cause, et quel que soit loutil mis en uvre, on ne saurait trop insister
sur limportance dune bonne comprhension des bases, et sur la ncessit absolue dune approche
mthodologique raisonne.
3. dit par NETRAL S.A. ; plusieurs illustrations et exemples dapplications de ce chapitre et du prcdent ont t raliss laide
de ce logiciel.
Les rseaux de neurones
189
CHAPITRE 2
Figure 2-93.
0,5 Sortie
dun neurone
3 variables
0 {x0=1, x1, x2}
y
munies
des paramtres
{w0=0, w1=+1,
-0,5 w2=-1}, dont
la fonction
dactivation
-1 est une tangente
hyperbolique :
5 y=th(x1-x2)
0 5
x2
0
x1
-5 -5
Lapprentissage statistique
190
0,8
0,2
0
2
1 2
0 1
0
-1 -1
-2 -2
Les rseaux de neurones
191
CHAPITRE 2
Algorithme de Ho et Kashyap
Lalgorithme de Ho et Kashyap permet de dterminer, en un nombre fini ditrations, si deux ensembles
dexemples sont linairement sparables ; dans laffirmative, cet algorithme fournit une solution (parmi
une infinit de solutions possibles). Contrairement certains algorithmes dvelopps dans le chapitre 6, il
ne fournit pas une solution optimise. Son intrt essentiel est donc de dterminer si deux classes sont
linairement sparables, ou si elles ne le sont pas ; dans laffirmative, on utilisera, pour trouver une bonne
solution, un des algorithmes prsents dans le chapitre 6.
Considrons deux ensembles dexemples, appartenant deux classes A et B, en nombre na et nb ; si les
exemples sont dcrits par n descripteurs, chacun deux peut tre reprsent par un vecteur dans un espace
de dimension n. On dsigne par xkA le vecteur reprsentatif de lexemple k de la classe A (k = 1 na), et
par w le vecteur des paramtres du sparateur linaire ; si un tel sparateur existe, il doit obir aux
conditions :
Soit M la matrice dont les lignes sont les vecteurs reprsentatifs des exemples de A et les opposs des
vecteurs reprsentatifs des vecteurs de B. Un sparateur linaire existe si et seulement si il existe un
vecteur w tel que
Mw > 0
soit encore sil existe un vecteur y > 0 et un vecteur w tels que M w = y.
On a alors w = M* y, o M* est la matrice pseudo-inverse de la matrice M : M* = M T (M M T)1, qui peut
tre calcule par la mthode de Choleski [PRESS 1992].
Lalgorithme de Ho et Kashyap est le suivant :
Initialisation (itration 0) : w(0) = M* y(0) o y(0) est un vecteur positif quelconque
Itration i
(i) = M w(i) y(i)
y(i+1) = y(i) + ((i)+|(i)|) o est un scalaire positif infrieur 1
w(i+1) = w(i) + ((i)+|(i)|)
Si y(i) < 0 alors les exemples ne sont pas linairement sparables.
Si M w(i) >0 alors les exemples sont linairement sparables et w(i) est une solution.
Cet algorithme converge en un nombre fini ditrations.
Algorithme de BFGS
Lalgorithme de BFGS consiste modifier les paramtres, litration i de lalgorithme, par la relation
w ( i ) = w ( i 1) i Mi J ( w ( i 1))
o i est une constante positive, et o Mi est une approximation, calcule itrativement, de linverse de la
matrice hessienne ; elle est value chaque itration par la relation :
T M T T M + Mi 1 i 1 iT1
Mi = Mi 1 + 1 + i 1T i i 1 iT1 i 1 i 1 i 1 i 1T
i 1 i 1 i 1 i 1 i 1 i 1
Algorithme de Levenberg-Marquardt
Lalgorithme de Levenberg-Marquardt consiste modifier les paramtres, litration i, par la relation :
w ( i ) = w ( i 1) H ( w ( i 1)) + i I J ( w ( i 1)).
1
2 ek
T
e ek
N N
H ( w ( i )) = k + e,
k =1 w w = w( i )
w w=w(i ) k =1 wwT w=w(i ) k
Le second terme de cette expression tant proportionnel lerreur, on peut le ngliger en premire
approximation, ce qui fournit une expression approche :
g ( xk , w ) g ( xk , w )
T T
e ek
N N
H ( w ( i ) ) = k = .
k =1 w w = w( i )
w w=w(i ) k =1 w w = w( i )
w w=w(i )
Dans le cas dun modle linaire par rapport aux paramtres, g(xk, w) est une fonction linaire de w, donc
le second terme de lexpression de H est nul : lexpression qui t approche devient exacte.
Les rseaux de neurones
193
CHAPITRE 2
( A + BCD )1 = A1 A1 B ( C 1 + DA1 B)
1
DA1
g ( xk , w )
Par ailleurs, en posant k = , on peut construire rcursivement la matrice H en dfinis-
w w=w(i )
sant des matrices partielles H k , de dimension (k, k) par :
H k = H k 1 + Z k Z k , k = 1,, N
T
On a bien H = H N .
Si lon applique le lemme dinversion la relation prcdente en choisissant A = H , B = zk, C = I, et
D = kT , on obtient la relation suivante :
1 1
H k 1 k k H k 1
T
1 1
H k = H k 1 ----------------------------------
1
-
1 + k H k 1 k
T
1 1
En prenant, la premire tape (k = 1), H 0 = i I , on obtient, ltape N : H N = [ H + i I ] .
Inversion directe
Plusieurs mthodes directes dinversion existent. Comme lalgorithme est itratif, et que la procdure de
recherche du pas ncessite souvent plusieurs inversions de matrice, on a intrt utiliser une mthode
qui nengage pas trop de calculs. Comme lapproximation de la matrice hessienne augmente de i I
reste une matrice symtrique dfinie comme positive, il est avantageux dutiliser la mthode de
Cholesky [PRESS 1992].
Comme pour lalgorithme du gradient simple et celui de BFGS, le pas i doit tre ajust chaque itra-
tion. Une mthode de recherche unidimensionnelle peut tre utilise cet effet, comme indiqu dans la
section suivante.
Il faut noter que lexpression de la matrice hessienne de la fonction de cot ne sapplique que si la fonc-
tion optimiser est la fonction de cot des moindres carrs ; contrairement la mthode de BFGS, la
mthode de Levenberg-Marquardt ne peut donc pas sappliquer loptimisation de nimporte quelle fonc-
tion de cot, notamment la minimisation de la fonction de cot dentropie croise pour la classification.
ordre, on peut se contenter dune mthode assez rudimentaire. La mthode de Nash permet dobtenir des
rsultats satisfaisants : elle recherche un pas qui satisfasse une borne suprieure de la valeur de la fonction
de cot atteinte lissue de litration courante.
Plus prcisment, cette technique recherche un pas qui vrifie la condition de descente :
Complment thorique :
distance de Kullback-Leibler entre deux distributions gaussiennes
On cherche la distance de Kullback-Leibler entre deux gaussiennes (1, 1) et (2, 2).
On rappelle les relations suivantes :
+
1 ( x )2
exp dx = 1
2 2 2
+
1 ( x )2
x exp dx =
2 2 2
+
1 ( x )2
( x ) exp
2
dx =
2
2 2 2
Les rseaux de neurones
195
CHAPITRE 2
Cette expression ntant pas symtrique par rapport aux indices, on prfre calculer la quantit :
D ( p1 , p2 ) + D ( p2 , p1 )
=
2
Or
+
1 ( x 1 )2 1 ( x 1 ) ( x 2 )
2 2
D ( p1 , p2 ) = exp Log + dx
1 2 2 12 2 2 12 2 22
1
=
1 2
+ +
+
exp ( x 1 ) Log 1 dx exp ( x 1 ) ( x 1 ) dx + exp ( x 1 ) ( x 2 ) dx
2
2
2
2
2
2 12 2 2 12 2 12 2 12 2 22
( x 2 )2 = ( x 1 + 1 2 )2 = ( x 1 )2 + ( 1 2 )2 + 2 ( x 1 )( x 2 )
Do :
+
1 ( x 1 )2 ( x 2 )2 12
exp dx =
2 2 12 2 22 2 22
+
1 ( x 1 )2 2 ( x 1 ) ( 1 2 )
exp dx = 0
2 2 12 2 22
2 ( )
2
1
D ( p1 , p2 ) = Log 2 1 12 + 1 2 2
1 2 2 2 2
( 2
+ 22 )
=
1
4 12 22
( )
12 22 + ( 1 2 )2
Lapprentissage statistique
196
( )
1
hkk = zkT ZT Z zk
En tant qulments diagonaux dune matrice de projection orthogonale, les termes hkk, k = 1, , N ne
sont dfinis que dans le cas o Z est de rang plein, cest--dire si ZT Z est inversible. Dans ce cas, ils vri-
fient les proprits suivantes :
0 hkk 1 k
N
Une premire mthode de calcul des leviers consiste calculer la matrice ZT Z, linverser par une
mthode classique (Cholesky, dcomposition LU...), puis la multiplier droite et gauche par les
vecteurs zk et zkT. Cette mthode ne donne cependant de bons rsultats que si la matrice ZT Z est suffisam-
ment bien conditionne pour que son inversion se droule sans problme. Dans le cas contraire, ce calcul
donne des valeurs suprieures 1, voire ngatives.
Une meilleure solution consiste dcomposer la matrice Z sous la forme :
Z = U W VT
avec :
U matrice (N, p) telle que UT U = I,
W matrice (p, p) diagonale, dont les termes diagonaux, appels valeurs singulires de Z, sont positifs ou
nuls, et classs par ordre dcroissant,
V matrice (p, p) telle que VT V = V VT = I.
Cette dcomposition, connue sous le nom de dcomposition en valeurs singulires ou dcomposition
SVD (Singular Value Decomposition), est prcise et trs robuste, mme si la matrice Z est mal condi-
tionne ou de rang infrieur q (voir [PRESS 1992], et chapitre 3 sur les complments de mthodologie)
On obtient donc :
ZT Z = V W UT U W VT = V W 2 VT
Puis :
(ZT Z)-1 = V W -2 VT
Cette dcomposition permet donc le calcul direct de la matrice (ZT Z)1, dont les lments scrivent :
p
VlkVjk
( Z Z)
1
T
=
lj
k =1 Wkk2
( ) ( )
1 1
hkk = zkT ZT Z z k = Z kl Z kj ZT Z lj
k =1 j =1
Les rseaux de neurones
197
CHAPITRE 2
soit, finalement :
2
p 1 p
hkk = Z kjVji
i =1 Wij j =1
Cette mthode permet de calculer les leviers sans devoir procder explicitement aux calculs des termes de
la matrice (ZT Z)1, ce qui est important pour la prcision du calcul, dans le cas de matrices mal condition-
nes. Dun point de vue numrique, tant donn que les valeurs singulires de Z sont classes par ordre
dcroissant, il est conseill de calculer les leviers en faisant varier i de q 1, et non pas de 1 q.
Cette mthode de calcul fournit des termes systmatiquement positifs ou nuls.
Bibliographie
ANTONIADIS A., BERRUYER J., CARMONA R. [1992], Rgression non linaire et applications, Economica.
BARRON A. [1993], Universal approximation bounds for superposition of a sigmoidal function, IEEE
Transactions on Information Theory, 39, p. 930-945.
BARTLETT P. L. [1997], For valid generalization, the size of the weights is more important than the size of
the network, Neural Information Processing Systems, 9, Morgan Kaufmann.
BAUM E. B., WILCZEK F. [1988], Supervised learning of probability distributions by neural networks,
Neural Information Processing Systems, p. 52-61.
BENVENISTE A., JUDITSKY A., DELYON B., ZHANG Q., GLORENNEC P.-Y. [1994], Wavelets in identifica-
tion, 10th IFAC Symposium on Identification, Copenhague.
BISHOP C. [1995], Neural networks for pattern recognition, Oxford University Press.
BISHOP C. [1993], Curvature-driven smoothing : a learning algorithm for feedforward networks, IEEE
Transactions on Neural Networks, 4, p. 882-884.
BRIDLE J. S. [1990], Probabilistic interpretation of feedforward classification network outputs, with rela-
tionship to statistical pattern recognition, Neurocomputing : algorithms, architectures and applications,
p. 227-236 Springer.
BROOMHEAD D. S., LOWE D. [1988], Multivariable functional interpolation and adaptive networks,
Complex Systems, 2, p. 321-355.
BROYDEN C. G. [1970], The convergence of a class of double-rank minimization algorithms 2 : the new
algorithm, Journal of the Institute of Mathematics and its Applications, 6, p. 222-231.
CHEN S., BILLINGS S. A., LUO W., Orthogonal least squares methods and their application to non-linear
system identification, International Journal of Control, 50, p. 1873-1896.
COVER T. M. [1965], Geometrical and statistical properties of systems of linear inequalities with applica-
tions in pattern recognition, IEEE Transactions on Electronic Computers, 14, p. 326-334.
DREYFUS G., IDAN Y. [1998], The canonical form of discrete-time nonlinear models, Neural Computa-
tion, 10, p. 133-164.
DUPRAT A., HUYNH T., DREYFUS G. [1998], Towards a principled methodology for neural network design
and performance evaluation in QSAR ; application to the prediction of LogP, Journal of Chemical Infor-
mation and Computer Sciences, 38, p. 586-594.
Lapprentissage statistique
198
FRASCONI P., GORI M., SPERDUTI A. [1998], A general framework for adapative processing of data struc-
tures, IEEE Transactions on Neural Networks, 9, 768-786.
GALLINARI P., CIBAS T. [1999], Practical complexity control in multilayer perceptrons. Signal
Processing, 74, p. 29-46.
GOODWIN G. C., SIN K. S. [1984], Adaptive Filtering Prediction and Control, Prentice-Hall, New Jersey.
GOULON-SIGWALT-ABRAM A., DUPRAT A., DREYFUS G. [2005], From Hopfied nets to recursive networks
to graph machines, Theoretical Computer Science, 344, p. 298-334.
GOULON-SIGWALT-ABRAM A., DUPRAT A., DREYFUS G. [2006], Graph Machines and Their Applications
to Computer-Aided Drug Design: a New Approach to Learning from Structured Data, Unconventional
Computing 2006, Lecture Notes in Computer Science, 4135, p. 1 19, Springer (2006).
GOULON-SIGWALT-ABRAM A., PICOT T., DUPRAT A., DREYFUS G. [2007], Predicting activities without
computing descriptors: graph machines for QSAR, SAR and QSAR in Environmental Resesarch, 18,
p. 141 - 153
HAMPSHIRE J. B., PEARLMUTTER B. [1990], Equivalence proofs for multilayer perceptron classifiers and
the Bayesian discriminant function, Proceedings of the 1990 connectionist models summer school,
p. 159-172, Morgan Kaufmann.
HANSCH C., LEO A. [1995], Exploring QSAR, Fundamentals and applications in chemistry and biology;
American Chemical Society.
HANSEN L.K., LARSEN J. [1996], Linear unlearning for cross-validation, Advances in Computational
Mathematics, 5, p. 269-280.
HAYKIN S. [1994], Neural Networks : a comprehensive approach, MacMillan.
HO E., KASHYAP R. L. [1965], An algorithm for linear inequalities and its applications, IEEE Transac-
tions on Electronic Computers, 14, p. 683-688.
HOPFIELD J. J. [1987], Learning algorithms and probability distributions in feedforward and feedback
neural networks, Proceedings of the National Academy of Sciences, 84, p. 8429-433.
HORNIK K., STINCHCOMBE M., WHITE H. [1989], Multilayer feedforward networks are universal
approoximators, Neural Networks, 2, p. 359-366.
HORNIK K., STINCHCOMBE M., WHITE H. [1990], Universal approximation of an unknown mapping and
its derivatives using multilayer feedforward networks, Neural Networks, 3, p. 551-560.
HORNIK K. [1991], Approximation capabilities of multilayer feedforward networks, Neural Networks, 4,
p. 251-257.
KIM S. S., SANDERS T. H. Jr [1991], Thermodynamic modeling of phase diagrams in binary alkali silicate
systems, Journal of the American Ceramic Society, 74, p. 1833-1840.
KNERR S., PERSONNAZ L., DREYFUS G. [1990], Single-layer learning revisited : a stepwise procedure for
building and training a neural network, Neurocomputing : algorithms, architectures and applications,
p. 41-50, Springer.
KNERR S. [1991], Un mthode nouvelle de cration automatique de rseaux de neurones pour la clas-
sification de donnes : application la reconnaissance de chiffres manuscrits, Thse de Doctorat de
l'Universit Pierre et Marie Curie, Paris.
KNERR S., PERSONNAZ L., DREYFUS G. [1992], Handwritten digit recognition by neural networks with
single-layer training, IEEE Transactions on Neural Networks, 3, p. 962-968.
Les rseaux de neurones
199
CHAPITRE 2
KULLBACK S., LEIBLER R. A. [1951], On information and sufficiency, Annals of mathematical Statistics,
22, p. 79-86.
KULLBACK S. [1959], Information Theory and Statistics, Dover Publications.
KUO B. C. [1992], Digital Control Systems, Saunders College Publishing.
KUO B. C. [1995], Automatic Control Systems, Prentice Hall.
LAWRANCE A. J. [1995], Deletion, influence and masking in regression, Journal of the Royal Statistical
Society, B 57, p. 181-189.
LECUN Y., BOSER B., DENKER J.S., HENDERSON D., HOWARD R.E., HUBBARD W., JACKEL L.D. [1989],
Backpropagation applied to handwritten zip code recognition, Neural Computation, 1, p. 541-551.
LEVENBERG K. [1944], A method for the solution of certain non-linear problems in least squares, Quar-
terly Journal of Applied Mathematics, 2, p. 164-168.
LEVIN A., NARENDRA K.S. [1993], Control of nonlinear dynamical systems using neural networks :
controllability and stabilization, IEEE Transaction on Neural Networks, 4, p. 1011-1020.
LJUNG L. [1987], System Identification; Theory for the User, Prentice Hall.
MCCULLOCH W. S., PITTS W. [1943], A logical calculus of the ideas immanent in nervous activity, Bulletin
of Mathematical Biophysics, 5, p. 115-133.
MCKAY D. J. C. [1992], A practical bayesian framework for backpropagation networks, Neural Compu-
tation, 4, p. 448-472.
MALLAT S. [1989], A theory for multiresolution signal decomposition : the wavelet transform, IEEE
Transactions on Pattern Analysis and Machine Intelligence, 11, p. 674-693.
MARCOS S., MACCHI O., VIGNAT C., DREYFUS G., PERSONNAZ L., ROUSSEL-RAGOT P. [1992], A unified
framework for gradient algorithms used for filter adaptation and neural network training, International
Journal of Circuit Theory and Applications, 20, p. 159-200.
MARQUARDT D. W. [1963], An algorithm for least-quares estimation of nonlinear parameters, Journal of
the Society of Industrial and Applied Mathematics, 11, p. 431-441.
MINSKY M., PAPERT S. [1969] Perceptrons. MIT Press.
MONARI G. [1999], Slection de modles non linaires par leave-one-out ; tude thorique et application
des rseaux de neurones au procd de soudage par points, Thse de Doctorat de l'Universit Pierre et
Marie Curie, Paris. Disponible sur le site http://www.neurones.espci.fr.
MONARI G., DREYFUS G. [2000], Withdrawing an example from the training set : an analytic estimation
of its effect on a non-linear parameterised model, Neurocomputing, 35, p. 195-201.
MONARI G., DREYFUS G. [2002], Local overfitting control via leverages, Neural Computation, 14,
p. 1481-1506.
MOODY J., DARKEN C. J. [1989], Fast learning in networks of locally-tuned processing units, Neural
Computation, 1, p. 281-294.
NARENDRA K. S, ANNASWAMY A. M. [1989], Stable Adaptative Systems, Prentice-Hall.
NERRAND O., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G., MARCOS S. [1993], Neural networks and
non-linear adaptive filtering : unifying concepts and new algorithms, Neural Computation, 5, p. 165-197.
NERRAND O. [1992], Rseaux de neurones pour le filtrage adaptatif, l'identification et la commande de
processus, thse de doctorat de lUniversit Pierre et Marie-Curie.
Lapprentissage statistique
200
NERRAND O., URBANI D., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G. [1994], Training recurrent
neural networks : why and how ? An illustration in process modeling, IEEE Transactions on Neural
Networks 5, p. 178-184.
OSADCHY M., LECUN Y., MILLER M. [2007], Synergistic Face Detection and Pose Estimation with
Energy-Based Models, Journal of Machine Learning Research, 8, p 1197-1215.
OUKHELLOU L [1997], Paramtrisation et Classification de Signaux en Contrle Non Destructif. Applica-
tion la Reconnaissance des Dfauts de Rails par Courants de Foucault, Thse de lUniversit de Paris
XI-Orsay.
OUKHELLOU L., AKNIN P., STOPPIGLIA H., DREYFUS G. [1998], A new decision criterion for feature selec-
tion: application to the classification of non destructive testing signatures, European SIgnal Processing
COnference (EUSIPCO'98).
OUSSAR Y. [1998], Rseaux dondelettes et rseaux de neurones pour la modlisation statique et dyna-
mique de processus, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
OUSSAR Y., DREYFUS G. [2000], Initialization by selection for wavelet network training, Neurocompu-
ting, 34, p. 131-143.
OUSSAR Y., DREYFUS G. [2001], How to be a gray box : dynamic semi-physical modeling, Neural
Networks, 14, 1161-1172.
OUSSAR Y., MONARI G., DREYFUS G. [2004], Reply to the comments on Local Overfitting Control via
Leverages in Jacobian Conditioning Analysis for Model Validation by I. Rivals and L. Personnaz,
Neural Computation, 10, p. 419-443.
PLAUT D., NOWLAN S., HINTON G. E. [1986], Experiments on learning by back propagation, Technical
Report, Carnegie-Mellon University.
PLOIX J. L., G. DREYFUS [1997], Early fault detection in a distillation column: an industrial application of
knowledge-based neural modelling, Neural Networks: Best Practice in Europe, p. 21-31, World Scien-
tific.
POGGIO T., TORRE V., KOCH C. [1985], Computational vision and regularization theory, Nature, 317,
p. 314-319.
POLLACK J. B. [1990], Recursive distributed representations, Artificial Intelligence, 46, p. 77-105.
POWELL M. J. D. [1987], Radial basis functions for multivariable interpolation : a review, Algorithms for
approximation, p. 143-167.
PRESS W. H., TEUKOLSKY S. A., VETTERLING W. T., FLANNERY B. P. [1992], Numerical recipes in C : the
art of scientific computing, Cambridge University Press.
PRICE D., KNERR S., PERSONNAZ L., DREYFUS G. [1994], Pairwise neural network classifiers with proba-
bilistic outputs, Neural Information Processing Systems, 7 , p. 1109-1116, Morgan Kaufmann.
PRICE P.E., WANG S., ROMDHANE I.H. [1997], Extracting effective diffusion parameters from drying
experiments. AIChE Journal, 43, p. 1925-1934.
PUSKORIUS G. V., FELDKAMP L. A. [1994], Neurocontrol of nonlinear dynamical systems with Kalman
Filter trained recurrent networks, IEEE Trans. on Neural Networks, 5, p. 279-297.
RIVALS I., PERSONNAZ L. [2000], Construction of confidence intervals for neural networks based on least
squares estimation, Neural Networks, 13, p. 463-484.
Les rseaux de neurones
201
CHAPITRE 2
RIVALS I., PERSONNAZ L. [2004], Jacobian conditioning analysis for model validation, Neural Computa-
tion, 16, p. 401-418.
RIVALS I., CANAS D., PERSONNAZ L., DREYFUS G. [1994], Modeling and control of mobile robots and
intelligent vehicles by neural networks, Proceedings of the IEEE Conference on Intelligent Vehicles,
p. 137 142.
RIVALS I. [1995], Modlisation et commande de processus par rseaux de neurones : application au pilo-
tage dun vhicule autonome, Thse de doctorat de lUniversit Pierre et Marie Curie, Paris. Disponible
sur le site http://www.neurones.espci.fr.
ROUSSEL P., MONCET F., BARRIEU B., VIOLA A. [2001], Modlisation dun processus dynamique laide
de rseaux de neurones boucls. Application la modlisation de la relation pluie-hauteur deau dans un
rseau dassainissement et la dtection de dfaillances de capteurs, Innovative technologies in urban
drainage, 1, 919-926, G.R.A.I.E.
RUMELHART D. E., HINTON G. E., WILLIAMS R. J. [1986], Learning internal representations by error back-
propagation, Parallel Distributed Processing : Explorations in the Microstructure of Cognition, p. 318-
362, MIT Press.
SAARINEN S., BRAMLEY R., CYBENKO G. [1993], Ill-conditioning in neural network training problems,
SIAM J. Sci. Stat. Comp., 14, p. 693-714.
SEBER G.A.F., WILD C.J. [1989], Nonlinear regression, Wiley Series in Probability and Mathematical
Statistics, John Wiley & Sons.
SINGHAL A. [1996], Pivoted length normalization. Proceedings of the 19th Annual International Confer-
ence on Research and Development in Information Retrieval (SIGIR'96), p. 21-29.
SJBERG J., ZHANG Q., LJUNG L., BENVENISTE A., DELYON B. [1995], Nonlinear blackbox modeling in
system identification: a unified overview, Automatica, 31, p. 1691-1724.
SONTAG E. D. [1993], Neural networks for control, Essays on control : perspectives in the theory and its
applications, p. 339-380, Birkhuser.
STOPPIGLIA H. [1997], Mthodes statistiques de slection de modles neuronaux ; applications finan-
cires et bancaires, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
STRICKER M. [2000], Rseaux de neurones pour le traitement automatique du langage : conception et
ralisation de filtres d'informations, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Dispo-
nible sur le site http://www.neurones.espci.fr.
STRICKER M., VICHOT F., DREYFUS G., WOLINSKI F. [2001], Training context-sensitive neural networks
with few relevant examples for the TREC-9 routing, Proceedings of the TREC-9 Conference.
TIBSHIRANI R. J. [1996], A comparison of some error estimates for neural models, Neural Computation,
8, p. 152-163.
TIKHONOV A. N., ARSENIN V. Y. [1977], Solutions of Ill-Posed Problems, Winston.
VAPNIK V. [1995], The nature of statistical learning theory, Springer.
WAIBEL, HANAZAWA T., HINTON G., SHIKANO K., and LANG K. [1989], Phoneme recognition using time-
delay neural networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, 37, p. 328-339.
WERBOS P. J. [1974], Beyond regression : new tools for prediction and analysis in the behavioural
sciences, Ph. D. thesis, Harvard University.
Lapprentissage statistique
202
ZHOU G., SI J. [1998], A systematic and effective supervised learning mechanism based on jacobian rank
deficiency, Neural Computation, 10, p. 1031-1045.
WOLINSKI F., VICHOT F., STRICKER M. [2000], Using Learning-Based Filters to Detect Rule-based Filte-
ring Obsolescence, Confrence sur la Recherche dInformation Assiste par Ordinateur RIAO'2000,
Paris.
ZIPF G. K. [1949], Human Behavior and the Principle of Least Effort. Addison-Wesley.
3
Complments de mthodologie
pour la modlisation : rduction
de dimension et r-chantillonnage
Ce chapitre propose quelques complments la mthodologie de mise en uvre des rseaux de neurones.
Il apporte des lments de rponses des questions mthodologiques que le concepteur de modles se
pose lorsquil souhaite mettre en uvre un modle statistique utilisant des rseaux de neurones. En effet,
comme nous lavons soulign dans le chapitre prcdent, la conception dun modle neuronal ne se
rduit pas au choix du nombre de neurones dans la couche cache et la bonne excution dun algorithme
dapprentissage :
avant de mettre en uvre un rseau de neurones, ou tout autre modle statistique, il peut savrer nces-
saire de construire de nouvelles variables dentre afin de rduire leur nombre, tout en perdant le moins
dinformation possible sur leur rpartition ;
aprs lestimation des paramtres du modle (par lapprentissage si le modle est un rseau de
neurones), lutilisateur doit valuer le risque li lutilisation du modle construit, lequel est relatif
lerreur de gnralisation qui, par dfinition, nest pas calculable : elle doit donc tre estime. Nous
avons vu dans le chapitre prcdent une mthode destimation de lerreur de gnralisation par calcul du
score de leave-one-out virtuel ; nous prsentons ici une autre technique statistique rcente, fonde
sur le r-chantillonnage, qui permet destimer avec prcision les caractristiques statistiques de lerreur
de gnralisation.
Les lments de mthodologie prsents dans ce chapitre portent donc sur :
les pr-traitements effectuer sur les donnes,
les techniques de rduction du nombre dentres, fondes sur lanalyse en composantes principales et
lanalyse en composantes curvilignes,
lestimation de lerreur de gnralisation par les techniques statistiques de r-chantillonnage, notam-
ment le bootstrap.
La rduction de dimension ne vise pas seulement diminuer le nombre de variables dcrivant chaque
exemple : elle permet galement de construire des reprsentations plus synthtiques des donnes, en faci-
litant lanalyse. La mthode classique utilise dans le cadre linaire est lanalyse en composantes princi-
pales (ACP) : cette dernire, procdant par projection, est limite aux varits linaires. Pour traiter les
reprsentations non linaires, nous prsenterons une seconde mthode, lanalyse en composantes curvi-
lignes (ACC), qui peut tre vue comme une extension non linaire de lACP. Elle est similaire aux
cartes de Kohonen (voir chapitre 7), mais elle est plus souple, car la structure de lespace de projection
nest pas impose a priori.
Lapprentissage statistique
204
Les mthodes de r-chantillonnage sont utilises pour raliser des estimations lorsquon ne connat pas
les lois de probabilit des variables analyser. Dans les problmes poss par la rgression, notamment la
rgression par rseaux de neurones, elles permettent destimer lerreur de gnralisation, et dvaluer,
avec efficacit et robustesse, la variabilit du rseau par rapport aux donnes, lment cl du dilemme
biais-variance (prsent dans le chapitre 2) qui conditionne llaboration de tout modle statistique. Ces
techniques trs performantes sont gourmandes en temps de calcul, mais laccroissement de la vitesse des
calculateurs permet de plus en plus frquemment leur mise en uvre. Une nouvelle mthode sera
prsente, associant le bootstrap et larrt prmatur (early stopping, galement prsent dans le chapitre
prcdent), pour automatiser et contrler lapprentissage des rseaux de neurones.
Pr-traitements
La figure 3-1 montre leffet du pr-traitement. Il correspond une translation du centre de gravit du
nuage des points, suivie dune normalisation de la dispersion des valeurs sur chacun des axes sans modi-
fication de la rpartition des points.
Ce pr-traitement simple, appliqu toutes les composantes, permet souvent de dtecter des
anomalies dans la base de donnes. Un cart-type trop faible peut signifier que la composante corres-
pondante varie trop peu pour influencer le modle. Les composantes dcart-type nul doivent videmment
tre cartes dans la mesure o elles napportent aucune information dans la construction du modle. Pour
un diagnostic plus profond de ces anomalies , il faut informer lexpert du domaine.
J = y * ln y + (1 y * ) ln(1 y)
zi = k wik xk + wi0 .
Pour chaque exemple, len-
tropie croise sexprime alors
par :
n
yi ln yi + ( 1 yi ) ln ( 1 yi ).
* *
E = Figure 3-1. Centrage et rduction de donnes.
i=1
Rgles dapprentissage
Le lecteur curieux pourra sapercevoir que cette approche, malgr les apparences, ne complique pas les calculs : bien au contraire, elle les
simplie. En fait, cela revient ne pas tenir compte des non-linarits apportes par la fonction logistique dans le calcul des gradients :
E
---------- = ( y i y k* )x k
w ik
On retrouve la rgle du Perceptron de Rosenblatt et donc aussi celle de Widrow-Hoff, introduites dans le chapitre 2, propos de lappren-
tissage adaptatif.
N
1
EQM r = ---- ( y k y k* ) EQM = EQM r y
2 2
N
k=1
Principe de lACP
Pour rduire le nombre de facteurs (composantes), lACP dtermine des sous-espaces vectoriels de
dimension plus rduite que le nombre de facteurs, dans lesquels la rpartition des observations (points) est
prserve au mieux. Le critre retenu sur la rpartition est linertie totale du nuage des points. LACP se
prsente donc comme une mthode de projection linaire qui maximise linertie du nuage des points.
Avant de prsenter les dveloppements thoriques, reprenons, titre dillustration simple, lexemple de la
distribution dun nuage de points dans R2 reprsent par la figure 3-1. LACP dtermine le premier axe
principal comme tant celui par rapport auquel linertie du nuage de points est maximale. Le deuxime
axe est, parmi les axes orthogonaux au prcdent, celui par rapport auquel linertie du nuage de points est
maximale. Les autres axes sont dfinis orthogonaux deux deux sur le mme critre de maximisation de
linertie.
Complments de mthodologie pour la modlisation
207
CHAPITRE 3
Montrons que la notion mcanique dinertie totale du nuage de points est quivalente la notion
statistique de variance. Le calcul de linertie des points seffectue par rapport au centre de gravit du
nuage des points. En notant g le centre de gravit et In linertie du nuage des points dfinis dans Rn :
n n n
1
g i = ---- x ij I n = ( xij g j )
2
.
N
i=1 j=1 i=1
Linertie In est donc gale la trace de la matrice de variance-covariance des donnes X dfinie par :
V = (X Ig)T(X Ig) o I dsigne la matrice unit.
Linertie tant invariante par translation, on peut centrer les donnes par X = X Ig, et obtenir une relation
simple entre linertie et la matrice de variance-covariance sur les nouvelles donnes centres X :
Lapprentissage statistique
208
In = Trace(XT X).
Pour des donnes centres et rduites Trace(XT X) = n.
En considrant le sous-espace de dimension q < n et en notant Vnq la matrice associe au projecteur
sur Rq, le nuage des points projets sur Rq est reprsent par la matrice XV, dont linertie est :
Iq = Trace(VTXTXV).
LACP dfinit la projection linaire qui maximise Iq, valeur de linertie des points calcule dans Rq. Ce
problme est rsolu en recherchant un premier axe sur lequel linertie est maximale, puis un deuxime
orthogonal au premier pour poursuivre la maximisation de linertie, et ainsi de suite jusquau pime axe.
Les axes obtenus correspondent aux vecteurs propres de la matrice XTX, ordonns en fonction de leurs
valeurs propres, de la plus grande 1 la plus petite n. Les valeurs propres j, j = 1, , n sont positives
ou nulles, car la matrice XTX est une symtrique dfinie positive. En notant Vnq la matrice des vecteurs
propres, la transformation effectuer sur des donnes centres pour obtenir les composantes principales
sexprime par :
x Rn VTnq x Rq < n.
Les rgles utilises pour retenir les composantes principales (q parmi p) dpendent dune analyse qui
seffectue sur les valeurs propres. Avant de les prsenter, il nous semble utile de rappeler une technique
similaire lACP et largement utilise en algbre linaire, qui porte sur la dcomposition en valeurs
singulires, note SVD pour Singular Value Decomposition [CICHOKI 93]. Cette technique, trs utile dans
les problmes de rsolution de systmes linaires, a t mentionne dans le chapitre prcdent comme
outil de calcul des leviers pour des modles non linaires.
Thorme
La matrice diagonale S est compose par les valeurs singulires j ordonnes par valeurs dcroissantes.
Les valeurs singulires j sont les racines carres des valeurs propres j de la matrice symtrique dfinie
positive ATA ou de la matrice AAT si m < n. La matrice V associe au changement de base est reprsente
par les vecteurs propres de la matrice ATA.
ACP et SVD
Sur des donnes centres, il y a donc quivalence entre une analyse en composantes principales et une dcomposition en valeurs singulires.
Contrairement aux techniques de diagonalisation des matrices carres, la dcomposition en valeurs singu-
lires sapplique tout type de matrice. Lindice de la 1re valeur singulire gale 0 dtermine le rang de
la matrice ; son conditionnement, au sens de la norme L2, est gal au rapport des valeurs singulires
extrmes 1p.
partir de lorthogonalit des matrices U et V, il vient :
UT AV = S A = USVT.
Complments de mthodologie pour la modlisation
209
CHAPITRE 3
Dans une application de modlisation, si A reprsente la matrice des observations (dfinie dans le chapitre
prcdent) centres, la matrice US = AV dcrit les mmes exemples dans une reprsentation
orthogonale : les nouvelles entres obtenues aprs transformation sont non corrles linairement. La
mme technique est utilise en traitement du signal pour blanchir les signaux [DAVAUD 91]. Pour
rduire les nouvelles entres, il suffit de retenir la matrice U comme nouvelle base dexemples. La trans-
formation linaire devient S-1VTx au lieu de VTx.
La dcomposition en valeurs singulires, applique aux donnes centres de la matrice X, permet
dexprimer linertie en fonction des valeurs singulires j ou en fonction des valeurs propres j de la
matrice XTX :
p p
j Ip = j .
2
Ip = Trace(XTT) Ip =
j=1 j=1
Ce rsultat est bien connu en algbre linaire puisque linertie du nuage de points correspond la norme
matricielle de Frobenius qui sexprime en fonction des valeurs singulires :
xij j .
2 2
X F = =
i, j j
La matrice de projection ppq associe aux q premiers axes est donc reprsente par les q premiers
vecteurs de la matrice Vpq. La contribution relative linertie de chaque axe principal est donne par le
rapport entre 2j et la somme 12 + 22 + + p2. La contribution relative des q premiers axes est :
qn
j
2
q
j Iq
2 j=1
Iq = = I n -------------
n
-.
j
j=1 2
j=1
du nuage de points. Dans certains problmes, la composante principale nest pas llment le plus infor-
matif, bien au contraire. Par exemple, sur une srie de visages provenant de diffrentes parties du monde,
la reconnaissance de leur origine portera davantage sur la seconde composante et les suivantes, la
premire composante reprsentant plutt les caractristiques moyennes des visages.
1 1
0.5
0.5 0
0.5
0 1
1 1
0.5 0.5
1 0 1 0
0.5 0.5 0.5
0 0 0.5
0.5 0.5
1 1 1 1
1 4
3.5
0.5 3
2.5
0
2
1.5
0.5
1
0.5
1
0
1.5 0.5
1 0.5 0 0.5 1 1 0.5 0 0.5 1 1.5 2 2.5
Figure 3-4. Projection par ACC dune demi- Figure 3-5. Projection par ACC dune
sphre. sphre.
Sur des structures fermes, telles quune sphre ou un cylindre, la rduction de dimension introduira
ncessairement des distorsions locales. Cest le cas illustr par la figure 3-4, qui montre une projection
Complments de mthodologie pour la modlisation
211
CHAPITRE 3
dune sphre sur le plan. Lide centrale de lACC est un contrle graduel de la distorsion locale, effectu
au cours de lapprentissage.
Ayant pour objectif une rduction de dimension qui prserve la topologie locale, lACC est adapte la
reprsentation de varits non linaires. Une varit dans Rp peut tre grosso modo dfinie comme un
ensemble de points dont la dimension locale est infrieure p. Lenveloppe dune sphre dfinie dans
R3 est un exemple : la varit est de dimension 2. De faon plus rigoureuse, une varit de dimension q
dans Rq est un sous-ensemble de Rn obtenu par application dune fonction dfinie de Rq dans Rq. En un
point, le rang de la diffrentielle de lapplication dtermine la dimension locale de la varit.
Par rapport lACP, la mthode permet donc de reprsenter des structures de donnes distribues dune
faon non linaire. Elle se rapproche des mthodes fondes sur les cartes auto-adaptatives de Kohonen,
mais son principe est diffrent. En effet, aucune contrainte nest impose sur les points dans lespace de
projection ; il ny a pas de voisinage dfini a priori entre les points dans lespace de projection. Cela
permet de reprsenter toutes sortes de varits.
( xik x jk )
2
espace dorigine X ij = ;
k=1
( yik y jk )
2
espace rduit Y ij = .
k=1
La transformation des composantes engendre une distorsion sur la varit. En gardant la mme mtrique
(distance euclidienne), une mesure de la distorsion peut tre donne en comparant les distances Xij aux
distances Yij p n 2
distorsion due la rduction ( X ij Y ij ) .
i = 1 j = i+1
Un parallle peut tre fait avec lACP, qui dfinit la projection linaire en minimisant la fonction
X ij Y ij
2 2 2
objectif : = Cette fonction traduit lcart entre la moyenne des distances X ij calcules
i, j i, j
2
dans lespace dorigine et la moyenne des distances Y ij calcules dans lespace rduit. La fonction de
cot retenue par lACC prserve davantage les carts de distance Xij Yij, et permet donc de reprsenter
des varits non linaires avec un minimum de dformation.
Attention
Pour pouvoir dplier des varits, Demartines a introduit, dans la fonction de cot, un terme de pond-
ration F(Yij, ), fonction positive monotone dcroissante de la distance Yij.
Lapprentissage statistique
212
Le terme F(Yij) favorise les petites distances dans lespace de projection. Le paramtre joue le mme
rle que le paramtre rayon, dfini dans les cartes de Kohonen : dans lespace de sortie, les distances sup-
rieures ne seront plus prises en compte. La dcroissance du paramtre au cours de ladaptation
permet de dplier et mme de couper certaines varits non linaires. La projection dune sphre de R3
dans R2 (figure 3-4) montre lexemple dune varit pour laquelle la projection ncessite une coupure. La
fonction permet donc de dplier certaines varits en prservant au maximum la topologie locale.
La fonction objectif , vise par ACC, se prsente Figure 3-6. F(Yij)
alors sous la forme suivante : Fonction de
pondration
p n 2
des distances.
E= ( X ij Y ij ) F ( Y ij, ) . dcroissant
i = 1 j = i+1
Algorithme danalyse en
composantes curvilignes
Yij
Lalgorithme consiste minimiser la fonction de cot
par rapport aux coordonnes de chaque point de la base
dexemples dans lespace rduit. Comme il en va pour effectuer un apprentissage, on peut utiliser
nimporte lequel des algorithmes doptimisation prsents dans le chapitre 2. Nous prsentons ici la mini-
misation de la fonction de cot par lalgorithme du gradient stochastique.
On calcule donc les drives partielles de la fonction de cot par rapport chacun des paramtres ; en
notant yik la k-ime coordonne du point i, il vient :
E E Y
--------- = --------- --------ij-
y ik ji
Y ij y ik
E X Y
--------- = -----ij------------ij- [ 2 F ( Y ij ) ( X ij Y ij ) F ( y ij ) ] ( y ik y jk ) .
y ik ji
Y ij
La modification des paramtres scrit alors, en appelant le pas de gradient :
X Y
y i = -----ij------------ij- [ 2 F ( Y ij ) ( X ij Y ij ) F ( y ij ) ] ( y i y j ) .
ji
Y ij
Une condition doit tre assure afin dassurer la convergence de ladaptation. Il faut en effet que le terme
ij = 2F(Yij) (Xij Yij)F(Yij) soit positif. En effet, si Yij est trop grand par rapport au terme Xij, le point
j doit tre rapproch du point i. Les fonctions F(Yij) doivent tre choisies de faon assurer la condition
ij > 0. Cette condition est difficile remplir : par exemple, pour F(Yij) = e Y ij , la stabilit de ladapta-
tion implique > (Yij Xij)2. Cette condition ne peut pas tre toujours vrifie en raison de la dcrois-
sance du rayon au cours de lapprentissage. Une solution qui permet dassurer la condition, et qui
simplifie la rgle dadaptation, est la fonction chelon translate du rayon et vrifiant (presque partout)
la condition ij = 2 > 0. La rgle dadaptation se simplifie :
X Y
y i = -----ij------------ij- ( y i y j ) si Yij < et 0 sinon.
ji
Y ij
Complments de mthodologie pour la modlisation
213
CHAPITRE 3
( xik x jk ) ( yik y jk )
2 2
X ij = k---------------------------------
=1 - Y ij = k---------------------------------
=1 - .
p q
Le choix du paramtre a une influence importante sur la qualit de la projection. Au cours des premires
itrations, tous les points yi dans lespace de sortie doivent contribuer au critre. La rgle consiste fixer
la valeur initiale du paramtre au maximum des distances Yij :
(0) = Max ij Y ij .
La valeur finale du rayon doit correspondre la plus petite valeur souhaite sur les Yij, cest--dire la plus
petite des valeurs Xij :
Lapprentissage statistique
214
(tmax) = Min ij X ij .
Le paramtre suit une loi dcroissante en fonction du nombre t ditrations de la valeur initiale (0) la
valeur finale (tmax) :
t t max
( t max )
(t) = (0) ---------------- .
(0)
Qualit de la projection
Un des points forts des travaux de Demartines porte sur le critre qui permet le contrle de la projection.
Ce critre est fond sur la comparaison des valeurs Xij et Yij correspondant aux distances entre points,
distances calcules respectivement dans lespace dorigine et dans lespace rduit. Les distances sont
reprsentes dans un plan dx-dy par un point dabscisse dx = Yij et dordonne dy = Xij. Les points proches
de la droite dx = dy correspondent des distances voisines. La dformation due la rduction est donc
proportionnelle la distance moyenne des points la droite dx = dy. La figure 3-8 montre la distribution
moyenne des distances pour lexemple de la demi-sphre et sur celui de la sphre.
Sur des varits non
linaires illustres par ces
exemples, la projection va
ncessairement loigner
certains points. Cest le cas
de la carte du globe terrestre
obtenue par la projection de
Mercator. La projection
occidentale spare les
ctes du dtroit de Bring.
Dans le plan dy dx, le
nuage des points a une
forme en cloche : des points
proches dans lespace Figure 3-8. Distribution des distances dans le plan (dy dx) pour la demi-sphre et la sphre.
dorigine (dx petit) vont se
trouver loigns (dy grand) dans lespace de projection. La forme en cloche apparat nettement dans le cas de
la projection de la sphre, o le dpliage a spar les points situs sur le grand diamtre (figure 3-5). Le contrle
de la projection consiste vrifier que cette forme en cloche prserve au maximum la topologie locale : si deux
points sont proches dans lespace rduit, ils le sont ncessairement dans lespace dorigine.
barycentre des 3 ou 4 points yk correspondant aux points xk les plus proches de x0. Le calcul de la projec-
tion y0 est obtenu par le mme algorithme :
X Y
y 0 = -----i--0------------i----0 ( y 0 y j ) si Yi0 < et 0 sinon.
ji
Yi 0
Cette mthode dinitialisation des composantes du point projet parat trs efficace ; la convergence est
obtenue en quelques itrations (moins dune dizaine) [PILATO 1998].
Application en spectromtrie
Lapplication prsente ci-aprs a t ralise au Centre dtudes de Saclay [PILATO 1998]. Elle porte sur
la mesure de la concentration de matires radioactives. Le contrle dinstallations nuclaires (centrales,
usines de retraitement) exige que lon mesure des concentrations de certaines matires radioactives. Des
mesures de concentration sont effectues sur des solutions issues des circuits deau des installations. Une
des techniques utilises est la fluorescence X, qui permet de raliser des analyses rapides et non destruc-
tives directement partir de cruchons de prlvement ou sur canalisations. La fluorescence X consiste
exciter la matire concerne, puis analyser les spectres des photons issus des dsactivations.
La figure 3-9 montre un exemple de 40000
spectre obtenu par fluorescence X sur un
cruchon contenant de luranium 235 et du 35000
thorium. Les pics caractrisent la prsence
30000
et la concentration de ces deux lments.
Dans notre application, chaque spectre est 25000
quantifi sur 4096 valeurs dnergie.
Chaque valeur en ordonne correspond au 20000
nombre de photons qui sont compts sur
15000
un niveau dnergie donn.
Les mthodes classiques danalyse de spec- 10000
tres reposent sur des modles physiques, qui
5000
tablissent des corrlations entre la propor-
tion dun lment et lintgrale autour des 0
pics correspondant certaines raies de 0 500 1000 1500 2000 2500 3000 3500 4000 4500
llment analyser. La physique ici est Figure 3-9. Exemple de spectre.
relativement complexe : chevauchement des
pics, effets parasites ou bruit de mesures. La mthode est fonde sur une analyse locale des phnomnes. Lesti-
mation des concentrations est effectue partir de calculs effectus sur des donnes du spectre centres autour
des raies.
Lapproche par ACC est diffrente. Elle repose sur une analyse globale de la courbe. Le spectre est consi-
dr en tant qulment dun espace 4096 composantes. Dans cet espace R4096, les surfaces de rparti-
tion des points spectres ont une dimension intrinsque gale 2. En effet, la varit des spectres est
obtenue en ne faisant varier que deux paramtres : la concentration duranium et celle du thorium. Une
rduction de dimension de R4096 R2 sest avre adapte au problme : linformation perdue par
projection nest pas discriminante pour la mesure des concentrations.
La base dexemples comprend 60 spectres. Chaque spectre comprend 4096 composantes. La matrice de
lchantillon des donnes est de dimension 60 4096. La rduction par ACC consiste donc transformer
cet chantillon en une matrice 60 2.
Lapprentissage statistique
216
La figure 3-10 visualise, dans lespace rduit deux dimensions, lensemble des exemples. Nous avons
volontairement maill la reprsentation en visualisant la topologie spatiale de la quantification ralise par
les exprimentateurs sur les valeurs des concentrations duranium et de thorium.
La projection obtenue par ACC a la mme topologie que la quantification exprimentale. Les concentra-
tions duranium et de thorium ont t quantifies sur le produit cartsien [(u1, u2, , u6) (t1, t2, , t10)].
En ralit, on constate, en y regardant de plus prs, quil manque un essai. En effet, la base ne comportait
que 59 spectres. On retrouve figure 3-10 la donne manquante dans la projection ACC.
Lexemple illustre lintrt de lACC : en dpit de
combinaisons non linaires de plusieurs effets sur
les spectres, la rduction permet de faire apparatre
Concentration Thorium
100
la dimension intrinsque des donnes, celle de la
variation par rapport la concentration du thorium
et celle relative luranium. partir des spectres
rduits, lestimation des concentrations en 10
uranium et en thorium nest plus un problme
difficile : une rgression laide dun petit rseau
de neurones, voire une simple interpolation
linaire, suffisent amplement. 1
1 10
Applique des problmes plus complexes, Concentration Uranium
lorsque la dimension intrinsque nest pas aussi 50
vidente, on peut procder dune manire itrative
40
en augmentant, si cest ncessaire, le nombre de
composantes de lespace de projection, tout en 30
contrlant la prservation de la topologie locale 20
sur la bissectrice pour les petites distances.
10
0
Le bootstrap et les rseaux -10
de neurones -20
-30
Cette dernire partie prsente une nouvelle approche -30 -20 -10 0 10 20 30 40
qui permet dautomatiser la construction et lappren-
tissage des rseaux de neurones. Elle sarticule Figure 3-10. Quantification exprimentale
autour de la mthode statistique du bootstrap et de la Reprsentation par ACC.
technique de larrt prmatur ou early stopping
(cette dernire technique est prsente dans le chapitre 2). Lorientation prise est donc celle qui consiste
utiliser des rseaux suffisamment complexes, puis les rgulariser par arrt de lapprentissage. Avec bootstrap,
il est possible dvaluer avec efficacit la variabilit du rseau, et de son erreur par rapport aux donnes. Associ
larrt prmatur, il permet le contrle de lapprentissage en optimisant automatiquement le nombre de cycles
ncessaire, tout en fournissant les caractristiques statistiques de lerreur de gnralisation.
Le bootstrap, propos par [EFRON 1993], est une technique aujourdhui trs tudie dans le cadre de
linfrence statistique, notamment pour les tests dhypothses et lestimation des intervalles de confiance.
Elle ne ncessite aucune hypothse a priori sur les lois de distribution. Appliqu la rgression, le boots-
trap permet destimer les caractristiques statistiques de lcart entre lerreur dapprentissage et celle de
gnralisation. Lapproche est particulirement adapte aux problmes pour lesquels les chantillons
dexemples sont de petite taille. Cest le cas notamment du calcul scientifique et de la simulation de
Complments de mthodologie pour la modlisation
217
CHAPITRE 3
systmes complexes. partir dune base de calculs, des fonctions analytiques sont construites par rgres-
sion ou interpolation, afin dtre utilises en lieu et place de modules plus coteux en temps de calcul.
Dans le chapitre prcdent, nous avons soulign limportance de la validation des modles (estimation de
lerreur de modlisation, dintervalles de confiance, etc.) dans le cadre gnral de la modlisation, notam-
ment non linaire. Dans le type dapplications susmentionnes (remplacement dun code de calcul complexe
par une rgression partir de donnes engendres par ce code), la problmatique est exactement la mme,
ceci prs que les donnes issues de calculs ne sont gnralement pas bruites. On va donc prsenter cette
approche qui peut tre substitue celles qui ont t dveloppes dans le chapitre prcdent.
Principe du bootstrap
Nous allons illustrer le principe du bootstrap sur lexemple du calcul de lintervalle de confiance de
lesprance dune variable alatoire. Lexemple tir de [WONNACOOT 1990] a simplement pour objet de
montrer clairement le principe du bootstrap. En effet, pour cet exemple, lintervalle de confiance de
lesprance dune variable alatoire est parfaitement dtermin partir de la moyenne et de la variance
calcules sur lchantillon (vu au chapitre 2). Ce rsultat dcoule du thorme de la limite centrale, selon
lequel la distribution de la moyenne dun chantillon converge assez rapidement vers une loi normale.
On considre un chantillon de la variable alatoire compos de n = 10 observations : x = (16, 12, 14, 6,
10
x
43, 7, 0, 54, 25, 13). La moyenne de lchantillon est X = ------i
i = 1 10
= 19.0 et son cart-type est
10
( xi 19.0 ) 9
2
S= = 17.09 . Lintervalle de confiance de lesprance 95 % est :
i=1
s 17.09
= X t .025 ------- = 19.0 2.26 ------------ 19 12 7 < < 31
n 10
Lintervalle de confiance peut tre galement calcul par bootstrap. Il est alors obtenu par lalgorithme
suivant.
partir de lchantillon initial, on simule de nouveaux chantillons, appels rpliques , de taille n, par
tirages alatoires avec remise. Prenons par exemple lchantillon initial dfini prcdemment x = (16, 12,
14, 6, 43, 7, 0, 54, 25, 13). Par tirages alatoires avec remise, on obtient ainsi la rplique suivante x* = (54,
0, 16, 7, 43, 54, 0, 25, 25, 6), dans laquelle certaines valeurs de lchantillon initial ne figurent pas, et o
dautres apparaissent plusieurs fois. Plusieurs chantillons sont ainsi simuls. Pour chaque chantillon
simul, une moyenne est calcule. Lintervalle de confiance 95 % est dfini sur cet ensemble de
moyennes. La simulation donne :
9 < < 26
On note que lintervalle obtenu par bootstrap est pratiquement identique lintervalle de confiance 95 %
calcul prcdemment et issu du thorme central limite.
Gnralit du bootstrap
Le bootstrap peut donc tre appliqu tout estimateur autre que la moyenne, tel que la mdiane, le coeffi-
cient de corrlation entre deux variables alatoires ou la valeur propre principale dune matrice de variance-
covariance. Pour ces estimateurs, il nexiste pas de formule mathmatique qui dfinisse lerreur standard ou
lintervalle de confiance. Les seules mthodes applicables sont les mthodes dites de r-chantillonnage qui
procdent par simulation dchantillons comme le bootstrap ou le jackknife [EFRON 1993].
b=1
B
( ( b ) ( . ) ) B 1.
2
B =
2 * *
b=1
Un des thormes dmontrs par Efron porte sur la consistance de lestimateur bootstrap. Lestimation
B converge vers lcart-type F ( ) du paramtre valu sur la distribution de lchantillon :
*
lim B = F
B
Cet algorithme peut sappliquer tout estimateur. Prenons lexemple du calcul de la valeur propre princi-
pale lors dune ACP. Elle correspond la plus grande valeur propre de la matrice de variance-covariance
XTX des observations Xnp. Le bootstrap consiste simuler des rpliques X*np obtenues par n tirages ala-
toires des lignes de la matrice Xnp. Puis la statistique (moyenne et cart-type) pourra tre tablie sans
difficult. On voit ici la puissance de la mthode et sa facilit de mise en uvre. On comprend aussi que
cette mthode nait pas t trs utilise par le pass, en raison du nombre de calculs ncessaires : 50 200
rpliques suffisent estimer une moyenne, mais plusieurs milliers de rpliques sont ncessaires si lon
souhaite dterminer des intervalles de confiance.
La probabilit quun lment napparaisse pas dans la base bootstrape est donc P(0) = (1 1n)n. Pour
n suffisamment grand P(0)n = e 1 0.368. En moyenne, 37 % des exemples ne seront pas utiliss en
apprentissage.
Lcart entre lerreur dapprentissage calcule sur la base bootstrape et lerreur de test value sur la
base initiale est considr comme une variable alatoire reprsentative de lcart entre lerreur
dapprentissage et lerreur de gnralisation.
Une statistique est faite sur lensemble de ces carts (un par base bootstrape) afin destimer la loi de
distribution de lcart entre lapprentissage et lerreur de gnralisation.
Soient B la base initiale des exemples et B*b, b = 1, , N lensemble des rpliques. Dsignons par *b
lerreur dapprentissage du rseau entran sur la rplique k, et par b lerreur du mme rseau calcule sur
la base initiale B. Lcart b = b *b entre les deux erreurs peut alors tre considr comme une variable
alatoire reprsentative du phnomne de surapprentissage. Cet cart peut tre considr comme le biais
qui apparat sur lestimation de lerreur de gnralisation par lerreur dapprentissage. Lesprance et
la variance du biais peuvent alors tre estimes sur lensemble des valeurs b :
B B
1 1
= --- b = ------------ ( b ) .
2 2
b = b b*
B B1
b=1 b=1
La mthode NeMo
Lalgorithme propos prcdemment a t programm dans le logiciel NeMo. Le bootstrap y est associ
larrt prmatur de lapprentissage early stopping) afin dautomatiser le contrle de lapprentissage du
rseau.
Outil NeMo
NeMo est un outil dvelopp au Centre dtudes de Saclay au dpartement de modlisation de systmes et structures partir du simula-
teur SNNS (Stuttgart Neural Network Simulator) disponible sur http://www-ra.informatik.uni-tuebingen.de/SNNS, visant simpli-
er les tches dapprentissage et de test des rseaux de neurones.
Lerreur quadratique moyenne EQMr est calcule sur les variables de sortie (estimes et dsires) centres
et rduites. Lanalyse de lerreur porte donc sur la part de la variance non explique par le modle ou coef-
ficient dindtermination introduit au chapitre sur les pr-traitements des sorties.
Avant de donner le dtail de la mthode, dsignons par j le rang de la rplique et par i litration sur le
nombre de cycles ; les erreurs quadratiques moyennes dapprentissage et de test sont reprsentes par les
deux tableaux suivants :
Lapprentissage statistique
220
erreur dapprentissage erreur de test
Aprs cette phase, NeMo dtermine le nombre de cycles selon une heuristique rappelant la thorie des
jeux. Un premier joueur pessimiste se place, pour chaque valeur du nombre de cycles, dans la pire des
situations sur lerreur de test :
Max b
i = Max b { i } .
Le second joueur dtermine alors le nombre de cycles de faon minimiser la pire des situations obte-
nues, cest--dire celle qui correspond lerreur de test maximale :
optimal b
Nc = Arg i { Min i } .
optimal
Cette stratgie sur le choix de N c peut tre assouplie en ne retenant quune fraction de lensemble
des B apprentissages. Pour la rendre plus robuste, il suffit en effet dexclure les cas extrmes ( outliers ),
cest--dire les situations dapprentissage trs diffrentes de la moyenne. Par dfaut, NeMo dtermine le
nombre de cycles optimal sur le 90e percentile de lerreur de test.
Percentile
Le me percentile correspond lintervalle constitu des valeurs pour lesquelles la fonction de rpar-
tition est infrieure : une fraction (1 ) des valeurs maximales est exclue.
Lestimation du nombre optimal de cycles peut galement tre faite par la mthode du tri mdian, plus
stable mais plus risque car rejetant a priori 25 % des cas : le dernier quartile correspond aux erreurs de
test les plus importantes.
Quartile
Tri mdian
Le tri mdian correspond 0,25 Q1 (1er quartile) + 0,5 Q2 (2e quartile ou mdiane) + 0,25 Q3 (3e quartile).
Aprs avoir dtermin le nombre de cycles optimal selon une des stratgies, NeMo lance un nouvel
apprentissage fond sur la totalit des exemples, avec, pour nombre de cycles, le nombre de cycles opti-
optimal
mis N c dfini ltape prcdente. Pour ce dernier apprentissage, les mmes paramtres dappren-
tissage sont utiliss : la valeur initiale et la loi de dcroissance du pas dadaptation. En notant a lerreur
moyenne calcule sur la base initiale, et la valeur moyenne du biais, lerreur de gnralisation est
estime par :
g = a + .
Complments de mthodologie pour la modlisation
221
CHAPITRE 3
Dune faon plus gnrale, la fonction de rpartition de lerreur de gnralisation est estime par la fonc-
tion empirique de rpartition du biais translate de la valeur a. On remarque lapport du bootstrap associ
au early stopping par rapport la validation croise :
une certaine automatisation dans la construction du rseau en adaptant le nombre de cycle du early stop-
ping,
une plus grande estimation de la variabilt du modle par rapport au jeu de donnes,
estimation des intervalles de confiance (marges, incertitudes),
lutilisation de lensemble des exemples pour construire le rseau.
Notons enfin que NeMo peut contrler ladquation du modle aux donnes : si le nombre de cycle opti-
mis est trop proche du nombre de cycle maximal fix par lutilisateur, lerreur de test ne passe pas par un
minimum ; lutilisateur devra alors accrotre la complexit du rseau (nombre de neurones cachs) ou
augmenter le nombre de cycles dapprentissage.
Lerreur relle est obtenue partir de 106 tirages alatoires en utilisant la mme loi de gnration des
entres (loi uniforme) et en calculant lerreur moyenne quadratique rduite EQMr entre la sortie dsire
et la sortie estime.
Ci-aprs, les figures prsentent la comparaison (en chelle log-log) de lerreur EQMr vraie (en
abscisse) lerreur estime (en ordonne) par NeMo. Les points visualiss correspondent aux diffrents
rseaux lves construits sur lensemble des bases dexemples. Chaque rseau a t entran 15 fois sur
des bases dexemples comprenant respectivement 100, 200, , 1500 exemples.
Lanalyse de lensemble des rsultats illustrs par les figures 3-11 et 3-12 fait apparatre les proprits
essentielles de la mthode NeMo :
Lapprentissage statistique
222
lerreur de gnralisation est estime avec prcision, mme dans les cas complexes (grand nombre
dentres + faible nombre dexemples) ;
le bootstrap permet dautomatiser la rgularisation du rseau aux donnes par contrle de larrt de
lapprentissage.
Les figures 3-11 et 3-12 font en effet apparatre des estimations de lerreur de gnralisation trs proches
des valeurs exactes. Les faibles valeurs de lerreur correspondent aux apprentissages raliss avec les
bases dexemples qui en comportent suffisamment. Pour ces cas, lerreur estime en ordonne est quasi
gale lerreur vraie en abscisse.
Il faut noter une lgre surestimation sur 4 cas parmi 75 entre les valeurs 0,01 et 0,02 pour le cas 8 (figure
3-11) et une moindre prcision sur le cas plus complexe 12 (figure 3-12). Pour ce dernier cas, la rgres-
sion porte sur une relation de R12 R avec un maximum de 1500 points pour reprsenter la relation. Il
apparat une surestimation de lerreur pour les faibles valeurs et une sous-estimation pour les valeurs
suprieures 0,2. Nanmoins, malgr la grande dimension de lespace dentres, la relation de R12 dans
R est correctement modlise partir de quelques centaines dexemples.
1
Figure 3-11. R8_4_1
Gnrateur 8. R8_6_1
R8_8_1
R8_10_1
R8_12_1
0.1
Erreur estime par NeMo
0.01
0.001
0.001 0.01 0.1 1
Erreur fonctionnelle
Complments de mthodologie pour la modlisation
223
CHAPITRE 3
1
R12_10_1
Figure 3-12. R12_14_1
R12_18_1
Gnrateur 12. R12_22_1
R12_26_1
R12_30_1
Erreur estime par NeMo
0.1
0.01
0.01 0.1 1
Erreur fonctionnelle
Conclusions
Plusieurs points peuvent tre tirs de cette tude.
Les rseaux construits automatiquement sont suffisamment bien rgulariss, mme dans les cas les plus
difficiles lorsque le nombre dexemples est faible. La statistique apporte par le bootstrap permet le
contrle automatique de larrt prmatur de lapprentissage et fournit une statistique robuste de lerreur
de gnralisation.
Le deuxime point est li au problme de la dimension de lespace dentre. Mme dans lexemple de
la relation de R12 dans R, quelques centaines de points suffisent la reprsentation de la relation. Dans
de nombreux problmes, des relations non linaires peuvent ainsi tre facilement approches partir
dune densit dexemples faible. noter qu partir dun certain niveau de complexit, les rseaux cons-
truits et rgulariss sur un mme chantillon semblent quivalents. Des rseaux diffrents peuvent tre
adapts pour reprsenter la mme relation.
Dans le cadre de la thorie de lapprentissage statistique, la rgularisation des modles peut tre contrle
et donc optimise par bootstrap. Cette voie est approcher des mthodes plus formelles fondes sur la
thorie propose par [VAPNIK 1995], lenjeu tant ladaptation des capacits calculatoires (dimension VC)
du modle aux donnes. Dans ce cadre, les mthodes statistiques de r-chantillonnage apportent de
relles solutions par leur facilit de mise en uvre et surtout, reconnaissons-le, par les puissances de
calculs aujourdhui disponibles sur nos bureaux.
Lapprentissage statistique
224
Bibliographie
CICHOKI A., UNBEHAUEN R. [1993], Neural Networks for Optimization and Signal Processing, Wiley,
1993.
DEMARTINES P. [1995], Analyse de donnes par rseaux de neurones auto-organises, thse de lInstitut
national polytechnique de Grenoble.
DAVAUD Patrick [1991], Traitement du signal. Concepts et applications, Herms, 1991.
EFRON Bradley, TIBSHIRANI Robert J. [1993], An Introduction to the Bootstrap, Chapman & Hall, 1993.
HRAULT Jeanny, JUTTEN Christian [1993], Rseaux de neurones et traitement du signal, Herms, 1993.
PILATO Vincent [1998], Application des rseaux de neurones aux mthodes de mesure bases sur linte-
raction rayonnement matire, thse Universit Paris-Sud, 4.11.1998.
SAPORTA Gilbert [1990], Probabilits. Analyse des donnes et statistique, ditions Technip, 1990.
VAPNIK Vladimir N. [1995], The Nature of Statistical Learning Theory, Springer, 1995.
VIGNERON Vincent [1997], Mthodes dapprentissage statistiques et problmes inverses Applications
la spectrographie, thse Universit dvry-Val-dEssonne, 5.5.1997.
WONNACOOT Thomas H., WONNACOTT Ronald J. [1990], Statistique conomie-gestion-sciences-mde-
cine, Economica, 4e dition, 1990.
4
Identification neuronale de systmes
dynamiques commands et rseaux
boucls (rcurrents)
Par exemple, dans le modle linaire stationnaire, on reprsente lerreur de modle par un bruit additif
gnralement blanc et gaussien, et lquation dvolution a la forme
x(k + 1) = Ax(k) + Bu(k) + v(k+1)
o les v(k) sont des vecteurs alatoires gaussiens indpendants normaux centrs (esprance 0) de matrice
de variance-covariance G.
Dans ce cas, la trajectoire dtat est alatoire et sappelle un processus stochastique. On va maintenant
donner quelques exemples de systmes dynamiques commands qui nous serviront dillustrations tout au
long de ce chapitre.
o ltat comporte la position du mobile x1 et sa vitesse x2. Pour obtenir une volution temps discret,
nous devons intgrer lquation diffrentielle sur la priode dchantillonnage T. Ici, lquation diffren-
tielle linaire sintgre exactement et la fonction f qui associe ltat au temps t ltat au temps t + T peut
tre crite analytiquement. Comme ce ne sera gnralement pas le cas dans les modles considrs ici ou
dans la plupart des applications, il faudra tendre vers lvolution en utilisant un algorithme approch de
rsolution de lquation diffrentielle (algorithme de Runge-Kutta par exemple [DEMAILLY 1991]).
Pour commander le systme, nous ajoutons une commande scalaire additive de vitesse u.
Par exemple, pour fixer les ides, dans le cas prcdent, on obtient facilement lexpression de la drive
seconde de ltat par :
d2 x1 x1
x = x
dt 2 2 2
cela permet dcrire lapproximation de Taylor au second ordre de lvolution de ltat :
x1 x1 d x1 T 2 d 2 x1 0
x (t + T ) = x (t ) + T (t ) + 2 (t ) +
2 2 dt x 2 2 dt x 2 u(t )
dont les trajectoires approchent lchantillonnage de celles du systme dynamique temps continu.
3 3
2 1.5 1 0.5 0 0.5 1 1.5 2 2.5 2 1.5 1 0.5 0 0.5 1 1.5 2 2.5
Par exemple, dans le cas de la marche alatoire sur le triangle, la matrice de transition est
0 0, 9 0,1
P = 0,1 0 0, 9
0, 9 0,1 0
On peut vrifier que la distribution stationnaire est invariante par la matrice de transition qui structurelle-
ment possde toujours une valeur propre de plus grand module gale 1 (dans le cas dun espace dtat
fini). Ainsi, dans lexemple prcdent, les valeurs propres de la matrice P sont (approximativement) 1,
0,5 + 0.6928i et 0,5 0,6928i. On vrifie facilement que la loi de probabilit uniforme qui attribue une
gale probabilit chaque tat est invariante :
0 0, 9 0,1
(1 / 3 1 / 3 1 / 3) 0,1 0 0, 9 = (1 / 3 1 / 3 1 / 3)
0, 9 0,1 0
La probabilit invariante est lobjet alatoire correspondant ltat dquilibre de la dynamique dtermi-
niste. Elle porte dailleurs ce nom dtat dquilibre dans la terminologie de la physique statistique
(tat de Gibbs).
Voici un autre exemple de dynamique sur le triangle qui brise la symtrie entre les sommets.
Ici, la dynamique de rfrence est :
f ( a) = a, f (b) = a, f (c) = a
La matrice de transition de la chane de Markov est alors
1 0 0
P = 0, 9 0 0,1
0, 9 0,1 0
ses valeurs propres sont 1 et 0,1 et sa distribution stationnaire est (1, 0, 0). Dans ce cas, ltat dquilibre
est dterministe mme si la dynamique est alatoire.
Identification neuronale
231
CHAPITRE 4
Comme prcdemment, on peut introduire un bruit dtat dans le systme dynamique command. Dans
ce cas, la probabilit de transition de ltat x(k) ltat x(k+1) dpend aussi du contrle u(k) appliqu au
temps k.
Par exemple, dans le cas du labyrinthe prsent au dbut de ce paragraphe, f(13, N) = 13. Si nous intro-
duisons un bruit dtat selon lequel le systme de commande peut se tromper avec la probabilit 0,1,
uniformment rpartie sur les autres commandes admissibles, f(13, N) est une variable alatoire prenant
les valeurs 13, 12 et 14 avec les probabilits respectives 0,9, 0,05, 0,05.
Modles auto-rgressifs
Le fichier du nombre de taches solaires de Wolf est un exemple de donnes astronomiques qui est trs
utilis pour prouver les mthodes didentification et de prdiction ; il est maintenu depuis plus de deux
sicles ; ses variations sont reprsentes sur la figure 4-5.
Lapprentissage statistique
232
le vecteur x(k), p + q dimensions, de composantes [x1(k) = x(k),, xp(k) = x(k p + 1), xp+1(k) = v(k),
xp+q(k) = v(k q + 1)], et lquation dtat est :
x1(k + 1) = f[x1(k),, xp(k), v(k + 1), xp+1(k), ), xp+q(k)]
x2(k + 1) = x1(k)
...
xp(k + 1) = xp-1(k)
xp+1(k + 1) = v(k + 1)
xp+2(k + 1) = xp+1(k)
...
xp+q(k + 1) = xp+q-1(k).
De mme que nous avons envisag, outre les systmes dynamiques autonomes, des systmes dynamiques
commands, de mme, la thorie des sries temporelles envisage des modles auto-rgressifs avec
variables exognes, ou modles ARMAX et NARMAX. Dans ces modles, lquation dvolution prend
en considration des variables exognes au temps courant ou dans le pass, qui sont connues et sont
lquivalent du signal de commande. On obtient ainsi les modles ARMAX (p, q, r)
x(k + 1) = a1x(k) + + apx(k p + 1) + b0v(k + 1) + b1v(k)+ bqv(k q + 1) + c1u(k) + + cru(k r + 1)
et NARMAX (p, q ,r)
x(k + 1) = f[x(k), , x(k p + 1), v(k + 1), v(k), v(k q + 1), u(k), , u(k r + 1)].
de N variables scalaires de sortie (y1,, yk,, yN), le vecteur colonne (n, 1) w = (w1 ; ; wn) qui minimise
la fonction de cot des moindres carrs :
N
J = ( yk x k w ) 2
k =1
ou, dune manire quivalente, la moyenne quadratique des rsidus :
1 N
N (w) = ( yk x k w)2.
2 N k =1
On se limite ici au cas classique dune sortie scalaire : le cas des sorties vectorielles napporte aucun chan-
gement dans le principe. Comme il sagit dun problme doptimisation cot quadratique (le cot
minimiser est une fonction du second degr par rapport lensemble fini des variables), on sait que la
solution est unique et dtermine par la formule matricielle
1
w = ( X T X ) X T Y
o la matrice (N, n) X = (x1 ; ; xk ; ; xN) et le vecteur colonne (N,1) Y = (y1 ; ; yk ; ; yN) sont
obtenus par concatnation des donnes dentre et de sortie condition que le problme soit bien pos,
cest--dire que la matrice (XTX) soit inversible.
Cet algorithme sapplique pour identifier les modles auto-rgressifs de la section prcdente. Pour iden-
tifier le modle ARX :
x(k + 1) = a1x(k) + + apx(k p + 1) + b0v(k + 1) + c1u(k) + + cr u(k r + 1).
On a donc ici w = [a1, , ap, b0, c1, , cr]T.
Quand une trajectoire de commande [u(1), , u(k), , u(N)] et une trajectoire de sortie [x(1),, x(k), , x(N)]
sont notre disposition, nous pouvons construire les vecteurs dentre (1, p+r) xk = [x(k) ; ; x(k p+1) ;
u(k) ; ; u(k r + 1)] pour k variant de max(p, r)+1 (N 1) et nous prendrons comme sortie correspon-
dante yk = x(k + 1).
De trs bons rsultats peuvent tre obtenus pourvu que le modle sur lequel est construit lestimateur soit
bien reprsentatif des donnes exprimentales traites. Le cas suivant de simulation illustre cette affirma-
tion.
Ces rsultats moins bons sexpliquent par une mauvaise modlisation : la trajectoire de commande tant,
dans cette exprience, un bruit blanc, lestimateur dun modle AR a t utilis pour traiter des donnes
produites, en ralit, par un modle ARMA bruit vectoriel (uk, vk).
Si, au lieu de simuler le modle prcdent, un bruit de mesure est introduit dans la simulation qui perturbe
lobservation de ltat sans entraner de consquences ultrieures sur la dynamique (ce point sera dve-
lopp au dbut de la section consacre au filtrage), les donnes sont produites par simulation du modle
suivant :
x ( k + 1) = a1 x ( k ) + a2 x ( k 1) + c1u( k ) + c2 u( k 1)
.
y( k ) = x ( k ) + b0 w( k )
Dans ce cas, lapplication de la procdure didentification ARX produit de mauvais rsultats malgr la
connaissance de la trajectoire de commande. On obtient :
a 1 = 0,61, a 2 = 0,36, c 1 = 0,49, c 2 = 0,11.
Cette exprience montre limportance dune modlisation correcte des bruits pour lestimation par rgres-
sion linaire. Nous avons dj trait ce problme dans le cadre de la modlisation dynamique par rseaux
de neurones (chapitre 2), et nous le retrouverons plus loin dans ce chapitre. Laddition dun bruit de
mesure ajoute un problme nouveau, celui du filtrage qui sera trait dans ce chapitre.
Justification mathmatique
Lanalyse statistique linaire des sries temporelles est bien connue et sort du cadre de cet ouvrage. Pour
un expos permettant daccder aux mthodes statistiques classiques didentification et de prvision, on
se reportera [CHATFIELD 1994] pour un expos pratique et [GOURIROUX 1995], [AZENCOTT 1984],
pour les justifications mathmatiques. Esquissons la justification de la procdure des moindres carrs dans
le cas le plus simple, celui dun modle auto-rgressif linaire stable, en rgime stationnaire, et dun bruit
gaussien centr. On note en majuscules les inconnues qui sont considres comme des variables ala-
toires.
Considrons le processus gaussien stationnaire du second ordre produit par le modle auto-rgressif
AR(p) :
X(k + 1) = a1X(k) + + apX(k p + 1) + b0V(k + 1)
o le modle est stable (cest--dire o le polynme P( z ) = 1 a1z ... a p z p a ses racines lextrieur
du disque unit) et o le bruit blanc (Vk) est gaussien centr. Dans ce cas, en notant rj = Cov(Xk, Xk-j), on
obtient les relations de Yule-Walker en prenant la covariance des deux membres de lquation prsente
ci-avant avec les variables (Xk-i)i = 0...p1 :
r1 = a1r0 + ... + a p rp
................................. .
r = a r + ... + a r
p 1 p 1 p 0
Les mmes relations relient approximativement (aux erreurs de troncatures prs, tendant vers 0 avec le
p
rapport ---- ) les estimateurs empiriques des moindres carrs de la covariance :
N
1 k=N
ri = x(k ) x(k i)
N p k =i +1
et les estimateurs des moindres carrs des coefficients de la rgression a i . Dautre part, les estimateurs r i
sont consistants, sans biais et asymptotiquement normaux avec une variance de lordre de 1/N. On peut
Lapprentissage statistique
236
alors en dduire que les estimateurs a i sont consistants, asymptotiquement sans biais et asymptotique-
ment normaux avec une variance de lordre de 1/N, ce qui permet de faire des tests dadquation du
modle.
Remarque
Un estimateur est dit consistant si sa variance tend vers zro lorsque le nombre dchantillons tend vers linni.
Notons que, dans le cas des systmes linaires, les mthodes prsentes ici sont tout fait lmentaires et
ont t considrablement amliores tant par les automaticiens que par les statisticiens. Les principales
amliorations portent sur lintroduction du point de vue spectral, cest--dire par lidentification de la
fonction de transfert des filtres sous-jacents aux modles ARMA. On trouvera facilement ces techniques
dans les livres de base, notamment ceux cits en rfrence. Leur expos dpasse le cadre de cet ouvrage,
puisque les rseaux de neurones se situent dans le cadre des modles non linaires.
Dans lexemple de loscillateur de Van der Pol dcrit dans la section prcdente (qui, rappelons-le, est un
oscillateur non linaire), aucun modle linaire doscillateur ne peut prsenter un quilibre instable et un
cycle limite stable. On voit que lalgorithme de rgression linaire a bien captur la frquence de loscilla-
teur. Le comportement non linaire ne peut tre dcrit par un modle linaire.
La fonction RN est ralise par un rseau de neurones non boucl. Lentre du rseau est constitue des
signaux que lon cherche identifier (cest--dire les sorties du processus) du temps k au temps k p + 1
(o p est lordre du modle) et des commandes du temps k au temps k r + 1 (o r est lhorizon sur la
commande). Lestimation des paramtres est ralise partir de lerreur de modlisation, cest--dire la
diffrence entre la sortie du processus x(k + 1) et la prdiction effectue par le modle g(k + 1). Cest donc
exactement le schma destimation des paramtres que nous avons prsent dans le paragraphe sur la
modlisation dynamique avec hypothse bruit dtat et reprsentation entre-sortie, dans le chapitre 2.
Comme nous lavons dj indiqu, une base dapprentissage est forme de lentre qui est un vecteur du
type xk = [x(k) ;; x(k p + 1) ; u(k) ;; u(k r + 1)] et de la sortie qui est la variable gk = x(k + 1). Cette
base dapprentissage peut tre ralise de deux manires.
Si lon utilise un simulateur du procd que lon cherche commander, on constituera la base en faisant
fonctionner le simulateur sur un chantillonnage reprsentatif de lespace des entres (maillage rgulier),
ou sur une distribution privilgiant les points les plus courants, ou au contraire les points limites au voisi-
nage desquels on veut scuriser la performance du rseau. Cette situation est frquente lorsquon cherche
raliser une modlisation semi-physique ou bote grise, comme nous lavons indiqu dans le chapitre 2.
Si, en revanche, la base est construite par utilisation en temps rel dun dispositif exprimental, on na
gnralement pas la possibilit de raliser un tel chantillonnage des entres : la base dapprentissage est
construite partir de lchantillonnage de trajectoires exprimentales des entres et des sorties du systme.
Il importe alors que la ou les trajectoires chantillonnes visitent avec une rgularit suffisante lespace des
entres du rseau (produit de lespace dtat par lespace des commandes). Dans le cas dun systme dyna-
mique command, ce rsultat est gnralement obtenu en excitant le systme par des commandes ala-
toires. La question du choix dune telle trajectoire de commande est une question dlicate, qui dpend
fortement du systme quon cherche identifier. Dans le cas dun systme linaire, les excitations sont, par
exemple, harmoniques, et lon cherche identifier ainsi la fonction de transfert du processus. Dans le cas
du systme non linaire, on choisit ordinairement une trajectoire alatoire. Il peut tre cependant judicieux
de choisir pour trajectoires de commandes des bruits filtrs dans des plages de frquence variable. Le
chapitre 2 fournit quelques lments qui permettent de construire des plans dexprience.
Systme cible
Modle neuronal Systme cible
Comparaison des positions Modle neuronal
3 Comparaison des positions
3
2
2
1
1
0
0
1 1
2 2
3
0 2 4 6 8 10 12 14 16 18 20 3 0 2 4 6 8 10 12 14 16 18 20
Time (sec) Time (sec)
Comparaison des vitesses Comparaison des vitesses
3 6
2 4
1 2
0 0
1
2
2
3 4
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
(a) Time (sec) (b) Time (sec)
Figure 4-9. Comparaison de loscillateur de Van der Pol command et de son identification par rgression non linaire :
(a) Trajectoire de commande nulle (b) Trajectoire de commande alatoire.
Identification neuronale
239
CHAPITRE 4
La figure 4-9 prsente un exemple didentification de loscillateur de Van der Pol, o lapprentissage a t
effectu sur une base de 153 = 3375 exemples, obtenus par lchantillonnage de la trajectoire de loscilla-
teur excit par une commande alatoire. Cette base a dj t utilise pour la rgression linaire dont les
rsultats sont reprsents sur la figure 4-7. Les rsultats sont ici bien meilleurs.
Ces rsultats sont obtenus avec une architecture trois entres, dix neurones cachs et deux neurones de
sortie. Si lon effectue lapprentissage avec une base dapprentissage de mme dimension, obtenue par un
maillage rgulier de lespace dtats et de lensemble des commandes admissibles, lapprentissage ne
peut se faire convenablement dans les mmes conditions (sans pr-traitement particulier de la base
dentre). Limportance du choix de la base dapprentissage est ainsi illustre. Comme nous lavons dj
indiqu dans le chapitre 2, il est important de constituer la base dapprentissage par un chantillonnage
reprsentatif de la densit avec laquelle le systme visite lespace dtats et lespace des commandes. Ce
point sera prcis dans la section suivante sur lapprentissage en ligne. On retiendra en particulier limpor-
tance, pour lapprentissage, dune commande alatoire permettant une visite effective de ce domaine
(politique dexploration), notamment dans le cas o le systme dynamique possde un attracteur stable
(oscillateur de Van der Pol). On reviendra, dans le chapitre suivant, sur limportance de la politique
dexploration dans le cadre de la programmation neuro-dynamique.
Le choix de lordre du systme est important puisquil conditionne le nombre de paramtres de configu-
ration du rseau identifier. Cest un paramtre plus sensible que dans le cas linaire. Le choix de lordre
des modles est une question en thorie mal rsolue en rgression non linaire. Pratiquement, on combine
une approche empirique et ladaptation de critres dinformation mis au point pour les modles linaires
[GOURIEROUX 1995], ou bien lon utilise une approche par test dhypothses [URBANI 1993]. Comme
nous lavons vu dans le chapitre 2, lidentification non adaptative par rseau de neurones partir dune
base dapprentissage reprsentative de tout le domaine des entres ne pose pas de problme particulier au
concepteur de modle neuronal, sous rserve de lutilisation dune mthodologie srieuse et dalgo-
rithmes dapprentissage efficaces.
Ces problmes se posent toujours dans le cas de lidentification adaptative, o lon veut traiter les
donnes obtenues par lobservation du systme dynamique en flux, cest--dire au fur et mesure de leur
production. En revanche, le caractre adaptatif de lalgorithme les situe dans un cadre nouveau que nous
allons aborder dans la section suivante.
Cet estimateur possde toutes les proprits gnrales des estimateurs de rgression linaire nonces
prcdemment : consistant, sans biais, et de variance minimale parmi les estimateurs sans biais. Sa
consistance, cest--dire sa convergence vers a, est appele la loi des grands nombres, exprimant intuiti-
vement que la moyenne arithmtique dune suite de rsultats dexpriences alatoires, indpendantes,
permet dapprocher lesprance mathmatique de la variable alatoire modlisant le rsultat de lexp-
rience.
Une simple rcriture de la formule de dfinition prcdente nous permet dobtenir une formulation
rcursive :
N
( N + 1)a N +1 = x k + x N +1 = Na N + x N +1
k =1
do
1
a N +1 = a N +
N +1
( x k +1 a N ) .
Lintrt de cette formulation rcursive est quelle permet
une estimation adaptative. Une seule observation est Signal
(a) 20
ncessaire pour initialiser lestimation. Par la suite, la mise
jour de lestimation ne demande pas la disposition de 15
lensemble des mesures : il suffit de disposer de lestima- 10
tion prcdente et de la mesure au temps courant. Le coef- 5
ficient + 1=1/(N + 1) sappelle le gain de lalgorithme ou 0
le taux dapprentissage. 5
10
Un autre avantage de lestimateur rcursif de moyenne
15
empirique est quil permet de poursuivre les variations
20
lentes du paramtre quon estime dans le cas dun modle 0 5 10 15
non stationnaire. Pour que lestimateur soit adaptatif, il
(b) Estimation du paramtre : gain constant
faut remplacer le gain en 1/N lentement dcroissant vers 0 8
de la formule prcdente par un petit gain constant. Dans Paramtre source
6 Estimation (gain = 0.007)
ce cas, lestimateur est identique un filtre (ici un filtre du
Estimation (gain = 0.025)
premier ordre). Pour comparer les filtres du premier ordre 4
et les estimateurs rcursifs de la moyenne, on a reprsent,
2
figure 4-10, le comportement dun tel estimateur pour
poursuivre des variations quasi priodiques de la moyenne 0
du signal avec un rapport signal/bruit de 1/5. Le signal
2
trait est reprsent dans le graphique (a). Dans le
graphique (b), on compare le rsultat pour diffrentes 4
0 5 10 15
valeurs du gain : on remarque que, gain bas, le bruit est
plus attnu, mais la capacit de poursuite du filtre plus (c) Estimation du paramtre : gain dcroissant
12
basse. Dans le graphique (c), on compare les perfor- 10
Paramtre source
mances destimateurs rcursifs dont les exposants de Estimation (exposant = 1)
8 Estimation (exposant = 0.55)
dcroissance des gains sont respectivement 1 (moyenne
6
empirique) et 0,55. On remarque que les capacits de
4
poursuite de lestimateur moyenne empirique ne sont pas
2
suffisantes dans cet exemple.
0
Figure 4-10. Comportement de lestimateur de moyenne empirique : 2
(a) Signal utilis, (b) Estimation du paramtre par filtrage IIR gain 4
constant, (c) Estimation du paramtre par filtrage gain dcroissant. 0 5 10 15
Identification neuronale
241
CHAPITRE 4
On peut remarquer que lestimateur de la moyenne empirique est un estimateur fond sur la minimisation
du critre quadratique par une descente de gradient. En effet, dans le cas du modle stationnaire, les
donnes sont un chantillon de la loi de probabilit de la variable alatoire X. On cherche minimiser la
1
[ ]
fonction de cot thorique J(a) = E ( X a) 2 ; notons quil nest pas possible de calculer cette fonction,
2
puisquelle fait intervenir lesprance mathmatique dune variable alatoire dont la loi de probabilit est
inconnue de lutilisateur. Le gradient de J (ici sa drive) est : J(a) = E(