Vous êtes sur la page 1sur 127

R

ESEAUX DE NEURONES
GIF-21140 et GIF-64326
par Marc Parizeau
Automne 2004
Table des mati` eres
1 Introduction 1
1.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Histoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Mod` ele de neurone et r eseau 5
2.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Mod` ele dun neurone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Fonctions de transfert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Architecture de r eseau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Alg` ebre lin eaire 17
3.1 D enition dun espace vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 D ependance lin eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.2 Bases et dimensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.3 Produit scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.4 Norme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.5 Orthogonalit e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Transformations lin eaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1 Repr esentations matricielles . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.2 Changement de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.3 Valeurs et vecteurs propres . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4 Processus dapprentissage 27
4.1 Par correction derreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2 Par la r` egle de Hebb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3 Comp etitif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4 Probl` eme de laffectation du cr edit . . . . . . . . . . . . . . . . . . . . . . . . . . 33
i
ii TABLE DES MATI
`
ERES
4.5 Supervis e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.6 Par renforcement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.7 Non-supervis e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.8 T aches dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5 Perceptron multicouche 39
5.1 Perceptron simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 R` egle LMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3 R eseau multicouche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3.1 Probl` eme du ou exclusif . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.3.2 Approximation de fonction . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3.3 Classication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.4 R etropropagation des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.4.1 Calcul des sensibilit es . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.4.2 Algorithme dentranement . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.4.3 Crit` eres darr et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.4.4 Ph enom` ene de saturation . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4.5 Groupage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.4.6 Momentum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.4.7 Taux dapprentissage variable . . . . . . . . . . . . . . . . . . . . . . . . 60
5.4.8 Autres consid erations pratiques . . . . . . . . . . . . . . . . . . . . . . . 60
5.5 M ethode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.6 M ethode du gradient conjugu e . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.6.1 Algorithme du gradient conjugu e . . . . . . . . . . . . . . . . . . . . . . 64
5.6.2 Recherche du minimum le long dune droite . . . . . . . . . . . . . . . . . 65
6 Nu ees dynamiques 69
6.1 K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.2 Fuzzy K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.3 Possibilistic K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7 R eseau de Kohonen 79
7.1 Algorithme de Kohonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.2 Propri et es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7.4 R eseau LVQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
TABLE DES MATI
`
ERES iii
8 R eseau GNG 89
8.1 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
9 Architectures ART 93
9.1 Fuzzy ART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
9.2 Fuzzy ARTmap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
10 ACP et apprentissage hebbien 103
10.1 R` egle de Hebb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
10.2 R` egle de Oja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
10.3 R` egle de Sanger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
10.4 Apprentissage de Hebb supervis e . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
10.4.1 R` egle de la matrice pseudo-inverse . . . . . . . . . . . . . . . . . . . . . . 109
10.4.2 Exemple dauto-association . . . . . . . . . . . . . . . . . . . . . . . . . 110
11 R eseau RBF 113
11.1 Entranement dun r eseau RBF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
iv TABLE DES MATI
`
ERES
Table des gures
2.1 Mod` ele dun neurone articiel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Sch ema dun neurone biologique. . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Repr esentation matricielle du mod` ele dun neurone articiel. . . . . . . . . . . . . 10
2.4 Fonction de transfert : (a) du neurone seuil; (b) du neurone lin eaire, et (c)
du neurone sigmode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Couche de S neurones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.6 Repr esentation matricielle dune couche de S neurones. . . . . . . . . . . . . . . 14
2.7 Repr esentation matricielle dun r eseau de trois couches. . . . . . . . . . . . . . . 14
2.8

El ement de retard. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1 Diff erents sous-ensembles de
2
: (a) r egion rectangulaire ; (b) droite ; (c) plan. . . 18
3.2 Illustration de la m ethode de transformation orthogonale Gram-Schmidt. . . . . . 22
3.3 Transformation de rotation : (a) rotation du vecteur x; (b) rotation des vecteurs
de base v
1
et v
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1 Trajectoire de la descente du gradient. . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Repr esentation graphique de la r` egle instar lors dune activit e post-synaptique
positive. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3 Sch ema bloc de lapprentissage supervis e. . . . . . . . . . . . . . . . . . . . . . . 34
5.1 Perceptron ` a une seule couche avec fonction seuil. . . . . . . . . . . . . . . . . . . 40
5.2 Fronti` ere de d ecision pour un perceptron simple ` a 1 neurone et deux entr ees. . . . 41
5.3 Exemple dun probl` eme ` a deux classes (points noirs vs points blancs). . . . . . . . 42
5.4 Exemples de probl` emes non lin eairement s eparables. . . . . . . . . . . . . . . . . 43
5.5 R eseau ADALINE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.6 Trajectoire de la descente du gradient pour diff erents taux dapprentissage : (a)
taux faible ; (b) taux moyen ; (c) taux (trop) elev e. . . . . . . . . . . . . . . . . . . 47
5.7 R eseau multicouche pour r esoudre le probl` eme du ou exclusif. . . . . . . . . . . 48
v
vi TABLE DES FIGURES
5.8 Fronti` eres de d ecision engendr ees par le r eseau de la gure 5.7 : (a) neurone 1 de
la couche 1 ; (b) neurone 2 de la couche 1 ; (c) neurone 1 de la couche 2. . . . . . . 49
5.9 Fronti` ere de d ecision engendr ee par le neurone qui effectue une conjonction. . . . 49
5.10 R eseau multicouche permettant de faire de lapproximation de fonction. . . . . . . 50
5.11 Exemples de fronti` eres de d ecision : (a) convexe ouverte ; (b) convexe ferm ee ; (c)
concave ouverte ; et (d) concave ferm ee. . . . . . . . . . . . . . . . . . . . . . . . 50
5.12 Repr esentation matricielle dun r eseau de trois couches (reproduction de la gure
2.7). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.13 Illustration du ph enom` ene de sur-apprentissage pour le cas simple dune approxi-
mation de fonction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.14 Illustration de la validation crois ee. . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.15 Exemple dun neurone satur e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.16 Illustration de la m ethode du gradient conjugu e. . . . . . . . . . . . . . . . . . . . 65
5.17

Etape de localisation dun intervalle initial de recherche. . . . . . . . . . . . . . . 66
5.18

Etape de r eduction de lintervalle de recherche : (a) cas o` u F
c
< F
d
; (b) cas o` u
F
d
< F
c
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.1 Couche comp etitive de S = K neurones. . . . . . . . . . . . . . . . . . . . . . . . 70
6.2 Algorithme du k-means. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.3 Example dune partition rigide en deux classes : (a) cas sans bruit ; (b) cas avec
bruit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.4 Algorithme du fuzzy k-means. . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.5 Exemple dune partition oue ` a deux classes. . . . . . . . . . . . . . . . . . . . . 74
6.6 Algorithme du possibilistic k-means. . . . . . . . . . . . . . . . . . . . . . . . 77
7.1 R eseau de Kohonen avec carte rectangulaire de S = 6 7 = 42 neurones. . . . . 80
7.2 Topologie de voisinage (quatre voisins) pour une carte ` a deux dimensions : (a)

18
= 2 ; (b)
18
= 1 ; et (c)
18
= 0. . . . . . . . . . . . . . . . . . . . . . . . . 80
7.3 Exemple de d ecroissance (a) du taux dapprentissage et (b) de la fen etre de voisi-
nage en fonction du temps. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.4 Algorithme de Kohonen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.5 Fonction de voisinage gaussienne. . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.6 Illustration de la relation entre la carte auto-organis ee et le vecteur
g
w du
neurone gagnant pour le stimulus p. . . . . . . . . . . . . . . . . . . . . . . . . . 84
7.7 Exemple dune carte auto-organis ee ` a une dimension. Les stimuli dapprentissage
sont distribu ees uniform ement ` a lint erieur dun triangle. . . . . . . . . . . . . . . 85
7.8 Exemple dune carte auto-organis ee ` a deux dimensions. Les stimuli dapprentis-
sage sont distribu ees uniform ement ` a lint erieur dun carr e. . . . . . . . . . . . . 85
TABLE DES FIGURES vii
7.9 Exemple dune carte auto-organis ee ` a deux dimensions (droite). Les stimuli dap-
prentissage sont distribu ees uniform ement ` a lint erieur dun volume tridimension-
nel en forme de cactus (gauche). . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.10 R eseau LVQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.1 Exemple dun GNG entran e sur des stimuli echantillonn es dans un volume en
forme de prisme rectangulaire, sur une surface rectangulaire appos ee perpendicu-
lairement ` a lune des faces du prisme et ` a une courbe en forme danneau au bout
dune tige appos ee ` a lune des extr emit es de la surface. . . . . . . . . . . . . . . . 92
9.1 Architecture du r eseau fuzzy ART. . . . . . . . . . . . . . . . . . . . . . . . . . . 94
9.2 Repr esentation vectorielle dun ensemble ou E d eni sur un r ef erentiel de deux
el ements. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
9.3 R egions associ ees ` a
i
w = [x y
c
]
T
(en trait plein) et ` a a
1

i
w (en trait pointill e). . 97
9.4 Architecture du r eseau fuzzy ARTmap. . . . . . . . . . . . . . . . . . . . . . . . . 99
10.1 Illustration des composantes principales pour un nuage de points en deux dimen-
sions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
10.2 R eseau permettant deffectuer une analyse en S composantes principales. . . . . . 107
10.3 R eseau auto-associatif pour la reconnaissance de chiffres. . . . . . . . . . . . . . 110
10.4 Prototypes pour lapprentissage auto-associatif des chiffres 0, 1 et 2. . . . 111
10.5 Exemples de r eponses du r eseau auto-associatif de la gure 10.3 pour des stimuli
d egrad es ou bruit es : (a) chiffres 0 ; (b) chiffres 1 ; et (c) chiffres 2. . . . . . . . . . 111
11.1 R eseau RBF avec fonctions radiales gaussiennes. . . . . . . . . . . . . . . . . . . 114
viii TABLE DES FIGURES
Liste des tableaux
2.1 Fonctions de transfert a = f(n). . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
9.1 Valeurs sugg er ees pour les param` etres du fuzzy ARTmap dans un contexte de clas-
sement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
9.2 Valeurs sugg er ees pour les param` etres du fuzzy ARTmap dans un contexte dap-
proximation de fonction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
ix
Chapitre 1
Introduction
Les r eseaux de neurones, fabriqu es de structures cellulaires articielles, constituent une ap-
proche permettant daborder sous des angles nouveaux les probl` emes de perception, de m emoire,
dapprentissage et de raisonnement. Ils sav` erent aussi des alternatives tr` es prometteuses pour
contourner certaines des limitations des ordinateurs classiques. Gr ace ` a leur traitement parall` ele
de linformation et ` a leurs m ecanismes inspir es des cellules nerveuses (neurones), ils inf` erent des
propri et es emergentes permettant de solutionner des probl` emes jadis quali es de complexes.
Nous aborderons dans ce cours les principales architectures de r eseaux de neurones que lon
retrouve dans la litt erature. Il ne sagit pas de les etudier toutes, car elles sont trop nombreuses,
mais plut ot den comprendre les m ecanismes internes fondamentaux et de savoir comment et quand
les utiliser. En ce sens, nous mettrons autant lemphase sur lanalyse math ematique de ces r eseaux
que sur la facon de les utiliser dans la pratique pour r esoudre des probl` emes concrets.
Nous aborderons egalement certaines notions relatives aux ensembles ous et ` a la logique dans
la mesure o` u ces derniers sont incorpor es dans certaines des architectures de r eseaux de neurones
que nous etudierons.
Le reste de ce chapitre elabore davantage sur les objectifs poursuivis par ce cours, puis pr esente
un bref historique du domaine des r eseaux de neurones avant de terminer par un survol de leurs
diff erentes applications. Le chapitre 2 introduit ensuite le mod` ele math ematique du neurone arti-
ciel et etablit une notation coh erente qui sera suivie tout au long des chapitres subs equents. Le
chapitre 3 effectue un certain nombre de rappels en alg` ebre lin eaire, rappels qui seront forts utiles
tout au long de cet ouvrage lorsque nous etudierons diff erentes architectures de r eseaux de neu-
rones. Le chapitre 4 pr esente quant ` a lui la probl ematique g en erale de lapprentissage en d ecrivant
les principales r` egles pouvant etre utilis ees ainsi que les diff erents types dapproche. Ainsi, nous
aborderons les notions de correction derreur, dapprentissage hebbien, comp etitif, supervis e, non-
supervis e et, nalement, dapprentissage par renforcement. Par la suite, nous etudierons en d etails
diff erentes architectures de r eseau de neurones dont le perceptron multicouche, le r eseau de Koho-
nen, le Growing Neural Gas (GNG), certains membres de la famille des r eseaux ART (Adap-
tive Resonance Theory), le Radial Basis Function (RBF) et le Support Vector Machine
(SVM). Nous traiterons aussi de lalgorithme du K-means qui sapparente au r eseau de Koho-
1
2 CHAPITRE 1. INTRODUCTION
nen, ainsi que de lanalyse en composantes principales (ACP) via un apprentissage hebbien.
Ces notes de cours sont d eriv ees dun certain nombre douvrages dont les principaux sont
enum er es en annexe.
1.1 Objectifs
Le cerveau humain contient environ 100 milliards de neurones. Ces neurones vous permettent,
entre autre, de lire ce texte tout en maintenant une respiration r eguli` ere permettant doxyg ener
votre sang, en actionnant votre c ?ur qui assure une circulation efcace de ce sang pour nourrir vos
cellules, etc. Ils vous permettent m eme, je lesp` ere, de comprendre les id ees que je tente de vous
transmettre !
Chacun de ces neurones est par ailleurs fort complexe. Essentiellement, il sagit de tissu vi-
vant et de chimie. Les sp ecialistes des neurones biologiques (ceux qui ?uvrent en neurophysiologie)
commencent ` a peine ` a comprendre quelques uns de leurs m ecanismes internes. On croit en g en eral
que leurs diff erentes fonctions neuronales, y compris celle de la m emoire, sont stock ees au niveau
des connexions (synapses) entre les neurones. Cest ce genre de th eorie
1
qui a inspir e la plupart
des architectures de r eseaux de neurones articiels
2
que nous aborderons dans ce cours. Lappren-
tissage consiste alors soit ` a etablir de nouvelles connexions, soit ` a en modier des existantes.
Ceci nous am` ene ` a poser une question fondamentale : en ce basant sur nos connaissances
actuelles, peut-on construire des mod` eles approximatifs de neurones et les entraner pour, eventuel-
lement, r ealiser des t aches utiles ? Eh bien, la r eponse courte est oui, m eme si les r eseaux que
nous allons d evelopper ne poss` edent quune inme fraction de la puissance du cerveau humain,
et cest lobjectif du cours de vous montrer comment on peut y arriver sans salir son linge !
Pour ce qui est de la r eponse longue (plus d etaill ee), elle suit dans les chapitres subs equents.
Mais avant dy arriver, faisons un peu dhistoire...
1.2 Histoire
De nombreux ouvrages ont permis de documenter lhistoire des recherches en r eseaux de
neurones. En particulier, le livre intitul e Neurocomputing : Foundations of Research edit e par
John Anderson et Edward Rosenfeld est une compilation de 43 articles qui ont marqu e le domaine
sur le plan historique. Chacun dentre eux est dailleurs pr ec ed e dune introduction qui permet de
situer larticle dans son contexte.
1
Des th eories r ecentes sugg` erent au contraire que linformation pourrait etre stock ee au niveau de la morphologie
des connexions (des dendrites) ; mais ceci est totalement en dehors du cadre de ce cours (ainsi que du domaine de
comp etence du professeur !).
2
Ce cours traitant exclusivement des r eseaux de neurones articiels (par opposition ` a biologique), nous omettrons
parfois dajouter le mot articiel ` a la suite de neurone et de r eseau de neurones, sachant quil est toujours
sous-entendu, sauf lorsque mention explicite du contraire.
1.2. HISTOIRE 3
Deux ingr edients sont ` a la base de tout avancement des connaissances. Premi` erement, il im-
porte de poss eder un nouveau concept, ou un nouveau point de vue ` a propos dun sujet, qui vient
jeter une lumi` ere l` a o` u il ny avait quobscurit e. Par exemple, consid erons le c ?ur humain.
`
A
diff erentes epoques on le consid erait comme le centre de l ame ou encore comme une source
de chaleur. Quelque part au 17e si` ecle, les m edecins ont commenc e ` a le consid erer comme une
pompe et ont donc concu des exp eriences pour tenter de comprendre son fonctionnement, ce qui
a eventuellement permis une compr ehension du syst` eme sanguin, etc. Sans le concept de pompe,
une compr ehension du c ?ur et du syst` eme sanguin en g en eral etait simplement hors datteinte.
Deuxi` emement, il importe aussi de poss eder des outils technologiques permettant de construire
des syst` emes concrets. Par exemple, on connaissait les th eories physiques permettant denvisager
la conception dune bombe atomique bien avant d etre capable de r ealiser une telle bombe. On sa-
vait aussi math ematiquement reconstruire des images de radiographie en coupe (tomographie) bien
avant de poss eder les ordinateurs et les algorithmes capables deffectuer efcacement les calculs
requis dans un temps raisonnable.
Lhistoire des r eseaux de neurones est donc tiss ee ` a travers des d ecouvertes conceptuelles et
des d eveloppements technologiques survenus ` a diverses epoques.
Bri` evement, les premi` eres recherches remontent ` a la n du 19e et au d ebut du 20e si` ecle. Ils
consistent en de travaux multidisciplinaires en physique, en psychologie et en neurophysiologie
par des scientiques tels Hermann von Helmholtz, Ernst Mach et Ivan Pavlov.
`
A cette epoque, il
sagissait de th eories plut ot g en erales sans mod` ele math ematique pr ecis dun neurone. On sentend
pour dire que la naissance du domaine des r eseaux de neurones articiels remonte aux ann ees
1940 avec les travaux de Warren McCulloch et Walter Pitts qui ont montr e quavec de tels r eseaux,
on pouvait, en principe, calculer nimporte quelle fonction arithm etique ou logique. Vers la n
des ann ees 1940, Donald Hebb
3
a ensuite propos e une th eorie fondamentale pour lapprentissage.
Nous y reviendrons dailleurs ` a plusieurs reprises dans les chapitres suivants.
La premi` ere application concr` ete des r eseaux de neurones articiels est survenue vers la n
des ann ees 1950 avec linvention du r eseau dit perceptron par un d enomm e Frank Rosenblatt.
Rosenblatt et ses coll` egues ont construit un r eseau et d emontr e ses habilit es ` a reconnatre des
formes. Malheureusement, il a et e d emontr e par la suite que ce perceptron simple ne pouvait
r esoudre quune classe limit ee de probl` eme. Environ au m eme moment, Bernard Widrow et Ted
Hoff ont propos e un nouvel algorithme dapprentissage pour entraner un r eseau adaptatif de neu-
rones lin eaires, dont la structure et les capacit es sont similaires au perceptron. Nous les etudierons
tous les deux au chapitre 5.
Vers la n des ann ees 1960, un livre publi e par Marvin Minsky et Seymour Papert est venu jeter
beaucoup dombre sur le domaine des r eseaux de neurones. Entre autres choses, ces deux auteurs
ont d emontr e les limitations des r eseaux d evelopp es par Rosenblatt et Widrow-Hoff. Beaucoup
de gens ont et e inuenc es par cette d emonstration quils ont g en eralement mal interpr et ee. Ils ont
conclu ` a tort que le domaine des r eseaux de neurones etait un cul de sac et quil fallait cesser de
sy int eresser (et de nancer la recherche dans ce domaine), dautant plus quon ne disposait pas ` a
l epoque dordinateurs sufsamment puissants pour effectuer des calculs complexes.
3
Un canadien qui a pass e la majorit e de sa carri` ere acad emique ` a lUniversit e McGill.
4 CHAPITRE 1. INTRODUCTION
Heureusement, certains chercheurs ont pers ev er e en d eveloppant de nouvelles architectures
et de nouveaux algorithmes plus puissants. En 1972, Teuvo Kohonen et James Anderson ont
d evelopp e ind ependamment et simultan ement de nouveaux r eseaux pouvant servir de m emoires
associatives (chapitre 7).

Egalement, Stephen Grossberg a investigu e ce quon appelle les r eseaux
auto-organis es (chapitre 9).
Dans les ann ees 1980, une pierre dachoppement a et e lev ee par linvention de lalgorithme de
r etropropagation des erreurs (section 5.4). Cette algorithme est la r eponse aux critiques de Minsky
et Papert formul ees ` a la n des ann ees 1960. Cest ce nouveau d eveloppement, g en eralement at-
tribu e ` a David Rumelhart et James McClelland, mais aussi d ecouvert plus ou moins en m eme
temps par Paul Werbos et par Yann LeCun, qui a litt eralement ressuscit e le domaine des r eseaux
de neurones. Depuis ce temps, cest un domaine o` u bouillonne constamment de nouvelles th eories,
de nouvelles structures et de nouveaux algorithmes. Dans ce cours, nous allons tenter den survoler
les principaux.
1.3 Applications
Les r eseaux de neurones servent aujourdhui ` a toutes sortes dapplications dans divers do-
maines. Par exemple, on a d evelopp e un auto-pilote pour avion, ou encore un syst` eme de gui-
dage pour automobile, on a concu des syst` emes de lecture automatique de ch` eques bancaires et
dadresses postales, on produit des syst` emes de traitement du signal pour diff erentes applications
militaires, un syst` eme pour la synth` ese de la parole, des r eseaux sont aussi utilis es pour b atir
des syst` emes de vision par ordinateur, pour faire des pr evisions sur les march es mon etaires, pour
evaluer le risque nancier ou en assurance, pour diff erents processus manufacturiers, pour le diag-
nostic m edical, pour lexploration p etroli` ere ou gazi` ere, en robotique, en t el ecommunication, et
jen passe ! Bref, les r eseaux de neurones ont aujourdhui un impact consid erable et, il y a fort ` a
parier, que leur importance ira grandissant dans le futur.
Chapitre 2
Mod` ele de neurone et r eseau
Dans ce chapitre, nous pr esentons le mod` ele math ematique que nous emploierons dans les cha-
pitres suivants pour d ecrire, dune part, un neurone articiel et, dautre part, un r eseau de neurones
complet, cest-` a-dire un ensemble de neurones reli es en r eseau. Le mod` ele que nous pr esentons
dans ce chapitre est celui de base, commun ` a beaucoup darchitectures. Il nest cependant pas uni-
versel, nous pr esenterons dans les chapitres subs equents les diff erentes variantes au fur et ` a mesure
quil sera n ecessaire de le faire.
2.1 Notations
Tout au long de cet ouvrage, nous tenterons dadopter une notation math ematique coh erente.
Les principales notations que nous adopterons sont enum er ees ci-dessous. Il nest pas n ecessaire
de tout m emoriser dun seul coup, on pourra au besoin sy rapporter plus tard.
Concepts de base
Les scalaires seront d esign es par des lettres minuscules italiques : p. ex. a, b, c . . .
Un vecteur d esigne une colonne de nombres.
Les vecteurs seront repr esent es par des minuscules grasses (bold) non italiques : p. ex.
a, b, c . . .
Une matrice d esigne un tableau de nombres ayant un certain nombre de lignes et de
colonnes.
Les matrices seront d enot ees par des majuscules grasses (bold) non italiques : p. ex. A,
B, C. . .
Un vecteur-rang ee est une rang ee dune matrice utilis ee comme un vecteur (donc une
rang ee transpos ee).
5
6 CHAPITRE 2. MOD
`
ELE DE NEURONE ET R

ESEAU
Poids dune couche de neurones
W
k
(t) d esigne la matrice des poids pour la couche k dun r eseau au temps t.
w
k
j
(t) d esigne le vecteur correspondant ` a la colonne j de W
k
(t).

i
w
k
(t) d esigne le vecteur-rang ee correspondant ` a la ligne i de W
k
(t).
w
k
i,j
(t) d esigne l el ement (i, j) de W
k
(t) (i d esigne toujours une ligne et j une colonne).
Biais dune couche de neurones
b
k
(t) d esigne le vecteur des biais pour la couche k dun r eseau au temps t.
b
k
i
(t) d esigne l el ement i de b
k
(t).
Stimulus dun r eseau
p(t) d esigne un vecteur stimulus pr esent e ` a lentr ee dun r eseau au temps t.
p
i
(t) d esigne l el ement i de p(t).
Niveaux dactivation dune couche de neurones
n
k
(t) d esigne le vecteur des niveaux dactivation pour la couche k dun r eseau au temps t.
n
k
i
(t) d esigne l el ement i de n
k
(t).
Sorties dune couche de neurones
a
k
(t) d esigne un vecteur des sorties pour la couche k dun r eseau au temps t.
a
k
i
(t) d esigne l el ement i de a
k
(t).
Cibles dun r eseau
d(t) d esigne un vecteur cible pour les sorties d esir ees dun r eseau au temps t.
d
i
(t) d esigne l el ement i de d(t).
Base dapprentissage
{(p
1
, d
1
), (p
2
, d
2
), . . . , (p
Q
, d
Q
)} d esigne un ensemble de Q associations stimulus/cible
pour lapprentissage supervis e.
Signaux derreur
e(t) = d(t) a(t) d esigne un vecteur mesurant lerreur entre les sorties d esir ees (cible) et
les sorties calcul ees dun r eseau au temps t.
2.1. NOTATIONS 7
e
i
(t) d esigne l el ement i de e(t).
Dimensions
M d esigne le nombre de couches dun r eseau.
S
k
d esigne le nombre de neurones sur la couche k dun r eseau.
Q d esigne le nombre dassociations pour lapprentissage.
R d esigne la dimension des stimulus dentr ee.
Fonctions de transfert dune couche de neurones
f
k
(n
k
) = a
k
d esigne le vecteur des sorties de la couche k, telles que calcul ees par la fonction
de transfert f appliqu ee sur chacun des n
k
i
, i = 1, . . . , S
k
.
f
k
(n
k
i
) = a
k
i
d esigne l el ement i de f
k
(n
k
).


f(n) =

n
f(n) d esigne la d eriv ee partielle de f par rapport ` a n.


F(n) =

f(n
1
) 0 0
0

f(n
2
) 0 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0

f(n
S
)

.
Notations diverses
||x|| d esigne la norme du vecteur x.
F(x) d esigne un indice de performance (une fonction) appliqu e sur le vecteur x.


F(x) d esigne une approximation de F(x).
F(x) =

F
x
1
F
x
2

F
xn

T
d esigne le vecteur gradient de F(x).

2
F(x) =

2
x
1
x
1
F

2
x
1
x
2
F

2
x
1
xn
F

2
x
2
x
1
F

2
x
2
x
2
F

2
x
2
xn
F
.
.
.
.
.
.
.
.
.
.
.
.

2
xnx
1
F

2
xnx
2
F

2
xnxn
F

d esigne la matrice hessienne de F(x).



i
d esigne une valeur propre dune matrice.
z
i
d esigne un vecteur propre.
8 CHAPITRE 2. MOD
`
ELE DE NEURONE ET R

ESEAU

w
1,1
w
1,R
p
1
p
2
p
3
p
R
b
-1

n a

R entres Modle du neurone


a = (w
T
p b)
FIG. 2.1 Mod` ele dun neurone articiel.
2.2 Mod` ele dun neurone
Le mod` ele math ematique dun neurone articiel est illustr e ` a la gure 2.1. Un neurone est es-
sentiellement constitu e dun int egrateur qui effectue la somme pond er ee de ses entr ees. Le r esultat
n de cette somme est ensuite transform ee par une fonction de transfert f qui produit la sortie a du
neurone. En suivant les notations pr esent ees ` a la section pr ec edente, les R entr ees du neurones cor-
respondent au vecteur p = [p
1
p
2
p
R
]
T
, alors que w = [w
1,1
w
1,2
w
1,R
]
T
repr esente le vecteur
des poids du neurone. La sortie n de lint egrateur est donn ee par l equation suivante :
n =
R

j=1
w
1,j
p
j
b
= w
1,1
p
1
+ w
1,2
p
2
+ + w
1,R
p
R
b,
(2.1)
que lon peut aussi ecrire sous forme matricielle :
n = w
T
p b. (2.2)
Cette sortie correspond ` a une somme pond er ee des poids et des entr ees moins ce quon nomme le
biais b du neurone. Le r esultat n de la somme pond er ee sappelle le niveau dactivation du neurone.
Le biais b sappelle aussi le seuil dactivation du neurone. Lorsque le niveau dactivation atteint ou
d epasse le seuil b, alors largument de f devient positif (ou nul). Sinon, il est n egatif.
On peut faire un parall` ele entre ce mod` ele math ematique et certaines informations que lon
connait (ou que lon croit connatre) ` a propos du neurone biologique. Ce dernier poss` ede trois
principales composantes : les dendrites, le corps cellulaire et laxone (voir gure 2.2). Les den-
drites forment un maillage de r ecepteurs nerveux qui permettent dacheminer vers le corps du
neurone des signaux electriques en provenance dautres neurones. Celui-ci agit comme un esp` ece
dint egrateur en accumulant des charges electriques. Lorsque le neurone devient sufsamment ex-
cit e (lorsque la charge accumul ee d epasse un certain seuil), par un processus electrochimique,
2.2. MOD
`
ELE DUN NEURONE 9
FIG. 2.2 Sch ema dun neurone biologique.
il engendre un potentiel electrique qui se propage ` a travers son axone
1
pour eventuellement ve-
nir exciter dautres neurones. Le point de contact entre laxone dun neurone et le dendrite dun
autre neurone sappelle le synapse. Il semble que cest larrangement spatial des neurones et de
leur axone, ainsi que la qualit e des connexions synaptiques individuelles qui d etermine la fonc-
tion
2
pr ecise dun r eseau de neurones biologique. Cest en se basant sur ces connaissances que le
mod` ele math ematique d ecrit ci-dessus a et e d eni.
Un poids dun neurone articiel repr esente donc lefcacit e dune connexion synaptique. Un
poids n egatif vient inhiber une entr ee, alors quun poids positif vient laccentuer. Il importe de
retenir que ceci est une grossi` ere approximation dun v eritable synapse qui r esulte en fait dun pro-
cessus chimique tr` es complexe et d ependant de nombreux facteurs ext erieurs encore mal connus.
Il faut bien comprendre que notre neurone articiel est un mod` ele pragmatique qui, comme nous
le verrons plus loin, nous permettra daccomplir des t aches int eressantes. La vraisemblance bio-
logique de ce mod` ele ne nous importe peu. Ce qui compte est le r esultat que ce mod` ele nous
permettra datteindre.
Un autre facteur limitatif dans le mod` ele que nous nous sommes donn es concerne son caract` ere
discret. En effet, pour pouvoir simuler un r eseau de neurones, nous allons rendre le temps discret
dans nos equations. Autrement dit, nous allons supposer que tous les neurones sont synchrones,
cest-` a-dire qu` a chaque temps t, ils vont simultan ement calculer leur somme pond er ee et produire
une sortie a(t) = f(n(t)). Dans les r eseaux biologiques, tous les neurones sont en fait asynchrones.
Revenons donc ` a notre mod` ele tel que formul e par l equation 2.2 et ajoutons la fonction dac-
1
Un axone peut etre plus ou moins long selon le type de neurone.
2
Notez bien, cependant, que des th eories r ecentes remettent en cause cette hypoth` ese. Mais ceci sort du cadre du
cours !
10 CHAPITRE 2. MOD
`
ELE DE NEURONE ET R

ESEAU

a
Entre Modle du neurone
a = (Wp-b)
W
b
+
p
n
-1
1 x 1
1 x R
R x 1
1 x 1 1 x 1
R
1
FIG. 2.3 Repr esentation matricielle du mod` ele dun neurone articiel.
tivation f pour obtenir la sortie du neurone :
a = f(n) = f(w
T
p b). (2.3)
En remplacant w
T
par une matrice W = w
T
dune seule ligne, on obtient une forme g en erale que
nous adopterons tout au long de cet ouvrage :
a = f(Wp b). (2.4)
L equation 2.4 nous am` ene ` a introduire un sch ema de notre mod` ele plus compact que celui
de la gure 2.1. La gure 2.3 illustre celui-ci. On y repr esente les R entr ees comme un rectangle
noir (le nombre dentr ees est indiqu e sous le rectangle). De ce rectangle sort le vecteur p dont la
dimension matricielle est R1. Ce vecteur est multipli e par une matrice W qui contient les poids
(synaptiques) du neurones. Dans le cas dun neurone simple, cette matrice poss` ede la dimension
1R. Le r esultat de la multiplication correspond au niveau dactivation qui est ensuite compar e au
seuil b (un scalaire) par soustraction. Finalement, la sortie du neurone est calcul ee par la fonction
dactivation f. La sortie dun neurone est toujours un scalaire.
2.3 Fonctions de transfert
Jusqu` a pr esent, nous navons pas sp eci e la nature de la fonction dactivation de notre mod` ele.
Il se trouve que plusieurs possibilit es existent. Diff erentes fonctions de transfert pouvant etre uti-
lis ees comme fonction dactivation du neurone sont enum er ees au tableau 2.1. Les trois les plus
utilis ees sont les fonctions seuil (en anglais hard limit), lin eaire et sigmode.
Comme son nomlindique, la fonction seuil applique un seuil sur son entr ee. Plus pr ecis ement,
une entr ee n egative ne passe pas le seuil, la fonction retourne alors la valeur 0 (on peut interpr eter
ce 0 comme signiant faux), alors quune entr ee positive ou nulle d epasse le seuil, et la fonction
2.3. FONCTIONS DE TRANSFERT 11
TAB. 2.1 Fonctions de transfert a = f(n).
Nom de la fonction Relation dentr ee/sortie Ic one Nom Matlab
seuil
a = 0 si n < 0
a = 1 si n 0
hardlim
seuil sym etrique
a = 1 si n < 0
a = 1 si n 0
hardlims
lin eaire a = n purelin
lin eaire satur ee
a = 0 si n < 0
a = n si 0 n 1
a = 1 si n > 1
satlin
lin eaire satur ee sym etrique
a = 1 si n < 1
a = n si 1 n 1
a = 1 si n > 1
satlins
lin eaire positive
a = 0 si n < 0
a = n si n 0
poslin
sigmode a =
1
1+exp
n
logsig
tangente hyperbolique a =
e
n
e
n
e
n
+e
n
tansig
comp etitive
a = 1 si n maximum
a = 0 autrement
C
compet
retourne 1 (vrai). Utilis ee dans le contexte dun neurone, cette fonction est illustr ee ` a la gure
2.4a. On remarque alors que le biais b dans lexpression de a = hardlim(w
T
p b) ( equation 2.4)
d etermine lemplacement du seuil sur laxe w
T
p, o` u la fonction passe de 0 ` a 1. Nous verrons plus
loin que cette fonction permet de prendre des d ecisions binaires.
La fonction lin eaire est tr` es simple, elle affecte directement son entr ee ` a sa sortie :
a = n. (2.5)
Appliqu ee dans le contexte dun neurone, cette fonction est illustr ee ` a la gure 2.4b. Dans ce cas,
la sortie du neurone correspond ` a son niveau dactivation dont le passage ` a z ero se produit lorsque
w
T
p = b.
La fonction de transfert sigmode est quant ` a elle illustr ee ` a la gure 2.4c. Son equation est
donn ee par :
a =
1
1 + exp
n
. (2.6)
Elle ressemble soit ` a la fonction seuil, soit ` a la fonction lin eaire, selon que lon est loin ou pr` es de b,
respectivement. La fonction seuil est tr` es non-lin eaire car il y a une discontinuit e lorsque w
T
p = b.
De son c ot e, la fonction lin eaire est tout ` a fait lin eaire. Elle ne comporte aucun changement de
pente. La sigmode est un compromis int eressant entre les deux pr ec edentes. Notons nalement,
que la fonction tangente hyperbolique est une version sym etrique de la sigmode.
12 CHAPITRE 2. MOD
`
ELE DE NEURONE ET R

ESEAU
+1
-1
w
T
p
0
a
b
b
-b
0
a
b
w
T
p
0
a
b
+1
-1
w
T
p
(a) (b) (c)
FIG. 2.4 Fonction de transfert : (a) du neurone seuil; (b) du neurone lin eaire, et (c) du
neurone sigmode.
2.4 Architecture de r eseau
Un r eseau de neurones est un maillage de plusieurs neurones, g en eralement organis e en couches.
Pour construire une couche de S neurones, il sagit simplement de les assembler comme ` a la -
gure 2.5. Les S neurones dune m eme couche sont tous branch es aux R entr ees. On dit alors que
la couche est totalement connect ee. Un poids w
i,j
est associ e ` a chacune des connexions. Nous
noterons toujours le premier indice par i et le deuxi` eme par j (jamais linverse). Le premier in-
dice (rang ee) d esigne toujours le num ero de neurone sur la couche, alors que le deuxi` eme indice
(colonne) sp ecie le num ero de lentr ee. Ainsi, w
i,j
d esigne le poids de la connexion qui relie
le neurone i ` a son entr ee j. Lensemble des poids dune couche forme donc une matrice W de
dimension S R :
W =

w
1,1
w
1,2
w
1,R
w
2,1
w
2,2
w
2,R
.
.
.
.
.
.
.
.
.
.
.
.
w
S,1
w
S,2
w
S,R

(2.7)
Notez bien que S = R, dans le cas g en eral (les nombres de neurones et dentr ees sont ind ependants).
Si lon consid` ere que les S neurones forment un vecteur de neurones, alors on peut cr eer les
vecteurs b = [b
1
b
2
b
S
]
T
, n = [n
1
n
2
n
S
]
T
et a = [a
1
a
2
a
S
]
T
. Ceci nous am` ene ` a la
repr esentation graphique simpli ee, illustr ee ` a la gure 2.6. On y retrouve, comme ` a la gure
2.3, les m emes vecteurs et matrice. La seule diff erence se situe au niveau de la taille, ou plus
pr ecis ement du nombre de rang ees (S), de b, n, a et W.
Finalement, pour construire un r eseau, il ne suft plus que de combiner des couches comme
` a la gure 2.7. Cet exemple comporte R entr ees et trois couches de neurones comptant respecti-
vement S
1
, S
2
et S
3
neurones. Dans le cas g en eral, de nouveau, S
1
= S
2
= S
3
. Chaque couche
poss` ede sa propre matrice de poids W
k
, o` u k d esigne lindice de couche. Dans le contexte des vec-
teurs et des matrices relatives ` a une couche, nous emploierons toujours un exposant pour d esigner
cet indice. Ainsi, les vecteurs b
k
, n
k
et a
k
sont aussi associ es ` a la couche k.
Il importe de remarquer dans cet exemple que les couches qui suivent la premi` ere ont comme
entr ee la sortie de la couche pr ec edente. Ainsi, on peut enler autant de couche que lon veut,
2.4. ARCHITECTURE DE R

ESEAU 13
w
1,1
p
1
p
2
p
3
p
R

b
1
-1

n
1
a
1
R entres Couche de S neurones
a = (Wp b)

b
2
-1

n
2
a
2

b
S
-1

n
S
a
S

w
S,R
FIG. 2.5 Couche de S neurones.
du moins en th eorie. Nous pouvons aussi xer un nombre quelconque de neurones sur chaque
couche. En pratique, nous verrons plus tard quil nest cependant pas souhaitable dutiliser trop de
neurones. Finalement, notez aussi que lon peut changer de fonction de transfert dune couche ` a
lautre. Ainsi, toujours dans le cas g en eral, f
1
= f
2
= f
3
.
La derni` ere couche est nomm ee couche de sortie. Les couches qui pr ec` edent la couche de
sortie sont nomm ees couches cach ees. Nous verrons un peu plus tard pourquoi. Le r eseau de la
gure 2.7 poss` ede donc deux couches cach ees et une couche de sortie.
Les r eseaux multicouches sont beaucoup plus puissants que les r eseaux simples ` a une seule
couche. En utilisant deux couches (une couche cach ee et une couche de sortie), ` a condition dem-
ployer une fonction dactivation sigmode sur la couche cach ee, on peut entraner un r eseau ` a
produire une approximation de la plupart des fonctions, avec une pr ecision arbitraire (cela peut
cependant requ erir un grand nombre de neurones sur la couche cach ee). Sauf dans de rares cas, les
r eseaux de neurones articiels exploitent deux ou trois couches.
Entraner un r eseau de neurones signie modier la valeur de ses poids et de ses biais pour
quil r ealise la fonction entr ee/sortie d esir ee. Nous etudierons en d etails, dans des chapitres subs equents,
14 CHAPITRE 2. MOD
`
ELE DE NEURONE ET R

ESEAU

a
Entre Couche de S neurones
a = (Wp b)
W
b
+
p
n
-1
S x 1
R x 1
S x R
S x 1 S x 1
R S
FIG. 2.6 Repr esentation matricielle dune couche de S neurones.
Entre
p
-1
R

1
a
1
Couche 1
a
1
=
1
(W
1
p ! b
1
)
W
1
b
1
+
n
1
S
1
x 1
S
1
x

R
S
1
x 1
S
1
x 1
S
1
R x 1

2
a
2
Couche 2
a
2
=
2
(W
2
a
1
! b
2
)
W
2
b
2
+
n
2
S
2
x 1
S
2
x S
1
S
2
x 1
S
2
x 1
S
2

3
a
3
Couche 3
a
3
=
3
(W
3
a
2
! b
3
)
W
3
b
3
+
n
3
S
3
x 1
S
3
x 1
S
3
x 1
S
3
S
3
x S
2
-1 -1
FIG. 2.7 Repr esentation matricielle dun r eseau de trois couches.
diff erents algorithmes pour y parvenir dans diff erents contextes. Pour sp ecier la structure du
r eseau, il faut aussi choisir le nombre de couches et le nombre de neurones sur chaque couche.
Tout dabord, rappelons que le nombre dentr ees du r eseau (R), de m eme que le nombre de neu-
rones sur la couche de sortie est x e par les sp ecications du probl` eme que lon veut r esoudre avec
ce r eseau. Par exemple, si la donn ee du probl` eme comporte quatre variables en entr ee et quelle
exige de produire trois variables en sortie, alors nous aurons simplement R = 4 et S
M
= 3, o` u
M correspond ` a lindice de la couche de sortie (ainsi quau nombre de couches). Ensuite, la na-
ture du probl` eme peut aussi nous guider dans le choix des fonctions de transfert. Par exemple, si
lon d esire produire des sorties binaires 0 ou 1, alors on choisira probablement une fonction seuil
(voir tableau 2.1, page 11) pour la couche de sortie. Il reste ensuite ` a choisir le nombre de couches
cach ees ainsi que le nombre de neurones sur ces couches, et leur fonction de transfert. Il faudra
aussi xer les diff erents param` etres de lalgorithme dapprentissage. Mais nous y reviendrons en
temps et lieu !
Finalement, la gure 2.8 illustre le dernier el ement de construction que nous emploierons
2.4. ARCHITECTURE DE R

ESEAU 15
D
u(t) a(t)
a(0)
Dlai
a(t) = u(t-1)
FIG. 2.8

El ement de retard.
pour b atir des r eseaux dit r ecurrents. Il sagit dun registre ` a d ecalage qui permet dintroduire
un retard dans une donn ee que lon veut acheminer dans un r eseau. La sortie retard ee a(t) prend
la valeur de lentr ee u au temps t 1. Cet el ement de retard pr esuppose que lon peut initialiser la
sortie au temps t = 0 avec la valeur a(0). Cette condition initiale est indiqu ee ` a la gure 2.8 par
une ` eche qui entre par le bas de l el ement.
Avant de passer ` a la d ecription des architectures concr` etes et de leur algorithmes dappren-
tissage, nous allons dabord effectuer au chapitre suivant quelques rappels sur lalg` ebre lin eaire.
En effet, comme le lecteur attentif laura devin e, nous allons avoir ` a manipuler beaucoup de ma-
trices et dop erations matricielles tout au long de ces chapitres. La notation matricielle peut etre
tr` es puissante, parce que compacte, mais egalement obscure lorsquon ne la matrise pas bien, do` u
limportance de ces rappels.
16
Chapitre 3
Alg` ebre lin eaire
Dans ce chapitre, nous faisons plusieurs rappels essentiels en alg` ebre lin eaire. Au chapitre
pr ec edent, nous avons vu que les entr ees et les sorties dun r eseau de neurones, ainsi que les
rang ees de ses matrices de poids forment des vecteurs. Il est donc important de bien comprendre
ce quest un espace vectoriel en etudiant ses principales propri et es. Ensuite, nous aborderons des
outils alg ebriques de base tels les transformations lin eaires, les changements de base ainsi que les
valeurs et vecteurs propres. Ces outils serviront par la suite tout au long des chapitres subs equents.
3.1 D enition dun espace vectoriel
Lorsque nous d enissons un vecteur x = [x
1
x
2
x
n
]
T
, nous faisons habituellement r ef erence
` a un espace euclidien de n dimensions, que nous notons
n
. Cependant, la notion despace vecto-
riel est beaucoup plus vaste que ce dernier qui ne repr esente quun cas particulier.
D enition. Un espace vectoriel lin eaire X est un ensemble d el ements (de vecteurs) d eni sur
un champ scalaire F, et respectant les propri et es suivantes :
1. poss` ede un op erateur daddition tel que :
(a) x, y X implique x +y X ;
(b) x +y = y +x; (commutativit e)
(c) (x +y) +z = x + (y +z) ; (associativit e)
(d) 0 X tel que x +0 = x, x X ; ( el ement neutre)
(e) x X, -x tel que x + (-x) = 0; ( el ement inverse)
2. poss` ede un op erateur de multiplication tel que :
(a) a F et x X implique ax X ;
(b) x X et le scalaire 1, 1x = x; ( el ement neutre)
17
18 CHAPITRE 3. ALG
`
EBRE LIN

EAIRE
x
1
x
2
x
y
x+y
x
1
x
2
x
3
x
2
x
1
(a) (b) (c)
FIG. 3.1 Diff erents sous-ensembles de
2
: (a) r egion rectangulaire ; (b) droite ; (c) plan.
(c) a, b F et x X, a(bx) = (ab)x; (associativit e)
(d) (a + b)x = ax + bx; (distributivit e)
(e) a(x +y) = ax + ay ; (distributivit e)
Il est facile de d emontrer que ces propri et es sont respect ees pour
n
et, par cons equent,
2
.
On peut cependant se poser la question ` a propos de certains sous-ensembles de
2
. Par exemple,
consid erons la r egion rectangulaire illustr ee ` a la gure 3.1a. Ce sous-ensemble de
2
nest pas
un espace vectoriel car, entre autres, la propri et e 1a nest pas respect ee. En effet, si lon prend
deux vecteurs ` a lint erieur du rectangle et quon les additionne, il se peut que le r esultat sorte du
rectangle. Par contre, on peut montrer (et ceci est laiss ee en exercice) que la droite innie illustr ee
` a la gure 3.1b respecte toutes les propri et es enum er ees ci-dessus et, par cons equent, d eni un
espace vectoriel. Notez bien, cependant, que cette droite se doit de passer par lorigine, sinon la
propri et e 1d ne serait pas respect ee.
Un autre exemple dun espace vectoriel est lensemble P
2
des polyn omes de degr e 2 ou moins.
Par exemple, deux el ements de cet espace sont :
x = 3 + 2t + t
2
, (3.1)
y = 5 t. (3.2)
Cet ensemble respecte les 10 propri et es dun espace vectoriel. En effet, si lon additionne deux
polyn omes de degr e 2 ou moins, on obtient un autre polyn ome de degr e 2 ou moins. On peut aussi
multiplier un polyn ome par un scalaire sans changer lordre de celui-ci, etc. En notation vectorielle,
on peut donc repr esenter les deux polyn omes de lexemple par x = [3 2 1]
T
et y = [5 -1 0]
T
.
Mentionnons quon peut aussi former des espaces vectoriels avec des ensembles de fonctions
plus g en erales que des polyn omes. Il importe seulement de respecter les 10 propri et es fondamen-
tales dun espace vectoriel ! Si nous prenons la peine de pr eciser cette d enition formelle, cest
parce que la r esolution dun probl` eme avec un r eseau de neurones requiert toujours de pouvoir
repr esenter ce probl` eme ` a laide dun espace vectoriel. Cest donc une notion tout ` a fait fondamen-
tale ` a ce sujet d etude.
3.1. D

EFINITION DUN ESPACE VECTORIEL 19


3.1.1 D ependance lin eaire
Soient les n vecteurs {x
1
, x
2
, . . . , x
n
}. Alors ces vecteurs sont lin eairement d ependants sil
existe n scalaires a
1
, a
2
, . . . , a
n
tels quau moins un deux est non nul et que :
a
1
x
1
+ a
2
x
2
+ + a
n
x
n
= 0. (3.3)
Et r eciproquement, si a
1
x
1
+ a
1
x
1
+ + a
1
x
1
= 0 implique que i, a
i
= 0, alors les vecteurs
sont (lin eairement) ind ependants.
Par exemple, les vecteurs suivants :
x
1
=
_

_
1
1
1
_

_, x
2
=
_

_
1
1
1
_

_ (3.4)
sont lin eairement ind ependants car si a
1
x
1
+ a
2
x2 = 0, alors :
_

_
a
1
+ a
2
-a
1
+ a
2
-a
1
a
2
_

_ =
_

_
0
0
0
_

_, (3.5)
et a
1
+ a
2
= 0 implique que a
1
= a
2
, et a
1
+ a
2
= 0 implique a
1
= a
2
. Ainsi, il faut que
a
1
= a
2
= 0.
Par contre, les polyn omes p
1
= 1 + t + t
2
, p
2
= 2 + 2t + t
2
et p
3
= 1 + t sont lin eairement
d ependants puisque a
1
p
1
+ a
2
p
2
+ a
3
p
3
= 0 pour a
1
= 1, a
2
= 1 et a
3
= 1.
3.1.2 Bases et dimensions
La dimension dun espace vectoriel est d etermin ee par le nombre minimum de vecteurs de
base requis pour couvrir lespace vectoriel en entier. On dit dun ensemble de vecteur {u
1
, u
2
, . . . , u
n
}
quil couvre un espace vectoriel X si et seulement si tous les x X de cet espace peuvent etre
exprim es comme une combinaison lin eaire des vecteurs de base :
x = a
1
u
1
+ a
2
u
2
+ + a
n
u
n
. (3.6)
Par exemple, dans
2
, nous avons lhabitude de travailler avec les vecteurs de base u
1
= [1 0] et
u
2
= [0 1], mais ce nest pas la seule possibilit e. Un autre choix serait [0.5 0.5] et [0.5 0.5] ou
encore [2 0] et [0 2]. La seule chose qui importe est que les vecteurs de base soient lin eairement
ind ependants.
Pour notre espace P
2
des polyn omes de degr e 2 ou moins, on peut choisir autant {1, t, t
2
} que
{1, 1 + t, 1 + t + t
2
}, par exemple.
20 CHAPITRE 3. ALG
`
EBRE LIN

EAIRE
3.1.3 Produit scalaire
Le produit scalaire entre deux vecteurs x et y, que nous noterons <x, y>, est une op eration
tr` es importante pour les r eseaux de neurones. Nimporte quelle fonction scalaire prenant deux
vecteurs comme argument et respectant les trois propri et es suivantes peut servir ` a d enir un produit
scalaire :
1. <x, y> = <y, x>;
2. <x, (ay
1
+ by
2
)> = a<x, y
1
> + b<x, y
2
>;
3. <x, x> 0, avec <x, x> = 0 uniquement pour x = 0;
La premi` ere propri et e sp ecie quun produit scalaire doit etre sym etrique. La deuxi` eme pr ecise que
le produit dun vecteur par une combinaison lin eaire de deux vecteurs est egale ` a la combinaison
lin eaire des produits scalaires. Finalement, la troisi` eme propri et e restreint le produit scalaire dun
vecteur avec lui-m eme aux valeurs positives, sauf pour le vecteur nul qui doit donner z ero.
Le produit scalaire habituellement utilis e sur
n
est d eni par :
<x, y> = x
T
y = x
1
y
1
+ x
2
y
2
+ + x
n
y
n
. (3.7)
3.1.4 Norme
La norme dun vecteur est une mesure de longueur. La fonction scalaire ||x|| sappelle une
norme si elle satisfait aux quatre propri et es suivantes :
1. ||x|| 0 ;
2. ||x|| = 0 si, et seulement si, x = 0;
3. ||ax|| = |a| ||x|| ;
4. ||x +y|| ||x|| +||y|| ;
La premi` ere propri et e sp ecie quune norme est toujours positive ou nulle. La deuxi` eme pr ecise
quelle nest nulle que pour le vecteur nul. La troisi` eme impose que la norme dun vecteur multipli e
par un scalaire soit (lin eairement) proportionnelle ` a ce scalaire. Finalement, la derni` ere propri et e
impose que la norme dune somme de deux vecteurs soit inf erieure ou egale ` a la somme des
normes.
La norme la plus souvent utilis ee, nomm ee l
2
, est d enie par ||x|| =

<x, x>, ce qui dans
un espace euclidien
n
correspond ` a la norme euclienne habituelle :
||x|| =
_
x
2
1
+ x
2
2
+ + x
2
n
. (3.8)
Beaucoup dautres normes sont possibles telle que, par exemple, ||x|| = |x
1
| + |x
2
| + + |x
n
|.
Cette derni` ere sappelle norme l
1
(on dit aussi city block ou encore manhattan). Dans le cas
g en eral, il existe les normes dites l
p
telles que :
||x|| =
p
_
|x
1
|
p
+|x
2
|
p
+ +|x
n
|
p
, (3.9)
3.1. D

EFINITION DUN ESPACE VECTORIEL 21


o` u p 1. Dans le cas o` u p , on obtient la norme l

suivante :
||x|| = max
i
|x
i
|. (3.10)
Ceci nous indique que plus p devient grand, plus on attache de limportance aux grandes compo-
santes de x.
`
A la limite, on ne tient compte que de la plus grande composante du vecteur.
Finalement, mentionnons quil importe parfois de normaliser nos vecteurs en les divisant
par leur norme :

x
||x||

= 1. (3.11)
On obtient alors un vecteur qui pointe dans la m eme direction quauparavant mais dont la norme
est unitaire.
Les concepts de produit scalaire et de norme permettent aussi dintroduire la notion dangle
entre deux vecteurs x et y via la fameuse loi des cosinus :
<x, y> = ||x|| ||y|| cos . (3.12)
3.1.5 Orthogonalit e
Deux vecteurs x et y sont dits orthogonaux si leur produit scalaire <x, y> est nul ( = 90

).
Un vecteur x X est aussi dit orthogonal ` a un sous-espace X

X lorsquil est orthogonal


avec tous les vecteurs x

de ce sous-espace. Par exemple, un plan dans


3
d enit un sous-espace
de dimension 2 pour lequel il existe un vecteur perpendiculaire (orthogonal) ` a ce plan (voir gure
3.1c).
Parfois, il importe de convertir un ensemble de n vecteurs ind ependants {x
1
, x
2
, . . . , x
n
} en
n vecteurs orthogonaux {v
1
, v
2
, . . . , v
n
}. On peut effectuer cette op eration avec la m ethode de
Gram-Schmidt. Le premier vecteur orthogonal peut etre quelconque, nous choisissons donc le
premier vecteur ind ependant :
v
1
= x
1
. (3.13)
Pour le second vecteur orthogonal, on utilise x
2
, mais apr` es avoir soustrait de x
2
, la portion du
vecteur qui est dans la direction de v
1
. On obtient :
v
2
= x
2
av
1
, (3.14)
o` u a est choisi de mani` ere ` a ce que v
2
soit orthogonal ` a v
1
. Ceci implique que :
<v
1
, v
2
> = <v
1
, (x
2
av
1
)> = <v
1
, x
2
>a<v
1
, v
1
> = 0 (3.15)
et :
a =
<v
1
, x
2
>
<v
1
, v
1
>
. (3.16)
Ainsi, pour trouver la composante de x
2
dans la direction de v
1
, cest-` a-dire av
1
, il sagit de
calculer le produit scalaire entre les deux vecteurs. Ceci sappelle le projecteur de x
2
sur v
1
(voir
gure 3.2). Si lon continue ce processus, le k
` eme
vecteur orthogonal est obtenu par lexpression :
22 CHAPITRE 3. ALG
`
EBRE LIN

EAIRE
v
1
= x
1
x
2
av
1
v
2
FIG. 3.2 Illustration de la m ethode de transformation orthogonale Gram-Schmidt.
v
k
= x
k

k1

i=1
<v
i
, x
k
>
<v
i
, v
i
>
v
i
. (3.17)
3.2 Transformations lin eaires
Une transformation lin eaire A est une application dun espace vectoriel X vers un espace
vectoriel Y telle que :
1. x
1
, x
2
X, A(x
1
+x
2
) = A(x
1
) +A(x
2
) ;
2. x X, a , A(ax) = aA(x).
La premi` ere propri et e sp ecie que la transform ee dune somme de vecteurs doit etre egale ` a la
somme des transform ees, pour quelle soit lin eaire. La deuxi` eme propri et e pr ecise que la trans-
form ee dun vecteur auquel on a appliqu e un facteur d echelle doit aussi etre egale ` a ce facteur
appliqu e sur la transform ee du vecteur original. Si lune ou lautre de ces deux propri et es nest pas
respect ee, la transformation nest pas lin eaire.
3.2.1 Repr esentations matricielles
Nous allons maintenant montrer que toute transformation lin eaire peut etre repr esent ee par
une matrice. Soient {v
1
, v
2
, . . . , v
n
} les vecteurs de base pour X et {u
1
, u
2
, . . . , u
m
} ceux de Y.
Avec ces bases, nous pouvons repr esenter nimporte quels vecteurs x X et y Y avec les
combinaisons lin eaires suivantes :
x =
n

j=1
x
j
v
j
et y =
m

i=1
y
i
u
i
. (3.18)
Soit la transformation lin eaire A qui applique X sur Y (A : X Y). Donc :
A(x) = y, (3.19)
3.2. TRANSFORMATIONS LIN

EAIRES 23
que lon peut r e- ecrire de la facon suivante :
A
_
_
n

j=1
x
j
v
j
_
_
=
m

i=1
y
i
u
i
. (3.20)
Mais puisque A est un op erateur lin eaire, on peut aussi ecrire :
n

j=1
x
j
A(v
j
) =
m

i=1
y
i
u
i
. (3.21)
En consid erant maintenant que les vecteurs A(v
j
) sont des el ements de Y, on peut les r e- ecrire en
tant quune combinaison lin eaire de ses vecteurs de base :
A(v
j
) =
m

i=1
a
ij
u
i
, (3.22)
et en substituant l equation 3.22 dans l equation 3.21, on obtient :
n

j=1
x
j
m

i=1
a
ij
u
i
=
m

i=1
y
i
u
i
. (3.23)
En inversant lordre des sommations, on peut ecrire :
m

i=1
u
i
n

j=1
a
ij
x
j
=
m

i=1
y
i
u
i
, (3.24)
et en r earrangeant cette derni` ere equation, on produit le r esultat :
m

i=1
u
i
_
_
n

j=1
a
ij
x
j
y
i
_
_
= 0. (3.25)
Finalement, en se rappelant que les vecteurs de base u
i
doivent etre ind ependants, on peut conclure
que leurs coefcients doivent forc ement etre nuls, donc :
n

j=1
a
ij
x
j
= y
i
. (3.26)
Ce qui correspond au produit de matrice :
_

_
a
11
a
12
a
1n
a
21
a
22
a
2n
.
.
.
.
.
.
.
.
.
.
.
.
a
m1
a
m2
a
mn
_

_
_

_
x
1
x
2
.
.
.
x
n
_

_
=
_

_
y
1
x
2
.
.
.
y
m
_

_
, (3.27)
que lon peut noter Ax = y.
Autrement dit, toute transformation lin eaire peut etre d ecrite par une matrice A quil sagit
de multiplier avec le vecteur que lon veut transformer, pour obtenir le vecteur r esultant de la
transformation.
24 CHAPITRE 3. ALG
`
EBRE LIN

EAIRE
v
1
= u
1
x v
2
= u
2
q
Ax
!
!
Av
1
Av
2
s
i
n

!
cos !
-sin !
c
o
s

!
(a) (b)
FIG. 3.3 Transformation de rotation : (a) rotation du vecteur x; (b) rotation des vecteurs de base
v
1
et v
2
.
Comme exemple de transformation lin eaire, consid erons la rotation qui consiste ` a faire tourner
un vecteur autour de lorigine. Pour simplier, utilisons X = Y =
2
et travaillons avec les
vecteurs de base habituels, cest-` a-dire ceux du plan cart esien illustr es ` a la gure 3.3a. La clef
ici est de transformer chaque vecteur de base comme ` a la gure 3.3b. Ceci saccomplit gr ace ` a
l equation 3.20 :
A(v
1
) = cos()v
1
+ sin()v
2
= a
11
v
1
+ a
21
v
2
, (3.28)
A(v
2
) = sin()v
1
+ cos()v
2
= a
12
v
1
+ a
22
v
2
. (3.29)
Ce qui nous donne les deux colonnes dune matrice de rotation A dans
2
:
A =
_
cos sin
sin cos
_
(3.30)
3.2.2 Changement de base
Il est important de noter que la repr esentation matricielle dune transformation lin eaire nest
pas unique car elle d epend des vecteurs de base. Dans cette sous-section, nous allons examiner ce
quil advient dune transformation lorsquon effectue un changement de base.
Soit la transformation lin eaire A : X Y et lensemble {v
1
, v
2
, . . . , v
n
} des vecteurs de
base de X, et {u
1
, u
2
, . . . , u
m
} ceux de Y. Par cons equent :
Ax = y, x X. (3.31)
Supposons maintenant que lon veuille changer de base pour X et Y. Soient {t
1
, t
2
, . . . , t
n
}
et {w
1
, w
2
, . . . , w
m
} les nouveaux ensembles de vecteurs de base. Avec ces bases, nous aurons
A

= y

, x

X, o` u x = B
t
x

, y = B
w
y

, B
t
= [t
1
t
2
t
n
] et B
w
= [w
1
w
2
w
m
]. En
substituant ces r esultats dans l equation 3.31, on obtient lexpression suivante :
AB
t
x

= B
w
y

(3.32)
3.2. TRANSFORMATIONS LIN

EAIRES 25
puis en multipliant de part et dautre par B
1
w
:
(B
1
w
AB
t
)x

= y

, (3.33)
ce qui implique que A

= B
1
w
AB
t
.
On doit retenir quen changeant de base pour repr esenter nos vecteurs, nous changerons aussi
la repr esentation matricielle de nos transformations. Le r esultat sera le m eme car les deux transfor-
mations sont similaires. Seule la repr esentation change (les colonnes de nombres). Lint er et dun
changement de base est que certaines repr esentations sont plus faciles ` a interpr eter que dautres,
comme nous le verrons plus loin.
3.2.3 Valeurs et vecteurs propres
Nous terminons ce chapitre en abordant une autre notion fondamentale pour lanalyse des
transformations lin eaires en g en erale, et des r eseaux de neurones en particulier : les valeurs et
vecteurs propres.
Soit la transformation lin eaire A : X X (ici le domaine et limage de la transformation
sont les m emes). Alors, les vecteurs z X et les scalaires satisfaisant ` a la relation :
A(z) = z (3.34)
sont dits vecteurs propres (z) et valeurs propres (), respectivement. Cette d enition sp ecie
quun vecteur propre dune transformation donn ee repr esente une direction dans laquelle tous les
vecteurs pointant dans cette direction continueront ` a pointer dans la m eme direction apr` es la trans-
formation, mais avec un facteur d echelle correspondant ` a la valeur propre associ ee. Notez bien
que cette interpr etation nest valide que lorsque les valeurs propres sont r eelles et que les vecteurs
propres existent ce qui nest pas toujours le cas.
En posant un certain ensemble de vecteur de base, on peut reformuler l equation 3.34 sous sa
forme matricielle :
Az = z (3.35)
ou dune mani` ere equivalente :
(AI)z = 0 (3.36)
o` u I repr esente la matrice identit e. Cette derni` ere equation implique que les colonnes de A I
sont d ependantes et, par cons equent, que son d eterminant est nul :
|AI| = 0 (3.37)
Ce d eterminant est un polyn ome de degr e n poss edant exactement n racines, dont certaines peuvent
etre complexes et dautres r ep et ees.
Si lon reprend notre exemple de la transformation de rotation :
A =
_
cos sin
sin cos
_
(3.38)
26 CHAPITRE 3. ALG
`
EBRE LIN

EAIRE
On peut r e- ecrire l equation 3.36 de la facon suivante :

cos sin
sin cos

= 0, (3.39)
ce qui donne le polyn ome suivant :

2
2cos + (cos
2
+ sin
2
) =
2
2cos + 1 = 0, (3.40)
dont les racines
1
= cos + j sin et
2
= cos j sin sont complexes. Ainsi, puisque quil
ny a pas de valeur propre r eelle (sauf pour = 0

ou encore = 180

), cela implique que tout


vecteur r eel transform e pointera dans une nouvelle direction (ce qui est leffet recherch e pour une
rotation !).
Lorsquune matrice A de dimension n n engendre n valeurs propres distinctes, alors il est
possible dengendrer n vecteurs propres ind ependants qui correspondent ` a un ensemble de vecteurs
de base pour la transformation que A repr esente. Dans ce cas, on peut diagonaliser la matrice de
la transformation en effectuant un changement de base. Plus formellement, si B = [z
1
z
2
z
n
], la
matrice des n vecteurs propres, alors :
B
1
AB =
_

1
0 0
0
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0
n
_

_
, (3.41)
o` u {
1
,
2
, . . . ,
n
} sont les valeurs propres de A. Ce r esultat d ecoule directement de la d enition
des vecteurs et valeurs propres de l equation 3.35 :
AB = B
_

1
0 0
0
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0
n
_

_
(3.42)
Il nous sera tr` es utile dans les chapitres ` a venir, lorsque nous analyserons la performance de divers
algorithmes dapprentissage pour les r eseaux de neurones.
Chapitre 4
Processus dapprentissage
Parmi les propri et es d esirables pour un r eseau de neurones, la plus fondamentale est s urement
la capacit e dapprendre de son environnement, dam eliorer sa performance ` a travers un processus
dapprentissage. Mais quest-ce donc que lapprentissage ? Malheureusement, il nexiste pas de
d enition g en erale, universellement accept ee, car ce concept touche ` a trop de notions distinctes
qui d ependent du point de vue que lon adopte.
Dans le contexte des r eseaux de neurones articiels, nous adopterons un point de vue pragma-
tique en proposant la d enition suivante :
Lapprentissage est un processus dynamique et it eratif permettant de modier les
param` etres dun r eseau en r eaction avec les stimuli quil recoit de son environne-
ment. Le type dapprentissage est d etermin e par la mani` ere dont les changements de
param` etre surviennent.
Cette d enition implique quun r eseau se doit d etre stimul e par un environnement, quil subisse
des changements en r eaction avec cette stimulation, et que ceux-ci provoquent dans le futur une
r eponse nouvelle vis-` a-vis de lenvironnement. Ainsi, le r eseau peut sam eliorer avec le temps.
Dans la plupart des architectures que nous etudierons, lapprentissage se traduit par une mo-
dication de lefcacit e synaptique, cest-` a-dire par un changement dans la valeur des poids qui
relient les neurones dune couche ` a lautre. Soit le poids w
i,j
reliant le neurone i ` a son entr ee j. Au
temps t, un changement w
i,j
(t) de poids peut sexprimer simplement de la facon suivante :
w
i,j
(t) = w
i,j
(t + 1) w
i,j
(t), (4.1)
et, par cons equent, w
i,j
(t +1) = w
i,j
(t) +w
i,j
(t), avec w
i,j
(t +1) et w
i,j
(t) repr esentant respec-
tivement les nouvelle et ancienne valeurs du poids w
i,j
.
Un ensemble de r` egles bien d enies permettant de r ealiser un tel processus dadaptation des
poids constitue ce quon appelle lalgorithme
1
dapprentissage du r eseau.
1
Le mot algorithme provient du nom de famille dun math ematicien perse nomm e Mohammed Al-Khwarizmi
qui a v ecu au 9` e si` ecle de notre ` ere. Cest ` a celui-ci que lon attribue linvention de r` egles pas-` a-pas pour laddition, la
soustraction, la multiplication ainsi que la division de nombres d ecimaux. En latin, son nom fut traduit par Algorismus,
qui par la suite se transforma en algorithme.
27
28 CHAPITRE 4. PROCESSUS DAPPRENTISSAGE
Dans la suite de ce chapitre, nous allons passer en revue diff erents types de r` egles ainsi que
diff erents principes pouvant guider lapprentissage dun r eseau de neurone.
4.1 Par correction derreur
La premi` ere r` egle que lon peut utiliser est fond ee sur la correction de lerreur observ ee en
sortie. Soit a
i
(t) la sortie que lon obtient pour le neurone i au temps t. Cette sortie r esulte dun
stimulus p(t) que lon applique aux entr ees du r eseau dont un des neurones correspond au neurone
i. Soit d
i
(t) la sortie que lon d esire obtenir pour ce m eme neurone i au temps t. Alors, a
i
(t) et
d
i
(t) seront g en eralement diff erents et il est naturel de calculer lerreur e
i
(t) entre ce quon obtient
et ce quon voudrait obtenir :
e
i
(t) = d
i
(t) a
i
(t), (4.2)
et de chercher un moyen de r eduire autant que possible cette erreur. Sous forme vectorielle, on
obtient :
e(t) = d(t) a(t), (4.3)
avec e(t) = [e
1
(t)e
2
(t) e
i
(t) e
S
(t)] qui d esigne le vecteur des erreurs observ ees sur les S
neurones de sortie du r eseau. Lapprentissage par correction des erreurs consiste ` a minimiser un
indice de performance F bas e sur les signaux derreur e
i
(t), dans le but de faire converger les
sorties du r eseau avec ce quon voudrait quelles soient. Un crit` ere tr` es populaire est la somme des
erreurs quadratiques :
F(e(t)) =
S

i=1
e
2
i
(t) = e(t)
T
e(t). (4.4)
Maintenant, il importe de remarquer que les param` etres libres dun r eseau sont ses poids.
Prenons lensemble de ces poids et assemblons les sous la forme dun vecteur w(t) au temps t.
Pour minimiser F(e(t)) = F(w(t)) = F(t), nous allons commencer par choisir des poids initiaux
(t = 0) au hasard, puis nous allons modier ces poids de la mani` ere suivante :
w(t + 1) = w(t) + x(t), (4.5)
o` u le vecteur x(t) d esigne la direction dans laquelle nous allons chercher le minimum et est une
constante positive d eterminant lamplitude du pas dans cette direction (la vitesse dapprentissage).
Lobjectif est de faire en sorte que F(t + 1) < F(t). Mais comment peut-on choisir la direction x
pour que la condition pr ec edente soit respect ee ? Consid erons la s erie de Taylor de 1er ordre autour
de w(t) :
F(t + 1) = F(t) + F(t)
T
w(t), (4.6)
o` u F(t) d esigne le gradient de F par rapport ` a ses param` etres libres (les poids w) au temps t, et
w(t) = w(t + 1) w(t). Or, pour que F(t + 1) < F(t), il faut que la condition suivante soit
respect ee :
F(t)
T
w(t) = F(t)
T
x(t) < 0. (4.7)
Nimporte quel vecteur x(t) qui respecte lin egalit e de l equation 4.7 pointe donc dans une di-
rection qui diminue F. On parle alors dune direction de descente. Pour obtenir une descente
4.2. PAR LA R
`
EGLE DE HEBB 29
w
1
w
2
F(t)
w (t)
FIG. 4.1 Trajectoire de la descente du gradient.
maximum, etant donn ee > 0, il faut que le vecteur x(t) pointe dans le sens oppos e au gradient
car cest dans ce cas que le produit scalaire sera minimum :
x(t) = F(t) (4.8)
Ce qui engendre la r` egle dite de descente du gradient :
w(t) = F(t) (4.9)
illustr ee ` a la gure 4.1. Dans lespace des poids, cette gure montre les courbes de niveau de F
repr esent ees par des ellipses hypoth etiques. La ` eche en pointill es montre la direction optimale
pour atteindre le minimum de F. La ` eche pleine montre la direction du gradient qui est perpen-
diculaire ` a la courbe de niveau en w(t).
Lexpression exacte du gradient d epend de la fonction dactivation utilis ee pour les neurones.
Nous reviendrons en d etails sur la m ethode de la descente du gradient au chapitre 5, lorsque nous
traiterons du perceptron multicouche.
La r` egle de la correction des erreurs est utilis ee pour beaucoup de r eseaux de neurones arti-
ciels, bien quelle ne soit pas plausible biologiquement. En effet, comment le cerveau pourrait-il
connatre a priori les sorties quil doit produire ? Cette r` egle ne peut etre utilis ee que dans un
contexte dapprentissage supervis e sur lequel nous reviendrons bient ot.
4.2 Par la r` egle de Hebb
Dans cette section nous abordons une r` egle qui sinspire des travaux du neurophysiologiste
Donald Hebb :
When an axon of cell A is near enough to excite a cell B and repeatedly or per-
sistently takes part in ring it, some growth process or metabolic changes take place
in one or both cells such that As efciency as one of the cells ring B, is increased.
30 CHAPITRE 4. PROCESSUS DAPPRENTISSAGE
Dans un contexte neurobiologique, Hebb cherchait ` a etablir une forme dapprentissage associatif
au niveau cellulaire. Dans le contexte des r eseaux articiels, on peut reformuler l enonc e de Hebb
sous la forme dune r` egle dapprentissage en deux parties :
1. Si deux neurones de part et dautre dun synapse (connexion) sont activ es simultan ement
(dune mani` ere synchrone), alors la force de ce synapse doit etre augment ee ;
2. Si les m emes deux neurones sont activ es dune mani` ere asynchrone, alors le synapse corres-
pondant doit etre affaibli ou carr ement elimin e.
Un tel synapse est dit synapse hebbien. Il utilise un m ecanisme interactif, d ependant du temps et
de lespace, pour augmenter lefcacit e synaptique dune mani` ere proportionnelle ` a la corr elation
des activit es pr e- et post-synaptiques. De cette d enition ressort les propri et es suivantes :
1. D ependance temporelle. Les modications dun synapse hebbien d ependent du moment
exact des activit es pr e- et post-synaptiques ;
2. D ependance spatiale.

Etant donn e la nature m eme du synapse qui constitue un lieu de trans-
mission dinformation, lapprentissage hebbien se doit de poss eder une contigut e spatiale.
Cest cette propri et e qui, entre autres, permet lapprentissage dit non-supervis e sur lequel
nous reviendrons bient ot ;
3. Interaction. Lapprentissage hebbien d epend dune interaction entre les activit es de part et
dautre du synapse.
4. Conjonction ou corr elation. Une interpr etation de l enonc e de Hebb est que la condition per-
mettant un changement dans lefcacit e synaptique est une conjonction des activit es pr e et
post-synaptiques. Cest la co-occurrence des activit es de part et dautre du synapse qui en-
gendre une modication de celui-ci. Une interpr etation plus statistique r ef` ere ` a la corr elation
de ces activit es. Deux activit es positives simultan ees (corr elation positive) engendrent une
augmentation de lefcacit e synaptique, alors que labsence dune telle corr elation engendre
une baisse de cette efcacit e.
Math ematiquement, on peut exprimer la r` egle de Hebb sous sa forme la plus simple par la
formule suivante :
w
j
(t 1) = p
j
(t)a(t), (4.10)
o` u est une constante positive qui d etermine la vitesse de lapprentissage, p
j
(t) correspond ` a
lactivit e pr e-synaptique (lentr ee j du neurone) au temps t, et a(t) ` a lactivit e post-synaptique
(sortie du neurone) ` a ce m eme temps t. Cette formule fait ressortir explicitement la corr elation
entre le signal qui entre et celui qui sort. Sous une forme vectorielle, on ecrit :
w(t 1) = p(t)a(t). (4.11)
Un probl` eme imm ediat avec la r` egle de l equation 4.11 est que les changements de poids w
j
(t)
peuvent crotre de facon exponentielle si, par exemple, lentr ee et la sortie demeurent constantes
dans le temps. Pour pallier ` a cette croissance exponentielle qui provoquerait invariablement une
saturation du poids, on ajoute parfois un facteur doubli qui retranche de la variation de poids, une
fraction du poids actuel. On obtient ainsi :
w
j
(t 1) = p
j
(t)a(t) w
j
(t 1), (4.12)
4.2. PAR LA R
`
EGLE DE HEBB 31
o` u 0 1 est une nouvelle constante. Sous forme vectorielle, on ecrit :
w(t 1) = p(t)a(t) w(t 1). (4.13)
La r` egle de Hebb avec oubli, enonc ee ` a l equation 4.13, contourne efcacement le probl` eme
des poids qui croissent (ou d ecroissent) sans limite. Supposons que p
j
(t) = a(t) = 1 et que nous
ayons atteint le r egime permanent o` u w
j
= 0. Alors, la valeur maximale w
max
j
que peut atteindre
le poids w
j
(t) est donn ee par :
w
max
j
= (1 )w
max
j
+ (4.14)
=

. (4.15)
Mais cette r` egle ne r esout pas tous les probl` emes.
`
A cause du terme doubli, il est primordial
que les stimuli soient r ep et es r eguli` erement, sinon les associations apprises gr ace ` a la r` egle de
l equation 4.13 seront eventuellement perdues car compl` etement oubli ees. Une autre variante de la
r` egle de Hebb sexprime donc de la mani` ere suivante :
w
j
(t 1) = p
j
(t)a(t) a(t)w
j
(t 1). (4.16)
Et si lon xe = pour simplier (on pose un rythme dapprentissage egale ` a celui de loubli),
on obtient la r` egle dite instar :
w
j
(t 1) = a(t) [p
j
(t) w
j
(t 1)] , (4.17)
que lon peut r e- ecrire sous sa forme vectorielle de la facon suivante :
w(t 1) = a(t) [p(t) w(t 1)] . (4.18)
Une facon daborder cette r` egle, est de regarder ce qui se passe lorsque a(t) = 1 :
w(t) = w(t 1) + [p(t) w(t 1)] (4.19)
= (1 )w(t 1) + p(t). (4.20)
Alors, on constate quen pr esence dune activit e post-synaptique positive, le vecteur de poids est
d eplac e dans la direction du vecteur dentr ee p(t), le long du segment qui relie lancien vecteur de
poids avec le vecteur dentr ee, tel quillustr e ` a la gure 4.2. Lorsque = 0, le nouveau vecteur de
poids est egal ` a lancien (aucun changement). Lorsque = 1, le nouveau vecteur de poids est egal
au vecteur dentr ee. Finalement, lorsque =
1
2
, le nouveau vecteur est ` a mi-chemin entre lancien
vecteur de poids et le vecteur dentr ee.
Une propri et e particuli` erement int eressante de la r` egle instar est quavec des entr ees norma-
lis ees, suite au processus dapprentissage, les poids w convergeront egalement vers des vecteurs
normalis es. Mais nous y reviendrons lorsque nous traiterons du r eseau instar.
32 CHAPITRE 4. PROCESSUS DAPPRENTISSAGE
w(t-1)
p(t)
w(t)
FIG. 4.2 Repr esentation graphique de la r` egle instar lors dune activit e post-synaptique posi-
tive.
4.3 Comp etitif
Lapprentissage comp etitif, comme son nom lindique, consiste ` a faire comp etitionner les neu-
rones dun r eseau pour d eterminer lequel sera actif ` a un instant donn e. Contrairement aux autres
types dapprentissage o` u, g en eralement, tous les neurones peuvent apprendre simultan ement et
de la m eme mani` ere, lapprentissage comp etitif produit un vainqueur ainsi que, parfois, un
ensemble de neurones voisins du vainqueur, et seuls ce vainqueur et, potentiellement, son voi-
sinage b en ecient dune adaptation de leur poids. On dit alors que lapprentissage est local car
limit e ` a un sous-ensemble des neurones du r eseau.
Une r` egle dapprentissage comp etitif comporte les el ements suivants :
Un ensemble de neurones identiques (m eme type) sauf pour les valeurs de leurs poids sy-
naptiques ;
Une limite impos ee ` a la force dun neurone ;
Un m ecanisme permettant aux neurones de comp etitionner pour le droit de r epondre ` a un
certain sous-ensemble des stimuli dentr ee, de mani` ere ` a ce quun seul neurone de sortie
soit actif ` a la fois.
Ainsi, les neurones individuels peuvent apprendre ` a se sp ecialiser sur des sous-ensembles de sti-
muli similaires pour devenir des d etecteurs de caract eristiques.
Dans leur forme la plus simple, les r eseaux de neurones qui utilisent lapprentissage comp etitif
sont souvent constitu es dune seule couche de neurones de sortie, totalement connect ee sur les
entr ees. Un neurone vainqueur modiera ses poids synaptiques en les rapprochant (g eom etriquement)
dun stimulus dentr ee p pour lequel il a battu tous les autres neurones lors de la comp etition :
w =

(p w) si le neurone est vainqueur


0 autrement
, (4.21)
o` u 0 < < 1 correspond ` a un taux dapprentissage. Un neurone qui ne gagne pas la comp etition
ne modiera aucunement ses poids. Il ne sera donc pas affect e par le stimulus en question. Parfois,
on d enit egalement un voisinage autour du neurone gagnant et on applique une r` egle similaire sur
4.4. PROBL
`
EME DE LAFFECTATION DU CR

EDIT 33
les voisins, mais avec un taux dapprentissage diff erent :
w =

1
(p w) si le neurone est vainqueur

2
(p w) si le neurone est voisin du vainqueur
0 autrement
, (4.22)
avec
2

1
.
Comme nous le verrons plus loin dans ce chapitre, lapprentissage comp etitif est surtout utilis e
dans le contexte dun apprentissage dit non-supervis e, cest-` a-dire lorsquon ne connait pas les
valeurs d esir ees pour les sorties du r eseau.
4.4 Probl` eme de laffectation du cr edit
Dans le domaine g en eral de lapprentissage, il existe un probl` eme qui tourne autour de la
notion de affectation du cr edit
2
. Essentiellement, il sagit daffecter le cr edit dun r esultat global,
par exemple lad equation des sorties dun r eseau face ` a un certain stimulus dentr ee, ` a lensemble
des d ecisions internes prises par le syst` eme (le r eseau) et ayant conduit ` a ce r esultat global. Dans le
cas de lexemple dun r eseau, les d ecisions internes correspondent aux sorties des neurones situ es
sur les couches qui pr ec` edent la couche de sortie. Ces couches sont habituellement quali ees de
couches cach ees car on ne dispose pas, a priori, dinformation sur lad equation de leurs sorties.
Le probl` eme de laffectation du cr edit est donc bien pr esent dans lapprentissage des r eseaux
de neurones. Par exemple, si lon adopte une r` egle bas ee sur la correction des erreurs, comment
fera-t-on pour calculer cette erreur sur les couches cach ees, si lon ne poss` ede pas linformation
` a propos de leurs sorties d esir ees ? De m eme, que fera-t-on si lon dispose uniquement dune
appr eciation g en erale de performance du r eseau face ` a chaque stimulus, et non des sorties d esir ees
pour chaque neurone de la couche de sortie ? Nous apporterons certains el ements de r eponse ` a ces
questions dans les sous-sections suivantes, puis dans les chapitres subs equents au fur et ` a mesure
que nous aborderons des algorithmes concrets dapprentissage.
4.5 Supervis e
Lapprentissage dit supervis e est caract eris e par la pr esence dun professeur qui poss` ede
une connaissance approfondie de lenvironnement dans lequel evolue le r eseau de neurones. En
pratique, les connaissances de ce professeur prennent la forme dun ensemble de Q couples de
vecteurs dentr ee et de sortie que nous noterons {(p
1
, d
1
), (p
2
, d
2
), . . . , (p
Q
, d
Q
)}, o` u p
i
d esigne
un stimulus (entr ee) et d
i
la cible pour ce stimulus, cest-` a-dire les sorties d esir ees du r eseau.
Chaque couple (p
i
, d
i
) correspond donc ` a un cas desp` ece de ce que le r eseau devrait produire
(la cible) pour un stimulus donn e. Pour cette raison, lapprentissage supervis e est aussi quali e
dapprentissage par des exemples.
2
Traduction litt erale de Credit assignment.
34 CHAPITRE 4. PROCESSUS DAPPRENTISSAGE
e(t)
Environnement Professeur
Systme
supervis
p(t)

a(t)

d(t)
+
FIG. 4.3 Sch ema bloc de lapprentissage supervis e.
Lapprentissage supervis e est illustr e dune mani` ere conceptuelle ` a la gure 4.3. Lenvironne-
ment est inconnu du r eseau. Celui-ci produit un stimulus p qui est achemin e ` a la fois au professeur
et au r eseau. Gr ace ` a ses connaissances intrins` eques, le professeur produit une sortie d esir ee d(t)
pour ce stimulus. On suppose que cette r eponse est optimale. Elle est ensuite compar ee (par sous-
tration) avec la sortie du r eseau pour produire un signal derreur e(t) qui est r e-inject e dans le
r eseau pour modier son comportement via une proc edure it erative qui, eventuellement, lui per-
met de simuler la r eponse du professeur. Autrement dit, la connaissance de lenvironnement par le
professeur est graduellement transf er ee vers le r eseau jusqu` a latteinte dun certain crit` ere darr et.
Par la suite, on peut eliminer le professeur et laisser le r eseau fonctionner de facon autonome.
Le lecteur attentif aura remarqu e quun apprentissage supervis e nest rien dautre quun syno-
nyme de lapprentissage par correction des erreurs (voir section 4.1). Il poss` ede donc les m emes
limitations, ` a savoir que sans professeur pour fournir les valeurs cibles, il ne peut daucune facon
apprendre de nouvelles strat egies pour de nouvelles situations qui ne sont pas couvertes par les
exemples dapprentissage.
4.6 Par renforcement
Lapprentissage par renforcement permet de contourner certaines des limitations de lappren-
tissage supervis e. Il consiste en un esp` ece dapprentissage supervis e, mais avec un indice de sa-
tisfaction scalaire au lieu dun signal derreur vectoriel. Ce type dapprentissage est inspir e des
travaux en psychologie exp erimentale de Thorndike (1911) :
Of several responses made to the same situation, those which are accompanied or
closely followed by satisfaction to the animal will, other things being equal, be more
rmly connected with the situation, so that, when it recurs, they will be more likely to
recur ; those which are accompanied or closely followed by discomfort to the animal
will, other things being equal, have their connections with that situation weakened, so
that, when it recurs, they will be less likely to occur. The greater the satisfaction or
discomfort, the greater the strengthening or weakening of the bond.
M eme si cet enonc e ne peut expliquer ` a lui seul le comportement animal au niveau biologique, sa
simplicit e et son pragmatisme peut nous permettre de composer des r` egles dapprentissage utiles.
4.7. NON-SUPERVIS

E 35
Dans le contexte des r eseaux de neurones articiels, nous pouvons reformuler l enonc e de Thorn-
dike de la facon suivante :
Lorsquune action (d ecision) prise par le r eseau engendre un indice de satisfaction
positif, alors la tendance du r eseau ` a prendre cette action doit etre renforc ee. Autre-
ment, la tendance ` a prendre cette action doit etre diminu ee.
En pratique, lusage de lapprentissage par renforcement est complexe ` a mettre en ?uvre, de sorte
que nous naborderons aucun r eseau qui lemploie. Il importe cependant de bien comprendre la
diff erence entre ce type dapprentissage et lapprentissage supervis e que nous etudierons en d etails
au chapitre 5.
Lapprentissage supervis e dispose dun signal derreur qui non seulement permet de calcu-
ler un indice de satisfaction (p.ex. lerreur quadratique moyenne), mais permet aussi destimer le
gradient local qui indique une direction pour ladaptation des poids synaptiques. Cest cette infor-
mation fournie par le professeur qui fait toute la diff erence. Dans lapprentissage par renforcement,
labsence de signal derreur rend le calcul de ce gradient impossible. Pour estimer le gradient, le
r eseau est oblig e de tenter des actions et dobserver le r esultat, pour eventuellement inf erer une
direction de changement pour les poids synaptiques. Pour ce faire, il sagit alors dimplanter un
processus dessais et derreurs tout en retardant la r ecompense offerte par lindice de satisfaction.
Ainsi, on introduit deux etapes distinctes : une dexploration o` u lon essaie des directions al eatoires
de changement, et une dexploitation o` u lon prend une d ecision. Ce processus en deux etapes peut
ralentir consid erablement lapprentissage. De plus, il introduit un dilemme entre le d esir dutiliser
linformation d ej` a apprise ` a propos du m erite des diff erentes actions, et celui dacqu erir de nou-
velles connaissances sur les cons equences de ces d ecisions pour, eventuellement, mieux les choisir
dans le futur.
4.7 Non-supervis e
La derni` ere forme dapprentissage que nous abordons est dite non-supervis ee ou encore
auto-organis ee. Elle est caract eris ee par labsence compl` ete de professeur, cest-` a-dire quon
ne dispose ni dun signal derreur, comme dans le cas supervis e, ni dun indice de satisfaction,
comme dans le cas par renforcement. Nous ne disposons donc que dun environnement qui fournit
des stimuli, et dun r eseau qui doit apprendre sans intervention externe. En assimilant les stimuli de
lenvironnement ` a une description de son etat interne, la t ache du r eseau est alors de mod eliser cet
etat le mieux possible. Pour y arriver, il importe dabord de d enir une mesure de la qualit e pour
ce mod` ele, et de sen servir par la suite pour optimiser les param` etres libres du r eseau, cest-` a-dire
ses poids synaptiques.
`
A la n de lapprentissage, le r eseau a d evelopp e une habilit e ` a former des
repr esentations internes des stimuli de lenvironnement permettant dencoder les caract eristiques
de ceux-ci et, par cons equent, de cr eer automatiquement des classes de stimuli similaires.
Lapprentissage non-supervis e sappuie g en eralement sur un processus comp etitif (voir sec-
tion 4.3) permettant dengendrer un mod` ele o` u les poids synaptiques des neurones repr esentent des
prototypes de stimuli. La qualit e du mod` ele r esultant doit s evaluer ` a laide dune m etrique permet-
tant de mesurer la distance entre les stimuli et leurs prototypes. Souvent, cette m etrique est bas ee
36 CHAPITRE 4. PROCESSUS DAPPRENTISSAGE
sur la norme l
2
(voir section 3.1.4). Cest le processus de comp etition qui permet de s electionner le
prototype associ e ` a chaque stimulus en recherchant le neurone dont le vecteur de poids synaptiques
est le plus proche (au sens de la m etrique choisie) du stimulus en question.
4.8 T aches dapprentissage
Nous terminons ce chapitre en enum erant diff erentes cat egories de t aches que lon peut vouloir
r ealiser avec un r eseau de neurones :
1. Approximation. Soit la fonction g telle que :
d = g(p), (4.23)
o` u p est largument de la fonction (un vecteur) et d la valeur (un scalaire) de cette fonction
evalu ee en p. Supposons maintenant que la fonction g() est inconnue. La t ache dapproxi-
mation consiste alors ` a concevoir un r eseau de neurones capable dassocier les el ements
des couples entr ee-sortie : {(p
1
, d
1
), (p
2
, d
2
), . . . , (p
Q
, d
Q
)}. Ce probl` eme peut etre r esolu ` a
laide dun apprentissage supervis e sur les Q exemples, avec les p
i
repr esentant les stimuli,
et les d
i
repr esentant les sorties d esir ees pour chacun de ces stimuli, avec i = 1, 2, . . . , Q.
Ou inversement, on peut aussi dire que lapprentissage supervis e est un probl` eme dapproxi-
mation de fonction ;
2. Association. Il en existe deux types : lauto-association et lh et ero-association. Le probl` eme
de lauto-association consiste ` a m emoriser un ensemble de patrons (vecteurs) en les pr esentant
successivement au r eseau. Par la suite, on pr esente au r eseau une version partielle ou d eform ee
dun patron original, et la t ache consiste ` a produire en sortie le patron original correspondant.
Le probl` eme de lh et ero-association consiste quant ` a lui ` a associer des paires de patrons :
un patron dentr ee et un patron de sortie. Lauto-association implique un apprentissage non
supervis e, alors que lh et ero-association requiert plut ot un apprentissage supervis e.
3. Classement. Pour cette t ache, il existe un nombre xe de cat egories (classes) de stimuli
dentr ee que le r eseau doit apprendre ` a reconnatre. Dans un premier temps, le r eseau doit
entreprendre une phase dapprentissage supervis e durant laquelle les stimuli sont pr esent es
en entr ee et les cat egories sont utilis ees pour former les sorties d esir ees, g en eralement en
utilisant une sortie par cat egorie. Ainsi, la sortie 1 est associ ee ` a la cat egorie 1, la sortie 2 ` a
la cat egorie 2, etc. Pour un probl` eme comportant Q cat egories, on peut par exemple xer les
sorties d esir ees d = [d
1
, d
2
, . . . , d
Q
]
T
` a laide de lexpression suivante :
d
i
=

1 si le stimulus appartient ` a la cat egorie i


0 autrement
, i = 1, . . . , Q. (4.24)
Par la suite, dans une phase de reconnaissance, il sufra de pr esenter au r eseau nimporte
quel stimulus inconnu pour pouvoir proc eder au classement de celui-ci dans lune ou lautre
des cat egories. Une r` egle simple de classement consiste, par exemple, ` a choisir la cat egorie
associ ee avec la sortie maximale.
4.8. T

ACHES DAPPRENTISSAGE 37
4. Pr ediction. La notion de pr ediction est lune des plus fondamentales en apprentissage. Il
sagit dun probl` eme de traitement temporel de signal. En supposant que nous poss edons M
echantillons pass es dun signal, x(t 1), x(t 2), . . . , x(t M), echantillonn es ` a intervalle
de temps xe, la t ache consiste ` a pr edire la valeur de x au temps t. Ce probl` eme de pr ediction
peut etre r esolu gr ace ` a un apprentissage par correction des erreurs, mais dune mani` ere non
supervis e (sans professeur), etant donn e que les valeurs de sortie d esir ee peuvent etre inf er ees
directement de la s erie chronologique. Plus pr ecis ement, l echantillon de x(t) peut servir de
valeur d esir ee et le signal derreur pour ladaptation des poids se calcule simplement par
l equation suivante :
e(t) = x(t) x(t | t 1, t 2, . . . , t M), (4.25)
o` u x(t) d esigne la sortie d esir ee et x(t | t1, t2, . . . , tM) repr esente la sortie observ ee du
r eseau etant donn e les M echantillons pr ec edents. La pr ediction sapparente ` a la construction
dun mod` ele physique de la s erie chronologique. Dans la mesure o` u le r eseau poss` ede des
neurones dont la fonction de transfert est non-lin eaire, le mod` ele pourra lui-aussi etre non-
lin eaire.
5. Commande. La commande dun processus est une autre t ache dapprentissage que lon peut
aborder ` a laide dun r eseau de neurones. Consid erons un syst` eme dynamique non-lin eaire
{u(t), y(t)} o` u u(t) d esigne lentr ee du syst` eme et y(t) correspond ` a la r eponse de celui-ci.
Dans le cas g en eral, on d esire commander ce syst` eme de mani` ere ` a ce quil se comporte
selon un mod` ele de r ef erence, souvent un mod` ele lin eaire, {r(t), d(t)}, o` u pour tout temps
t 0, on arrive ` a produire une commande u(t) telle que :
lim
t
|d(t) y(t)| = 0, (4.26)
de mani` ere ` a ce que la sortie du syst` eme suivent de pr` es celle du mod` ele de r ef erence. Ceci
peut se r ealiser gr ace ` a certains types de r eseaux supervis es.
Dans les chapitres qui suivent, nous allons aborder des r eseaux sp eciques en commencant par lun
des plus connus et des plus utilis es : le perceptron multicouches et son algorithme de r etropropagation
des erreurs.
38
Chapitre 5
Perceptron multicouche
Le premier r eseau de neurones que nous allons etudier sappelle le perceptron multicouche
1

(PMC). Ce type de r eseau est dans la famille g en erale des r eseaux ` a propagation vers lavant
2
,
cest-` a-dire quen mode normal dutilisation, linformation se propage dans un sens unique, des
entr ees vers les sorties sans aucune r etroaction. Son apprentissage est de type supervis e, par cor-
rection des erreurs (chapitre 4). Dans ce cas uniquement, le signal derreur est r etropropag e vers
les entr ees pour mettre ` a jour les poids des neurones.
Le perceptron multicouche est un des r eseaux de neurones les plus utilis es pour des probl` emes
dapproximation, de classication et de pr ediction. Il est habituellement constitu e de deux ou trois
couches de neurones totalement connect es. Avant den etudier le fonctionnement global, nous al-
lons nous attarder ` a divers cas particuliers plus simples. En particulier, nous allons aborder le cas
du perceptron simple, cest-` a-dire le perceptron ` a une seule couche de neurones dont les fonctions
dactivation sont de type seuils (section 2.3). Nous allons ensuite consid erer diff erentes r` egles dap-
prentissage pour la correction des erreurs. Nous traiterons le cas de la r` egle LMS
3
, de lalgorithme
de r etropropagation (en anglais backpropagation), de la m ethode de Newton et de la m ethode
du gradient conjugu e.
5.1 Perceptron simple
Le perceptron simple est illustr e ` a la gure 5.1. En suivant la notation sch ematique etablie au
chapitre 2, il sagit dune seule couche de S neurones totalement connect ee sur un vecteur p de R
entr ees. La matrice W = [
1
w
2
w
S
w]
T
de dimension S R repr esente lensemble des poids de
la couche, avec les vecteur-rang ees
i
w (dimension R1) repr esentant les R poids des connexions
reliant le neurone i avec ses entr ees. Le vecteur b (dimension S1) d esigne lensemble des S biais
de la couche. Les niveaux dactivation n = Wp b = [n
1
n
2
n
S
]
T
des neurones de la couche
servent dargument ` a la fonction dactivation qui applique un seuil au niveau 0 (section 2.3) pour
1
En anglais multilayer perceptron ou MLP.
2
En anglais feedforward networks.
3
En anglais Least Mean Square.
39
40 CHAPITRE 5. PERCEPTRON MULTICOUCHE
a
Entre Couche de S neurones
a = hardlims(Wp!b)
W
b
+
p
n
-1
S x 1
R x 1
S x R
S x 1 S x 1
R
S
FIG. 5.1 Perceptron ` a une seule couche avec fonction seuil.
produire le vecteur des sorties a = [a
1
a
2
a
S
]
T
, o` u :
a
i
=
_
+1 si n
i
0
1 autrement
(5.1)
Consid erons maintenant le cas non-trivial le plus simple, ` a savoir lorsque R = 2 et S = 1, cest-` a-
dire lorsque la couche nest form ee que dun seul neurone reli e ` a deux entr ees. Dans ce cas, nous
aurons p = [p
1
p
2
]
T
, W = [
1
w]
T
= [w
1,1
w
1,2
], b = [b
1
] et a = [a
1
], o` u :
a
1
=
_
+1 si w
1,1
p
1
+ w
1,2
p
2
b
1
1 autrement
(5.2)
Cette derni` ere equation nous indique clairement que la sortie du r eseau (neurone) peut prendre
seulement deux valeurs distinctes selon le niveau dactivation du neurone : 1 lorsque ce dernier
est strictement inf erieur ` a 0 ; +1 dans le cas contraire. Il existe donc dans lespace des entr ees
une fronti` ere d elimitant deux r egions correspondantes. Cette fronti` ere est d enie par la condition
w
1,1
p
1
+ w
1,2
p
2
= b
1
de l equation 5.2 qui correspond ` a lexpression g en erale dune droite, telle
quillustr ee ` a la gure 5.2.

Etant donn e un certain vecteur de poids w = [w
1,1
w
1,2
]
T
, il est ais e de
montrer que ce vecteur doit etre perpendiculaire ` a cette droite. En effet, pour tous les points p de
la droite, nous avons la relation w
T
p = b, o` u b = b
1
. Or le terme w
T
p correspond ` a un produit
scalaire (section 3.1.3) et lon sait que <x, y> = ||x|| ||y|| cos ( equation 3.12), o` u repr esente
langle entre les vecteurs x et y. Nous avons donc :
<w, p> = ||w|| ||p|| cos = b (5.3)
pour tous les points p qui appartiennent ` a la droite, et le produit scalaire doit rester constant. Mais
sil reste constant alors que la norme de p change, cest parce que langle entre les vecteurs doit
aussi changer. Soit p

, le point de la droite dont le vecteur correspondant poss` ede la plus petite


norme. Ce vecteur est perpendiculaire ` a la droite et sa norme correspond ` a la distance perpendicu-
laire entre la droite et lorigine. Maintenant, si sa norme est minimale, cest que cos est maximal
5.1. PERCEPTRON SIMPLE 41
p
1
p
2
w
n > 0
n < 0
n = 0
FIG. 5.2 Fronti` ere de d ecision pour un perceptron simple ` a 1 neurone et deux entr ees.
et, par cons equent, que langle entre p

et w est nul. Ainsi, w pointe dans la m eme direction que


p

et :
||p

|| =
b
||w||
(5.4)
Nous pouvons egalement d eduire que lorigine appartiendra ` a la r egion gris ee (n > 0) si, et seule-
ment si, b < 0. Autrement, comme ` a la gure 5.2, lorigine appartiendra ` a la r egion n < 0. Si
b = 0, alors la fronti` ere de d ecision passera par lorigine.
Si lon consid` ere maintenant le cas o` u S > 1, alors chaque neurone i poss edera son propre
vecteur de poids
i
w et son propre biais b
i
, et nous nous retrouverons avec S fronti` eres de d ecision
distinctes. Toutes ces fronti` eres de d ecision seront lin eaires. Elles permettront chacune de d ecouper
lespace dentr ee en deux r egions innies, de part et dautre dune droite. Chaque neurone dun
perceptron simple permet donc de r esoudre parfaitement un probl` eme de classication (voir sec-
tion 4.8) ` a deux classes, ` a condition que celles-ci soient lin eairement s eparables. Il ne reste plus
qu` a trouver une r` egle dapprentissage pour pouvoir d eterminer les poids et les biais du r eseau
permettant de classer au mieux Q couples dapprentissage :
{(p
1
, d
1
), (p
2
, d
2
), . . . , (p
Q
, d
Q
)} (5.5)
Pour xer les id ees, consid erons le probl` eme particulier, illustr e ` a la gure 5.3, consistant ` a
discriminer entre le point noir (p
1
) et les points blancs (p
2
et p
3
) d enis par :
__
p
1
=
_
1
2
_
, d
1
= +1
_
,
_
p
2
=
_
1
2
_
, d
2
= 1
_
,
_
p
3
=
_
0
2
_
, d
3
= 1
__
(5.6)
et xons S = 1 (un seul neurone). Il sagit de trouver un vecteur de poids w correspondant ` a
lune ou lautre des fronti` eres de d ecision illustr ees ` a la gure 5.3a. Pour simplier davantage,
42 CHAPITRE 5. PERCEPTRON MULTICOUCHE
p
1
p
2
w
p
1
p
2
w
p
1
p
2
w
p
1
p
2
w(t+1)
w(t)
(a) (b) (c) (d)
FIG. 5.3 Exemple dun probl` eme ` a deux classes (points noirs vs points blancs).
nous supposons pour cet exemple que b = 0, de sorte que les fronti` eres de d ecision induites par
w passent toutes par lorigine. Le probl` eme, bien s ur, est que nous ne connaissons pas a priori la
bonne orientation pour w. Nous allons donc linitialiser al eatoirement, par exemple w = [1 1]
T
(voir gure 5.3b).
Consid erons le point p
1
(point noir). La sortie du r eseau pour ce point est donn ee par :
a = hardlims(w
T
p
1
) = hardlims
_
[1 1]
_
1
2
__
= hardlims(1) = 1 (5.7)
Or, la sortie d esir ee pour ce point est +1 (les zones grises ` a la gure 5.3 produisent une sortie +1).
Le r eseau na donc pas le comportement d esir e, il faudra modier le vecteur w. On peut remarquer
que dans le cas particulier de ce probl` eme simpli e, la norme de w ne compte pas car le biais est
nul, seule son orientation importe.
Comment pourrions-nous modier w pour que le r eseau puisse classier ad equatement le
point p
1
? Une solution consisterait ` a xer w = p
1
, tel quillustr e ` a la gure 5.3c. De cette mani` ere,
le point p
1
serait parfaitement classer. Mais le probl` eme avec cette approche est que la fronti` ere
de d ecision bondirait dun stimulus ` a lautre au l de lapprentissage ce qui pourrait engendrer des
oscillations et emp echer la convergence dans certains cas. La solution consiste donc ` a prendre une
position interm ediaire en approchant la direction de w de celle de p
1
:
w(t + 1) = w(t) +p
1
(5.8)
tel quillustr e ` a la gure 5.3d. Cette r` egle fonctionne bien pour la cat egorie de stimulus o` u lon
d esire obtenir une sortie +1. Dans la situation inverse, il faut au contraire eloigner w de p
1
.
D enissons un signal derreur e =
da
2
o` u e {1, 0, +1}. Alors, nous avons lensemble sui-
vant de r` egles :
w =
_

_
p si e = +1
0 si e = 0
p si e = 1
(5.9)
o` u w = w(t +1) w(t) et p est le stimulus que lon cherche ` a apprendre. Dans le cas o` u b = 0,
on peut aussi mettre ` a jour le biais en observant simplement que celui-ci nest rien dautre quun
poids comme les autres, mais dont lentr ee est x ee ` a -1. Ainsi :
b = e (5.10)
5.1. PERCEPTRON SIMPLE 43
(a) (b) (c)
FIG. 5.4 Exemples de probl` emes non lin eairement s eparables.
Et dans le cas g en eral o` u lon dispose de S neurones, on peut r e ecrire l equation 5.9 sous forme
matricielle de la facon suivante :
W = ep
T
(5.11)
b = e (5.12)
o` u e = [e
1
e
2
e
S
]
T
= da est le vecteur des erreurs que lon observe en sortie pour le stimulus
p.
Malgr e sa relative simplicit e, la r` egle du perceptron sav` ere tr` es puissante. Vous pouvez faci-
lement exp erimenter avec cette r` egle gr ace ` a la Neural Network toolbox de Matlab, programme
de d emonstration nnd4pr.
Nous ne d emontrerons pas ici quelle converge toujours vers une solution en un nombre ni
dit erations, mais sachez quune telle preuve existe. Il importe cependant de connatre les hy-
poth` eses sous-jacentes ` a cette preuve :
1. Le probl` eme doit etre lin eairement s eparable ;
2. Les poids ne sont mis ` a jour que lorsquun stimulus dentr ee est class e incorrectement ;
3. Il existe une borne sup erieure sur la norme des vecteurs de poids.
La premi` ere hypoth` ese va de soit car sil nexiste aucune solution lin eaire au probl` eme, on ne peut
pas sattendre ` a ce quun r eseau qui ne peut produire que des solutions lin eaires puisse converger !
La deuxi` eme hypoth` ese est implicite dans l equation 5.11. Lorsque le signal derreur e est nul,
le changement de poids W est egalement nul. La troisi` eme hypoth` ese est plus subtile mais
non limitative. Si lon sarrange pour conserver le ratio
||w||
b
constant, sans changer lorientation
de w pour un neurone donn e, on ne change aucunement la fronti` ere de d ecision que ce neurone
engendre. Sans perte de g en eralit e, on peut donc r eduire la norme des poids lorsque celle-ci devient
trop grande.
Mais quentend-on par un probl` eme ` a deux classes lin eairement s eparables? Et bien sim-
plement un probl` eme de classication dont la fronti` ere de d ecision permettant de s eparer les deux
classes peut sexprimer sous la forme dun hyperplan (plan dans un espace ` a n dimensions). Par
exemple, les probl` emes de la gure 5.4 ne sont pas s eparables en deux dimensions (par de simples
droites). Des fronti` eres possibles sont dessin ees en pointill es. Elles sont toutes non lin eaires.
44 CHAPITRE 5. PERCEPTRON MULTICOUCHE
a
Entre Couche de S neurones
a = purelin(Wp!b)
W
b
+
p
n
-1
S x 1
R x 1
S x R
S x 1 S x 1
R
S
FIG. 5.5 R eseau ADALINE.
5.2 R` egle LMS
`
A la section pr ec edente, nous avons trait e le cas du perceptron simple o` u les neurones utilisent
une fonction de transfert de type seuil. Nous allons maintenant consid erer la m eme architecture
de r eseau ` a une seule couche mais avec cette fois-ci une fonction de transfert lin eaire comme ` a la
gure 5.5. Ce r eseau sappelle ADALINE (en anglais ADAptive LInear NEuron) ` a cause de
sa fonction de transfert lin eaire. Il souffre des m emes limitations que le perceptron simple : il ne
peut r esoudre que des probl` emes lin eairement s eparables. Cependant, son algorithme dapprentis-
sage, la r` egle du Least Mean Square, est beaucoup plus puissante que la r` egle du perceptron
original, car bien que cette derni` ere soit assur ee de converger vers une solution, si celle-ci existe,
le r eseau r esultant est parfois sensible au bruit puisque la fronti` ere de d ecision se retrouve sou-
vent trop proche des patrons dapprentissage (lalgorithme sarr ete d` es que tous les patrons sont
biens class es). En revanche, la r` egle LMS minimise lerreur quadratique moyenne, de sorte que la
fronti` ere de d ecision a tendance ` a se retrouver aussi loin que possible des prototypes.
En pratique, la r` egle du LMS a d ebouch e vers de nombreuses applications dont une des plus
fameuses est lannulation de l echo pour les communications t el ephoniques. Lorsque que vous
faites un appel inter-urbain ou outre-mer, vous vous trouvez peut- etre, sans le savoir, ` a utiliser un
r eseau ADALINE!
Comme ` a la section 4.1 o` u nous avons d evelopp e le concept dun apprentissage par correction
des erreurs, et comme son nom lindique, la r` egle LMS consiste ` a tenter de minimiser un indice
de performance F bas e sur lerreur quadratique moyenne. Poss edant un ensemble dapprentissage
de Q associations stimulus/cible {(p
q
, d
q
)}, q = 1, . . . , Q, o` u p
q
repr esente un vecteur stimulus
(entr ees) et d
q
un vecteur cible (sorties d esir ees), ` a chaque instant t, on peut propager vers lavant
un stimulus diff erent p(t) ` a travers le r eseau de la gure 5.5 pour obtenir un vecteur de sorties a(t).
Ceci nous permet de calculer lerreur e(t) entre ce que le r eseau produit en sortie pour ce stimulus
et la cible d(t) qui lui est associ ee :
e(t) = d(t) a(t). (5.13)
5.2. R
`
EGLE LMS 45
Sachant que tous les neurones dune m eme couche sont ind ependants les uns des autres, et
pour simplier les equations, nous allons d evelopper la r` egle LMS pour S = 1, cest-` a-dire le cas
dun seul neurone. Ensuite, nous pourrons facilement l etendre au cas g en eral de S neurones. Nous
allons aussi regrouper tous les param` etres libres du neurone en un seul vecteur x :
x =
_
w
b
_
. (5.14)
De m eme, nous allons regrouper en un vecteur y le stimulus p et lentr ee virtuelle 1 associ ee au
biais du neurone :
y =
_
p
1
_
. (5.15)
Ce qui nous permettra d ecrire la sortie a du neurone sous une forme simpli ee :
a = w
T
p b = x
T
y. (5.16)
Nous allons donc travailler avec le signal derreur scalaire e(t) = d(t) a(t) et construire notre
indice de performance F en fonction du vecteur x des param` etres libres du neurone :
F(x) = E
_
e
2
(t)
_
, (5.17)
o` u E[] d esigne lesp erance math ematique. Le probl` eme avec cette equation est que lon ne peut pas
facilement calculer cette esp erance math ematique puisquon ne connat pas les lois de probabilit e
de x. On pourrait faire la moyenne des erreurs pour les Q associations dapprentissage mais ce
serait long. Une id ee plus int eressante, et plus performante en pratique, consiste simplement ` a
estimer lerreur quadratique moyenne par lerreur quadratique instantan ee pour chaque association
dapprentissage :

F(x) = e
2
(t). (5.18)
Alors, ` a chaque it eration de lalgorithme, on peut calculer le vecteur gradient de cet estim e :

F(x) = e
2
(t), (5.19)
o` u les R premiers el ements de e
2
(t) correspondent aux d eriv es partielles par rapport aux R poids
du neurone, et le dernier el ement correspond ` a la d eriv e partielle par rapport ` a son biais. Ainsi :
_
e
2
(t)
_
j
=
e
2
(t)
w
1,j
= 2e(t)
e(t)
w
1,j
, j = 1, . . . , R, (5.20)
et :
_
e
2
(t)
_
R+1
=
e
2
(t)
b
= 2e(t)
e(t)
b
. (5.21)
Il sagit maintenant de calculer les deux d eriv es partielles de e(t) par rapport ` a w
1,j
:
e(t)
w
1,j
=
[d(t) a(t)]
w
1,j
=

w
1,j
_
d(t) (
1
w
T
p(t) b
1
)
_
=

w
1,j
_
d(t)
_
R

k=1
w
1,k
p
k
(t) b
1
__
= p
j
(t), (5.22)
46 CHAPITRE 5. PERCEPTRON MULTICOUCHE
et b :
e(t)
b
= 1. (5.23)
Notez bien que les termes p
j
(t) et 1 sont les el ements de y, de sorte quon peut ecrire :

F(x) = e
2
(t) = 2e(t)y(t). (5.24)
Ce r esultat nous permet aussi dappr ecier la simplicit e quengendre lid ee dutiliser lerreur instan-
tan ee plut ot que lerreur moyenne. Pour calculer le gradient estim e de notre indice de performance,
il suft de multiplier lerreur instantan ee par le stimulus dentr ee !
L equation 5.24 va nous permettre dappliquer la m ethode de la descente du gradient d ecrite
par l equation 4.7 (voir section 4.1, page 28) pour modier les param` etres du neurone dans le sens
dune diminution de F :
x(t) = x(t + 1) x(t) = F(x)

x=x(t)
. (5.25)
En substituant F(x) par

F(x), on obtient :
x(t) = 2e(t)y(t), (5.26)
ce qui equivaut ` a :
w(t) = 2e(t)p(t), (5.27)
b(t) = 2e(t). (5.28)
Les equations 5.27 et 5.28 d enissent la r` egle LMS de base. On la nomme egalement r` egle de
Widrow-Hoff, du nom de ses auteurs. Dans le cas dune couche de S neurones, nous pourrons
mettre ` a jour chaque rang ee i de la matrice de poids ainsi que chaque el ement i du vecteur de biais
` a laide des equations suivantes :

i
w(t) = 2e
i
(t)p(t), (5.29)
b
i
(t) = 2e
i
(t). (5.30)
Ce qui nous permet de r e ecrire le tout sous la forme matricielle :
W(t) = 2e(t)p
T
(t), (5.31)
b(t) = 2e(t). (5.32)
M eme si nous ne d emontrerons pas ici la convergence de lalgorithme LMS, il importe de rete-
nir que pour les indices de performance quadratiques (comme dans le cas ADALINE), la m ethode
de la descente du gradient est garantie de converger vers un minimum global, ` a condition de res-
treindre la valeur du taux dapprentissage. En pratique, nous sommes int eress es ` a xer le plus
grand possible pour converger le plus rapidement possible (par de grands pas). Mais il existe un
seuil ` a partir duquel un trop grand peut faire diverger lalgorithme. Le gradient etant toujours
perpendiculaire aux lignes de contour de F(x), un petit permettra de suivre ces lignes de contour
vers le bas jusqu` a ce quon rencontre le minimum global. En voulant aller trop vite, lalgorithme
5.3. R

ESEAU MULTICOUCHE 47
(a) (b) (c)
FIG. 5.6 Trajectoire de la descente du gradient pour diff erents taux dapprentissage : (a) taux
faible ; (b) taux moyen ; (c) taux (trop) elev e.
peut sauter par dessus un contour et se mettre ` a osciller. Dans le cas quadratique, les lignes de
contour ont une forme elliptique comme ` a la gure 5.6. Lorsque le taux est faible, la trajectoire est
continue mais peut converger lentement vers loptimum. Avec un taux plus elev e (moyen), les pas
sont plus grands mais peuvent avoir tendance ` a osciller. On atteint normalement loptimum plus
rapidement. Lorsque le taux est trop elev e, lalgorithme peut diverger.
On peut montrer que pour garantir la convergence de lalgorithme LMS avec le r eseau ADA-
LINE, il faut que 0 < <
1
max
o` u
max
est la plus grande valeur propre de la matrice E
_
y y
T
_
.
Pour initialiser lalgorithme, il sagit simplement de xer tous les poids et biais du r eseau ` a z ero.
Puis, pour r ealiser lapprentissage, il sagit de lui pr esenter toutes les associations stimulus/cible
disponibles, ` a tour de r ole, et de mettre les poids ` a jour ` a chaque fois en utilisant les equations 5.31
et 5.32. Une p eriode dentranement correspond ` a appliquer ces equations une fois pour chaque
couple (p
i
, d
i
), i = 1, . . . , Q. Notez quil peut etre avantageux de permuter lordre de pr esentation
` a chaque p eriode. Lalgorithme it` ere ainsi jusqu` a un nombre maximum (x e a priori) de p eriodes
ou encore jusqu` a ce que la somme des erreurs quadratiques en sortie soit inf erieure ` a un certain
seuil.
5.3 R eseau multicouche
Jusqu` a pr esent, nous navons trait e que des r eseaux ` a une seule couche de neurones. Nous
avons aussi vu que ces r eseaux ne pouvaient r esoudre que des probl` emes de classication lin eai-
rement s eparables. Les r eseaux multicouches permettent de lever cette limitation. On peut m eme
d emontrer quavec un r eseau de trois couches (deux couches cach ees + une couche de sortie),
comme celui de la gure 2.7 (voir page 14), on peut construire des fronti` eres de d ecision de com-
plexit e quelconque, ouvertes ou ferm ees, concaves ou convexes, ` a condition demployer une fonc-
tion de transfert non lin eaire et de disposer de sufsamment de neurones sur les couches cach ees.
Un r eseau multicouche nest rien dautre quun assemblage de couches concat en ees les unes
48 CHAPITRE 5. PERCEPTRON MULTICOUCHE

2
2
p
1
p
2

1
-1
n
1
1
a
1
1
Entres Couche de dcision

-1.5
-1
n
1
2
a
1
2
-1
-1
2
1
n
2
1
a
2
1
1
1.5
-1
Conjonction
FIG. 5.7 R eseau multicouche pour r esoudre le probl` eme du ou exclusif.
aux autres, de la gauche vers la droite, en prenant les sorties dune couche et en les injectant comme
les entr ees de la couche suivante.
`
A la section suivante, nous allons d evelopper lalgorithme dit de
r etropropagation des erreurs qui permet dentraner un r eseau multicouche. Mais pour linstant
nous allons tenter dillustrer ` a quoi servent les couches suppl ementaires. Une chose que lon peut
d ej` a remarquer est quil ne sert ` a rien dassembler plusieurs couches ADALINE car la combinaison
de plusieurs couches lin eaires peut toujours se ramener ` a une seule couche lin eaire equivalente.
Cest pourquoi, pour etre utile, un r eseau multicouche doit toujours poss eder des neurones avec
fonctions de transfert non-lin eaires sur ses couches cach ees. Sur sa couche de sortie, selon le type
dapplication, il pourra comporter des neurones lin eaires ou non-lin eaires.
5.3.1 Probl` eme du ou exclusif
`
A la gure 5.4a, nous avons illustr e un probl` eme de classication non s eparable lin eairement.
Il sagit du probl` eme classique du ou exclusif (xor) que lon ne peut pas r esoudre ni avec un
perceptron simple, ni avec un r eseau ADALINE, car les points noirs ne peuvent pas etre s epar es
des blancs ` a laide dune seule fronti` ere de d ecision lin eaire. Dans ce probl` eme, les points noirs
repr esentent le vrai (valeur 1) et les points blancs le faux (valeur 0). Le ou exclusif, pour etre
vrai, exige quune seule de ses entr ees soit vraie, sinon il est faux. On peut r esoudre facilement ce
probl` eme ` a laide du r eseau multicouche illustr e ` a la gure 5.7. Ce r eseau ` a deux couches utilise
des fonctions de transfert seuil. Sur la premi` ere couche, chaque neurone engendre les fronti` eres
de d ecision illustr ees aux gures 5.8a et 5.8b. Les zones gris ees repr esentent la r egion de lespace
dentr ee du r eseau pour laquelle le neurone correspondant produit une r eponse vrai. Le r ole du
neurone sur la couche de sortie, illustr e ` a la gure 5.8c, consiste ` a effectuer la conjonction des
deux r egions produites par les neurones de la premi` ere couche. Notez bien que les entr ees de
la deuxi` eme couche sont les sorties de la premi` ere couche. La gure 5.8 repr esente toutes les
fronti` eres de d ecision dans lespace des entr ees. La fronti` ere de d ecision engendr ee par le neurone
5.3. R

ESEAU MULTICOUCHE 49
1
w
1
p
1
p
2
2
w
1
p
1
p
2
p
1
p
2
(a) (b) (c)
FIG. 5.8 Fronti` eres de d ecision engendr ees par le r eseau de la gure 5.7 : (a) neurone 1 de la
couche 1 ; (b) neurone 2 de la couche 1 ; (c) neurone 1 de la couche 2.
a
1
1
a
1
2
1
w
2
FIG. 5.9 Fronti` ere de d ecision engendr ee par le neurone qui effectue une conjonction.
de la couche de sortie est aussi illustr ee dans son propre espace dentr ee ` a la gure 5.9. Il importe
de remarquer que la sortie des fonctions seuils employ ees etant limit ee aux valeurs {0, 1} (que lon
interpr` ete comme etant respectivement faux et vrai), seuls les coins du carr e illustr e ` a la gure sont
pertinents. Pour r ealiser une conjonction (un et logique), le neurone effectue donc la somme de
ses deux entr ees et xe un seuil ` a 1.5. Si la somme est inf erieur ` a 1.5, alors il produit vrai en sortie,
sinon il produit faux. Dans ce cas, seul le coin sup erieur droite du carr e produit vrai en sortie.
Mentionnons nalement que le r eseau de la gure 5.7 nest pas le seul ` a pouvoir r esoudre
ce probl` eme du ou exclusif. Dautres combinaisons de poids et de biais pourraient produire le
m eme r esultat (pouvez-vous en trouver dautres ?).
5.3.2 Approximation de fonction
Pour faire de lapproximation de fonction (section 4.8), on peut montrer quun r eseau mul-
ticouche comme celui de la gure 5.10, avec une seule couche cach ee de neurones sigmodes et
une couche de sortie avec des neurones lin eaires permet dapproximer nimporte quelle fonction
dint er et avec une pr ecision arbitraire, ` a condition de disposer de sufsamment de neurones sur la
50 CHAPITRE 5. PERCEPTRON MULTICOUCHE
Entre
p
-1
R
a
1
Couche sigmode
a
1
= logsig(W
1
p ! b
1
)
W
1
b
1
+
n
1
S
1
x 1
S
1
x R
S
1
x 1
S
1
x 1
S
1
R x 1
a
2
Couche linaire
a
2
= purelin(W
2
a
1
! b
2
)
W
2
b
2
+
n
2
S
2
x 1
S
2
x 1
S
2
x 1
S
2
S
2
x S
1
-1
FIG. 5.10 R eseau multicouche permettant de faire de lapproximation de fonction.
(a) (b) (c) (d)
FIG. 5.11 Exemples de fronti` eres de d ecision : (a) convexe ouverte ; (b) convexe ferm ee ; (c)
concave ouverte ; et (d) concave ferm ee.
couche cach ee. Intuitivement, un peu ` a la facon des s eries de Fourier qui utilisent des sinus et co-
sinus, cette preuve passe par la d emonstration que lon peut approximer nimporte quelle fonction
dint er et par une combinaison lin eaire de sigmodes.
5.3.3 Classication
Pour faire de la classication, on utilisera des r eseaux soit ` a deux, soit ` a trois couches de neu-
rones sigmodes. On peut montrer quune seule couche cach ee suft ` a engendrer des fronti` eres de
d ecision
4
convexes, ouvertes ou ferm ees, de complexit e arbitraire, alors que deux couches cach ees
permettent de cr eer des fronti` eres de d ecision concaves
5
ou convexes, ouvertes ou ferm ees, de
complexit e arbitraire. La gure 5.11 montre en deux dimensions diff erents types de fronti` eres de
d ecision. Intuitivement, on veut voir que la premi` ere couche cach ee dun tel r eseau sert ` a d ecouper
lespace dentr ee ` a laide de fronti` eres de d ecision lin eaires, comme on la vu pour le perceptron
simple, la deuxi` eme couche sert ` a assembler des fronti` eres de d ecision non-lin eaires
6
convexes en
4
Notez bien quune fronti` ere de d ecision nest pas n ecessairement une fonction !
5
Une courbe (surface) convexe ne comporte aucun changement dans le signe de la courbure, alors quune courbe
concave implique un point dinexion.
6
Les non-lin earit es proviennent des sigmodes !
5.4. R

ETROPROPAGATION DES ERREURS 51


Entre
p
-1
R

1
a
1
Couche 1
a
1
=
1
(W
1
p ! b
1
)
W
1
b
1
+
n
1
S
1
x 1
S
1
x

R
S
1
x 1
S
1
x 1
S
1
R x 1

2
a
2
Couche 2
a
2
=
2
(W
2
a
1
! b
2
)
W
2
b
2
+
n
2
S
2
x 1
S
2
x S
1
S
2
x 1
S
2
x 1
S
2

3
a
3
Couche 3
a
3
=
3
(W
3
a
2
! b
3
)
W
3
b
3
+
n
3
S
3
x 1
S
3
x 1
S
3
x 1
S
3
S
3
x S
2
-1 -1
FIG. 5.12 Repr esentation matricielle dun r eseau de trois couches (reproduction de la gure 2.7).
s electionnant ou en retranchant des r egions engendr ees par la couche pr ec edente et, de m eme, la
couche de sortie permet dassembler des fronti` eres de d ecision concaves en s electionnant ou en
retranchant des r egions convexes engendr ees par la couche pr ec edente.
Avant de passer ` a lalgorithme de r etropropagation qui nous permettra dentraner un r eseau
multicouche, que nous nommerons dor enavant perceptron multicouche ou PMC, mentionnons que
ce nest pas par hasard que nous avons remplac e la fonction de transfert seuil par la fonction
sigmode, mais bien pour pouvoir proc eder ` a un apprentissage automatique. Par exemple, m eme si
nous avons pu construire ` a la main, avec la fonction seuil, le r eseau de la gure 5.7 pour r esoudre le
probl` eme du ou exclusif, nous ne saurions pas comment apprendre automatiquement ` a g en erer
les bons poids et les bons biais de ce r eseau. Le probl` eme avec la fonction seuil est que sa d eriv ee
est toujours nulle sauf en un point ou elle nest m eme pas d enie ! On ne peut donc pas lutiliser
avec la m ethode de la descente du gradient qui nous a si bien servi pour le r eseau ADALINE.
5.4 R etropropagation des erreurs
Pour d evelopper les equations de lalgorithme de r etropropagation des erreur (en anglais
backpropagation), nous aurons besoin de toute la puissance des notations introduites ` a la section
2.1 (voir page 5) et illustr ees ` a la gure 2.7 que nous reproduisons ` a la gure 5.12.
L equation qui d ecrit les sorties dune couche k dans un perceptron multicouche est donn ee
par :
a
k
= f
k
_
W
k
a
k1
b
k
_
, pour k = 1, . . . , M, (5.33)
o` u M est le nombre total de couches et a
0
= p d enit le cas de base de cette formule de
r ecurrence. Les sorties du r eseau correspondent alors ` a a
M
. Lalgorithme de r etropropagation
est une g en eralisation de la r` egle LMS. Tous deux utilisent comme indice de performance ler-
reur quadratique moyenne, et tous deux permettent un apprentissage de type supervis e avec un
ensemble dassociation stimulus/cible {(p
q
, d
q
)}, q = 1, . . . , Q, o` u p
q
repr esente un vecteur sti-
mulus (entr ees) et d
q
un vecteur cible (sorties d esir ees).
`
A chaque instant t, on peut propager vers
52 CHAPITRE 5. PERCEPTRON MULTICOUCHE
lavant un stimulus diff erent p(t) ` a travers le r eseau de la gure 5.12 pour obtenir un vecteur de
sorties a(t). Ceci nous permet de calculer lerreur e(t) entre ce que le r eseau produit en sortie pour
ce stimulus et la cible d(t) qui lui est associ ee :
e(t) = d(t) a(t). (5.34)
Lindice de performance F permet de minimiser lerreur quadratique moyenne :
F(x) = E
_
e
T
(t)e(t)
_
(5.35)
o` u E[.] d esigne lesp erance math ematique et le vecteur x regroupe lensemble des poids et des
biais du r eseau. Tout comme pour la r` egle LMS, nous allons approximer cet indice par lerreur
instantan ee :

F(x) = e
T
(t)e(t) (5.36)
et nous allons utiliser la m ethode de la descente du gradient pour optimiser x :
w
k
i,j
(t) =


F
w
k
i,j
(5.37)
b
k
i
(t) =


F
b
k
i
(5.38)
o` u d esigne le taux dapprentissage.
La proc edure doptimisation est donc tr` es semblable ` a celle de la r` egle LMS. Cependant,
il faut faire face ` a deux difcult es suppl ementaires. Premi` erement, les fonctions de transfert des
neurones ne sont plus n ecessairement lin eaires. Leur d eriv e partielle ne sera donc plus constante.
Deuxi` emement, nous ne poss edons les sorties d esir ees (les cibles) que pour les neurones de la
couche de sortie. Cest surtout cette deuxi` eme observation qui va nous poser probl` eme.
Pour calculer la d eriv e partielle de

F, il faudra faire appel ` a la r` egle de chanage des d eriv es :
df[n(w)]
dw
=
df[n]
dn

dn(w)
dw
. (5.39)
Par exemple, si f[n] = e
n
et n = 2w, donc f[w] = e
2w
, alors :
df[n(w)]
dw
=
_
de
n
dn
_

_
d2w
dw
_
= (e
n
)(2) = 2e
2w
. (5.40)
Nous allons nous servir de cette r` egle pour calculer les d eriv es partielles des equations 5.37 et
5.38 :


F
w
k
i,j
=


F
n
k
i

n
k
i
w
k
i,j
, (5.41)


F
b
k
i
=


F
n
k
i

n
k
i
b
k
i
. (5.42)
5.4. R

ETROPROPAGATION DES ERREURS 53


Le deuxi` eme terme de ces equations est facile ` a calculer car les niveaux dactivation n
k
i
de la
couche k d ependent directement des poids et des biais sur cette couche :
n
k
i
=
S
k1

j=1
w
k
i,j
a
k1
j
b
k
i
. (5.43)
Par cons equent :
n
k
i
w
k
i,j
= a
k1
j
,
n
k
i
b
k
i
= 1. (5.44)
On remarque que cette partie de la d eriv ee partielle de

F par rapport ` a un poids (ou un biais) est
toujours egale ` a lentr ee de la connexion correspondante.
Maintenant, pour le premier terme des equations 5.41 et 5.42, d enissons la sensibilit e s
k
i
de

F aux changements dans le niveau dactivation n


k
i
du neurone i de la couche k :
s
k
i



F
n
k
i
. (5.45)
On peut alors r e ecrire les equations 5.41 et 5.42 de la facon suivante :


F
w
k
i,j
= s
k
i
a
k1
j
, (5.46)


F
b
k
i
= s
k
i
, (5.47)
et les expressions des equations 5.37 et 5.38 de la facon suivante :
w
k
i,j
(t) = s
k
i
(t)a
k1
j
(t), (5.48)
b
k
i
(t) = s
k
i
(t), (5.49)
ce qui donne en notation matricielle :
W
k
(t) = s
k
(t)(a
k1
)
T
(t), (5.50)
b
k
(t) = s
k
(t), (5.51)
avec :
s
k



F
n
k
=
_


F
n
k
1


F
n
k
2
.
.
.


F
n
k
S
k
_

_
. (5.52)
Par rapport ` a la r` egle LMS, il est int eressant de noter la ressemblance des equations ci-dessus avec
les equations 5.31 et 5.32. On remarque que le terme 2e(t) est simplement remplac e par s
M
(t).
54 CHAPITRE 5. PERCEPTRON MULTICOUCHE
5.4.1 Calcul des sensibilit es
Il reste maintenant ` a calculer les sensibilit es s
k
, ce qui requerra une nouvelle application de la
r` egle de chanage des d eriv es. Dans ce cas, nous obtiendrons une formule de r ecurrence o` u la sensi-
bilit e des couches en amont (entr ees) d ependra de la sensibilit e des couches en aval (sorties). Cest
de l` a que provient lexpression r etropropagation, car le sens de propagation de linformation est
invers e par rapport ` a celui de l equation 5.33.
Pour d eriver la formule de r ecurrence des sensibilit es, nous allons commencer par calculer la
matrice suivante :
n
k+1
n
k
=
_

_
n
k+1
1
n
k
1
n
k+1
1
n
k
2

n
k+1
1
n
k
S
k
n
k+1
2
n
k
1
n
k+1
2
n
k
2

n
k+1
2
n
k
S
k
.
.
.
.
.
.
.
.
.
.
.
.
n
k+1
S
k+1
n
k
1
n
k+1
S
k+1
n
k
2

n
k+1
S
k+1
n
k
S
k
_

_
. (5.53)
Cette matrice enum` ere toutes les sensibilit es des niveaux dactivation dune couche par rapport ` a
ceux de la couche pr ec edente. Consid erons chaque el ement (i, j) de cette matrice :
n
k+1
i
n
k
j
=

n
k
j
_
_
S
k

l=1
w
k+1
i,l
a
k
l
b
k+1
i
_
_
= w
k+1
i,j
a
k
j
n
k
j
= w
k+1
i,j
f
k
(n
k
j
)
n
k
j
= w
k+1
i,j

f
k
(n
k
j
), (5.54)
avec :

f
k
(n
k
j
) =
f
k
(n
k
j
)
n
k
j
. (5.55)
Par cons equent, la matrice de l equation 5.53 peut s ecrire de la facon suivante :
n
k+1
n
k
= W
k+1

F
k
(n
k
), (5.56)
o` u :

F
k
(n
k
) =
_

f
k
(n
k
1
) 0 0
0

f
k
(n
k
2
) 0 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0

f
k
(n
k
S
k
)
_

_
. (5.57)
Ceci nous permet maintenant d ecrire la relation de r ecurrence pour les sensibilit es :
s
k
=


F
n
k
=
_
n
k+1
n
k
_
T


F
n
k+1
=

F
k
_
n
k
_ _
W
k+1
_
T

F
n
k+1
=

F
k
_
n
k
_ _
W
k+1
_
T
s
k+1
. (5.58)
5.4. R

ETROPROPAGATION DES ERREURS 55


Cette equation nous permet de calculer s
1
` a partir de s
2
, qui lui-m eme est calcul e ` a partir de s
3
,
etc., jusqu` a s
M
. Ainsi les sensibilit es sont r etropropag ees de la couche de sortie jusqu` a la couche
dentr ee :
s
M
s
M1
s
2
s
1
. (5.59)
Il ne nous reste plus qu` a trouver le cas de base, s
M
, permettant de mettre n ` a la r ecurrence :
s
M
i
=


F
n
M
i
=

_
d a
M
_
T
_
d a
M
_
n
M
i
=

n
M
i
_
_
S
M

l=1
(d
l
a
M
l
)
2
_
_
= 2
_
d
i
a
M
i
_
a
M
i
n
M
i
= 2
_
d
i
a
M
i
_

f
M
_
n
M
i
_
. (5.60)
En notation matricielle, on ecrit :
s
M
= 2

F
M
_
n
M
_ _
d a
M
_
. (5.61)
5.4.2 Algorithme dentranement
Voici donc un r esum e de la d emarche ` a suivre pour entraner un perceptron multicouche :
1. Initialiser tous les poids du r eseau ` a de petites valeurs al eatoires.
2. Pour chaque association (p
q
, d
q
) dans la base dapprentissage :
(a) Propager les entr ees p
q
vers lavant ` a travers les couches du r eseau :
a
0
= p
q
, (5.62)
a
k
= f
k
_
W
k
a
k1
b
k
_
, pour k = 1, . . . , M. (5.63)
(b) R etropropager les sensibilit es vers larri` ere ` a travers les couches du r eseau :
s
M
= 2

F
M
_
n
M
_ _
d
q
a
M
_
, (5.64)
s
k
=

F
k
_
n
k
_ _
W
k+1
_
T
s
k+1
, pour k = M 1, . . . , 1. (5.65)
(c) Mettre ` a jour les poids et biais :
W
k
= s
k
_
a
k1
_
T
, pour k = 1, . . . , M, (5.66)
b
k
= s
k
, pour k = 1, . . . , M. (5.67)
3. Si le crit` ere darr et est atteint, alors stop.
4. Sinon, permuter lordre de pr esentation des associations de la base dapprentissage.
5. Recommencer ` a l etape 2.
56 CHAPITRE 5. PERCEPTRON MULTICOUCHE
5.4.3 Crit` eres darr et
Plusieurs crit` eres darr ets peuvent etre utilis es avec lalgorithme de r etropropagation des er-
reurs. Le plus commun consiste ` a xer un nombre maximum de p eriodes dentranement, ce qui
xe effectivement une limite sup erieure sur la dur ee de lapprentissage. Ce crit` ere est important car
la r etropropagation des erreurs noffre aucune garantie quant ` a la convergence de lalgorithme. Il
peut arriver, par exemple, que le processus doptimisation reste pris dans un minimum local. Sans
un tel crit` ere, lalgorithme pourrait ne jamais se terminer.
Un deuxi` eme crit` ere commun consiste ` a xer une borne inf erieure sur lerreur quadratique
moyenne, ou encore sur la racine
7
carr ee de cette erreur. D ependant de lapplication, il est parfois
possible de xer a priori un objectif ` a atteindre. Lorsque lindice de performance choisi diminue
en dessous de cet objectif, on consid` ere simplement que le PMC a sufsamment bien appris ses
donn ees et on arr ete lapprentissage.
Les deux crit` eres pr ec edents sont utiles mais ils comportent aussi des limitations. Le crit` ere
relatif au nombre maximum de p eriodes dentranement nest aucunement li e ` a la performance du
r eseau. Le crit` ere relatif ` a lerreur minimale obtenue mesure quant ` a lui un indice de performance
mais ce dernier peut engendrer un ph enom` ene dit de sur-apprentissage qui nest pas d esirable dans
la pratique, surtout si lon ne poss` ede pas une grande quantit e de donn ees dapprentissage, ou si
ces derni` eres ne sont pas de bonne qualit e.
Un processus dapprentissage par correction des erreurs, comme celui de la r etropropagation,
vise ` a r eduire autant que possible lerreur que commet le r eseau. Mais cette erreur est mesur ee
sur un ensemble de donn ees dapprentissage. Si les donn ees sont bonnes, cest-` a-dire quelles
repr esentent bien le processus physique sous-jacent que lon tente dapprendre ou de mod eliser,
et que lalgorithme a converg e sur un optimum global, alors il devrait bien performer sur dautres
donn ees issues du m eme processus physique. Cependant, si les donn ees dapprentissage sont par-
tiellement corrompues par du bruit ou par des erreurs de mesure, alors il nest pas evident que la
performance optimale du r eseau sera atteinte en minimisant lerreur, lorsquon la testera sur un jeu
de donn ees diff erent de celui qui a servi ` a lentranement. On parle alors de la capacit e du r eseau ` a
g en eraliser, cest-` a-dire de bien performer avec des donn ees quil na jamais vu auparavant.
Par exemple, la gure 5.13 illustre le probl` eme du sur-apprentissage dans le contexte dune
t ache dapproximation de fonction (voir section 4.8). La droite en pointill es montre une fonction
lin eaire que lon voudrait approximer en ne connaissant que les points noirs. La courbe en trait
plein montre ce quun r eseau hypoth etique pourrait apprendre. On constate que la courbe passe
par tous les points dentranement et donc que lerreur est nulle. De toute evidence, ce r eseau ne
g en eralisera pas bien si lon echantillonne dautres points sur la droite !
Une solution ` a ce probl` eme consiste ` a utiliser un autre crit` ere darr et bas e sur une technique
dite de validation crois ee (en anglais cross-validation). Cette technique consiste ` a utiliser deux
ensembles ind ependants
8
de donn ees pour entraner notre r eseau : un pour lapprentissage (lajuste-
ment des poids) et lautre pour la validation, cest-` a-dire le calcul dun indice de performance (une
7
On parle alors de la racine de lerreur quadratique moyenne. En anglais, on dit Root Mean Square ou RMS.
8
En pratique cela consiste ` a partitionner les donn ees disponibles en deux ensembles distincts.
5.4. R

ETROPROPAGATION DES ERREURS 57


FIG. 5.13 Illustration du ph enom` ene de sur-apprentissage pour le cas simple dune approxima-
tion de fonction.
entranement
erreur
temps
validation
arrt
sur-apprentissage
FIG. 5.14 Illustration de la validation crois ee.
erreur, un taux de reconnaissance ou tout autre mesure pertinente ` a lapplication). Le crit` ere darr et
consiste alors ` a stopper lapprentissage lorsque lindice de performance calcul e sur les donn ees de
validation cesse de sam eliorer pendant plusieurs p eriodes dentranement. La gure 5.14 illustre
le crit` ere de la validation crois ee dans le cas dun indice de performance que lon cherche ` a mi-
nimiser. La courbe en pointill es de ce graphique repr esente lindice de performance dun r eseau
hypoth etique
9
calcul e sur les donn ees dapprentissage, alors que la courbe en trait plein montre le
m eme indice mais calcul e sur les donn ees de validation. On voit quil peut exister un moment au
cours de lapprentissage o` u lindice en validation se d et eriore alors que le m eme indice continue ` a
sam eliorer pour les donn ees dentranement. Cest alors le d ebut du sur-apprentissage.
9
Des courbes semblables sobservent couramment dans la pratique.
58 CHAPITRE 5. PERCEPTRON MULTICOUCHE

0.3
0.4
100
100
-0.5
-1
n a
FIG. 5.15 Exemple dun neurone satur e.
5.4.4 Ph enom` ene de saturation
Une autre consid eration pratique dont on doit tenir compte lorsquon entrane un PMCconcerne
le ph enom` ene de saturation des neurones o` u, sous certaines conditions, les neurones peuvent ` a toute
n pratique cesser dapprendre tellement leur convergence devient lente. Consid erons par exemple
le r eseau de la gure 5.15, constitu e dun seul neurone ` a deux entr ees avec p
1
= p
2
= 100. Si lon
calcule son niveau dactivation n, on obtient :
n = 100 0.3 + 100 0.4 + 0.5 = 70.5 (5.68)
On peut d ej` a remarquer que leffet du biais est n egligeable devant celui des deux poids dentr ee,
malgr e le fait quils soient tous les trois du m eme ordre de grandeur, ` a cause de lamplitude des
entr ees. Si lon calcule la sortie du neurone, on obtient :
a = logsig(n) =
1
1 + exp(n)
=
1
1 + exp(70.5)
1. (5.69)
En effet, exp(70.5) = 2.4 10
31
. On dit alors que le neurone est satur e. Le probl` eme avec un
tel neurone est quil ne peut presque plus apprendre car la d eriv ee de sa fonction dactivation est
pratiquement nulle :
a =
da
dn
=
d
dn
_
1
1 + exp(n)
_
=
(1)
d
dn
(1 + exp(n))
(1 + exp(n))
2
=
exp(n)
(1 + exp(n))
2
= a
exp(n)
1 + exp(n)
= a
1 + exp(n) 1
1 + exp(n)
= a(1 a) (5.70)
Avec a 1, on obtient :
a 1 (1 1) = 0 (5.71)
Or, comme les variations de poids dans lalgorithme de r etropropagation des erreurs, d enies aux
equations 5.66 et 5.67, d ependent lin eairement des sensibilit es (voir equations 5.64 et 5.65) qui
elles-m emes d ependent de la d eriv ee de la fonction dactivation, on voit imm ediatement quelles
tendent vers z ero lorsque le neurone est satur e et que la convergence, m eme si elle est toujours
possible, requerra beaucoup de p eriodes dapprentissage.
5.4. R

ETROPROPAGATION DES ERREURS 59


Par cons equent, ` a cause de ce ph enom` ene de saturation, il importe de normaliser les donn ees
` a lentr ee dun PMC, cest-` a-dire de les transformer de mani` ere ` a eviter tout risque de saturation.
Une autre facon de proc eder est dinitialiser les poids sur la premi` ere couche en choisissant un
intervalle de valeurs al eatoires ajust e aux stimuli dapprentissage. Par exemple, pour lentr ee j
dun r eseau ` a R entr ees, on pourrait choisir lintervalle suivant :
_
1
max
q
|p
q
j
|
,
1
max
q
|p
q
j
|
_
, j = 1, . . . , R, (5.72)
o` u {q} d esigne lensemble des stimuli dapprentissage.
Une autre alternative serait de xer tous les poids ` a z ero. Bien que ceci r eglerait certes le
probl` eme de la saturation des neurones, ce nest malheureusement pas une alternative viable. En
effet, il se trouve que lorigine de lespace des poids correspond souvent ` a un lieu dinstabilit e de
la fonction derreur du r eseau. Et ceci peut facilement entraner la divergence de lalgorithme de
r etropropagation.
5.4.5 Groupage
Au lieu de mettre ` a jour les poids pour chaque donn ee dentranement, une alternative consiste
` a accumuler les variations de poids sur une p eriode dapprentissage compl` ete et de mettre ` a jour
les poids en une seule fois avec la moyenne de ces variations. On parle alors dapprentissage
hors-ligne ou par groupage (en anglais batching). Lid ee est la suivante : lestimation du
gradient quengendre chaque donn ee dentranement est peu pr ecise, la moyenne de ces estimations
devrait etre plus pr` es du gradient r eel. En fait, si les donn ees dentranement couvrent ad equatement
lespace des entr ees, alors la moyenne de ces estimations sera exacte.
Mais le groupage nest pas une panac ee car cela peut aussi ralentir consid erablement la conver-
gence, puisque les poids changent moins souvent. Autrement dit, si lestimation du gradient bas ee
sur une seule donn ee dentranement a tendance ` a etre bonne, alors on pourrait converger jusqu` a
Q fois plus lentement si lon proc` ede par groupage. Par contre, lorsque cette estimation est plut ot
mauvaise, le groupage sert ` a eviter de partir dans une mauvaise direction qui, autrement, augmen-
terait nos chances de rester pris dans un minimum local inad equat.
5.4.6 Momentum
Une facon dam eliorer lalgorithme de r etropropagation est de rajouter un terme dinertie dont
le r ole est de ltrer les oscillations dans la trajectoire de la descente du gradient :
W
k
(t) = W
k
(t 1) (1 )s
k
_
a
k1
_
T
, pour k = 1, . . . , M, (5.73)
b
k
(t) = b
k
(t 1) + (1 )s
k
, pour k = 1, . . . , M. (5.74)
o` u 0 < 1 sappelle le momentum. Lorsque = 0, les equations 5.73 et 5.74 sont equivalentes
aux equations 5.66 et 5.67, respectivement. Lorsque = 1, les W
k
(t) et b
k
(t) ne d ependent
60 CHAPITRE 5. PERCEPTRON MULTICOUCHE
plus des equations de r etropropagation des erreurs, mais uniquement des W
k
(t1) et b
k
(t1),
cest-` a-dire des changements de poids ` a l etape pr ec edente.
Le terme du momentum produit deux effets distincts selon la situation. Premi` erement, lorsque
la trajectoire du gradient a tendance ` a osciller (comme ` a la gure 5.6c), il contribue ` a la stabiliser en
ralentissant les changements de direction. Par exemple, avec = 0.8, cela correspond dembl ee ` a
ajouter 80% du changement pr ec edent au changement courant. Deuxi` emement, lorsque le gradient
courant pointe dans la m eme direction que le gradient pr ec edent, le terme dinertie contribue ` a
augmenter lampleur du pas dans cette direction et donc ` a acc el erer la convergence.
5.4.7 Taux dapprentissage variable
Une autre facon dam eliorer la vitesse de convergence pour la r etropropagation des erreurs
serait de modier le taux dapprentissage dynamiquement tout au long de lentranement. Plusieurs
approches peuvent etre consid er ees. Par exemple, on peut adopter la strat egie suivante :
1. Si lerreur quadratique totale, calcul ee pour toutes les associations de la base dapprentis-
sage, augmente dune p eriode ` a lautre par plus dun certain pourcentage (typiquement de
1 ` a 5%) ` a la suite dune mise ` a jour des poids, alors cette mise ` a jour doit etre abandonn ee
et le taux dapprentissage doit etre multipli e par un facteur 0 < < 1, et le momentum doit
etre x e ` a z ero ;
2. Si lerreur quadratique totale diminue ` a la suite dune mise ` a jour des poids, alors celle-ci
est conserv ee et le taux dapprentissage est multipli e par un facteur > 1 ; si le momentum
avait pr ec edemment et e x e ` a z ero, alors on lui redonne sa valeur originale ;
3. Si lerreur quadratique totale augmente par moins de , alors la mise ` a jour des poids est
accept ee et le taux dapprentissage reste inchang e ; Si le momentum avait pr ec edemment et e
x e ` a z ero, alors on lui redonne sa valeur originale ;
Cette approche suppose que lapprentissage fonctionne par groupage, cest-` a-dire que les mises
` a jour des poids sont accumul ees sur lensemble des associations de la base dapprentissage et
appliqu ees une fois ` a la n de chaque p eriode (section 5.4.5). Dans certains cas cela peut acc el erer
grandement la convergence. Dans dautres cas, cette approche peut aussi nuire ` a la convergence.
Il faut comprendre que ce genre de technique ajoute des param` etres
10
(, et ) quil faut xer a
priori. Pour un probl` eme donn e, certaines combinaisons de param` etres peuvent etre b en eques et
dautres non. Parfois, lemploi dune telle m ethode peut m eme entraner une divergence rapide l` a
o` u la r etropropagation des erreurs avec momentum produisait une convergence lente.
5.4.8 Autres consid erations pratiques
Nous enum erons ci-dessous dautres consid erations pratiques pour lentranement du PMC.
Selon les circonstances, celles-ci peuvent aussi avoir un effet appr eciable sur la performance de
lalgorithme de r etropropagation des erreurs.
10
Lapproche d ecrite ici, propos ee par Vogl et al. en 1988, est relativement simple parmi lensemble des variantes
qui ont et e explor ees dans la litt erature pour faire varier dynamiquement le taux dapprentissage.
5.4. R

ETROPROPAGATION DES ERREURS 61


1. Lorsquon utilise une couche de sortie non-lin eaire, cest-` a-dire une couche dont les neu-
rones poss` edent des fonctions dactivation non lin eaires telles que la sigmode ou la tangente
hyperbolique (voir section 2.3), il importe de ne pas chercher ` a saturer les neurones en xant
des sorties d esir ees qui tendent vers lassymptote de la fonction. Dans le cas de la sigmode,
par exemple, au lieu de xer des sorties d esir ees ` a 0 ou ` a 1, on peut les xer ` a 0.05 et
0.95. Ainsi, la r etropropagation des erreurs ne cherchera pas ` a entraner les poids dans une
direction qui pourrait rendre le neurone incapable de sadapter.
2. Les sensibilit es des neurones sur les derni` eres couches ont tendance ` a etre plus grandes que
sur les premi` eres couches ; le taux dapprentissage sur ces derni` eres devrait donc etre plus
grand que sur ces premi` eres si lon veut que les diff erentes couches apprennent approxima-
tivement au m eme rythme.
3.
`
A chaque p eriode dentranement, il importe de permuter lordre de pr esentation des stimuli
pour r eduire la probabilit e quune s equence de donn ees pathologique nous garde prison-
nier dun pi` etre minimum local. En effet, la performance de la m ethode de la descente du
gradient peut d ependre grandement de cet ordre de pr esentation qui engendre des trajec-
toires diff erentes dans lespace des param` etres, et des trajectoires diff erentes peuvent nous
amener ` a des minimums locaux diff erents. M eme sil existe des s equences pathologiques,
le fait de permuter les donn ees ` a chaque p eriode nous garantit que lon ne tombera pas
syst ematiquement sur les m emes.
4. Dans le contexte dun probl` eme de classication ` a n classes, on associe g en eralement un
neurone de sortie distinct ` a chacune delles (S
M
= n). Ainsi, on interpr etera chaque neurone
sur la couche de sortie comme indiquant si oui ou non le stimulus dentr ee appartient ` a la
classe correspondante. On construira les vecteurs d de sorties d esir ees avec deux valeurs
possibles pour chaque composante : une valeur pour le oui et une valeur pour le non.
Si lon choisit la fonction dactivation logistique, on pourra coder le oui avec une valeur
proche de 1 et le non avec une valeur proche de 0 (voir item 1 ci-dessus). En mode de
reconnaissance, on pourra classer un stimulus inconnu dans la cat egorie associ ee au neurone
ayant produit la sortie maximale.
5. Dans le contexte dun probl` eme dapproximation de fonction, on choisit g en eralement des
neurones lin eaires pour la couche de sortie. Autrement, cela force le r eseau ` a apprendre
linverse de la fonction dactivation utilis ee, en plus de la fonction que lon veut vraiment
quil apprenne.
6. Effectuer lapprentissage dun r eseau quelconque revient ` a estimer les bonnes valeurs pour
chacun de ses poids. Pour pouvoir estimer les param` etres dun syst` eme quelconque poss edant
un certain nombre de degr es de libert e (param` etres ind ependants), il est n ecessaire de poss eder
au moins un nombre equivalent de donn ees. Mais dans la pratique il en faut bien plus ! Une
r` egle heuristique nous indique que pour pouvoir esp erer estimer correctement les n poids
dun r eseau de neurones, 10n donn ees dentranement sont requises.
7. La performance dun r eseau lorsqu evalu ee avec ses donn ees dentranement est presque
toujours sur-estim ee. Il faut bien comprendre que le r eseau ne comporte aucune intelli-
gence r eelle. Il ne fait quapprendre les associations quon lui fournit.
`
A la limite, il peut
les apprendre par c ?ur. Nous avons discut e ` a la section 5.4.3 du ph enom` ene de sur-
apprentissage. Nous avons vu quune proc edure de validation-crois ee peut augmenter la
62 CHAPITRE 5. PERCEPTRON MULTICOUCHE
capacit e de g en eralisation dun r eseau. Si lon veut evaluer correctement la performance
dun r eseau, il faut le faire avec des donn ees qui nont aucunement servi au processus dap-
prentissage, ni pour la r etropropagation des erreurs, ni pour la validation crois ee. En pratique,
ceci implique de diviser les donn ees dentranement en trois sous-ensembles distincts : les
donn ees dentranement, de validation et de test. La proportion relative de ces ensembles peut
evidemment varier selon lapplication, mais une bonne proportion se situe aux alentours de
50-20-30%, respectivement.
5.5 M ethode de Newton
La m ethode de Newton est une autre proc edure doptimisation, parfois plus efcace que la
descente du gradient. Alors que cette derni` ere est bas ee sur une approximation par la s erie de
Taylor de premier ordre (qui nutilise que la d eriv e premi` ere), la m ethode de Newton est bas ee sur
la s erie de Taylor de deuxi` eme ordre, o` u lon tient compte non seulement de la d eriv e premi` ere,
mais aussi de la d eriv e seconde :
F(x

) = F(x + x) F(x) +F(x)


T
x +
1
2
x
T

2
F(x)x =

F(x), (5.75)
o` u x

est un point dans le voisinage de x, x = x

x, F(x) est le vecteur gradient de F(x) et

2
F(x) est la matrice hessienne de F(x). Lid ee consiste ` a rechercher un plateau dans lexpression
quadratique de

F(x). En d erivant lexpression de

F(x) par rapport ` a x et en xant le tout ` a z ero,
on obtient :
F(x) +
2
F(x)x = 0. (5.76)
et :
x =
_

2
F(x)
_
1
F(x) (5.77)
La m ethode de Newton propose donc dexplorer lespace des param` etres libres dans la direction
x qui pointe vers un plateau de

F(x), cest-` a-dire soit un maximum, soit un minimum.
Cette m ethode converge en une seule etape lorsque F est une fonction quadratique, puisquon
approxime alors une fonction quadratique par une autre fonction quadratique equivalente. Lorsque
F nest pas quadratique, cette m ethode converge g en eralement tr` es rapidement ` a condition davoir
un bon point de d epart (x nest pas trop loin de loptimum), car la plupart des fonctions analytiques
sapproximent bien avec une fonction quadratique ` a lint erieur dun petit voisinage autour dun op-
timum. Cependant, m eme dans ce cas, on ne saura pas si cet optimum est minimum ou maximum.
On ne saura pas non plus si loptimum est local ou global. De plus, lorsquon s eloigne de ce voi-
sinage, la m ethode de Newton peut donner des r esultats impr evisibles. Finalement, cette m ethode
comporte aussi le gros d esavantage de n ecessiter le calcul et le stockage de la matrice hessienne,
dune part, et de son inverse, dautre part. Dans le cas dun perceptron multicouche comportant
plusieurs centaines ou m eme plusieurs milliers de poids, cela sav` ere totalement impossible en
pratique
11
.
11
Il faut se rappeler que si le vecteur gradient crot lin eairement avec le nombre de param` etres libres de la fonction,
la taille (en nombre d el ements) de la matrice hessienne, elle, crot avec le carr e de ce nombre. De plus, le meilleur al-
gorithme connu pour linversion dune matrice nn poss` ede une complexit e O(n
2.376
). Quant ` a la m ethode classique
d elimination de Gauss, elle requiert un temps O(n
3
).
5.6. M

ETHODE DU GRADIENT CONJUGU

E 63
Nous avons pr esent e dans cette section la m ethode de Newton non pas pour lutiliser avec
le perceptron multicouche, mais bien pour mettre en relief les m erites de la r etropropagation, et
aussi pour faire le tour des diff erentes alternatives disponibles. Ceci nous am` ene ` a discuter dun
compromis o` u il ne sera pas n ecessaire de calculer ni dinverser la matrice hessienne.
5.6 M ethode du gradient conjugu e
La m ethode du gradient poss` ede la plupart des avantages de la m ethode de Newton mais sans
linconv enient davoir ` a calculer et ` a inverser la matrice hessienne. Elle est bas ee sur le concept
des vecteurs conjugu es, dune part, ainsi que sur la recherche dun minimum le long dune droite,
dautre part.
Les vecteurs dun ensemble {p
k
} sont mutuellement conjugu es par rapport ` a une matrice A
positive d enie (dont les valeurs propres sont toutes strictement positives) si, et seulement si,
p
T
k
Ap
j
= 0, k = j. (5.78)
Comme pour les vecteurs orthogonaux, il existe une innit e densembles de vecteurs conjugu es
qui couvrent un espace vectoriel de dimension m. Un de ceux-l` a est form e des vecteurs propres
de A, {z
1
, z
2
, . . . , z
m
}, associ es aux valeurs propres {
1
,
2
, . . . ,
m
}. Pour le montrer, il suft de
remplacer les p
k
par des z
k
dans l equation pr ec edente :
z
T
k
Az
j
= z
T
k

j
z
j
=
j
z
T
k
z
j
= 0, k = j, (5.79)
o` u la derni` ere egalit e d ecoule du fait que les vecteurs propres dune matrice positive d enie sont
toujours orthogonaux. Par cons equent, les vecteurs propres dune telle matrice sont ` a la fois ortho-
gonaux et conjugu es. Cependant, cette observation ne nous aide pas beaucoup si la matrice A en
question correspond ` a la matrice hessienne
2
F que lon veut eviter de calculer dans la m ethode
de Newton, notre objectif etant de trouver un algorithme efcace utilisant la d eriv ee seconde mais
sans etre oblig e de la calculer explicitement.
Pour une fonction F quadratique poss edant m param` etres libres, on peut montrer quil est
toujours possible datteindre son minimum en effectuant tout au plus m recherches lin eaires le long
de droites orient ees dans des directions conjugu ees {p
1
, p
2
, . . . , p
m
}. La question qui demeure est
comment construire ces directions conjugu ees sans faire r ef erence ` a la matrice hessienne de F ?
Lexpression g en erale dune fonction quadratique est donn ee par :
F(x) =
1
2
x
T
Ax +d
T
x + c (5.80)
o` u le gradient F est donn e par :
F(x) = Ax +d (5.81)
et la matrice hessienne par
2
F(x) = A. En posant g
t
F(x)|
x=xt
et en combinant ces
equations, on peut trouver le changement de gradient g
t
` a lit eration t :
g
t
= g
t+1
g
t
= (Ax
t+1
+d) (Ax
t
+d) = Ax
t
(5.82)
64 CHAPITRE 5. PERCEPTRON MULTICOUCHE
o` u la variation des param` etres libres x
t
au temps t est donn ee par :
x
t
= x
t+1
x
t
=
t
p
t
(5.83)
avec un
t
choisi de mani` ere ` a minimiser F(x
t
) dans la direction de p
t
.
On peut maintenant r e ecrire la condition des vecteurs conjugu es de l equation 5.78 de la
mani` ere suivante :

t
p
T
t
Ap
j
= x
T
t
Ap
j
= g
T
t
p
j
= 0, t = j. (5.84)
On remarque imm ediatement quen consid erant le changement de gradient ` a chaque it eration t
de lalgorithme, on peut faire disparatre la matrice hessienne de l equation qui d enit la condi-
tion des vecteurs conjugu es. La direction de recherche p
j
sera alors conjugu ee ` a condition d etre
orthogonale ` a la variation du gradient !
`
A chaque it eration t de lalgorithme des gradients conjugu es, il sagit donc de construire une
direction de recherche p
t
qui est orthogonale ` a {g
0
, g
1
, . . . , g
t1
} en utilisant une proc edure
semblable ` a la m ethode de Gram-Schmidt (section 3.1.5, page 21), qui peut se simplier ` a lex-
pression suivante :
p
t
= g
t
+
t
p
t1
(5.85)
o` u les scalaires
t
peuvent se calculer de trois mani` eres equivalentes :

t
=
g
T
t1
g
t
g
T
t1
p
t1
,
t
=
g
T
t
g
t
g
T
t1
g
t1
,
t
=
g
T
t1
g
t
g
T
t1
g
t1
(5.86)
5.6.1 Algorithme du gradient conjugu e
Pour entraner un r eseau perceptron multicouche avec la m ethode du gradient conjugu e, il im-
porte tout dabord de proc eder par groupage. En effet, puisquon cherche ` a exploiter linformation
contenue dans la variation du gradient (une forme de d eriv ee seconde), il est primordial de calculer
celle-ci ` a partir de gradients estim es avec un maximum de pr ecision. Sinon, on se retrouverait ` a
surtout exploiter du bruit qui entranerait ` a coup s ur la divergence de lalgorithme. Ensuite, il sagit
de remarquer que lindice de performance dun perceptron multicouche nest pas une fonction qua-
dratique, de sorte quon ne doit pas sattendre ` a converger en m it erations comme ce serait le cas
pour une fonction quadratique. Ceci implique quil faudra r e-initialiser la m ethode ` a toutes les m
it erations, ` a chaque fois que nous passerons ` a travers m directions
12
conjugu ees successives. Pour
ce faire, nous pourrons simplement employer la m ethode de descente du gradient. Voici donc les
principales etapes de lalgorithme :
1. t = 0 ;
2. Choisir la prochaine direction conjugu ee de recherche :
p
t
=
_
g
t
+
t
p
t1
si t mod m = 0
g
t
si t mod m = 0
(5.87)
12
Il y a aura autant de directions conjugu ees quil y a de poids dans le r eseau.
5.6. M

ETHODE DU GRADIENT CONJUGU

E 65
x
1
p
0
p
1
x
0
-g
1
FIG. 5.16 Illustration de la m ethode du gradient conjugu e.
avec g
t
F(x)|
x=xt
et
t
est calcul e comme ` a l equation 5.86 :

t
=
g
T
t1
g
t
g
T
t1
p
t1
,
t
=
g
T
t
g
t
g
T
t1
g
t1
,
t
=
g
T
t1
g
t
g
T
t1
g
t1
(5.88)
3. Faire un pas comme ` a l equation 5.83, en choisissant
t
de mani` ere ` a minimiser la fonction
F dans la direction de recherche p
t
:
x
t+1
= x
t
+
t
p
t
; (5.89)
4. t = t + 1 ;
5. Si le crit` ere darr et nest pas atteint, alors recommencer ` a l etape 2.
Cet algorithme est illustr e ` a la gure 5.16 dans le cas dune fonction F quadratique ` a deux
variables. Dans ce cas, on converge en deux it erations. La direction initiale p
0
est choisie dans le
sens inverse du gradient. En faisant une recherche du minimum dans cette direction, on obtient
un point x
1
sur une autre courbe de niveau. Au lieu de recommencer dans la direction inverse du
gradient, perpendiculaire ` a la courbe de niveau, on choisit plut ot une direction conjugu ee p
1
qui
pointe alors dans la direction du minimum global, puisque F est quadratique et ne poss` ede que
deux param` etres libres.
5.6.2 Recherche du minimum le long dune droite
Pour compl eter la description de la m ethode du gradient conjugu e, il ne nous reste plus qu` a
r esoudre le probl` eme de la recherche du minimum dune fonction le long dune droite. Soit F(x
0
)
la valeur initiale de la fonction ` a minimiser et p la direction dans laquelle on veut faire cette
minimisation. Alors, on commence par calculer :
F
i
= F(x
0
+ 2
i
p), i = 0, 1, . . . , I (5.90)
jusqu` a ce quon trouve un F
I
> F
I1
, avec repr esentant une distance el ementaire pour notre
recherche dun intervalle initial contenant le minimum. Ce dernier doit donc se trouver quelque
66 CHAPITRE 5. PERCEPTRON MULTICOUCHE
x
0
x
1
x
2
x
3
e
F
1
F
2
F
0
x
4
2e
4e
8e
F
3
F
4
FIG. 5.17

Etape de localisation dun intervalle initial de recherche.
part entre F
I2
et F
I
et lintervalle de recherche est maintenant r eduit ` a a
1
= x
0
+2
I2
p et b
1
=
x
0
+ 2
I
p (voir gure 5.17). Pour r eduire davantage cet intervalle, on peut appliquer lalgorithme
suivant appel e Golden Section search :
1. = 0.618 ;
2. Calculer :
c
1
= a
1
+ (1 )(b
1
a
1
)
d
1
= b
1
(1 )(b
1
a
1
)
F
c
= F(c
1
)
F
d
= F(d
1
)
3. k = 1 ;
4. Si F
c
< F
d
, alors calculer (voir gure 5.18a) :
a
k+1
= a
k
b
k+1
= d
k
c
k+1
= a
k+1
+ (1 )(b
k+1
a
k+1
)
d
k+1
= c
k
F
d
= F
c
F
c
= F(c
k+1
)
Autrement calculer (voir gure 5.18b) :
a
k+1
= c
k
b
k+1
= b
k
c
k+1
= d
k
d
k+1
= b
k+1
(1 )(b
k+1
a
k+1
)
F
c
= F
d
F
d
= F(d
k+1
)
5.6. M

ETHODE DU GRADIENT CONJUGU

E 67
a
b
c d
intervalle
a b c d
intervalle
(a) (b)
FIG. 5.18

Etape de r eduction de lintervalle de recherche : (a) cas o` u F
c
< F
d
; (b) cas o` u
F
d
< F
c
.
5. k = k + 1 ;
6. Si ||b
k
a
k
|| > , alors recommencer ` a l etape 4.
o` u est un param` etre de tol erance sp eciant la pr ecision d esir ee pour la recherche du minimum.
Notez bien que cet algorithme suppose quil nexiste quun seul minimum dans lintervalle initial
de recherche.
68
Chapitre 6
Nu ees dynamiques
Dans ce chapitre, nous allons etudier trois variantes dun algorithme nomm e nu ees dyna-
miques et permettant deffectuer une classication non-supervis ee dun ensemble de Q stimuli
{p
1
, p
2
, . . . , p
Q
}. Lobjectif est double : produire une partition en K classes de cet ensemble,
dune part, et trouver K prototypes W = {
1
w,
2
w, . . . ,
K
w}
T
permettant de repr esenter au mieux
les centres de ces classes. Bien quhistoriquement cet algorithme nappartienne pas au domaine
des r eseaux de neurones, plusieurs architectures neuronales, dont celles d ecrites dans les deux cha-
pitres suivants (Kohonen et GNG), sen inspirent en effectuant des traitements semblables. Nous
abordons donc cet algorithme en guise dintroduction aux r eseaux non supervis es, bas es sur lap-
prentissage comp etitif (voir chapitre 4).
On peut visualiser les prototypes
i
w, i = 1, . . . , K, comme les poids de K neurones comp etitifs
align es sur une seule couche, tel quillustr e ` a la gure 6.1. Le niveau dactivation dun neurone
comp etitif est d etermin e par la distance entre son vecteur de poids et le stimulus dentr ee,
contrairement au neurone de type perceptron o` u lon mesurait plut ot une corr elation entre ces
deux vecteurs. Ensuite, la fonction dactivation comp etitive (compet) retourne un 1 pour le neu-
rone ayant la plus grande sortie (le gagnant), et un 0 pour tous les autres :
a
i
=

1 si n
i
= max
k
(n
k
), k = 1, . . . , K
0 autrement
(6.1)
En cas d egalit e pour la premi` ere place, on fait gagner arbitrairement le neurone dont lindice est
le plus petit.
Cest la norme ||xy|| qui d enit la distance entre deux vecteurs x et y et donc leur manque de
ressemblance. En calculant la n egation de cette norme, on obtiendra une mesure de similarit e qui
nous permettra de regrouper les stimuli dapprentissage en cat egories (classes). Habituellement,
on utilisera une norme bas ee sur le produit scalaire classique mais pouvant incorporer une matrice
positive d enie Atelle que :
||x y||
A
=

(x y)
T
A(x y), (6.2)
Lorsque A est la matrice identit e, on parle alors de distance euclidienne entre x et y. Dans le cas
69
70 CHAPITRE 6. NU

EES DYNAMIQUES
C
a
Entre Couche de K neurones
a = compet(n)
W
p
n
R x 1
K x R
K x 1 K x 1
R K
n
i
=
||
i
w p
||
FIG. 6.1 Couche comp etitive de S = K neurones.
o` u Acorrespond ` a linverse de la matrice de covariance des stimuli dentranement, on parle alors
de la distance de Mahalanobis.
6.1 K-means
Lalgorithme dit du k-means permet de partitionner lensemble des stimuli en K classes
{C
1
, C
2
, . . . , C
K
}. Il sagit ici dune partition rigide, cest-` a-dire dune collection de K sous-
ensembles o` u chaque stimulus dentr ee appartient ` a une et une seule classe de la partition U:
U =

u
1,1
u
1,2
u
1,Q
u
2,1
u
2,2
. . . u
2,Q
.
.
.
.
.
.
.
.
.
.
.
.
u
K,1
u
K,2
u
K,Q

(6.3)
avec u
i,j
{0, 1} d esignant lappartenance du stimulus p
j
` a la classe C
i
:
u
i,j
=

1 si p
j
C
i
0 autrement
. (6.4)
De plus, on impose les deux contraintes suivantes sur cette partition :
K

i=1
u
i,j
= 1, j = 1, . . . , Q, (6.5)
Q

j=1
u
i,j
> 0, i = 1, . . . , K. (6.6)
La premi` ere sp ecie que tout stimulus doit appartenir ` a une et une seule classe de la partition, alors
que la deuxi` eme pr ecise quune classe doit poss eder au moins un stimulus.
6.1. K-MEANS 71
1. Initialiser les centres W(0) en choisissant al eatoirement K stimuli parmi les Qdonn ees
dapprentissage ;
2. Calculer la partition initiale U(0) ` a laide de l equation :
u
i,j
=

1 si ||p
j

i
w|| = min
k
||p
j

k
w||
0 autrement
, i = 1, . . . , K, j = 1, . . . , Q, (6.8)
en brisant (arbitrairement) les egalit es, sil y a lieu, en choisissant la classe dont lindice
est minimum;
3. t = 1 ;
4. R ep eter :
(a) Calculer les nouveaux centres W(t) en calculant les centrodes des classes :
i
w =
Q

j=1
u
i,j
p
j
Q

j=1
u
i,j
, i = 1, . . . , K. (6.9)
(b) Calculer la nouvelle partition U(t) ` a laide de l equation 6.8 ;
(c) t = t + 1 ;
5. Tant que U(t) = U(t 1) et t t
max
.
FIG. 6.2 Algorithme du k-means.
Connaissant les centres W = [
1
w
2
w
K
w]
T
des classes, lindice de performance F(U, W)
que lon d esire minimiser peut sexprimer de la facon suivante :
F(U, W) =
Q

j=1
K

i=1
(u
i,j
) ||p
j

i
w||
2
(6.7)
o` u lon cherche ` a trouver la partition qui minimise la distance entre les centres des classes et les
stimuli. Lalgorithme it eratif permettant doptimiser cette fonction objectif est r esum e ` a la gure
6.2. Il se poursuit tant que la mise ` a jour des centres engendre une modication de la partition, ou
jusqu` a latteinte dun nombre maximum dit erations t
max
.
Un probl` eme avec cet algorithme est que lon force une partition rigide des stimuli den-
tranement ce qui, en pr esence de bruit, peut provoquer une certaine instabilit e. Consid erons par
exemple les stimuli dentranement repr esent es ` a la gure 6.3a. Dans ce cas, nous avons deux
classes bien s epar ees pour lesquelles lalgorithme du k-means, avec K = 2, convergera assur ement
vers la partition indiqu ee par les points noirs et les points blancs. Mais si lon ajoute un stimulus
eloign e des autres, par exemple une erreur de mesure, alors la partition engendr ee par les k-means
peut devenir instable comme ` a la gure 6.3b, etant donn e que tous les stimuli ont la m eme impor-
tance dans la partition rigide. Pour limiter ce ph enom` ene, une solution consiste ` a faire appel aux
72 CHAPITRE 6. NU

EES DYNAMIQUES
(a) (b)
FIG. 6.3 Example dune partition rigide en deux classes : (a) cas sans bruit ; (b) cas avec bruit.
notions densemble ou et de partition oue.
6.2 Fuzzy K-means
Lalgorithme dit du fuzzy k-means
1
(le k-means ou) est semblable au k-means, sauf que
la partition engendr ee par les centres est oue, cest-` a-dire que le degr e dappartenance u
i,j
du
stimulus p
j
` a la classe C
i
varie dans lintervalle [0, 1] au lieu d etre el ement de {0, 1}, comme
pr ec edemment. Lindice de performance que lon d esire minimiser sexprime maintenant par lex-
pression :
F
m
(U, W) =
Q

j=1
K

i=1
(u
i,j
)
m
||p
j

i
w||
2
, (6.10)
o` u m > 1 est un exposant qui xe le niveau de ou de lalgorithme dont les etapes sont r esum ees
` a la gure 6.4. Lalgorithme se poursuit ainsi tant que la mise ` a jour des centres engendre une
modication non n egligeable de la partition oue, ou jusqu` a un nombre maximum dit erations
t
max
. G en eralement, on juge de la convergence en xant un seuil sur l el ement de la matrice Uqui
a chang e le plus. Si ce changement est inf erieur au seuil x e, on consid` ere alors que lalgorithme
a converg e.
Le param` etre m de lalgorithme d etermine le niveau de partage des degr es dappartenance
de la matrice U. On xe g en eralement m = 2. Plus m augmente, plus on se trouve ` a partager
les degr es dappartenance entre les diff erentes classes. Il importe de se rappeler que lalgorithme
du fuzzy k-means, tout comme celui du k-means, impose la contrainte de l equation 6.5, ` a savoir
que lappartenance global dun stimulus ` a lensemble des classes est toujours egal ` a 1. Lorsque m
sapproche de 1, on tend alors vers le k-means puisque la partition oue devient de plus en plus
1
J.C. Dunn, A Fuzzy Relative of the ISODATA Process and its Use in Detecting Compact Well-Separated Clus-
ters, J. Cybernetics, vol. 3, no. 3, p. 32-57, 1973.
6.2. FUZZY K-MEANS 73
1. Initialiser les centres W(0) en choisissant al eatoirement K stimuli parmi les Qdonn ees
dapprentissage ;
2. Fixer les param` etres m et ;
3. Calculer la partition initiale U(0) ` a laide de l equation :
u
i,j
=
1
K

k=1

||p
j

i
w||
||p
j

k
w||
2
m1
, i = 1, . . . , K, j = 1, . . . , Q; (6.11)
4. t = 1 ;
5. R ep eter :
(a) Calculer les nouveaux centres W(t) ` a laide de l equation :
i
w =
Q

j=1
(u
i,j
)
m
p
j
Q

j=1
(u
i,j
)
m
, i = 1, . . . , K. (6.12)
(b) Calculer la nouvelle partition oue U(t) en utilisant l equation 6.11 ;
(c) t = t + 1 ;
6. Tant que max
i,j
|u
i,j
(t) u
i,j
(t 1)| > et t t
max
;
FIG. 6.4 Algorithme du fuzzy k-means.
rigide. Ceci devient un peu plus explicite en r e ecrivant l equation 6.11 de la mani` ere suivante :
u
i,j
(t) =

1
||p
j

i
w||
2
m1
K

k=1

1
||p
j

k
w||
2
m1
(6.13)
Lorsque m 1, lexposant
2
m1
tend vers linni et, par cons equent, le terme de la somme du
d enominateur qui correspond au centre le plus proche du stimulus p
j
devient inniment dominant,
de sorte que le degr e dappartenance ` a la classe correspondante tendra vers 1 (et les autres vers 0).
Lalgorithme du fuzzy k-means g en eralise donc celui du k-means en etant beaucoup moins
sensible au bruit dans les stimuli gr ace au partage de lappartenance entre les diff erentes classes.
Ceci permet dans bien des situations d eviter de rester pris dans des minimums locaux de la fonc-
tion objectif F
m
. Lalgorithme est donc egalement beaucoup moins sensible ` a une mauvaise ini-
tialisation des centres. Cependant, il demeure un probl` eme important, illustr e ` a la gure 6.5. On
voit sur cette gure deux nuages de points bien s epar es ainsi que deux points A et B qui semblent
74 CHAPITRE 6. NU

EES DYNAMIQUES
A
B
FIG. 6.5 Exemple dune partition oue ` a deux classes.
correspondre ` a du bruit. Typiquement, lalgorithme du fuzzy k-means affectera ces deux points
` a lune ou lautre des deux classes, en fonction de lemplacement exact de ces points ainsi quen
fonction de la position initiale des centres. Le probl` eme est que peu importe cette affectation nale,
les degr es dappartenance de Aet B aux deux classes en question seront tous les deux 0.5 puisquil
sont approximativement ` a egale distance des centres. Ceci r esulte de la contrainte de l equation 6.5
qui impose un partage de lappartenance avec une somme des degr es egale ` a 1. Autrement dit, un
stimulus situ e ` a egale distance de deux centres obtiendra toujours des degr es egaux dappartenance
aux classes correspondantes, peu importe la distance mesur ee. Dans le cas de la gure 6.5, le point
A obtient un degr e dappartenance de 0.5, tout comme le point B, m eme si le point B semble a
priori beaucoup plus plausible que le point A, etant situ e beaucoup plus pr` es des deux centres. Ceci
a comme cons equence daccorder la m eme importance au point A quau point B. Dans le cas de
donn ees bruit ees, cela peut emp echer les centres de converger vers des r egions denses de lespace
dentr ee.
6.3 Possibilistic K-means
Lalgorithme dit du Possibilistic k-means
2
cherche ` a pallier aux limitations du fuzzy k-
means en levant la contrainte de l equation 6.5 et en modiant la fonction objectif de mani` ere ` a
ne pas converger vers une solution triviale o` u tous les degr es dappartenance seraient nuls. Les
el ements u
i,j
de la partition oue Udoivent alors respecter les trois contraintes suivantes :
u
i,j
[0, 1], i = 1, . . . , K, j = 1, . . . , Q, (6.14)
Q

j=1
u
i,j
> 0, i = 1, . . . , K, (6.15)
2
R. Krishnapuram, J.M. Keller, A Possibilistic Approach to Clustering, IEEE Transactions on Fuzzy Systems,
vol. 1, no. 2, p. 98-110, mai 1993.
6.3. POSSIBILISTIC K-MEANS 75
K

i
u
i,j
> 0, j = 1, . . . , Q, (6.16)
o` u les deux premi` eres contraintes sp ecient respectivement que les degr es dappartenance des sti-
muli aux classes sont compris entre 0 et 1, et que toute classe doit poss eder au moins un stimulus
avec un degr e dappartenance non nul. Ces deux contraintes sont identiques ` a celles de lalgo-
rithme du fuzzy k-means. La troisi` eme contrainte, celle de l equation 6.16, se distingue cependant
` a la fois du k-means et du fuzzy k-means qui impose ` a chaque stimulus davoir une somme des
degr es dappartenance egale ` a 1 ( equation 6.5). Le possibilistic k-means impose plut ot que chaque
stimulus appartienne ` a au moins une classe avec un degr e dappartenance non nul. Ceci implique
que la somme des degr es dappartenance dun stimulus ` a lensemble des classes peut maintenant
etre soit plus petite, soit plus grande que 1, dune part, et quun stimulus puisse appartenir ` a une
seule classe avec un degr e dappartenance inf erieur ` a 1, dautre part. Dans ce dernier cas, un stimu-
lus bruit e tr` es eloign e de tous les centres pourra nappartenir qu` a une seule classe, avec un degr e
dappartenance arbitrairement petit.
Pour r ealiser ces contraintes, cependant, on ne peut pas optimiser la m eme fonction objec-
tif que pour le fuzzy k-means ( equation 6.10), car on tendrait syst ematiquement vers des degr ees
dappartenance arbitrairement petits. Il sagit alors dajouter un deuxi` eme terme ` a cette fonction
objectif pour stimuler l emergence de u
i,j
les plus grands possibles. On utilise lexpression sui-
vante :
F
m
(U, W) =
Q

j=1
K

i=1
(u
i,j
)
m
||p
j

i
w||
2
+
K

i=1

i
Q

j=1
(1 u
i,j
)
m
, (6.17)
o` u les
i
sont des valeurs positives ad equates repr esentant l etendue du nuage associ e ` a la classe C
i
.
Le premier terme de cette equation cherche ` a minimiser les distances entre les stimuli et les centres
des classes, alors que le deuxi` eme force les u
i,j
` a etre maximum en evitant donc la solution tri-
viale. Les el ements cl es dans cette fonction objectif sont les
i
qui viennent pond erer limportance
relative de ces deux crit` eres.
Pour optimiser cette fonction objectif, il importe de remarquer que les contraintes impos ees
par le possibilistic k-means ( equations 6.14 ` a 6.16) rendent les lignes et les colonnes de la matrice
Uind ependantes. En effet, les u
i,j
sont maintenant libres de changer ind ependamment les uns des
autres car la contrainte de l equation 6.6 a et e lev ee. Ceci nous permet donc de minimiser F
m
par
rapport ` a Uen minimisant individuellement chaque u
i,j
. On obtient alors les termes F
i,j
m
de F
m
:
F
i,j
m
(u
i,j
,
i
w) = (u
i,j
)
m
||p
j

i
w||
2
+
i
(1 u
i,j
)
m
. (6.18)
que lon peut d eriver par rapport ` a u
i,j
et, en affectant le r esultat ` a 0, on obtient le r esultat suivant :
u
i,j
=
1
1 +

||p
j

i
w||
2

i
1
m1
. (6.19)
qui nous pr ecise la facon dont il faudra estimer la partition oue ` a chaque it eration de lalgorithme,
etant donn e les stimuli dapprentissage et les positions des centres. L equation 6.19 sp ecie que le
degr e dappartenance ` a une classe ne d epend que de la distance entre le stimulus et le centre de la
76 CHAPITRE 6. NU

EES DYNAMIQUES
classe. Cest exactement le r esultat que nous cherchions. Il ne reste plus qu` a d eterminer la facon
de calculer les
i
qui viennent pond erer cette distance.
Le param` etre mdans l equation 6.19 repr esente le niveau de ou de lalgorithme, comme pour
le fuzzy k-means, mais son interpr etation est diff erente. Lorsque m 1, lexposant
1
m1
tend vers
linni et les degr es dappartenance deviennent binaires : 1 si la distance du stimulus au centre est
inf erieur ` a
i
, 0 autrement. Au contraire, lorsque m , lexposant
1
m1
0 et tous les degr es
dappartenance deviennent egaux ` a 0.5 peu importe la distance entre les stimuli et les centres ; on
obtient alors le ou maximum puisque tous les stimuli appartiennent ` a toutes les classes avec 50%
de possibilit e. Pour le fuzzy k-means on conseille habituellement m = 2 qui donne des r esultats
satisfaisants dans la plupart des situations. Pour le possibilistic k-means, cette valeur est parfois
trop elev ee, on conseille plut ot 1.5 m < 2.
La valeur de
i
d etermine la distance ` a partir de laquelle le degr e dappartenance dun stimulus
` a la classe devient 50%. Cest en quelque sorte la zone dinuence de la classe C
i
, ` a lint erieur de
laquelle la possibilit e dappartenance est sup erieure ` a 50%. De facon g en erale, il importe donc
que sa valeur soit corr el ee avec l etendu du nuage des stimuli associ es ` a la classe. En pratique, la
d enition suivante fonctionne bien :

i
=
Q

j=1
(u
i,j
)
m
||p
j

i
w||
2
Q

j=1
(u
i,j
)
m
. (6.20)
Cette expression rend
i
proportionnel ` a la moyenne pond er ee des distances intra-classe. Une autre
facon de proc eder est de consid erer seulement dans l equation ci-dessus les u
i,j
, on parle
alors dune coupe de la partition. Dans ce cas,
i
repr esente la moyenne pond er ee des distances
intra-classe pour les bons stimuli, cest-` a-dire ceux dont le degr e dappartenance ` a la classe est
sup erieur ` a .
Les valeurs de
i
peuvent etre x ees a priori, ou encore etre ajust ees ` a chaque it eration de
lalgorithme. Dans ce dernier cas, cependant, il importe de prendre des pr ecautions pour eviter les
instabilit es pouvant r esulter de tels changements en continu. En pratique, lalgorithme du possi-
bilistic k-means est assez robuste ` a de larges variations de
i
, ` a condition davoir bien initialiser
les centres. Ainsi, on peut calculer les
i
` a partir de la partition oue initiale, puis les r e-estimer
lorsque lalgorithme a converg e une premi` ere fois. Ensuite, on peut recommencer la proc edure si
lon d esire obtenir une meilleure estimation de la partition oue. Cette deuxi` eme etape converge
g en eralement en quelques it erations seulement puisque les centres sont d ej` a correctement posi-
tionn es. Dans le cas de stimuli bruit es, elle permet de d eterminer les degr es dappartenance aux
classes avec presque la m eme pr ecision que dans le cas dun environnement non bruit e. Des valeurs
de entre 0.1 et 0.4 produisent g en eralement des r esultats satisfaisants.
Lalgorithme du possibilistic k-means est r esum e ` a la gure 6.6. Il comporte deux parties dont
la deuxi` eme est optionnelle. Dans les deux cas, nous adoptons le m eme crit` ere darr et que pour le
fuzzy k-means. Pour le choix des centres initiaux, on ne peut pas proc eder comme pr ec edemment
en choisissant al eatoirement des stimuli ` a lint erieur de la base dapprentissage car les centres
de lalgorithme du possibilistic k-means ne sont pas aussi mobiles que ceux des deux algorithmes
6.3. POSSIBILISTIC K-MEANS 77
1. Initialiser les centres W(0) ainsi que la partition oue U(0) en utilisant lalgorithme
du fuzzy k-means ;
2. Estimer les
i
en utilisant l equation 6.20 avec une coupe = 0 ;
3. Fixer les valeurs de m et ;
4. t = 1 ;
5. R ep eter :
(a) Calculer les nouveaux centres W(t) en utilisant l equation 6.12 ;
(b) Calculer la nouvelle partition oue U(t) en utilisant l equation 6.19 ;
(c) t = t + 1 ;
6. Tant que max
i,j
|u
i,j
(t) u
i,j
(t 1)| > et t t
max
;
7. R e-estimer les
i
en utilisant l equation 6.20 avec une coupe 0.1 0.4 ;
8. t = 1 ;
9. R ep eter :
(a) Calculer les nouveaux centres W(t) en utilisant l equation 6.12 ;
(b) Calculer la nouvelle partition oue U(t) en utilisant l equation 6.19 ;
(c) t = t + 1 ;
10. Tant que max
i,j
|u
i,j
(t) u
i,j
(t 1)| > et t t
max
;
FIG. 6.6 Algorithme du possibilistic k-means.
pr ec edents. En effet, ` a cause du param` etre
i
qui restreint le rayon daction des centres, un mauvais
choix de leur position initiale peut limiter grandement la performance de lalgorithme, et m eme
emp echer sa convergence. Pour cette raison, on commence habituellement avec un fuzzy k-means
qui, lui, est beaucoup plus robuste ` a une mauvaise initialisation des centres.
Mentionnons nalement quen changeant la norme utilis ee pour calculer la distance entre
un stimulus et un centre, on peut construire diff erentes variantes du possibilistic k-means. Par
exemple, en calculant la matrice de covariance oue des stimulus :
F
i
=
Q

j=1
(u
i,j
)
m
(p
j

i
w)(p
j

i
w)
T
Q

j=1
(u
i,j
)
m
, (6.21)
et en lutilisant pour calculer la norme suivante :
||p
j

i
w||
2
=
R

|F
i
| (p
j

i
w)
T
F
1
i
(p
j

i
w), (6.22)
on obtient lalgorithme dit du possibilistic Gustafson-Kessel.
78
Chapitre 7
R eseau de Kohonen
Dans ce chapitre, nous allons etudier un r eseau de neurones dit r eseau de Kohonen
1
, ou en-
core carte auto-organis ee de Kohonen. Il sagit dun r eseau non supervis e avec un apprentissage
comp etitif o` u lon apprend non seulement ` a mod eliser lespace des entr ees avec des prototypes,
comme avec les nu ees dynamiques (chapitre 6), mais egalement ` a construire une carte ` a une ou
deux dimensions permettant de structurer cet espace.
Un r eseau de Kohonen est illustr e ` a la gure 7.1. Les neurones de ce r eseau correspondent
aux prototypes (gure 7.1a). Ils sont constitu es dun vecteur de poids dans lespace des entr ees
(dune facon semblable aux centres des nu ees dynamiques). La carte des neurones (gure 7.1b)
d enit quant ` a elle des relations de voisinage entre les neurones. Par exemple, la gure 7.2 montre
la forme carr ee de voisinage qui est la plus souvent utilis ee (les neurones y sont repr esent es par
des cercles vides). On voit sur cette gure que les neurones adjacents sont li es entre eux par des
ar etes (on pourrait aussi avoir des ar etes diagonales). Ce sont les voisins imm ediats sp eci es par
le voisinage
i
= k du neurone i, cest-` a-dire lensemble des neurones li es au neurone i par des
chemins dans le graphe de la carte contenant au plus k ar etes.
Lalgorithme dapprentissage du r eseau de Kohonen est de type comp etitif (section 4.3). La
mise ` a jour des poids
i
w du neurone i au temps t sexprime de la facon suivante :

i
w(t) =

(t)[p(t)
i
w(t)] si i
g
(t)
0 autrement
(7.1)
o` u p(t) d esigne le stimulus dapprentissage au temps t et
g
(t) repr esente le voisinage au temps t
du neurone gagnant g. Ce dernier est d etermin e simplement en retenant lindice du neurone pour
lequel la distance avec le stimulus p est minimum :
g(p) = arg min
i
||p
i
w||, i = 1, 2, . . . , S (7.2)
o` u S correspond au nombre de neurones du r eseau.
1
Teuvo Kohonen, The Self-Organizing Map, Proceedings of the IEEE, p. 1464-1480, 1990 (la version originale
de cet article remonte ` a 1982).
79
80 CHAPITRE 7. R

ESEAU DE KOHONEN
C
a
Entre Couche de S neurones
a = compet(n)
W
p
n
R x 1
S x R
S x 1 S x 1
R S
n
i
= !
||
i
w ! p
||
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 32 33 34 35
36 37 38 39 40 41 42
Carte auto-organise
(a) (b)
FIG. 7.1 R eseau de Kohonen avec carte rectangulaire de S = 6 7 = 42 neurones.
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 32 33 34 35
36 37 38 39 40 41 42
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 32 33 34 35
36 37 38 39 40 41 42
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 32 33 34 35
36 37 38 39 40 41 42
(a) (b) (c)
FIG. 7.2 Topologie de voisinage (quatre voisins) pour une carte ` a deux dimensions : (a)
18
= 2 ;
(b)
18
= 1 ; et (c)
18
= 0.
`
A l equation 7.1, il importe de remarquer que le taux dapprentissage et le voisinage du
neurone gagnant
g
d ependent tous deux du temps. Lid ee etant demployer au d epart un grand
taux dapprentissage ainsi quun grand voisinage, et de r eduire ceux-ci au fur et ` a mesure que le
temps (donc lapprentissage) progresse. On utilise souvent une d ecroissance lin eaire pour le taux
dapprentissage :
(t) =

t si t <

autrement
(7.3)
o` u
0
est le taux dapprentissage initial,

est le taux dapprentissage nal, et o` u d elimite la


fronti` ere entre deux phases dapprentissage. De m eme, pour le voisinage, on peut aussi utiliser une
d ecroissance lin eaire :
(t) =

1
t

si t <
0 autrement
(7.4)
Ces fonctions lin eaires d ecroissantes sont illustr ees ` a la gure 7.3. Le param` etre marque la n
dune p eriode dorganisation et le d ebut dune p eriode de convergence. La phase dorganisation,
gr ace ` a un taux dapprentissage elev e ainsi quun voisinage etendu, permet de d eployer la carte de
7.1. ALGORITHME DE KOHONEN 81
t
!
"
!
0
!
"
t
!
"
!
0
(a) (b)
FIG. 7.3 Exemple de d ecroissance (a) du taux dapprentissage et (b) de la fen etre de voisinage
en fonction du temps.
neurones l` a o` u les donn ees sont concentr ees. Elle permet aussi, gr ace ` a une d ecroissance progres-
sive du taux dapprentissage et du voisinage, de d eplier la carte de mani` ere ` a ce que sa topologie
corresponde au mieux ` a la topologie des stimuli. Ainsi, les stimuli adjacents dans lespace des
entr ees seront associ es ` a des neurones adjacents dans la carte du r eseau. La phase de convergence,
gr ace ` a un taux dapprentissage faible et un voisinage nul, permet quant ` a elle de rafner la position
des neurones de mani` ere ` a les centrer sur des nuages denses de stimuli.
7.1 Algorithme de Kohonen
Lalgorithme de base de Kohonen est r esum e ` a la gure 7.4. Il consiste ` a echantillonner les
stimuli dapprentissage jusqu` a latteinte dun certain crit` ere darr et. Celui-ci est le plus souvent
sp eci e par un nombre maximum dit eration t
max
mais peut aussi tenir compte de la stabilit e
des poids. Par exemple, lorsque max
i
||
i
w|| < durant plusieurs it erations, on peut d ecider
arbitrairement de stopper lapprentissage puisque le r eseau mod elise sufsamment bien lespace
des entr ees.
`
A chaque it eration, on d etermine le neurone gagnant (le plus proche) et on d eplace
celui-ci, ainsi que son voisinage actuel, dans la direction du stimulus courant en utilisant le taux
dapprentissage courant.
Une variante que lon peut aussi rencontrer consiste ` a remplacer l equation 7.1 par lexpression
suivante :

i
w(t) =
i,g
(t)(t)[p(t)
i
w(t)] (7.5)
o` u :

i,g
(t) = exp

d
2
i,g
2
2
(t)

(7.6)
vient remplacer le voisinage
g
par une fonction
i,g
qui d epend de la distance topologique d
i,g
(en
nombre dar etes dans la carte) entre le neurone i et le neurone gagnant g. La fonction
i,g
a une
forme gaussienne telle quillustr ee ` a la gure 7.5. Elle se trouve ` a r eduire le taux dapprentissage
82 CHAPITRE 7. R

ESEAU DE KOHONEN
1. Initialiser les poids
i
w(0) avec de petites valeurs al eatoires ;
2. Fixer
0
,

, et
0
;
3. t = 1 ;
4. R ep eter tant que t t
max
:
(a) Choisir al eatoirement un stimulus p(t) parmi lensemble dapprentissage ;
(b) D eterminer le neurone gagnant g(p) ` a laide de l equation 7.2 :
g(p) = arg min
i
||p(t)
i
w(t)||, i = 1, 2, . . . , S
(c) Mettre ` a jour les poids ` a laide de l equation 7.1 :

i
w(t) =

(t)[p(t)
i
w(t)] si i
g
(t)
0 autrement
o` u (t) correspond au taux dapprentissage et
g
(t) ` a un voisinage autour du neu-
rone gagnant g ; (t) et
g
(t) sont toutes deux des fonctions d ecroissantes dans le
temps.
(d) t = t + 1 ;
FIG. 7.4 Algorithme de Kohonen.
effectif du neurone i par rapport ` a son eloignement topologique du neurone gagnant. Tout comme
pour le voisinage
g
, il importe que le rayon daction de
i,g
d ecroisse dans le temps de mani` ere ` a
ce que vers la n de lapprentissage, seul le neurone gagnant subisse une mise ` a jour signicative
de son vecteur
g
w. Pour ce faire, par exemple, on peut faire d ecrotre exponentiellement la variance
de la gaussienne en fonction du temps :
(t) =
0
exp

(7.7)
o` u
0
d enit la variance au temps initial. Pour linterpr etation de
i,g
, il importe de se rappeler que
la distance topologique est discr` ete : d
i,g
IN. Par exemple, pour
0
= d
i,g
= 5 et = 1000 on
obtient (1) = 4.995 et
i,g
(1) = exp(25/49.9) = 0.606,
i,g
(500) = 0.257 et
i,g
(1000) =
0.025. Pour
0
= 3, d
i,g
= 5 et = 1000, on obtiendra
i,g
(1) = 0.249,
i,g
(500) = 0.023 et

i,g
(1000) = 3.5 10
5
7.2 Propri et es
Cette section r esume les principales propri et es statistiques de lalgorithme de Kohonen par
rapport ` a son espace continu dentr ee X, pour lequel la topologie est d enie par une m etrique de
distance, et son espace discret de sortie Y dont la topologie est sp eci ee par le treillis de la carte
7.2. PROPRI

ET

ES 83
d
i,g
!
i,g
2!
FIG. 7.5 Fonction de voisinage gaussienne.
de neurones. Le r eseau r ealise donc une transformation non-lin eaire :
: X Y (7.8)
Cette transformation peut etre vue comme une abstraction de l equation 7.2 qui d etermine lidentit e
du neurone gagnant en pr esence dune stimulus p X.
Propri et e 1. Approximation de lespace dentr ee
La carte auto-organis ee de Kohonen, repr esent ee par un ensemble de vecteurs poids synaptiques
{
i
w|i = 1, 2, . . . , S}, construit dans lespace de sortie Y, une approximation de lespace dentr ee
X, tel quillustr e ` a la gure 7.6.
Propri et e 2. Ordre topologique
La carte obtenue par lalgorithme de Kohonen est ordonn ee topologiquement dans le sens o` u
lemplacement des neurones dans lespace des sorties (le treillis) correspond ` a une r egion par-
ticuli` ere de lespace des entr ees. Deux r egions adjacentes dans lespace des entr ees seront aussi
adjacentes dans lespace des sorties. Ceci est une cons equence directe de l equation 7.1 qui force
le vecteurs des poids synaptiques
g
w du neurone gagnant, ainsi quun certain nombre de poids
voisins
i
w
g
de ce neurone gagnant, ` a bouger dans la direction des stimuli p.
Propri et e 3. Appariement des fonctions de densit e
La carte re` ete les variations statistiques des distributions de points dans lespace des entr ees :
les r egions de X contenant beaucoup de stimuli seront appari ees avec davantage de neurones que
les r egions eparses. Ainsi, elles seront mieux mod elis ees.
84 CHAPITRE 7. R

ESEAU DE KOHONEN
p
g(p)
g
w
Espace d'entre
continu
Espace de sortie
discret
!
FIG. 7.6 Illustration de la relation entre la carte auto-organis ee et le vecteur
g
w du neurone
gagnant pour le stimulus p.
7.3 Exemples
Cette section pr esente trois exemples tir es de larticle de Kohonen. Le premier, illustr e ` a la -
gure 7.7, pr esente le cas dune carte ` a une dimension, cest-` a-dire une carte constitu ee dune chane
unidimensionnelle de neurones. Les stimuli dapprentissage pour cet exemple sont echantillonn es
uniform ement ` a lint erieur dun triangle. La premi` ere image de la gure (t = 0) montre linitia-
lisation al eatoire du r eseau o` u la chane de neurones est totalement repli ee sur elle-m eme. D` es
les premi` eres it erations de lalgorithme (t = 20), on commence ` a voir apparatre la chane qui se
d eplie graduellement au l des it erations en prenant de lexpansion ` a lint erieur du triangle o` u sont
situ ees les stimuli. Apr` es 25 000 it erations, on constate que la chane sest compl` etement d eploy ee
pour occuper tout lespace disponible.
La gure 7.8 pr esente un exemple avec cette fois-ci une carte ` a deux dimensions. Les stimuli
dapprentissage pour cet exemple sont echantillonn es uniform ement ` a lint erieur dun carr e. De
nouveau, d` es les premi` eres it erations, la carte initialis ee avec de petits vecteurs de poids al eatoires
se d eploie en se d epliant et, apr` es quelques dizaines de milliers dit erations, nit par occuper tout
lespace disponible.
Le dernier exemple pr esente un cas plus compliqu e o` u les stimuli sont tridimensionnels, dune
part, et nont pas une topologie rectangulaire, dautre part. Ils sont echantillonn es dans un volume
synth etique dont la forme evoque vaguement celle dun cactus illustr e ` a la gure 7.9(a). Le r esultat
nal de lapprentissage, donn e ` a la gure 7.9(b), illustre le principal d efaut de lapproche de Koho-
nen. Bien que la carte obtenue approxime raisonnablement bien le volume des stimuli, on observe
7.3. EXEMPLES 85
FIG. 7.7 Exemple dune carte auto-organis ee ` a une dimension. Les stimuli dapprentissage sont
distribu ees uniform ement ` a lint erieur dun triangle.
FIG. 7.8 Exemple dune carte auto-organis ee ` a deux dimensions. Les stimuli dapprentissage
sont distribu ees uniform ement ` a lint erieur dun carr e.
86 CHAPITRE 7. R

ESEAU DE KOHONEN
(a) (b)
FIG. 7.9 Exemple dune carte auto-organis ee ` a deux dimensions (droite). Les stimuli dappren-
tissage sont distribu ees uniform ement ` a lint erieur dun volume tridimensionnel en forme de cactus
(gauche).
7.4. R

ESEAU LVQ 87
C
a
1
Entre Couche comptitive
a
1
= compet(n)
W
1
p
n
1
R x 1
S
1
x R
S
1
x 1 S
1
x 1
R S
1
n
i
= !
||
i
w ! p
||
a
2
W
2
n
2
S
2
x S
1
S
2
x 1 S
2
x 1
S
2
Couche linaire
a
2
= W
2
a
1
FIG. 7.10 R eseau LVQ
aussi que sa topologie plus ou moins compatible avec celle des donn ees engendre certaines aber-
rations comme, par exemple, les neurones qui se sont positionn es dans lespace des entr ees, entre
les branches du cactus, ` a des endroits o` u il nexiste aucun stimulus dapprentissage. La topologie
x ee ` a priori des cartes de Kohonen constitue donc un handicap que nous tenterons de lever avec
larchitecture pr esent ee au chapitre suivant : le r eseau GNG.
7.4 R eseau LVQ
En utilisant les principes de lapprentissage comp etitif on peut aussi construire un r eseau
supervis ee nomm ee LVQ
2
. Ce r eseau hybride est illustr e ` a la gure 7.10. Sa premi` ere couche
comp etitive permet de mod eliser lespace des entr ees, alors que la seconde lin eaire permet de
prendre des d ecisions. Chaque neurone de la premi` ere couche est associ e a priori ` a une classe,
avec g en eralement plusieurs neurones par classe (S
1
>> S
2
). Ceci permet de r eunir des fronti` eres
de d ecision convexes dans lespace des entr ees. Tout comme pour le Kohonen ou les nu ees dy-
namiques, les neurones comp etitifs de la premi` ere couche apprennent ` a positionner un vecteur
prototype dans lespace des entr ees et celui-ci permet de classier une r egion de ce dernier, r egion
que lon peut interpr eter comme une sous-classe de la classe ` a laquelle chaque neurone est associ e.
Cest la deuxi` eme couche de neurones qui prend les d ecisions gr ace aux poids w
2
i,j
de la
matrice W
2
:
w
2
i,j
=

1 si le neurone j est associ e au neurone i (classe i)


0 autrement
(7.9)
La matrice W
2
est donc x ee une fois pour toute avant m eme de commencer lapprentissage.
Les neurones de la premi` ere couche sont g en eralement r epartis uniform ement entre les classes, ` a
2
En anglais : Linear Vector Quantization.
88 CHAPITRE 7. R

ESEAU DE KOHONEN
moins que lon dispose dinformations sur leur probabilit e a priori, auquel cas on pourra affecter
plus de neurones ` a certaines classes et moins ` a dautres. Lapprentissage du r eseau LVQ consiste
simplement ` a positionner au mieux les prototypes en employant la r` egle de Kohonen. Lorsquun
stimulus est correctement class e par le r eseau, alors le vecteur de poids
g
w du neurone gagnant
est rapproch e de ce stimulus avec un taux dapprentissage . Autrement, cest que le mauvais
neurone a gagn e et il sagit simplement d eloign e son vecteur de poids du stimulus, au lieu de
le rapprocher, avec le m eme taux dapprentissage, dans lespoir quun autre neurone associ e ` a la
bonne classe puisse gagner la prochaine fois :

g
w(t) =

[p(t)
g
w(t)] si a
2
g
= d
g
= 1
[p(t)
g
w(t)] si a
2
g
= 1 = d
g
= 0
(7.10)
Cette approche comporte n eanmoins une faille importante, d ependant de linitialisation des neu-
rones, lorsque pour atteindre une zone associ ee ` a sa classe, un neurone doit traverser une zone
associ ee ` a une autre classe. Parce que le vecteur de poids dun tel neurone sera repouss e par les sti-
muli pr esents dans cette r egion de transit, il risque fort, en pratique, de ne jamais pouvoir traverser
cette zone, et ainsi de ne jamais pouvoir servir ` a classier une r egion associ ee ` a la bonne classe.
Pour contourner ce probl` eme, une solution souvent utilis ee consiste dans ce cas ` a non seule-
ment ajuster le vecteur du neurone gagnant, en l eloignant du stimulus, mais aussi ` a choisir le
neurone le plus proche qui classie correctement le stimulus pour le rapprocher de celui-ci. De
cette facon, deux neurones sont ajust es simultan ement : le mauvais gagnant est eloign e du stimu-
lus et un eventuel futur bon gagnant est rapproch e de ce dernier.
Chapitre 8
R eseau GNG
Le r eseau Growing Neural Gas
1
(GNG) est un r eseau constructif qui ne pose a priori aucune
hypoth` ese sur la topologie de lespace des entr ees. Un r eseau minimal est initialement cr e e et de
nouveaux neurones ainsi que de nouvelles connexions entre les neurones sont ajout es au l de
lapprentissage non supervis e.
La topologie du r eseau est repr esent ee par un graphe G = [V (t), E(t)] o` u V (t) d esigne len-
semble des sommets du graphe au temps t et E(t) lensemble de ses ar etes.
`
A chaque sommet est
associ e un neurone caract eris e par un vecteur de poids synaptiques
i
w ainsi quun signal derreur
e
i
. Ce dernier servira ` a accumuler lerreur de mod elisation attribuable au neurone i et guidera le
choix de lemplacement o` u nous ajouterons p eriodiquement de nouveaux sommets dans le graphe.
Les ar etes du graphe, liant deux sommets i et j, correspondent quant ` a elles ` a des connexions entre
les neurones sous-jacents.
`
A chaque connexion {i, j} est associ e un age a
i,j
. Une connexion jeune
implique une vraisemblance elev ee de la relation topologique, alors quau contraire, une connexion
ag ee signie une vraisemblance faible de cette relation. Lorsque l age dune connexion d epassera
un certain seuil, celle-ci pourra mourir et disparatre du graphe. Comme nous le verrons plus loin,
` a la fois les connexions et les neurones peuvent apparatre et disparatre du graphe tout au long du
processus dapprentissage. Cest pourquoi les ensembles V et E d ependent tous les deux du temps.
8.1 Algorithme
Lalgorithme du GNG comprend un certain nombre de param` etres essentiels. Tout dabord,
il y a qui d eni la p eriode de temps entre les ajouts de neurone, cest-` a-dire qu` a toutes les
it erations, nous ajouterons un neurone quelque part dans le graphe. Lapprentissage du GNG,
tout comme celui du Kohonen (voir chapitre 7), est de type comp etitif. Le neurone gagnant ainsi
que ses voisins sont d eplac es dans la direction dun stimulus en proportion de sa distance et dun
certain taux dapprentissage. Le GNG utilise deux taux distincts, un pour le neurone gagnant,

g
, et lautre pour ses voisins imm ediats,
v
. Contrairement au r eseau de Kohonen, cependant,
1
Bernd Fritzke, A Growing Neural Gas Network Learns Topologies, publi e dans Advances in Neural Informa-
tion Processing Systems 7, G. Tesauro, D.S. Touretzky et T.K. Leen ( editeurs), MIT Press, Cambridge MA, 1995.
89
90 CHAPITRE 8. R

ESEAU GNG
ces taux demeurent xes tout au long de lapprentissage.

Egalement, le voisinage est x e ` a 1,
cest-` a-dire que seuls les voisins imm ediats du neurone gagnant se d eplacent. Les connexions
entre les neurones ne peuvent d epasser un age maximum a
max
, sinon elle meurent et disparaissent.
Finalement, on utilise aussi un param` etre pour contr oler loubli des signaux derreur associ es
aux neurones du r eseau. Le r ole pr ecis de chacun de ces param` etres est explicit e dans les etapes
suivantes :
1. Initialisation : V = {x, y} et E = {{x, y}} avec
x
w(0) et
y
w(0) initialis es al eatoirement
avec de petits poids synaptiques dans lespace des entr ees ; e
x
(0) = e
y
(0) = a
x,y
(0) = 0.
2. Fixer t
max
, ,
g
,
v
, a
max
et .
3. t = 1.
4. R ep eter tant que t t
max
:
(a) Choisir al eatoirement un stimulus p(t) parmi lensemble dapprentissage.
(b) D eterminer les deux neurones gagnants g
1
et g
2
les plus pr` es de p(t) :
g
1
= arg min
iV (t)
||p(t)
i
w(t)|| (8.1)
g
2
= arg min
iV (t)\{g
1
}
||p(t)
i
w(t)|| (8.2)
(c) Incr ementer les ages de toutes les connexions adjacentes ` a g
1
:
{i, g
1
} E : a
i,g
1
= a
i,g
1
+ 1 (8.3)
(d) Incr ementer lerreur associ ee au premier gagnant :
e
g
1
= e
g
1
+||p(t)
g
1
w(t)|| (8.4)
(e) D eplacer les vecteur de poids synaptiques de g
1
et de ses voisins imm ediats dans la
direction de p(t) :

g
1
w(t) =
g
[p(t)
g
1
w(t)] (8.5)

v
w(t) =
v
[p(t)
v
w(t)], v
g
1
(8.6)
o` u
g
1
= {i V |i = g
1
et{i, g
1
} E(t)}.
(f) Si {g
1
, g
2
} E(t), alors a
g
1
,g
2
= 0 ; autrement :
E(t) = E(t) {{g
1
, g
2
}}, a
g
1
,g
2
(t) = 0. (8.7)
(g) Retirer de E toutes les connexions pour lesquelles a
i,j
> a
max
; retirer aussi tous
les neurones qui se retrouveraient isol es (sans aucune connexion) suite ` a la mort de
connexions.
(h) Si t mod = 0, alors :
i. D eterminer le neurone q poss edant lerreur maximum :
q = arg max
iV
e
i
(8.8)
8.2. EXEMPLE 91
ii. D eterminer le neurone r, voisin de q, poss edant aussi lerreur maximum :
r = arg max
iq
e
i
(8.9)
iii. Ins erer un nouveau neurone x ` a mi-chemin entre q et r :
x
w(t) =
q
w(t) +
r
w(t)
2
, e
x
=
e
q
2
, e
q
=
e
q
2
(8.10)
iv. Remplacer la connexion {q, r} par les deux connexions {q, x} et {x, r} avec a
q,x
=
a
x,r
= 0.
(i) R eduire les signaux derreur de tous les neurones :
e
i
= e
i
, i V (t) (8.11)
(j) t = t + 1.
8.2 Exemple
La gure 8.1 illustre la capacit e qu` a le GNG ` a apprendre la topologie des donn ees. Pour cet
exemple, les donn ees dapprentissage ont et e g en er ees ` a partir de quatre distributions uniformes :
la premi` ere dans un volume tridimensionnel en forme de prisme rectangulaire, la deuxi` eme sur une
surface rectangulaire appos ee sur lune des faces du prisme, la troisi` eme le long dun segment de
droite au bout de la surface et la derni` ere le long dun anneau au bout du segment de droite. La
gure montre le graphe du r eseau ` a diff erents instant durant lapprentissage. Initialement (en haut
` a gauche), on commence avec un r eseau de deux neurones li es par une seule connexion. Au l des
it erations, des neurones sont ajout es dans le graphe aux endroits o` u lerreur de mod elisation est
maximum.
`
A la n, nous seulement le r eseau ` a appris ` a mod eliser lespace dentr ee, mais il a aussi
r eussi ` a apprendre la topologie des diff erentes formes echantillonn ees !
92 CHAPITRE 8. R

ESEAU GNG
FIG. 8.1 Exemple dun GNG entran e sur des stimuli echantillonn es dans un volume en forme de
prisme rectangulaire, sur une surface rectangulaire appos ee perpendiculairement ` a lune des faces
du prisme et ` a une courbe en forme danneau au bout dune tige appos ee ` a lune des extr emit es de
la surface.
Chapitre 9
Architectures ART
Les architectures ART
1
sont issues des travaux de Stephen Grossberg et Gail Carpenter. Elles
sont bas ees sur une th eorie dinspiration biologique
2
assez complexe sur laquelle nous ninsis-
terons pas. Elles se manifestent par diff erentes implantations sp eciques dont celles nomm ees
ART1, ART2, ART3, fuzzy ART, ARTmap, fuzzy ARTmap, etc. Larchitecture
ART1
3
poss` ede la particularit e de naccepter que des entr ees binaires, alors que le ART2
4
accepte
des entr ees continues en incorporant aux m ecanismes du ART1 diff erentes op erations complexes
de normalisation. Quant au ART3
5
, il d eveloppe le ART2 davantage en lui ajoutant un nouveau
m ecanisme de r einitialisation biologiquement inspir e. Ces trois architectures utilisent toutes un
processus dapprentissage non supervis e. Dans ce chapitre, nous allons nous concentrer sur une
quatri` eme architecture, egalement non supervis ee, nomm ee fuzzy ART
6
, qui poss` ede la relative
simplicit e du ART1 tout en offrant la capacit e du ART2 ` a traiter des entr ees continues.
Nous aborderons ensuite une des versions supervis ees des architectures ART : le fuzzy ART-
map
7
qui permet non seulement un apprentissage supervis e, mais egalement un apprentissage
incr emental des connaissances, cest-` a-dire un apprentissage o` u tous les stimuli ne sont pas n eces-
sairement disponibles en tout temps. Ainsi, on peut par exemple apprendre avec un premier sous-
ensemble de stimuli, puis mettre ce dernier de c ot e et poursuivre lapprentissage avec un autre sous-
ensemble sans que les connaissances acquises pr ec edemment soient oubli ees par le r eseau. Ceci
nest tout simplement pas possible avec dautres architectures neuronales comme, par exemple, le
1
En anglais : Adaptive Resonance Theory.
2
S. Grossberg, Studies of Mind and Brain, Boston : D. Reidel Publishing Co., 1982.
3
G.A. Carpenter et S. Grossberg, A Massively Parallel Architecture for a Self-Organizing Neural Pattern Recog-
nition Machine, Computer Vision, Graphics, and Image Processing, vol. 37, p. 54-115, 1987.
4
G.A. Carpenter et S. Grossberg, ART2 : Self-Organization of Stable Category Recognition Codes for Analog
Input Patterns, Applied Optics, vol. 26, no. 23, p. 4919-4930, 1987.
5
G.A. Carpenter et S. Grossberg, ART3 : Hierarchical Search using Chemical Transmitters in Self-Organizing
Pattern Recognition Architectures, Neural Networks, vol. 3, no. 23, p. 129-152, 1990.
6
G.A. Carpenter, S. Grossberg et D.B. Rosen, Fuzzy ART : Fast Stable Learning and Categorization of Analog
Patterns by Adaptive Resonance Theory, Neural Networks, vol. 4, p. 759-771, 1991.
7
G.A. Carpenter, S. Grossberg et J. Reynolds, Fuzzy ARTmap : A Neural Network Architecture for Incremental
Supervised Learning of Analog Multidimensional Maps, IEEE Transactions on Neural Networks, vol. 3, p. 698-713,
1992.
93
94 CHAPITRE 9. ARCHITECTURES ART
a
2
a
1
2Rx1
n
1
W
Sx2R
Sx1
Sx1
2R
C
S
R
p
Rx1
!
re
se
t
E
c
FIG. 9.1 Architecture du r eseau fuzzy ART.
perceptron multicouche qui, lors de la deuxi` eme phase dentranement, oubliera tr` es rapidement
(en quelques p eriodes) tout ce quil a appris lors de la premi` ere phase. Pour permettre lapprentis-
sage incr emental, le fuzzy ARTmap combine deux r eseaux fuzzy ART gr ace ` a un carte associative
(map en anglais ; do` u le nom ARTmap).
9.1 Fuzzy ART
Le fuzzy ART est un r eseau comp etitif ` a deux couches de neurones tel quillustr e ` a la -
gure 9.1. La premi` ere couche, not ee E
c
, sert ` a coder les stimuli dentr ee avec un encodage dit
compl ementaire. La deuxi` eme couche est une couche comp etitive semblable ` a celle du Koho-
nen. Cependant, tout comme les autres architectures ART, le fuzzy ART incorpore un m ecanisme
de r etroaction permettant de stabiliser les prototypes appris dans les vecteurs de poids qui relient
les deux couches. Ce m ecanisme dit de r esonance est contr ol e par un param` etre qui permet
de r e-initialiser au besoin la couche comp etitive. Pour chaque stimulus dentr ee, les sorties a
2
du
r eseau sp ecient une cat egorie parmi S.
Un peu comme le GNG, le fuzzy ART est un r eseau constructif o` u de nouveaux neurones
sont allou ees au l de lapprentissage. G en eralement, on xe au d epart un nombre maximum de
neurones S, ce qui xe egalement un nombre maximum de cat egories de stimuli. Initialement,
aucun neurone nest actif, le premier stimulus dapprentissage activera le neurone associ e ` a la
premi` ere cat egorie. Lallocation subs equente de nouvelles cat egories d ependra ` a la fois des stimuli
et des param` etres de lalgorithme.
Les entr ees dun fuzzy ART doivent etre des ensembles ous d enis sur un r ef erentiel discret.
Soit p la repr esentation vectorielle dun ensemble ou E d eni sur un r ef erentiel discret R =
{r
1
, r
2
, . . . , r
R
} :
E = {(r
j
, p
j
)|r
j
Ret 0 p
j
1}, j = 1, . . . , R (9.1)
o` u 0 p
j
1 repr esente le degr e dappartenance ` a E de l el ement r
j
du r ef erentiel. Le vecteur
p = [p
1
p
2
p
R
]
T
peut ainsi etre interpr et e comme un point dans un hypercube unitaire de R
dimensions, comme ` a la gure 9.2 o` u R = 2. Pour pouvoir utiliser un fuzzy ART, il sagit donc de
transformer (normaliser) nos stimuli dapprentissage de mani` ere ` a les faire tous entrer ` a lint erieur
dun hypercube unitaire, pour en faire des ensembles ous.
9.1. FUZZY ART 95
r
1
r
2
0
1
1
0
E
p
FIG. 9.2 Repr esentation vectorielle dun ensemble ou E d eni sur un r ef erentiel de deux
el ements.
Le r eseau fuzzy ART d enit trois param` etres , et :
> 0, 0 < 1, 0 < < 1 (9.2)
o` u repr esente un param` etre de s election, le taux dapprentissage et le taux de vigilance. Nous
allons expliciter la signication de ces param` etres ci-dessous.
Lalgorithme du fuzzy ART se r esume aux etapes suivantes :
1. Initialiser les poids W = [
1
w
2
w
S
w]
T
avec des 1 ;
2. Fixer , et ;
3. t = 1 ;
4. R ep eter tant que t t
max
:
(a) Choisir al eatoirement un ensemble ou p(t) parmi la base dapprentissage ;
(b) Effectuer lencodage compl ementaire E
c
:
a
1
(t) =
_
p(t)
p
c
(t)
_
(9.3)
o` u p
c
= [(1 p
1
)(1 p
2
) (1 p
R
)]
T
repr esente le compl ement ou de p.
(c) Calculer les niveaux dactivation n
1
i
des neurones de la premi` ere couche :
n
1
i
(t) =
|a
1
(t)
i
w(t)|
+|
i
w(t)|
, i = 1, . . . , S, (9.4)
o` u est le taux de s election, | | d esigne la norme l
1
du vecteur :
|x| =

[x
1
x
2
x
n
]
T

=
n

i=1
x
i
, (9.5)
96 CHAPITRE 9. ARCHITECTURES ART
et x y repr esente lintersection oue entre x et y :
_

_
x
1
x
2
.
.
.
x
n
_

_
y
1
y
2
.
.
.
y
n
_

_
=
_

_
min(x
1
, y
1
)
min(x
2
, y
2
)
.
.
.
min(x
n
, y
n
)
_

_
(9.6)
(d) Calculer les sorties de la couche comp etitive :
a
2
i
(t) =
_
_
_
1 si n
1
i
(t) = max
j=1S
n
1
j
(t)
0 autrement
, i = 1, . . . , S. (9.7)
Soit g = arg max
j
n
1
j
(t), lindice du neurone gagnant.
(e) Si le degr e de r esonance du neurone g avec les sorties de la couche dentr ee est inf erieur
au seuil :
|a
1
(t)
g
w(t)|
|a
1
(t)|
< , (9.8)
alors bloquer temporairement le neurone g pour quil ne puisse plus gagner et retourner
` a l etape 4d pour choisir le prochain gagnant.
(f) Lib erer tous les neurones bloqu es.
(g) Mettre ` a jour le prototype du neurone gagnant :

g
w(t) =
__
a
1
(t)
g
w(t)
_

g
w(t)
_
, (9.9)
o` u est le taux dapprentissage.
(h) t = t + 1 ;
Fin
La premi` ere chose que lon peut remarquer ` a l equation 9.3 est que la norme des vecteurs
encod es demeure toujours constante :
|a
1
(t)| =
R

i=1
p
i
+
R

i=1
(1 p
i
) =
R

i=1
p
i
+ R
R

i=1
p
i
= R (9.10)
Le processus dencodage permet donc de normaliser en amplitude les stimuli dentr ee.
Le niveau dactivation n
1
i
du neurone i de la couche comp etitive, calcul es ` a l equation 9.4,
permet de mesurer le degr e de ressemblance entre le stimulus dentr ee a
1
, exprim e dans son en-
codage compl ementaire, et le vecteur de poids
i
w. En posant
i
w = [x y
c
]
T
, o` u x et y sont deux
vecteurs quelconques dans lespace des stimuli, on obtient linterpr etation g eom etrique de la gure
9.3 pour le cas particulier dun espace ` a deux dimensions. La r egion d enie par le rectangle en trait
plein correspond ` a la zone dactivit e du neurone i. Pour tous les stimuli p situ es ` a lint erieur de
cette zone, le num erateur de l equation 9.4 sera egal ` a :
a
1

i
w =
_
p
p
c
_

_
x
y
c
_
=
_
p x
(p y)
c
_
=
_
x
y
c
_
=
i
w (9.11)
9.1. FUZZY ART 97
p
r
1
r
2
0
1
1
0
y
x
p!x
p!x
Z
i
Z
i
" p
FIG. 9.3 R egions associ ees ` a
i
w = [x y
c
]
T
(en trait plein) et ` a a
1

i
w (en trait pointill e).
Par cons equent, on obtient dans ce cas |a
1

i
w| = |
i
w| et n
1
i
=
|
i
w|
+|
i
w|
, cest-` a-dire une valeur
inf erieure ` a 1. Pour un
i
w x e, plus sera grand, plus le niveau dactivation sera petit et, inverse-
ment, plus
i
w sera grand, plus le niveau dactivation tendra vers 1 pour un donn e.
Pour les stimuli p situ es ` a lext erieur de la zone, comme ` a la gure 9.3, lop eration a
1

i
w
engendre la nouvelle r egion indiqu ee en trait pointill e. Pour cette r egion, nous aurons |a
1

i
w| <
|
i
w| et le niveau dactivation calcul e sera nettement inf erieur ` a 1. Ainsi, les neurones dont la r egion
associ ee englobe p gagneront la comp etition avant les autres, et sils sont plusieurs ` a lenglober,
cest celui dont la r egion est la plus petite qui sera d eclar e gagnant.
Soit Z
i
la r egion associ ee ` a
i
w. Dans le cas g en eral dun espace des stimuli ` a R dimensions, il
sagit dun hyper-rectangle d eni respectivement par les coins x et y de ses composantes minimum
et maximum. La dimension de cette r egion peut se calculer de la facon suivante :
|Z
i
| |y x| (9.12)
Pour quun vecteur
i
w puisse changer de valeur ( equation 9.9), il faut que le neurone correspon-
dant gagne la comp etition de l equation 9.7 et que celui-ci n echoue pas le crit` ere de r esonance
de l equation 9.8. Dans ce cas seulement, la r egion Z
i
associ ee ` a ce neurone pourra grandir et,
eventuellement, englober le stimulus dentr ee. Si lon pose un taux dapprentissage = 1 ` a
l equation 9.9, on parle dans ce cas dapprentissage instantan e, alors la r egion Z
i
sera agrandie
juste assez pour englober le stimulus p. Dans le cas particulier dun neurone inactif (un neurone
qui na jamais gagn e), cest-` a-dire un neurone dont le
i
w ne contient que des uns ( etape 1 de lal-
gorithme), on obtiendra
i
w(t + 1) = a
1
(t) et la r egion Z
i
sera limit e au point p(t). Par la suite,
lapprentissage ne pourra quaugmenter la taille de la r egion Z
i
et, par cons equent, la norme de
i
w ne pourra que diminuer. En fait, toujours sous lhypoth` ese de = 1, on peut montrer que la
r egion Z
i
correspondra toujours au plus petit rectangle (ou hyper-rectangle) englobant lensemble
des stimuli qui vont faire gagner et r esonner le neurone i au cours de lapprentissage.
Le crit` ere de r esonance de l equation 9.8 impose une contrainte sur la taille maximum que peut
atteindre les r egions associ ees aux neurones du fuzzy ART. En effet, le d enominateur |a
1
(t)| = R
98 CHAPITRE 9. ARCHITECTURES ART
est une constante et il faut que :
|a
1
(t)
g
w(t)| R (9.13)
pour que le neurone gagnant puisse subir une modication de son vecteur de poids. Or :
|a
1
(t)
g
w(t)| =

_
p
p
c
_

_
x
y
c
_

_
p x
p
c
y
c
_

_
p x
(p y)
c
_

(deMorgan)
= |p x| + R |p y|
= R (|p y| |p x|)
= R |Z
g
p| (9.14)
o` u Z
g
p d esigne la plus petite r egion (hyper-rectangle) qui englobe ` a la fois Z
g
et p (voir gure
9.3 avec i = g). Par cons equent, on obtient lexpression suivante :
|Z
g
p| R(1 ) (9.15)
qui sp ecie la taille maximum quune r egion peut atteindre en fonction du taux de vigilance .
Plus il est grand, plus les r egions sont contraintes ` a de petites tailles.
`
A la limite, lorsque 1,
le fuzzy ART apprendra les stimuli par cur ! Plus il est petit, plus les r egions pourront crotre.
`
A la limite, lorsque 0, un seul neurone pourrait couvrir tout lespace dentr ee, et le r eseau
ne produirait plus quune seule cat egorie. Lorsque le neurone gagnant ne respecte pas le crit` ere
de r esonance, alors il est temporairement retir e de la comp etition et le neurone suivant ayant le
plus grand niveau dactivation est s electionn e ` a son tour. Ce processus est r ep et e jusqu` a ce quon
trouve un neurone qui r esonne. Ceci sera toujours possible dans la mesure o` u le r eseau comporte
encore des neurones inactifs (la preuve est laiss ee en exercice).
G en eralement, dans le cas dun stimulus qui ne ressemble ` a aucune des cat egories actives,
cest-` a-dire lorsque le neurone gagnant etait pr ec edemment inactif, on xera automatiquement
le taux dapprentissage = 1 pour passer en mode dapprentissage instantan e. Sinon, si le
stimulus engendre la r esonance dune cat egorie existante, alors on xera un taux 0 < 1 tel
que sp eci ee par lutilisateur.
Finalement, mentionnons que le param` etre de s election est habituellement x e ` a une petite
valeur telle que, par exemple, 0.01. Ainsi, le neurone gagnant sera celui dont la r egion associ ee
requiert un minimum dagrandissement relatif pour pouvoir englober le stimulus dentr ee. Lorsque
, ce nest plus le pourcentage dagrandissement qui compte, mais seulement la dimension
nalle.
9.2 Fuzzy ARTmap
Le fuzzy ARTmap est un r eseau supervis e capable deffectuer un apprentissage incr emental.
Il est constitu e de deux r eseaux fuzzy ART respectivement nomm es ART
p
et ART
d
, tel quillustr e
9.2. FUZZY ARTMAP 99
a
2
a
1
2R
1
x 1
n
1
W
S
1
x2R
1
S
1
x1
S
1
x1
2R
1
C
S
1
R
1
p
R
1
x1
!
re
s
e
t
E
c
a
2
a
1
2R
2
x1
n
1
W
S
2
x2R
2
S
2
x1
S
2
x1
2R
2
C
S
2
R
2
d
R
2
x1
!
re
s
e
t
E
c
ART
p
ART
d
!
pd
r
e
s
e
t
Wpd
F
pd
a
pd
FIG. 9.4 Architecture du r eseau fuzzy ARTmap.
` a la gure 9.4. Les r eseaux ART
p
et ART
d
sont reli es entre eux par un champ associatif nomm e
F
pd
. Ce champ est utilis e pour effectuer des pr edictions associatives entre les cat egories du module
ART
p
, qui sont associ ees aux stimuli dentr ee, et celles du module ART
d
, qui sont associ ees aux
sorties d esir ees.
En mode dapprentissage, on propage un stimulus dentr ee dans le module ART
p
et, simul-
tan ement, on propage le vecteur des sorties d esir ees dans le module ART
d
. Les cat egories produites
par les deux modules sont alors compar ees ` a laide du champ associatif F
pd
. La matrice W
pd
de
dimension S
2
S
1
contient des vecteurs de poids w
i
associ es ` a chacune des S
1
cat egories du mo-
dule ART
p
. Lorsque la cat egorie i produite par le ART
p
r esonne avec la cat egorie j produite par le
ART
d
, alors w
i
est modi e pour ressembler davantage ` a a
2
d
, la sortie de ART
d
. Sinon, le module de
r esonance de F
pd
transmet un signal au ART
p
pour que celui-ci produise une nouvelle cat egorie.
Ce processus est recommenc e jusqu` a ce que lon trouve une association ad equate.
En mode de reconnaissance, on ne propage rien dans le module ART
d
; celui-ci demeure inac-
tif. Le stimulus dentr ee est simplement propag e dans le module ART
p
et la cat egorie produite est
utilis ee pour s electionner le vecteur correspondant dans W
pd
.
100 CHAPITRE 9. ARCHITECTURES ART
Plus formellement, voici toutes les etapes de lalgorithme dapprentissage du fuzzy ARTmap :
1. Initialiser les poids W
pd
= [w
1
w
2
w
S
1
] avec des 1 ;
2. Fixer les param` etres des modules ART
p
et ART
d
;
3. Fixer
pd
et
pd
de F
pd
;
4. t = 1 ;
5. R ep eter tant que t t
max
:
(a) Choisir un couple (p(t), d(t)) parmi les donn ees de la base dapprentissage ;
(b) Propager p(t) dans le ART
p
;
(c) Propager d(t) dans le ART
d
;
(d) Calculer la sortie de F
pd
:
a
pd
= a
2
d
w
pd
g
(9.16)
o` u a
2
d
d esigne le vecteur de sortie de ART
d
et g correspond ` a la cat egorie produite par
le ART
p
;
(e) Si le degr e de r esonance de F
pd
est inf erieur au seuil
pd
, cest-` a-dire si :
|a
pd
|
|a
2
d
|
<
pd
, (9.17)
alors augmenter
p
juste assez pour forcer le ART
p
` a produire une nouvelle cat egorie et
retourner ` a l etape 5d. Pour ce faire, il faudra xer temporairement
p
l eg` erement plus
grand que |a
1
p
w
p
g
|/|a
1
p
|.
(f) Mettre ` a jour le vecteur gagnant de F
pd
:
w
g
(t + 1) =
pd
a
2
d
+ (1
pd
) w
g
(t) (9.18)
(g) Sil y a lieu, remettre
p
` a sa valeur initiale ;
Fin
Plus souvent quautrement, le fuzzy ARTmap est utilis e pour faire du classement. Dans ce
cas, la dimension R
2
de lespace dentr ee du module ART
d
correspondra au nombre de classes et
les vecteurs dentr ee d seront restreints ` a des ensembles non ous, cest-` a-dire ` a des vecteurs dont
une des composantes est 1, et toutes les autres sont 0 (coins de lhypercube). Les taux de vigilance
et dapprentissage seront
d
=
d
= 1 de mani` ere ` a ce que les vecteurs de sorties d esir es soient
appris par cur et instantan ement. Autrement dit, le module ART
d
ne sert presqu` a rien dans ce
cas, sinon ` a produire un indice de classe. De son c ot e, le module ART
p
contiendra au moins autant
de neurones quil y a de classes, mais typiquement de 4 ` a 10 fois plus, pour pouvoir cr eer des
fronti` eres de d ecision complexes form ees de plusieurs hyper-rectangles entrelac es. Les param` etres
du module ART
p
seront x es de mani` ere ` a ce que celui-ci puisse bien mod eliser son espace des
stimuli. On emploiera un taux dapprentissage elev e (
p
= 1) si les donn ees sont peu bruit ees, et un
taux plus faible (p.ex.
p
= 0.5) en pr esence de bruit. Le taux de vigilance sera dautant plus elev e
que lon cherche ` a classer correctement toutes les donn ees. Mais gare au sur-apprentissage !
`
A la
limite, si
p
= 1 on apprendra litt eralement par cur toutes les donn ees mais la g en eralisation sera
9.2. FUZZY ARTMAP 101
TAB. 9.1 Valeurs sugg er ees pour les param` etres du fuzzy ARTmap dans un contexte de classe-
ment.
Param` etres Intervalles valeurs sugg er ees
taux de s election ]0, [

p
= 0.01

d
= 0.01
taux dapprentissage ]0, 1]
0.5
p
1

d
= 1

pd
= 1
taux de vigilance [0, 1]
0.5
p
0.9

d
= 1

pd
= 1
TAB. 9.2 Valeurs sugg er ees pour les param` etres du fuzzy ARTmap dans un contexte dapproxi-
mation de fonction.
Param` etres Intervalles valeurs sugg er ees
taux de s election ]0, [

p
= 0.01

d
= 0.01
taux dapprentissage ]0, 1]
0.5
p
1
0.5
d
1

pd
= 1
taux de vigilance [0, 1]
0.5
p
0.9
0.5
p
0.9

pd
= 1
catastrophique en pr esence de bruit. Une valeur comprise dans lintervalle 0.5
p
0.9 produit
g en eralement de bons r esultats. Finalement, le taux dapprentissage du champ associatif F
pd
est
souvent x e ` a
pd
= 1 pour apprendre instantan ement les bonnes associations de cat egorie. Dans
ce cas, la valeur du taux de vigilance
pd
na pas dimportance (on la xe donc ` a 1). En conclusion,
le tableau 9.1 donne des valeurs sugg er ees pour les param` etres du fuzzy ARTmap dans un contexte
de classement.
Dans un contexte dapproximation de fonction, le r ole du module ART
d
prend toute son impor-
tance. Cest lui qui produira des cat egories de valeurs pour la fonction que lon tente de mod eliser.
Pour une fonction scalaire, nous aurons R
2
= 1. Pour une fonction vectorielle, nous aurons R
2
> 1.
En variant la vigilance
d
nous pourrons varier la pr ecision de lapproximation.
`
A la limite, en
xant
d
= 1, nous pourrons apprendre par cur toutes les valeurs ayant servi ` a lapprentissage.
Il faut donc prendre garde au sur-apprentissage et limiter ce param` etre ` a la plage 0.5
d
0.9,
tout comme pour la vigilance du module ART
p
. En ce qui concerne les param` etres du module
F
pd
, il sont souvent x es ` a
pd
=
pd
= 1, tout comme dans le contexte de classement. Le ta-
bleau 9.2 r esume les valeurs sugg er ees pour les param` etres du fuzzy ARTmap dans un contexte
dapproximation de fonction.
Mentionnons nalement que, dans un contexte dapproximation de fonction, contrairement ` a
celui dun probl` eme de classement o` u la sortie a
pd
du r eseau fuzzy ARTmap indique directement
102 CHAPITRE 9. ARCHITECTURES ART
lindice j de la classe associ ee au stimulus dentr ee, la valeur de la fonction recherch ee doit etre
extraite du module ART
d
en allant chercher le vecteur de poids
j
w
d
= [x y
c
]
T
associ e ` a cet indice
de classe et en calculant le centre (x +y)/2 de sa r egion.
Chapitre 10
ACP et apprentissage hebbien
Lanalyse en composantes principales (ACP) est une m ethode danalyse des donn ees qui per-
met de r eduire la dimension dun espace dentr ee en ne retenant que les axes o` u la variance est im-
portante. Soit un ensemble de Q vecteurs {p
1
, p
2
, . . . , p
Q
} d enis dans
n
. Ces vecteurs forment
un nuage de points dans un espace ` a n dimensions. En choisissant de nouvelles bases, on d esire
repr esenter ces vecteurs dans
m
, avec m < n tout en minimisant la perte dinformation.
Shannon d enit linformation contenu dans une variable al eatoire X = {x
1
, x
2
, . . . , x
N
} ` a
partir de son entropie H(X) :
H(X) =
N

k=1
Pr(x
k
) log[Pr(x
k
)] = E[log(Pr(x
k
))] (10.1)
o` u Pr(x
k
) d esigne la probabilit e de rencontrer la k
` eme
r ealisation de X et E repr esente lesp erance
math ematique. Lentropie nous dit que plus un x
k
poss` ede une probabilit e elev ee, moins il contient
dinformation.
`
Ala limite, lorsque la variable devient d eterministe, cest-` a-dire lorsque Pr(x
k
) 1
pour un certain k et que, par cons equent, Pr(x
j
) 0 pour j = k, alors lentropie tend vers 0.
Cette d enition suppose cependant que nous connaissions a priori la loi de densit e de nos variables
al eatoires ce qui, dans la pratique, nest pas toujours le cas. Cependant, si lon suppose quelles
ob eissent ` a des lois gaussiennes
1
:
Pr(x) =
1

2
exp
_

(x )
2
2
2
_
, (10.2)
o` u repr esente la moyenne et
2
la variance, alors lentropie devient :
H(x) = E
_
1
2
log(2
2
)
_
+
1
2
E
_
_
x

_
2
_
=
1
2
log(2
2
), (10.3)
et lon observe quelle ne d epend plus que de la variance. Par cons equent, dans le cas de distribu-
tions gaussiennes, on peut conclure que la variance est synonyme dinformation.
1
Notez bien que la loi de Gauss sapplique ` a une variable al eatoire continue. Dans ce cas, il faut remplacer la
sommation par une int egrale dans l equation 10.1.
103
104 CHAPITRE 10. ACP ET APPRENTISSAGE HEBBIEN
z
1
z
2
p
FIG. 10.1 Illustration des composantes principales pour un nuage de points en deux dimensions.
Ceci nous am` ene ` a d enir lanalyse en composantes principales en termes de la variance et
de la covariance entre les diff erentes composantes de nos stimuli. Intuitivement, nous recherchons
les directions dans nos nuages de points o` u la variance est maximale, tel quillustr e ` a la gure
10.1 dans un espace ` a deux dimensions, o` u z
1
et z
2
donnent lorientation des deux composantes
principales et lellipse symbolise lhypoth` ese de distribution gaussienne des vecteurs qui est sous-
jacente ` a lACP.
Tout dabord, calculons la moyenne p de nos stimuli :
p =
1
Q
Q

k=1
p
k
. (10.4)
Cest le centre du nuage de points. La matrice de covariance C de nos stimuli est donn ee par :
C =
1
Q1
Q

k=1
(p
k
p)(p
k
p)
T
=
_

2
11

2
12

2
1n

2
21

2
22

2
2n
.
.
.
.
.
.
.
.
.
.
.
.

2
n1

2
n2

2
nn
_

_
(10.5)
o` u
2
ij
repr esente la covariance entre les composantes i et j de nos stimuli, et n est leur dimension.
Une matrice de covariance est toujours sym etrique et positive d enie (valeurs propres r eelles et
positives).
Pour trouver les composantes principales de nos donn ees, il sagit de d eterminer les valeurs
et les vecteurs propres de la matrice C (voir section 3.2.3). Les vecteurs propres de C d enissent
dans
n
les orientations des composantes principales de nos stimuli lorsque lorigine de lespace
vectoriel est d eplac e en p. Les valeurs propres, quant ` a elles, repr esentent limportance de chacune
de ces composantes. Elles correspondent aux variances des donn ees lorsque projet ees dans chacune
105
de ces orientations. Soit la matrice Z dont les colonnes contiennent les n vecteurs propres de C :
Z = [z
1
z
2
z
n
]. (10.6)
Alors Z est une matrice de rotation et p

k
= Z
1
(p
k
p) = Z
T
(p
k
p) repr esente le stimulus p
k
apr` es translation et rotation des axes dans la direction des composantes principales. Si lon calcule
la matrice de covariance C

des p

k
, on obtient alors une matrice diagonale dont les el ements
correspondent aux valeurs propres de C :
=
_

1
0 0
0
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0
n
_

_
. (10.7)
Sans perte de g en eralit e, supposons que les vecteurs propres z
i
sont tri es en ordre d ecroissant
de leur valeur propre :
i

i+1
, i = 1, . . . , n 1, alors lanalyse en composante principale
consiste ` a choisir les mpremiers vecteurs propres associ es aux plus grandes valeurs propres, cest-
` a-dire ceux qui maximisent la variance. Pour r eduire la dimension de lespace de repr esentation de
nos stimuli, il suft donc de construire la matrice Wsuivante :
W = [z
1
z
2
. . . z
m
], m < n (10.8)
et de sen servir pour projeter les p
k
de n dimension en p

k
` a m dimension :
p

k
= W
T
(p
k
p), k = 1, . . . , Q. (10.9)
La proportion de la variance des p
k
contenue dans les p

k
se mesure habituellement par le ratio :

m
i=1

n
i=1

i
> , (10.10)
que lon peut contraindre, par exemple, aux m composantes principales qui expliquent au moins
> 95% de la variance des stimuli dorigine. La trace

n
i=1

i
de la matrice sert ici ` a mesurer la
variance globale des stimuli dapprentissage. Il sagit dune mesure de volume, ou dhyper-volume,
tout comme la norme est une mesure de longueur. Une autre mesure de volume pour un nuage de
points consiste ` a calculer le d eterminant de la matrice de covariance. Ainsi, on pourrait egalement
choisir nos m composantes de la facon suivante :

m
i=1

n
i=1

i
> , (10.11)
Mentionnons nalement quon peut aussi utiliser les valeurs propres de lanalyse en compo-
santes principales pour effectuer un blanchiment de nos stimuli en effectuant lop eration suivante :
p

k
=
1/2
m
p

k
, k = 1, . . . , Q, (10.12)
o` u
m
repr esente la matrice diagonale des m premi` eres composantes de :

m
=
_

1
0 0
0
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0
m
_

_
, (10.13)
ce qui engendre une matrice de covariance unitaire pour les p

k
.
106 CHAPITRE 10. ACP ET APPRENTISSAGE HEBBIEN
10.1 R` egle de Hebb
Lapprentissage par la r` egle de Hebb (voir section 4.2) exprime la variation de poids en fonc-
tion de la corr elation entre lentr ee p et la sortie a dun neurone :
w = pa. (10.14)
Cette r` egle nous dit que plus la r eponse du neurone sera forte vis-` a-vis dun stimulus, plus la
variation de poids sera grande.
Dans le cas dun neurone lin eaire, nous avons la relation a = w
T
p = p
T
w. En interpr etant w
comme une direction dans lespace des stimuli et en supposant que les stimuli dentr ee sont centr es
sur leur moyenne
2
, on peut se cr eer lindice de performance F suivant :
F = a
2
= (w
T
p)(p
T
w), (10.15)
visant ` a maximiser la variance. Pour un module ||w|| x e, on obtient une esp erance E(F) :
E[F] = E[(w
T
p)(p
T
w)] = w
T
E[pp
T
]w = w
T
Cw (10.16)
qui d epend de lorientation de w et de la matrice de covariance C des stimuli. Clairement, on
constate que F sera maximum lorsque wsera orient e dans la direction de la composante principale
de C.
Le probl` eme majeur avec cette formulation de la r` egle de Hebb est que celle-ci est instable.
Le module de w aura tendance ` a crotre sans cesse et lapproche diverge presque toujours. Une
solution consiste ` a normaliser w :
w(t + 1) =
w(t) + pa
||w(t) + pa||
(10.17)
10.2 R` egle de Oja
Une autre solution consiste ` a adopter une approximation de l equation 10.17, nomm ee r` egle
de Oja
3
:
w = a(p a w) = (a p a
2
w) (10.18)
Pour voir que cette r` egle poss` ede bien le potentiel de trouver la composante principale des stimuli,
il suft de calculer lesp erance de la variation des poids :
E(w) = E[(ap a
2
w)] (10.19)
= E[p(p
T
w) (w
T
p)(p
T
w)w] (10.20)
= E[(pp
T
)ww
T
(pp
T
)ww] (10.21)
= (Cww
T
Cww) (10.22)
2
Si ce nest pas le cas, il suft de le faire ` a laide de l equation 10.4.
3
E. Oja, A Simplied Neuron Model as a Principal Component Analyser, Journal of Mathematical Biology,
vol. 15, p. 239-245, 1982.
10.3. R
`
EGLE DE SANGER 107
a
Entre Couche de S neurones
a = purelin(Wp)
W
p
n
R x 1
S x R
S x 1 S x 1
R S
FIG. 10.2 R eseau permettant deffectuer une analyse en S composantes principales.
Apr` es convergence, on obtient E(w) 0 et :
Cw = (w
T
Cw)w = w (10.23)
ce qui nous indique, par d enition (voir section 3.2.3), que = w
T
Cw est une valeur propre
de C et w le vecteur propre qui lui est associ e. Finalement, en substituant l equation 10.23 dans
lexpression de , on obtient :
= w
T
w = ||w||
2
, (10.24)
o` u ||w|| est la norme euclidienne de w. Ceci implique que la norme de ce vecteur est unitaire, du
moins une fois la convergence atteinte. On peut aussi montrer non seulement que cette convergence
est assur ee, mais que le vecteur propre obtenu sera associ e ` a la plus grande valeur propre de C, car
seule celle-ci est stable.
10.3 R` egle de Sanger
La r` egle de Oja nous permet de trouver la composante principale de nos stimuli. L etape
suivante consiste ` a trouver le moyen de d eterminer les autres composantes en utilisant une couche
de neurones lin eaires comme ` a la gure 10.2. Un tel r eseau permet de r eduire la dimension de
lespace des entr ees, de Rdimensions ` a S dimensions (S < R). La matrice W = {w
i,j
} repr esente
les poids w
i,j
des connexions reliant les neurones i aux composantes j des stimuli dentr ee. La
r` egle suivante, dite r` egle de Sanger
4
, ou encore Algorithme de Hebb g en eralis e, est une
g en eralisation de la r` egle de Oja :

i
w =
_
a
i
p a
i
i

k=1
a
k k
w
_
, i = 1, . . . , S. (10.25)
4
T. Sanger, Optimal Unsupervised Learning in a Single Layer Linear Feedforward Neural Network, Neural
Networks, vol. 12, p. 459-473, 1989.
108 CHAPITRE 10. ACP ET APPRENTISSAGE HEBBIEN
En effet, dans le cas o` u S = 1, on retombe sur l equation 10.18 :

1
w =
_
a
1
p a
1
1

k=1
a
1 1
w
_
=
_
a
1
p a
2
1
1
w
_
(10.26)
Pour mieux visualiser l equation 10.25, on peut la r e ecrire de la facon suivante :

i
w = a
i
[p

a
i i
w] , i = 1, . . . , S, (10.27)
o` u p

est une version modi ee du stimulus p :


p

= p
i1

k=1
a
k k
w. (10.28)
qui d epend de lindice i du neurone. Pour le premier neurone, i = 1, on obtient donc p

= p. Dans
ce cas, la formule g en eralis ee se r eduit ` a la r` egle de Oja, et lon sait que ce neurone recherchera la
composante principale dans les stimuli.
Pour le deuxi` eme neurone de la couche, i = 2, on obtient :
p

= p a
1 1
w. (10.29)
Sous lhypoth` ese que le premier neurone a d ej` a converg e, on voit que lon se trouve ` a retrancher
de p une fraction a
1
de la composante principale des stimuli. Ceci ressemble etrangement ` a la
proc edure dorthogonalisation de Gram-Schmidt (voir section 3.1.5). Le second neurone cherchera
donc la composante principale des p

, cest-` a-dire la seconde composante principale des p. Et ainsi


de suite pour les autres neurones qui chercheront dans un espace r eduit des i 1 composantes
principales pr ec edentes.
Dans la pratique, contrairement ` a ce quon laisse entendre ci-dessus, tous les neurones tendent
` a converger simultan ement. N eanmoins, la convergence d enitive dun neurone i d ependant de
celle du neurone i 1, les poids
i
w se stabiliseront dans lordre croissant de leur indice. Le temps
total dapprentissage sera cependant inf erieur ` a ce qui serait n ecessaire pour un apprentissage in-
dividuel des neurones.
En notation matricielle, la r` egle de Hebb g en eralis ee permettant de faire une analyse en S
composantes principales sexprime de la facon suivante :
W(t) =
_
a p
T
LT[a a
T
] W(t)
_
, (10.30)
o` u LT[.] d esigne un op erateur matriciel qui met ` a z ero tous les el ements de son argument au dessus
de la diagonale.
10.4 Apprentissage de Hebb supervis e
Nous terminons ce chapitre avec la version supervis ee de lapprentissage de Hebb o` u lon
remplace la sortie a du r eseau par la sortie d esir ee d :
W(t) = d(t) p(t)
T
(10.31)
10.4. APPRENTISSAGE DE HEBB SUPERVIS

E 109
et o` u lon xe le taux dapprentissage = 1. En supposant que la matrice de poids West initialis ee
` a 0, on obtient :
W = d
1
p
T
1
+d
2
p
T
2
+ +d
Q
p
T
Q
=
Q

q=1
d
q
p
T
q
(10.32)
apr` es la pr esentation des Q paires (p
q
, d
q
) dapprentissage. En notation matricielle, on obtient :
W = [d
1
d
2
d
Q
]
_

_
p
T
1
p
T
2
.
.
.
p
T
Q
_

_
= DP
T
, (10.33)
avec D = [d
1
d
2
d
Q
] et P = [p
1
p
2
p
Q
].
L equation 10.33 permet de construire ce quon appelle une m emoire associative lin eaire. Elle
permet dapprendre ` a m emoriser Qassociations entre un stimulus p
q
et une r eponse d
q
. Supposons
dabord que tous les stimuli sont orthogonaux et normalis es (longueur unitaire). Alors, la r eponse
de cette m emoire ` a lun dentre eux, par exemple p
k
, sera :
a = Wp
k
=
_
_
Q

q=1
d
q
p
T
q
_
_
p
k
=
Q

q=1
d
q
_
p
T
q
p
k
_
. (10.34)
Or, puisque tous les stimuli sont orthogonaux et normalis es, on a :
_
p
T
q
p
k
_
=
_
1 si q = k
0 autrement
, (10.35)
et a = d
k
. La r eponse pour un stimulus dapprentissage est donc la sortie d esir ee qui lui est
associ ee, ` a condition que les stimuli soient orthonormaux. Dans le cas o` u ils ne seraient plus
orthogonaux (mais toujours normalis es), on obtiendrais :
a = Wp
k
= d
k
+

q=k
d
q
_
p
T
q
p
k
_
, (10.36)
o` u la somme ci-dessus repr esente un terme derreur par rapport ` a la r eponse d esir ee, engendr e par
la non orthogonalit e des stimuli.
10.4.1 R` egle de la matrice pseudo-inverse
De nouveau, nous constatons que la r` egle de Hebb seule nest pas sufsante pour produire le
r esultat souhait e dans le cas g en eral, ` a savoir :
Wp
q
= d
q
, q = 1, . . . , Q. (10.37)
Une m ethode pour y arriver consiste ` a dabord d enir un indice de performance F quadratique ` a
minimiser, semblable ` a ce que nous avons utilis e pour le perceptron (voir chapitre 5) :
F(W) = ||DWP||
2
, (10.38)
110 CHAPITRE 10. ACP ET APPRENTISSAGE HEBBIEN
a
Entre Couche de S neurones
a = hardlims(Wp)
W
p
n
30 x 1
30 x 30
30 x 1 30 x 1
30 30
FIG. 10.3 R eseau auto-associatif pour la reconnaissance de chiffres.
o` u D WP est la forme matricielle de l equation 10.37. Nous avons d ej` a d emontr e ` a la section
pr ec edente que F(W) = 0 lorsque les stimuli dapprentissage sont orthonormaux. Ensuite, pour
minimiser l equation 10.38 dans le cas g en eral, il faudrait que D WP 0 et donc que W =
DP
1
. Or, la matrice P nest g en eralement pas carr ee (sauf si P = Q) et ne peut donc pas etre
invers ee. Pour contourner cette difcult e, il faut faire appel ` a la matrice pseudo-inverse P
+
de
Moore-Penrose d enie par :
P
+
= (P
T
P)
1
P
T
(10.39)
`
A condition que les stimuli de Psoient ind ependants, la matrice (P
T
P) peut toujours etre invers ee
et on obtient :
P
+
P = (P
T
P)
1
P
T
P
= (P
T
P)
1
(P
T
P)
= I. (10.40)
Ainsi, en xant :
W = DP
+
, (10.41)
on obtient la r` egle dite de la matrice pseudo-inverse pour construire notre m emoire associative
lin eaire. Contrairement ` a celle de l equation 10.33, cette r` egle produira toujours la r eponse d esir ee
pour nimporte quel stimulus qui a servi ` a lapprentissage. Pour un stimulus nayant pas servi ` a
lapprentissage, elle produira une r eponse dautant plus proche de celle dun stimulus dapprentis-
sage que ce premier est proche de ce dernier.
10.4.2 Exemple dauto-association
La gure 10.3 illustre un r eseau auto-associatif permettant dapprendre ` a reconnatre des
chiffres repr esent es par une matrice binaire de 5 6 pixels (voir gure 10.4). Pour entraner
un tel r eseau, il suft de construire des stimuli et des r eponses d esir ees en assemblant des vecteurs
de bits ` a partir de la concat enation des lignes de pixels. Apr` es entranement avec l equation 10.41,
10.4. APPRENTISSAGE DE HEBB SUPERVIS

E 111
FIG. 10.4 Prototypes pour lapprentissage auto-associatif des chiffres 0, 1 et 2.
(a) (b) (c)
FIG. 10.5 Exemples de r eponses du r eseau auto-associatif de la gure 10.3 pour des stimuli
d egrad es ou bruit es : (a) chiffres 0 ; (b) chiffres 1 ; et (c) chiffres 2.
dans une certaine mesure, le r eseau sera capable de produire en sortie des chiffres complets m eme
si les stimuli dentr ee sont incomplets ou bruit es. Par exemple, retirer la moiti e inf erieure des pixels
des chiffres naffecte aucunement la sortie du r eseau, comme le montre la gure 10.5 (premi` ere
ligne). Par contre, si lon retire davantage de pixels (67% des pixels ; voir seconde ligne de la -
gure), alors seul le 1 est reconnu correctement. Dans le cas du 0, le r eseau ne produit rien de
coh erent alors que pour le 2, il produit un 1. Finalement, si lon bruite les stimuli de nos trois
chiffres (troisi` eme ligne de la gure), on constate que le r eseau na aucun probl` eme ` a reconstruire
les r eponses d esir ees. Ceci illustre bien la robustesse dune m emoire associative lin eaire.
112
Chapitre 11
R eseau RBF
Dans ce chapitre, nous allons etudier les r eseaux dits ` a fonction de base radiale
1
. Nous
avons vu au chapitre 5 quil est possible dapproximer nimporte quelle fonction ` a laide dun per-
ceptron en int egrant une couche cach ee de neurones sigmodes et une couche de sortie de neurones
lin eaires, comme ` a la gure 5.10 (page 50). Dans ce cas, on obtient les sorties suivantes pour le
r eseau :
a
2
= purelin(W
2
a
1
b
2
) = W
2
a
1
b
2
(11.1)
Simplions ce r eseau au cas dun seul neurone de sortie (S
2
= 1), posons a
2
=

f et annulons les
biais de la couche de sortie pour simplier (b
2
= 0). On obtient alors :

f = W
2
a
1
=
S
1

j=1
w
1,j
a
1
j
, (11.2)
o` u a
1
= [a
1
1
a
1
2
. . . a
1
S
1
]
T
correspond aux sorties des neurones de la couche cach ee, et w
1,j
au poids
qui relie le neurone cach e j ` a la sortie unique de notre r eseau. En interpr etant les a
1
j
comme des
bases (voir section 3.1.2), on remarque imm ediatement que l equation 11.2 permet dapproximer
la fonction f ` a laide dune combinaison lin eaire de celles-ci. La probl ematique de lapprentissage
dun tel perceptron consiste, premi` erement, ` a trouver des bases ad equates pour effectuer lapproxi-
mation recherch ee et, deuxi` emement, ` a trouver les bon coefcients de la combinaison lin eaire. Les
bases engendr ees par la couche cach ee du r eseau sont en fait des fonctions sigmodes que lon po-
sitionne dans lespace des entr ees. Des travaux th eoriques ont montr e quun tel perceptron poss` ede
la propri et e dapproximation universelle, cest-` a-dire quil peut approximer nimporte quelle fonc-
tion avec une pr ecision arbitraire, ` a condition de disposer de sufsamment de neurones sur sa
couche cach ee.
Mais les neurones sigmodes ne sont pas les seuls ` a poss eder cette capacit e dapproximation
universelle. De nombreuses autres fonctions la poss` ede aussi, dont les fonctions radiales quuti-
lisent les r eseaux RBF. Il est important de se rappeler quun neurone sigmode agit partout dans
son espace dentr ee. Il passe une fronti` ere de d ecision lin eaire qui traverse lespace de bord en
bord. En ce sens, lorsquun un stimulus est pr esent e ` a la couche cach ee dun perceptron multi-
couche, tous les neurones de cette derni` ere peuvent contribuer ` a produire la r eponse du r eseau. Ils
1
En anglais : Radial Basis Function (RBF).
113
114 CHAPITRE 11. R

ESEAU RBF
Entre
R
Couche radiale
a = !(p)
S
1
x 1
p
W
1
S
1
x R
R x 1
a
2
= f
Couche linaire
f = purelin(W
2
a)
S
2
x 1
S
2
a
1
= !
W
2
S
2
x S
1
S
1
FIG. 11.1 R eseau RBF avec fonctions radiales gaussiennes.
travaillent globalement. Ceci explique entre autres pourquoi on ne peut pas utiliser une perceptron
multicouche pour faire de lapprentissage incr emental, comme on peut le faire avec un r eseau ART,
par exemple.
Contrairement aux neurones sigmodes, les neurones radiaux travaillent localement dans
lespace des entr ees. Cest la principale particularit e des r eseaux RBF. Plusieurs fonctions radiales
peuvent etre utilis ees, mais la plus courante est une fonction de type gaussienne multivari ee :
(x) = exp

(x
i
w)
T

1
(x
i
w)
2

, (11.3)
o` u d esigne une matrice de covariance que lon pose plus souvent quautrement egale ` a
2
I et o` u
i
w d esigne la position (le centre) du neurone radial dans son espace dentr ee. Ainsi, la r eponse ` a
un stimulus p d epend dun voisinage autour du centre, dont la variance
2
est egale dans toutes les
directions, avec une d ecroissance exponentielle qui d epend du carr e de la distance entre le stimulus
et le centre :
(x) = exp

(x
i
w)
T
(x
i
w)
2
2

= exp

||x
i
w||
2
2
2

, (11.4)
o` u || || d esigne la norme euclienne. Un r eseau RBF peut alors approximer une fonction f avec
lexpression suivante :

f(p) =
S
1

j=1
w
2
1,j

j
(p) (11.5)
o` u w
2
1,j
est le poids de la deuxi` eme couche qui relie le neurone j de la premi` ere couche au neurone
de sortie 1, S
1
est le nombre de neurones sur la premi` ere couche et
j
(p) est la fonction radiale
associ e au neurone j de cette derni` ere. Dans le cas vectoriel o` u lon d esire plusieurs sorties, on
obtient lexpression suivante :

f(p) = W
2
(p) (11.6)
o` u = [
1

2
, . . . ,
S
1]
T
dont le r eseau equivalent est illustr e ` a la gure 11.1.
11.1. ENTRA

INEMENT DUN R

ESEAU RBF 115


11.1 Entranement dun r eseau RBF
Pour entraner le r eseau RBF, on peut utiliser plusieurs strat egies. La premi` ere consiste ` a op-
timiser simultan ement tous les param` etres du r eseau, par exemple, en utilisant la r etropropagation
des erreurs. Il sagit de la position des centres des fonctions radiales, de leur variance et, na-
lement, des poids de la couche lin eaire de sortie. Malheureusement, cette approche comportent
certaines difcult es li ees ` a la nature tr` es diff erente de ces deux couches et de leur dynamique
de convergence. La premi` ere couche, constitu ee de neurones non lin eaires agissant localement
dans lespace des entr ees, a plut ot tendance ` a converger lentement, alors que la seconde, avec ses
neurones lin eaires, converge g en eralement tr` es rapidement. Ces dynamiques tr` es diff erentes pro-
voquent souvent une stagnation de lapprentissage autour dun minimum local parfois tr` es eloign e
de loptimum global.
Ce quil importe de remarquer ici est que les deux couches du r eseau RBF r ealisent des
fonctions distinctes. En ce sens, on peut tr` es bien proc eder ` a leur apprentissage en deux etapes
egalement distinctes. La premi` ere consistant ` a estimer la position des centres des neurones radiaux
puis ` a estimer leur variance, et la deuxi` eme ` a estimer les poids de la couche lin eaire.
Une premi` ere alternative pour le positionnement des centres consiste simplement ` a les distri-
buer uniform ement dans lespace des entr ees. Cette solution comporte cependant des limitations
evidentes, tout particuli` erement lorsque cet espace dentr ee est de grande dimension.
Une seconde alternative est de xer les centres sur certains stimuli p
k
choisis al eatoirement
parmi lensemble des donn ees dapprentissage. Dans ce cas, on peut imposer comme fonction
radiale une gaussienne isotrope normalis ee et centr ees sur
i
w
1
= p
k
:

i
(p) = exp

S
1

2
max
||p
i
w
1
||
2

, (11.7)
o` u S
1
correspond au nombre total de neurones radiaux,
2
max
au carr e de la distance maximum
entre leurs centres et
i
w
1
` a la position de ces derniers. Ce choix de fonction radiale entrane un
ecart type xe de =
max
/

2S
1
pour tous les neurones. Il permet de garantir des fonctions
radiales ni trop pointues ni trop aplaties, ces deux extr emes etant ` a eviter autant que possible. Il
ne reste plus qu` a estimer les poids de la couche lin eaire en utilisant, par exemple, la r` egle de la
matrice pseudo-inverse (voir section 10.4.1) :
W
2
= DP
+
(11.8)
o` u D = [d
1
d
2
d
Q
] est la matrice des r eponses d esir ees pour le r eseau, P = [
1

2

Q
] est
la matrice des r eponses de la couche radiale et P
+
la matrice pseudo-inverse de P.
Finalement, une troisi` eme alternative consiste ` a positionner les centres des neurones radiaux
` a laide de lune ou lautre des m ethodes dapprentissage non supervis e etudi ees aux chapitres 6 ` a
9 (nu ees dynamiques, Kohonen, GNG ou Fuzzy ART). Une fois les centres positionn es, il ne reste
plus qu` a estimer les
i
en utilisant, par exemple, la partition (oue ou non oue ; voir chapitre
6) des stimuli engendr ee par le processus comp etitif des neurones, puis ` a estimer les poids de
la couche lin eaire ` a laide dune m ethode supervis ee comme la r` egle LMS (voir section 5.2) ou,
comme ci-dessus, celle de la matrice pseudo-inverse.
116 CHAPITRE 11. R

ESEAU RBF
En conclusion, mentionnons que la principale difcult e des r eseaux RBF concerne la question
du nombre de neurones radiaux ` a utiliser pour une application donn ee. A priori, il nexiste pas de
m ethode pour xer leur nombre, et cette architecture souffre de facon particuli` erement aigu e de
ce quon appelle la mal ediction de la dimension
2
, ` a savoir laugmentation exponentielle du
nombre de neurones cach es requis en fonction de la dimension R de lespace dentr ee. Lorsque R
est grand, une facon datt enuer ce probl` eme consiste ` a remplacer les hyper-sph` eres qui r esultent
de limposition dune variance xe par des hyper-ellipses o` u la matrice de covariance nest plus
contrainte. On peut ainsi r eduire le nombre de neurones ` a positionner au d etriment du nombre de
param` etres ` a estimer.
2
En anglais : curse of dimensionality.
Bibliographie
[1] M.T. Hagan, H.B. Demuth, M. Beale, Neural Network Design, PWS Publishing Compa-
gny, 1995.
[2] J.C. Principe, N.R. Euliano, W.C. Lefebvre, Neural and Adaptive Systems : Fundamentals
through Simulations, Wiley, 2000.
[3] Simon Haykin, Neural Networks : A Comprehensive Foundation, IEEE Press, 1994.
[4] J.A. Freeman, D.M. Skapura, Neural Networks : Algorithms, Applications, and Program-
ming Techniques, Addison-Wesley, 1992.
[5] R.P. Lippmann, An Introduction to Computing with Neural Nets, IEEE ASSP Magazine,
pp. 4-22, avril 1987.
[6] R. Krishnapuram, J.M. Keller, A Possibilistic Approach to Clustering, IEEE Transactions
on Fuzzy Systems, vol. no. 2, p. 98-110, 1993.
[7] Bernd Fritzke, A Growing Neural Gas Network Learns Topologies, Advances in Neural
Information Processing Systems 7, G. Tesauro, D.S. Touretzky et T.K. Leen ( editeurs), MIT
Press, Cambridge MA, 1995.
[8] G.A. Carpenter, S. Grossberg, N. Markuzon, J.H. Reynolds, D.B. Rosen, Fuzzy ARTMAP :
A neural network architecture for incremental supervised learning of analog multidimensional
maps, IEEE Transactions on Neural Networks, vol. 3, no. 5, p. 698-713, 1992.

Vous aimerez peut-être aussi