Académique Documents
Professionnel Documents
Culture Documents
40
Chapitre 3
Les rseaux de neurones
4.1. Introduction aux rseaux de neurones [7]
Les rseaux de neurones ont d'abord t dvelopps pour rsoudre des problmes de contrle,
de reconnaissance de formes ou de mots, de dcision, de mmorisation comme une alternative
l'intelligence artificielle, et en relation plus ou moins troite avec la modlisation de
processus cognitifs (capable de connatre ou faire connatre) rels et des rseaux de neurones
biologiques.
4.2. Le neurone biologique [ROS 97]
Le neurone biologique est une cellule vivante spcialise dans le traitement des signaux
lectriques.
Les neurones sont relis entre eux par des liaisons appeles axones. Ces axones vont eux-
mmes jouer un rle important dans le comportement logique de l'ensemble. Ces axones
conduisent les signaux lectriques de la sortie d'un neurone vers l'entre (synapse) d'un autre
neurone.
Les neurones font une sommation des signaux reus en entre et en fonction du rsultat
obtenu vont fournir un courant en sortie. (figure 1)
La structure dun neurone se compose de trois parties :
La somma : ou cellule dactivit nerveuse, au centre du neurone.
Laxone : attach au somma qui est lectriquement actif, ce dernier conduit
limpulsion conduite par le neurone.
Dendrites : lectriquement passives, elles reoivent les impulsions dautres
neurones.
Figure.1. Le neurone biologique
Chapitre 4 les Rseaux de neurones
41
4.3. Le neurone formel (artificiel) [7]
Le neurone artificiel (ou cellule) est un processeur lmentaire. Il reoit un nombre variable
d'entres en provenance de neurones appartenant un niveau situ en amont (on parlera de
neurones "amonts"). A chacune des entres est associ un poids w reprsentatif de la force de
la connexion. Chaque processeur lmentaire est dot d'une sortie unique, qui se ramifie
ensuite pour alimenter un nombre variable de neurones appartenant un niveau situ en aval
(on parlera de neurones "avals"). A chaque connexion est associe un poids. (figure 2 )
Figure.2. Le neurone formel
4.4. Modlisation dun neurone formel [7]
Les rseaux de neurones formels sont l'origine dune tentative de modlisation
mathmatique du cerveau humain. Les premiers travaux datent de 1943 et sont luvre de
MM. Mac Culloch et Pitts. Ils prsentent un modle assez simple pour les neurones et
explorent les possibilits de ce modle.
La modlisation consiste mettre en uvre un systme de rseau neuronaux sous un aspect
non pas biologique mais artificiel, cela suppose que daprs le principe biologique on aura une
correspondance pour chaque lment composant le neurone biologique, donc une
modlisation pour chacun dentre eux.
On pourra rsumer cette modlisation par le tableau 1, qui nous permettra de voir clairement
la transition entre le neurone biologique et le neurone formel [YAS 99].
Neurone biologique Neurone artificiel
Synapses Poids de connexions
Axones Signal de sortie
Dendrite Signal dentre
Somma Fonction dactivation
Chapitre 4 les Rseaux de neurones
42
Tableau.1. Analogie entre le neurone biologique et le neurone formel
1-Les entres
Elles peuvent tre :
Boolennes.
Binaires (0, 1) ou bipolaires (-1, 1).
Relles.
2-Fonction dactivation [YOU 99]
Cette fonction permet de dfinir ltat interne du neurone en fonction de son entre totale,
citons titre dexemple quelques fonctions souvent utilises :
2-a-Fonction binaire a seuil
exemple :
Fonction Heaviside dfinie par
1 si x 0 (figure.3)
h(x)=
0 sinon
Fonction Signe dfinie par
+1 si x 0 (figure.4)
Sgr(x)=
- 1 sinon
h(x) sgn(x)
1 1
0 x x
-1
Figure.3. Fonctions Heaviside Figure.4. Fonctions signe
Le seuil introduit une non-linarit dans le comportement du neurone, cependant il limite la
gamme des rponses possibles deux valeurs.
2.b-Fonction linaire
Cest lune des fonctions dactivations les plus simples, sa fonction est dfinie par : F(x)=x
(figure.5)
Chapitre 4 les Rseaux de neurones
43
F(x)
F(x)=x
x
Figure.5. Fonction linaire
2.c-Fonction linaire seuil ou multi-seuils
On peut la dfinir comme suit :
x x [ u, v ]
F(x) = v si x v
u si x u
Cette fonction reprsente un compromis entre la fonction linaire et la fonction seuil : entre
ses deux barres de saturation, elle confre au neurone une gamme de rponses possibles. En
modulant la pente de la linarit, on affecte la plage de rponse du neurone. ( figure.6)
F(x)
x
Figure.6. Fonction linaire a seuil
2.d-Fonction sigmode
Elle est lquivalent continu de la fonction linaire. Etant continu, elle est drivable, dautant
plus que sa drive est simple calculer, (figure 7) elle est dfinie par :
e 1
1
(x) f
x -
+
x
po1
x
po2
w
110
f ( )
f ( )
y
p11 x
p11
x
p12
y
p12
w
1n2
w
111
w
121
+1
+1
x
pon
f ( )
x
p1n
y
p1n
w
120
+1
x
p,L-1,1
x
p,L-1,2
w
L10
f ( )
f ( )
y
pL1 x
pL1
x
pL2
y
pL2
+1
+1
x
p,L-1,n
f ( )
x
pLn
y
pLm
+1
w
L20
w
L1
w
L2 w
Ln
w
Ln
w
L1
w
L2
w
Ln
w
L2
w
L1
Couche de sortie
w
1n1
w
1nn
w
12n
w
11n
w
122
w
112
1
re
Couche
Chapitre 4 Les rseaux de neurones
51
O
p
=(O
p,1
, O
p,2
, . . . . . . , O
p,m
)
t
R
m
. Vecteur des sorties dsir.
y
p
= (y
p,l,,1
, y
p,l,,2
, . . . . . . , y
p, l,,m
)
t
R
m
. Vecteur des sorties rel du rseau.
o
w
j,k,i
: la connexion entre le neurone k de la couche j-1 et le neurone i de la couche j.
y
p,j,k
: lentre totale du neurone k pour lchantillon p de la couche j.
w
j,k,0
=
j,k
: le poids fictif du neurone k de la couche j correspondant un biais dont
lentre est fixe 1.
Lentre totale du k nud pour la couche j est :
La sortie de ce nud sera :
x
p,j,k
= F (y
p,j,k
)
o F est une fonction de transfert sigmode.
4.9. Mise en oeuvre des rseaux neuronaux [YAS 99]
Nous allons suivre une dmarche reprise par Wierenga et Kluytmans (1994) qui est compose
de quatre tapes principales :
Etape 1 : fixer le nombre de couches caches
Mis part les couches d'entre et de sortie, l'analyste doit dcider du nombre de couches
intermdiaires ou caches. Sans couche cache, le rseau n'offre que de faibles possibilits
d'adaptation ; avec une couche cache, il est capable, avec un nombre suffisant de neurones,
d'approximer toute fonction continue (Hornik, 1991). Une seconde couche cache prend en
compte les discontinuits ventuelles.
Etape 2 : dterminer le nombre de neurones par couches caches
Chaque neurone supplmentaire permet de prendre en compte des profils spcifiques des
neurones d'entre. Un nombre plus important permet donc de mieux coller aux donnes
prsentes mais diminue la capacit de gnralisation du rseau. Ici non plus il n'existe pas de
rgle gnrale mais des rgles empiriques. La taille de la couche cache doit tre :
Soit gale celle de la couche dentre.
Soit gale 75% de celle-ci.
Soit gale la racine carre du produit des nombres dans la couche dentre et de sortie.
Notons que le dernier choix rduit le nombre de degrs de libert laisss au rseau, et donc la
capacit dadaptation sur lchantillon dapprentissage, au profit dune plus grande stabilit.
Une voie de recherche ultrieure consisterait soit procder l'estimation d'un rseau
comportant de nombreux neurones puis le simplifier par l'analyse des multicolinarits ou
par une rgle d'apprentissage liminant les neurones inutiles ; soit dfinir une architecture
n
0 i
i , 1 j , p i , k , j k , j , p
x w y
k , j
n
1 i
i , 1 j , p i , k , j
x w +
(4.1)
(4.2)
Chapitre 4 Les rseaux de neurones
52
tenant compte de la structure des variables identifie au pralable par une analyse en
composantes principales.
Etape 3 : choisir la fonction d'activation
Nous considrerons la fonction logistique pour le passage de la couche d'entre la couche
cache. Le passage de cette dernire la couche de sortie sera soit linaire, soit sigmode
(logistique) selon nos types de variables.
Etape 4 : choisir l'apprentissage
Lapprentissage par rtro-propagation ncessite la dtermination du paramtre dajustement
des poids synaptiques chaque itration.
La dtermination du critre d'arrt est aussi cruciale dans la mesure o la convergence peut
passer par des minima locaux.
4.10. Algorithmes dapprentissage [7]
4.10.1. Retropropagation du gradient
Lalgorithme de rtro-propagation a t dvelopp en particulier par Rumelhart et Parkenet le
Cun en 1985 [YOU 99]. Cet algorithme repose sur la minimisation de lerreur quadratique
entre les sorties calcules et celles souhaites.
Le terme rtro-propagation du gradient provient du fait que lerreur calcule en sortie est
transmise en sens inverse vers lentre.
Lerreur commise sur le k
me
nud de sortie est :
p k
= O
p k
x
p l k
(4.3)
Par consquent lerreur totale (pour tous les nuds) est :
Pour minimiser E p, on calcule son gradient par rapport chaque poids w, puis on modifie les
poids dans le sens inverse du gradient.
Mise jour des poids de la couche de sortie
m
1 k
2
k , l , p k , p
m
1 k
2
k , p p
) x O (
2
1
2
1
E
(4.4)
j , k ,
2
k , , p
k , p
j , k ,
p
p
l
l
l
w
) x O (
2
1
w
E
E
(4.5)
[ ] ) y (
w
) x O (
k , l , p
j , k , l
k , l , p k , p
f
) y ( w
) y ( ) y ( f
) x O ( E
k , l , p j , k , l
k , l , p k , l , p
k , l , p k , p p
(4.6)
j , 1 l , p
m
0 j
j , 1 l , p j , k , l
j , k , l j , k , l
k , l , p
x ) x w (
w w
y
(4.7)
) y ( f
y
) y ( f
k , l , p
k , l , p
k , l , p
(4.8)
Chapitre 4 Les rseaux de neurones
53
E
p
= - ( O
p,k
x
p,l,k
) f ( y
p,l,,k
) x
p,l-1, j
=
p,k
x
p,l,k
( 1 x
p,l,k
) x
p,l-1,j
(4.9)
La modification des poids est fonction du calcul du gradient. Ainsi, les poids sur la couche de
sortie sont mis jour de la faon suivante :
w
l,k,j
( t+1) = w
l,k,j
(t) +
p
w
l,k,j
(t) (4.10)
p
w
l,k,j
(t) = ( O
p,k
x
p,l,k
)f ( y
p,l,k
) x
p,l-1,j
(4.11)
ou :
: pas dapprentissage 0<<1
Remarque :
Le taux dapprentissage, un des paramtres de cet algorithme, ne doit pas etre trop grand
sinon il entranerait des oscillations de lerreur autour dun minimum quon ne pourra pas
atteindre et si est trop petit le temps dapprentissage serait trop grand.
On pose :
e
p,l,k
= ( O
p,k
x
p,l,k
)f ( y
p,l,k
) (4.12)
o :
e
p,l,k
:erreur de signal du k
me
nud de la couche de sortie .
Lquation des modifications des poids aura donc la forme suivante :
w
l,k,j
( t+1) = w
l,k,j
(t) + e
p,l,k
x
p,l-1,k
(4.13)
Mise jour des poids des couches caches
Le procd peut tre appliqu aux couches caches .Cependant un obstacle survient lors du
calcul de lerreur des sorties des nuds caches. Cette limitation provient du fait que les
sorties dsires ne sont pas connues.
Pour saffranchir de cet obstacle, nous devons dvelopper un terme derreur la sortie des
uds cachs.
Nous navons aucune ide a lavance de ce que peut etre la sortie correcte ou dsire pour ces
uds.
Pour cela, nous dveloppons le terme de lerreur a la sortie du rseau :
m
k
k l p k p p
x O E
1
2
, , ,
) (
2
1
[ ]
m
1 k
2
k , l , p k , p
) y ( f O
2
1
(4.14)
1
1
]
1
m
1 k
2
n
0 j
j , 1 l , p j , k , l k , p
) x w ( f O
2
1
Chapitre 4 Les rseaux de neurones
54
Nous pouvons exploiter le fait que x
p,l-1,j
dpend des poids de la couche cache travers
lquation suivante :
y
p,l-1,j
pour valuer le gradient de E
p
par rapport aux poids des couches caches .
Chacun des facteurs de lquation (4.16) peut tre calcul explicitement :
Le rsultat est le suivant :
) x w ( f x
n
0 i
i , 2 l , p i , j , 1 l j , 1 l , p
(4.15)
m
1 k
i , j , 1 l
2
k , l , p k , p
i , j , 1 l
p
w
) x O (
2
1
w
E
m
1 k
i , j , 1 l
j , 1 l , p
j , 1 l , p
k , l , p
k , l , p
k , l , p
k , l , p k p,
w
y
y
y
y
x
) x (O
m
1 k
i , j , 1 l
j , 1 l , p
j , 1 l , p
j , 1 l , p
j , 1 l , p
k , l , p
k , l , p
k , l , p
k , l , p k p,
w
y
y
x
x
y
y
x
) x (O
(4.16)
) y ( f
y
) y ( f
y
x
k , l , p
k , l , p
k , l , p
k , l , p
k , l , p
j , k , l
j , 1 l , p
n
0 j
j , 1 l , p j , k , l
j , 1 l , p
k , l , p
w
x
) x w (
x
y
) y ( f
y
) y ( f
y
x
j , 1 l , p
j , 1 l , p
j , 1 l , p
j , 1 l , p
j , 1 l , p
i , 2 l , p
i , j , 1 l
j , 1 l , p
x
w
y
m
1 k
i , 2 l , p j , 1 l , p j , k , l k , l , p k , l , p k , p
i , j , 1 l
p
x ) y ( f w ) y ( f ) x O (
w
E
(4.17)
Chapitre 4 Les rseaux de neurones
55
La mise jour des poids de la couche cache se fait dans le sens inverse du gradient en
utilisant lquation prcdente :
Nous pouvons utiliser la dfinition de e
p,l,k
de (4.12) pour crire :
(4.18)
avec : taux dapprentissage .
(4.19)
Notons que la mise jour de chaque poids de la couche cache dpend de toutes les erreurs de
signal e
p L k
sur la couche de sortie. En dfinissant le terme de lerreur des couches caches :
Alors lquation de mise jour des poids de la couche cache devient :
w
l-1,j,i
(t+1)=w
l-1,j,i
(t) + e
p,l-1,j
x
p,l-2,i
( 4.21 )
4.10.1.1. Rsum de lalgorithme de rtro-propagation
1. Appliquer un vecteur dentre x
p
= ( x
p,0,1
,x
p,0,2
, .. , x
p,0,n
)
t
aux nuds
dentres puis initialiser les poids du rseau ;
2. Excuter lchantillon dapprentissage travers le rseau ;
3. Calculer les termes derreur de signal de la couche de sortie et les couches caches en
utilisant ( 4.12 ) et ( 4.20 ) respectivement ;
4. Mise jour les poids de la couche de sortie et couches caches en utilisant ( 4.13 )
et ( 4.21 ) respectivement ;
5. Rpter ce processus jusqu ce que lerreur E
P
devienne acceptable ( aller 2 ) .
4.10.1.2. Considrations pratiques
Les poids du rseau doivent tre initialiss de petites valeurs alatoires.
la valeur du taux dapprentissage a un effet significatif sur les performances du
rseau, si ce taux est petit lalgorithme converge lentement, par contre sil est grand
lalgorithme risque de gnrer des oscillations.
Gnralement, doit tre compris entre 0 et 1 pour assurer la convergence de
lalgorithme vers une solution optimale.
Il nexiste pas de rgles permettant de dterminer le nombre de couches caches dans
un rseau donn ni le nombre de neurones dans chacune delles.
Thoriquement, lalgorithme ne doit se terminer ds que le minimum de lerreur
commise par le rseau sera atteint, correspondant un gradient nul, ce qui nest jamais
rencontr en pratique. Cest pourquoi un seuil est fix priori afin darrter
lapprentissage.
4.10.1.3. Acclration de lalgorithme avec le momentum
La convergence du rseau par rtro-propagation est un problme crucial car il requiert de
nombreuses itrations. Pour pallier ce problme, un paramtre est souvent rajout pour
acclrer la convergence. Ce paramtre est appel le momentum .
m
1 k
j , k , l k , l , p k , l , p k , p i , 2 l , p j , 1 l , p j , k , l p
w ) y ( f ) x O ( x ) y ( f w
m
1 k
j , k , l k , l , p i , 2 l , p j , 1 l , p j , k , l p
w e x ) y ( f w
m
1 k
j , k , l k , l , p j , 1 l , p j , 1 l , p
w e ) y ( f e
( 4.20 )
Chapitre 4 Les rseaux de neurones
56
Le momentum est un moyen efficace pour acclrer lapprentissage et aussi pour pouvoir
sortir des minimums locaux.
La rgle de mise jour des poids devient alors :
w
j,k,i
(t+1)=w
j,k,i
(t) + e
p,j,k
x
p,j-1,i
+ [ w
j,k,i
(t) - w
j,k,i
(t-1) ]
: est la constante du momentum .
4.10.1.4. Lalgorithme RPROP
lalgorithme Backprop traditionnel modifie les poids partir de
ij
w
E
mais la grandeur de
cette diffrentielle ne reprsente pas vraiment la grandeur de la modification ncessaire du
changement de poids, la solution de ce problme est de ne pas se baser sur la valeur de cette
diffrentielle, ne tenir compte que de ses changements de signe do lide de lalgoritme
RPROP .La rgle de mise jour des poids devient alors :
Avec
ij
(update-value) est la valeur de modification du poids, qui volue en fonction des
changements de signe des diffrentielles de ce mme poids.
Les update-values et les poids ne sont changs quaprs chaque poque (batch learning).
Pendant une poque, on additionne les diffrentielles obtenues aprs chaque prsentation dun
lment de lensemble d apprentissage.
4.11. Mthodes doptimisation du second ordre [8]
Les mthodes doptimisation du second ordre sont des mthodes itratives de descente du
gradient qui consistent remplacer la fonction de cot par son approximation quadratique au
voisinage de point courant (quadratique osculatrice ou fonction elliptique ) [CIA90] :
s w G s s w g w J s Q
k
T T
k k k
) (
2
1
) ( ) ( ) ( + +
J :la fonction de cout
s w w
k k
+1
avec J w g
w
k
) ( Gradient
J w G
w k
2
) ( Hessien
Le gradient doit satisfaire aux conditions de Lipchitz dans un voisinage restreint .
ij
ij
ij
w
E
sign w
) (
+
+
< < <
<
>
n n
w
E
w
E
n
w
E
w
E
n
t
ij
t
ij
t
ij
t
ij
t
ij
t
ij
t
ij
t
ij
1 0 avec
sinon ,
0 * si ,
0 * si ,
) 1 (
) ( ) 1 (
) 1 (
) ( ) 1 (
) 1 ( ) (
(4.22)
(4.23)
(4.24)
Chapitre 4 Les rseaux de neurones
57
Remarque : w designe la matrice de lensemble des poids des couches du rseau et la variable
k designe la k
me
itration .
4.11.1. Dfinition
On note le pas
k k k
p s o
k
est le pas variable et
k
p est la direction de la descente .La
direction de descente doit satisfaire 0 <
k
T
k
p g et
k
est un scalaire positif .
4.11.2. Algorithme de Newton
La mthode de Newton consiste calculer
1 + k
w de manire minimiser Q(s) de lquation
(4.24) .la formule itrative se dduit telle que :
) ( )] ( [
1
1 k k k k
w g w G w w
+
(4.25)
le minimum existe ,si le Hessien G est dfini positif .La mthode de Newton ncessite la
calcul du vecteur gradient et de linverse du Hessien de la fonction de cot.
Dans ce cas :
k k k
g G p
1
et
1
k
(4.26)
pour une fonction non linaire quelconque ,cette mthode ne converge pas ncessairement
vers un minimum global .De plus ,si le poids de dpart
0
w est initi trop loin du minimum , la
mthode ne converge pas [CIA90].
Pour amliorer les proprits de convergence de la mthode de Newton, de nombreuses
mthodes vont porter sur la reformulation de (4.26) :
k k k
s w w
+1
et
k k k
p s (4.27)
4.11.3. Optimisation du pas variable
Les mthodes doptimisations de
k
peuvent tre abordes selon deux points de vue :
1. Les mthodes du gradient pas optimal ou mthode de la continuation du gradient
dfinie par ) ( ) (
k k k k
w j p w J < + (line-search methods).Ces mthodes reviennent
une optimisation unidimensionnelle du pas
k
suivant la direction de la descente
k
p .On peut citer la rgle de NASH ou WOLFE-POWELL [NAS90],DENNIS-
SCHNABEL [DEN83],BRENT (interpolation par modle quadratique et cubique )
[BRE83].Les sources algorithmiques sont accessibles dans [BER95] [PRE92].
2. Les mthodes restriction de voisinage (Model-trust region methodes ou restricted
step methods[FLE87]).Ces mthodes consistent restreindre le voisinage
k
de wtel
que } : {
k k
k
s w pour chaque itration et respecter au plus prs
lapproximation quadratique de la fonctionde cot.En pratique, la plupart de ces
mthodes contrlent la restriction de voisinage par le Hessien modifi par la variable
k
intervenant dans le calcul de la direction de la descente (voir algorihme de
Newton) .
0
k
,
_
,
_
+
k
T
k
T
k k k k
T
k k
k
T
k
T
k k
k
T
k
k k
T
k DFP
k
s y
y s H H s y
s y
y y
s y
s H s
C 1 (4.30)
BROYDEN-FLETCHER-GOLDFARB-SHANNOA (BFGS) [FLE87].
,
_
k k
T
k
k
T
k k k
k
T
k
T
k k BFGS
K
s H s
H s s H
s y
y y
C (4.31)
k k k
w w s
+1
avec
k k k
g g y
+1
k k k
s H y
1 +
(Condition quasi-newton)
Le Hessien
1 + k
H sera dfini positif si
k
H est dfini positif et 0
1
>
+ k k
T
k
s H s .H
0
valeur initiale
est gnralement gale la matrice identit I
n
et p
0
est initialis par la mthode du gradient
gale g
0
, direction oppose du gradient.
Si au cours dune itration, la matrice
1 + k
H nest pas dfinie positive, elle est rinitialise la
matrice identit et la direction de la descente est gale
k
g .
Si le minimum nest pas atteint en M itrations,
1 + k
H est rinitialis la matrice identit et la
direction de la descente est gale
k
g .
Une mthode quasi-newton est efficace dans le voisinage de la solution minimale pour des
problmes de grandes dimensions.
Formulation inverse du Hessien
Chapitre 4 Les rseaux de neurones
59
La formulation de la matrice inverse du Hessien peut sexprimer directement partir des
quations prcdentes, soit par une lemme dinversion indirecte [OUS98] [RIV95],soit par le
calcul dinversion directe des quations (4.30)(4.31).
,
_
+
k k
T
k
k
T
k k k
k
T
k
T
k k
k
DFP
k
y H y
H y y H
y s
s s
H H
1
1 1
1 1
1
(4.32)
,
_
,
_
+ +
+
k
T
k
T
k k k k
T
k k
k
T
k
T
k k
k
T
k
k k
T
k
k
BFGS
k
y s
s y H H y s
y s
s s
y s
y H y
H H
1 1 1
1 1
1
1 (4.33)
Amlioration de la mthode BFGS
Une amlioration importante en terme de cot de calcul a t apporte par [BAT90] la
mthode BFGS. Le calcul du Hessien en terme de cot est pass de O(W
2
) O(W).cette
mthode appele one-step BFGS Method calcule par itration la direction de descente
partir de la mthode BFGS pour I H
k
matrice identit ,soit :
,
_
+
+
,
_
+
+ + +
+ +
k
T
k
k
T
k k k
T
k k
k
k
T
k
k
T
k
k
T
k
k
T
k
k k
y s
g y s g s y
s
y s
k y
y s
g s
g p
1 1 1
1 1
1 (4.34)
Cette mthode est quivalente au gradient conjugu selon POLAK-RIBIERE [SHE97].
4.11.5. Mthode du gradient conjugu
La mthode du gradient conjugu [TRI88] est une mthode diffrente des mthodes
Newtoniennes. Son cot de calcul est infrieur O(W
2
), ce qui la rend attrayante pour des
problmes de forte dimension. La direction de descente est gnre partir dun modle
quadratique par itration suivant la formule [ML90] :
k k k k
p g p +
+1
(4.35)
qui doit satisfaire la condition du systme conjugu suivante j i Gp p
j
T
i
, 0 (4.36)
k k
T
k
k k
T
k
k
p G p
p G g
1 +
(4.37)
On dcline plusieurs reformulations pour
k
qui transforment le Hessien
k
G partir de la
drive
k
g :
Formule de FETCHER-REEVES
k
T
k
k
T
k
k
g g
g g
1 1 + +
(4.38)
Formule de POLAK-RIBIERE :
k
T
k
k
T
k k
k
g g
g g g
1 1
) (
+ +
(4.39)
4.11.6. Mthode des moindres carrs non-linaire
Cette technique itrative est principalement utilise dans le cadre dinterpolation de donnes
[FLE87-Chap.6] et peut tre classe dans les mthodes quasi-newtonniennes.
Applique aux rseaux MLP,la fonction de cot scrit :
Chapitre 4 Les rseaux de neurones
60
N
w r w r
w J
k
T
k
k
2
) ( ) (
) ( (4.40)
o le vecteur rsiduel :
l i l i l i
o t r
, , ,
S i ........ 1 N l ...... 1
S i N l r r
i i
.... 1 , ... 1 ,
vecteur
l i
r
,
erreur instantane entre la rponse thorique
l
t et la rponse calcule
l
o du i
me
neurone e sortie et l
me
stimulus.N est le nombre de stimuli .S est le nombre de sorties du
rseau.
Le gradient et le Hessien se dduisent partir de la matrice Jacobienne du vecteur rsiduel de
dimension NSxW (nombre de poids total) ,pour la k
me
itration
k
T
k k
r Ja g avec
j
i
j i
w
r
Ja
,
(4.41)
k
T
k k
S Ja G +
et (4.42)
NS
i
k i k i k
r r S
1
,
2
,
Le second terme du Hessien
k
S est un calcul relativement coteux en terme dexcution.
Plusieurs auteurs ont propos des simplifications.
Il peut tre, soit nglig
k
T
k k
Ja Ja G (4.43)
soit approxim par la mthode de BFGS
k k
T
k k
A Ja Ja G + (4.44)
avec
k
T
k
k
T
k k k
k
T
k
T
k k
k k
Bs s
B s s B
s y
y y
A A +
+1
et
k k
T
k k
A Ja Ja B +
+ + 1 1
Cette technique est adapte pour des problmes de petite dimension .En effet ,la taille de la
matrice jacobienne est une limitation cette mthode .
Lvaluation de la matrice jacobienne peut seffectuer par la mthode de rtropropagation du
gradient [NOR96] [BIS95] avec un calcul diffrent suivant que le poids appartient une
couche cache ou la couche de sortie .
4.11.7. Mthode de Gauss-Newton
A partir de lapproximation du gradient par la matrice jacobienne dans lalgorithme de
Newton, la direction de descente scrit :
[ ]
k
T
k k
T
k k
r Ja Ja Ja p
1
(4.45)
Une modification de cette mthode partir du calcul du jacobien est propose par
NORGAARD [NOR96] en utilisant la formulation rcursive de la mthode de Gauss-Newton
dcrite par LJUNG [LJU87].
4.11.8. Mthode dapprentissage retenue et dveloppe
Parmi les algorithmes de la famille quasi-Newton, la mthode de LEVENBERG-
MARQUARDT [MAR63] est un standard pour loptimisation de lerreur quadratique due
ses proprits de convergence rapide et de robustesse. Elle sappuie sur les techniques des
moindres carrs non-linaires et de lalgorithme de GAUSS-NEWTON voisinage restreint.
Chapitre 4 Les rseaux de neurones
61
La principale motivation du choix de lalgorithme de LEVENBERG-MARQUARDT (LM)
repose sur la taille de la matrice du Hessien en fonction de la quantit de donnes de la base
dapprentissage, du cot moindre des calculs et de la garantie rapide de la convergence vers
un minimum. La mthode de LM se dduit de lequation (4.44) telle que :
k
T
k n k k
T
k k
r Ja I Ja Ja p
1
] [
+ (4.46)
Parmi les mthodes restriction de voisinage, la mthode de FLETCHER [NOR96] [FLE87]
a t retenue et dveloppe.
La variable
k
, intervenant dans le Hessien modifi dfini positif
n k k k
I G H + , est
contrle par le ratio
k
k
k
Q
J
R
(4.47)
) ( ) (
k k k k
s w J w J J + dnomm actual reduction
avec
) ( ) 0 (
k k
s Q Q Q dnomm predicted reduction
et la fonction elliptique : s w H s s w g w J s Q
k k
T T
k k k
) (
2
1
) ( ) ( ) ( + + .ce ratio tend vers 1 si la
fonction de cot se rapproche de la courbe quadratique osculatrice .
Lapprentissage est arrt lorsquun minimum est atteint ,soit en fonction dun critre darrt
sur la fonction de cot , soit sur la valeur minimale de la norme du gradient .
Algorithme
Initialisation des poids
0
w par une distribution uniforme selon la rgle de BEALE [SHE97]
et 0
0
>
La solution est donne par lalgorithme suivant la k
me
itration :
1-dduire de
k
w et
k
, calculer
k
g et
k
H suivant les quations (4.28), (4.41) et (4.43).
2-rsoudre
k k k
s H g
3-valuer de ) (
k k
s w J + et
k
R
calcul du paramtre
k
4-si 25 . 0
k
R alors
k k
4
1
+
5-si 75 . 0
k
R alors
2
1
k
k
+
sinon
k k
+1
calcul de la correction des poids
k
w
6-si 0
k
R alors
k k
w w
+1
sinon
k k k
s w w +
+1
Les constantes pour les valeurs seuils de
k
R sont empiriques [FLE87].
Avantage de la rgle LM
La mthode LM est un condens de deux techniques exposes prcdemment. En effet, cette
mthode tend vers la mthode de Newton pour une valeur de
k
petite mais est quivalente
Chapitre 4 Les rseaux de neurones
62
la mthode du gradient simple pour un pas
k
1
pour une valeur de
k
grande. Le Hessien
est toujours dfini positif ce qui assure la convergence vers un minimum de la solution .
4.12. Les mthodes de rgularisation [5]
Les mthodes de rgularisation ne cherchent pas limiter la complexit du rseau, mais elles
contrlent la valeur des poids pendant l'apprentissage. Il devient possible d'utiliser des
modles avec un nombre lev de poids et donc un modle complexe, mme si le nombre
d'exemples d'apprentissage est faible.
[Bartlett, 1997] a montr que la valeur des poids tait plus importante que leur nombre afin
d'obtenir de modles qui ne sont pas surajusts. Il montre, que si un grand rseau est utilis et
que l'algorithme d'apprentissage trouve une erreur quadratique moyenne faible avec des poids
de valeurs absolues faibles, alors les performances en gnralisation dpendent de la taille des
poids plutt que de leur nombre.
Plusieurs mthodes de rgularisation existent dans la littrature, comme l'arrt prmatur
(early stopping) qui consiste arrter l'apprentissage avant la convergence ou les mthodes de
pnalisation. Les mthodes de pnalisation ajoutent un terme supplmentaire la fonction de
cot usuelle afin de favoriser les fonctions rgulires :
+ J J
'
J est une fonction de cot comme celles prsentes dans lquation (4.40), et W est une
fonction qui favorise les modles rguliers. L'apprentissage est ralis en minimisant la
nouvelle fonction J'. Un modle qui a bien appris la base d'apprentissage correspond une
valeur faible de J, alors qu'une fonction rgulire correspond une fonction W faible :
l'apprentissage doit trouver une solution qui satisfasse ces deux exigences. Parmi les
diffrentes formes possibles pour la fonction W, la mthode du weight decay est souvent
utilise, car elle est simple mettre en oeuvre, et plusieurs tudes ont montr qu'elle
conduisait de bons rsultats (voir par exemple [Hinton, 1987] [Krogh et Hertz, 1992]
[Gallinari et Cibas, 1999]) .
4.12.1. Arrt prmatur
Comme nous l'avons vu prcdemment, l'apprentissage consiste minimiser, grce un
algorithme itratif, une fonction de cot calcule sur la base d'apprentissage. La mthode de
l'arrt prmatur (early stopping) consiste arrter les itrations avant la convergence de
l'algorithme. Si la convergence n'est pas mene son terme, le modle ne s'ajuste pas trop
finement aux donnes d'apprentissage : le surajustement est limit.
Pour mettre en oeuvre cette mthode, il faut dterminer le nombre d'itrations utiliser
pendant l'apprentissage. La mthode la plus classique consiste suivre l'volution de la
fonction de cot sur une base de validation, et arrter les itrations lorsque le cot calcul
sur cette base commence crotre. Cependant, en pratique, cette mthode peut tre
inapplicable, car il est difficile de dterminer avec prcision le moment exact o il faut arrter
l'apprentissage puisque les performances sur la base de validation ne se dgradent pas
nettement.
On prfre donc utiliser les mthodes de rgularisation, d'autant que [Sjberg, 1994] a montr
que l'arrt prmatur tait identique un terme de pnalisation dans la fonction de cot.
4.12.2. Rgularisation par modration des poids (Weight Decay)
Chapitre 4 Les rseaux de neurones
63
Lorsque les poids du rseau sont grands en valeur absolue, les sigmodes des neurones cachs
sont satures, si bien que les fonctions modlises peuvent avoir des variations brusques. Pour
obtenir des fonctions rgulires, il faut travailler avec la partie linaire des sigmodes, ce qui
implique d'avoir des poids dont la valeur absolue est faible.
La mthode de rgularisation du weight decay limite la valeur absolue des poids en
utilisant
p
i
i
w
1
2
2
1
, lapprentissage seffectue en minimisant :
+
p
i
i
w J J
1
2 '
2