Chapitre 3 RN

Chapitre 4 les Rseaux de neurones
40
Chapitre 3
Les rseaux de neurones
4.1. Introduction aux rseaux de neurones [7]
Les rseaux de neurones ont d'abord t dvelopps pour rsoudre des problmes de contrle,
de reconnaissance de formes ou de mots, de dcision, de mmorisation comme une alternative
l'intelligence artificielle, et en relation plus ou moins troite avec la modlisation de
processus cognitifs (capable de connatre ou faire connatre) rels et des rseaux de neurones
biologiques.
4.2. Le neurone biologique [ROS 97]
Le neurone biologique est une cellule vivante spcialise dans le traitement des signaux
lectriques.
Les neurones sont relis entre eux par des liaisons appeles axones. Ces axones vont eux-
mmes jouer un rle important dans le comportement logique de l'ensemble. Ces axones
conduisent les signaux lectriques de la sortie d'un neurone vers l'entre (synapse) d'un autre
neurone.
Les neurones font une sommation des signaux reus en entre et en fonction du rsultat
obtenu vont fournir un courant en sortie. (figure 1)
La structure dun neurone se compose de trois parties :
La somma : ou cellule dactivit nerveuse, au centre du neurone.
Laxone : attach au somma qui est lectriquement actif, ce dernier conduit
limpulsion conduite par le neurone.
Dendrites : lectriquement passives, elles reoivent les impulsions dautres
neurones.
Figure.1. Le neurone biologique
41
4.3. Le neurone formel (artificiel) [7]
Le neurone artificiel (ou cellule) est un processeur lmentaire. Il reoit un nombre variable
d'entres en provenance de neurones appartenant un niveau situ en amont (on parlera de
neurones "amonts"). A chacune des entres est associ un poids w reprsentatif de la force de
la connexion. Chaque processeur lmentaire est dot d'une sortie unique, qui se ramifie
ensuite pour alimenter un nombre variable de neurones appartenant un niveau situ en aval
(on parlera de neurones "avals"). A chaque connexion est associe un poids. (figure 2 )
Figure.2. Le neurone formel
4.4. Modlisation dun neurone formel [7]
Les rseaux de neurones formels sont l'origine dune tentative de modlisation
mathmatique du cerveau humain. Les premiers travaux datent de 1943 et sont luvre de
MM. Mac Culloch et Pitts. Ils prsentent un modle assez simple pour les neurones et
explorent les possibilits de ce modle.
La modlisation consiste mettre en uvre un systme de rseau neuronaux sous un aspect
non pas biologique mais artificiel, cela suppose que daprs le principe biologique on aura une
correspondance pour chaque lment composant le neurone biologique, donc une
modlisation pour chacun dentre eux.
On pourra rsumer cette modlisation par le tableau 1, qui nous permettra de voir clairement
la transition entre le neurone biologique et le neurone formel [YAS 99].
Neurone biologique Neurone artificiel
Synapses Poids de connexions
Axones Signal de sortie
Dendrite Signal dentre
Somma Fonction dactivation
42
Tableau.1. Analogie entre le neurone biologique et le neurone formel
1-Les entres
Elles peuvent tre :
Boolennes.
Binaires (0, 1) ou bipolaires (-1, 1).
Relles.
2-Fonction dactivation [YOU 99]
Cette fonction permet de dfinir ltat interne du neurone en fonction de son entre totale,
citons titre dexemple quelques fonctions souvent utilises :
2-a-Fonction binaire a seuil
exemple :
Fonction Heaviside dfinie par
1 si x 0 (figure.3)
h(x)=
0 sinon
Fonction Signe dfinie par
+1 si x 0 (figure.4)
Sgr(x)=
- 1 sinon
h(x) sgn(x)
1 1
0 x x
-1
Figure.3. Fonctions Heaviside Figure.4. Fonctions signe
Le seuil introduit une non-linarit dans le comportement du neurone, cependant il limite la
gamme des rponses possibles deux valeurs.
2.b-Fonction linaire
Cest lune des fonctions dactivations les plus simples, sa fonction est dfinie par : F(x)=x
(figure.5)
43
F(x)
F(x)=x
x
Figure.5. Fonction linaire
2.c-Fonction linaire seuil ou multi-seuils
On peut la dfinir comme suit :
x x [ u, v ]
F(x) = v si x v
u si x u
Cette fonction reprsente un compromis entre la fonction linaire et la fonction seuil : entre
ses deux barres de saturation, elle confre au neurone une gamme de rponses possibles. En
modulant la pente de la linarit, on affecte la plage de rponse du neurone. ( figure.6)
F(x)
x
Figure.6. Fonction linaire a seuil
2.d-Fonction sigmode
Elle est lquivalent continu de la fonction linaire. Etant continu, elle est drivable, dautant
plus que sa drive est simple calculer, (figure 7) elle est dfinie par :
e 1
1
(x) f
x -
+

44
F(x)
1
1/2 -
x
Figure.7. Fonction sigmode
3. Fonction de sortie
Elle calcule la sortie dun neurone en fonction de son tat dactivation. En gnral, cette
fonction est considre comme la fonction identit.
Elle peut tre :
Binaire (0, 1) ou bipolaire (-1, 1 )
Relle.
4.5. Architecture des rseaux [7]
Les connexions entre les neurones qui composent le rseau dcrivent la topologie du modle.
Elle peut tre quelconque, mais le plus souvent il est possible de distinguer une certaine
rgularit (rseau connexion complte) [ROS 97].
4.5.1. Rseau monocouche
La structure dun rseau monocouche est telle que des neurones organiss en entre soient
entirement connects dautres neurones organiss en sortie par une couche modifiable de
poids [YOU 99]. (figure 8)
Entre W Sortie
Figure.8. Rseau Monocouche
45
4.5.2. Rseau multicouche [ROS 97]
Les neurones sont arrangs par couche. Il n'y a pas de connexion entre neurones d'une mme
couche, et les connexions ne se font qu'avec les neurones de couches avales. Habituellement,
chaque neurone d'une couche est connect tous les neurones de la couche suivante et celle-ci
seulement. Ceci nous permet d'introduire la notion de sens de parcours de l'information (de
l'activation) au sein d'un rseau et donc dfinir les concepts de neurone d'entre, neurone de
sortie. Par extension, on appelle couche d'entre l'ensemble des neurones d'entre, couche de
sortie l'ensemble des neurones de sortie. Les couches intermdiaires n'ayant aucun contact
avec l'extrieur sont appeles couches caches. (figure.9)
Entre couche cache Sortie
Figure.9. Rseau Multicouche
4.5.3. Rseau connexion complte
C'est la structure d'interconnexion la plus gnrale. Chaque neurone est connect tous les
neurones du rseau (et lui-mme). (figure.10)
Figure.10. Rseau connexion complte
46
4.5.4. Rseau connexions locales
Il s'agit d'une structure multicouche, mais qui l'image de la rtine conserve une certaine
topologie. Chaque neurone entretient des relations avec un nombre rduit et localis de
neurones de la couche avale. Les connexions sont donc moins nombreuses que dans le cas
d'un rseau multicouche classique. (figure.11)
Entre Couche cache Sortie
Figure.11. Rseau connexions locales
4.6. Modles des rseaux de neurones [7]
4.6.1. Modle de Hopfield [AUR 96]
Le modle de Hopfield fut prsent en 1982. Ce modle trs simple est bas sur le principe
des mmoires associatives.
Cest dailleurs la raison pour laquelle ce type de rseau est dit associatif (par analogie avec le
pointeur qui permet de rcuprer le contenu dune case mmoire).
Le modle de Hopfield utilise larchitecture des rseaux entirement connects et rcurrents
(dont les connexions sont non orientes et ou chaque neurone nagit pas sur lui-mme). Les
sorties sont en fonction des entres et du dernier tat pris par le rseau.
4.6.2. Modle Kohonen [LEM 94]
Ce modle a t prsent par Kohonen en 1982 en se basant sur des constatations biologiques.
Il a pour objectif de prsenter des donnes complexes et appartenant gnralement un
espace discret de grandes dimensions dont la topologie est limite une ou deux dimensions.
Les cartes de Kohonen sont ralises partir dun rseau deux couches, une en entre et une
en sortie.
Notons que les neurones de la couche dentre sont entirement connects la couche de
sortie. (figure.12)
47
Figure.12. Le modle de Kohonen
Les neurones de la couche de sortie sont placs dans un espace dune ou de deux dimensions
en gnral, chaque neurone possde donc des voisins dans cet espace. Et quenfin, chaque
neurone de la couche de sortie possde des connexions latrales rcurrentes dans sa couche
(le neurone inhibe les neurones loigns et laisse agir les neurones voisins).
4.6.3. Le modle perceptron
Le mcanisme perceptron fut invent par le psychologue FRANK Rosenblat la fin des
annes 50 [FRE 92]. Il reprsentait sa tentative dillustrer certaines proprits fondamentales
des systmes intelligents en gnral.
Le rseau dans ce modle est form de trois couches : Une couche dentre (la rtine),
fournissant des donns une couche intermdiaire, charge des calculs, cela en fournissant la
somme des impulsions qui lui viennent des cellules auxquelles elle est connecte, et elle
rpond gnralement suivant une loi dfinie avec un seuil, elle-mme connecte la couche
de sortie (couche de dcision), reprsentant les exemples mmoriser. Seule cette dernire
couche renvoie des signaux la couche intermdiaire, jusqu ce que leurs connexions se
stabilisent [YOU 99] (figure.13).
Entre couche intermdiaire sortie
Figure.13. Le modle du percptron
S
1
S
2
S
n
48
4.6.4. Le modle Adaline
L adaline (Adaptatif Linear Neurone) de Widrow et Hoff est un rseau trois couches : une
dentre, une couche cache et une couche de sortie. Ce modle est similaire au modle de
percptron, seule la fonction de transfert change, mais reste toujours linaire :F (x)= x (voir
Figure.5) [YOU 99].
Les modles des neurones utiliss dans le percptron et ladaline sont des modles linaires.
Sparation linaire : on dit que deux classes A et B, sont linairement sparables si on arrive
les sparer par une droite coupant le plan en deux (figure.14)
: Classe A
: Classe B
Figure.14. La sparation linaire entre la classe A et B
Le problme est rsolu avec les rseaux multicouches, car il peut rsoudre toute sorte de
problmes quils soient linairement sparables ou non [DEB 97].
4.7. Apprentissage [7]
L'apprentissage est vraisemblablement la proprit la plus intressante des rseaux neuronaux.
Elle ne concerne cependant pas tous les modles, mais les plus utiliss. L'apprentissage est
une phase du dveloppement d'un rseau de neurones durant laquelle le comportement du
rseau est modifi jusqu' l'obtention du comportement dsir. L'apprentissage neuronal fait
appel des exemples de comportement.
Durant cette phase de fonctionnement, le rseau adapte sa structure (le plus souvent, les poids
des connexions) afin de fournir sur ses neurones de sortie les valeurs dsires. Cet
apprentissage ncessite des exemples dsigns aussi sous l'appellation d'chantillon
d'apprentissage ainsi qu'un algorithme d'apprentissage.
Aprs initialisation des poids du rseau (en gnral des valeurs alatoires), il y a prsentation
des exemples au rseau et calcul des sorties correspondantes. Une valeur d'erreur ou de
correction est calcule et une correction des poids est applique.
Au niveau des algorithmes d'apprentissage, il a t dfini deux grandes classes selon que
l'apprentissage est dit supervis ou non supervis. Cette distinction repose sur la forme des
exemples d'apprentissages. Dans le cas de l'apprentissage supervis, les exemples sont des
couples (Entre, Sortie associe) alors que l'on ne dispose que des valeurs (Entre) pour
l'apprentissage non supervis. Remarquons cependant que les modles apprentissage non
Ligne de
sparation
49
supervis ncessitent avant la phase d'utilisation une tape de lablisation effectue par
l'oprateur, qui n'est pas autre chose qu'une part de supervision.
4.7.1. Apprentissage supervis
L'apprentissage est dit supervis lorsque les exemples sont constitus de couples de valeurs du
type : (valeur d'entre, valeur de sortie dsire). Tout le problme de l'apprentissage supervis
consiste, tant donn un ensemble d'apprentissage E de N couples (entre - sortie dsire)
(x
i
,y
i
) i =1,2,. ,n, dterminer le vecteur des poids w d'un rseau F
w
capable de mettre ces
informations en correspondance, c'est dire un rseau tel que :
F
w
(x
i
) =y
i
avec i =1,2,......... ,n.
4.7.2. Apprentissage non supervis
L'apprentissage est qualifi de non supervis lorsque seules les valeurs d'entre sont
disponibles. Dans ce cas, les exemples prsents l'entre provoquent une auto-adaptation du
rseau afin de produire des valeurs de sortie qui soient proches en rponse des valeurs
d'entre similaires (de mme nature).
4.8. Le perceptron multicouche [7]
Le percptron multicouches est un rseau comportant L couches, chaque neurone d'une
couche tant totalement connect aux neurones de la couche suivante.
Chaque neurone k est un automate linaire gnralis dont la fonction de transfert f
k
est
suppose sigmodale. [ROB 92]
L'algorithme d'apprentissage par rtro-propagation du gradient de l'erreur est un algorithme
itratif qui a pour objectif de trouver le poids des connexions minimisant l'erreur quadratique
moyenne commise par le rseau sur l'ensemble d'apprentissage. Cette minimisation par une
mthode du gradient conduit l'algorithme d'apprentissage de rtro-propagation (Lippmann,
1987).
Cet algorithme, qui prsente l'avantage d'exister, reste discutable dans la mesure o sa
convergence n'est pas prouve. Son utilisation peut conduire des blocages dans un minimum
local de la surface d'erreur. Son efficacit dpend, en effet, d'un grand nombre de paramtres
que doit fixer l'utilisateur : le pas du gradient, les paramtres des fonctions sigmodes des
automates, l'architecture du rseau ; nombre de couches, nombre de neurones par couche...,
l'initialisation des poids...
4.8.1. Des approximateurs universels:
Vingt ans aprs la publication de louvrage o Minsky et Papert (1969) exposaient les
limitations de Perceptron simple, Cybenko et al. (1989) et Hornik et al. (1989) tablissent les
rseaux de neurones comme une classe dapproximateurs universels. Il a t ainsi dmontr
quun perceptron multicouches avec une seule couche cache pourvue dun nombre suffisant
de neurones, peut approximer nimporte quelle fonction avec la prcision souhaite.
Nanmoins, cette proprit ne permet pas de choisir, pour un type de fonction donn, le
nombre de neurones optimal dans la couche cache. Autrement dit ce rsultat ne mne pas
vers une technique de construction darchitecture.
Chapitre 4 Les rseaux de neurones
50
4.8.2 .Architecture et fonctionnement du rseau multicouche
La topologie dun tel rseau est forme de plusieurs couches de neurones sans communication
lintrieur dune mme couche (figure.15).
une couche en entre qui reprsente les entres auxquelles sont transmises les
donnes traiter en provenance dune source extrieure au rseau ;
une ou plusieurs couches caches effectuant le traitement spcifique du rseau ;
une en sortie qui dlivre les rsultats.
Lapprentissage est supervis, cest--dire que lon prsente au rseau, en mme temps, une
forme et son modle. La fonction de transfert utilise est une fonction sigmode, dont la
drivabilit joue un rle important.
Lapprentissage dans ce type de structure consiste appliquer des couples (entres, sorties
dsires) lentre du rseau.
Une sortie relle est calcule pour chaque neurone de la j
me
couche. Ce calcul est effectu de
proche en proche la couche dentre vers la couche de sortie, celle ci est appele
propagation davant . Ensuite lerreur est calcule puis propage dans le rseau, donnant
lieu une modification des poids.
On considre un rseau comportant une couche dentre n neurones, une couche de sortie
m neurones et il comporte une plusieurs couches caches.
Supposons quon dispose dun ensemble dapprentissage compos de k paires de vecteurs :
(x
1
,o
1
) , (x
2
,o
2
) , . . . . . . . , (x
k
,o
k
)
avec :
x
p
= (x
p,0 ,1
, x
p,0,2
, . . . . . . , x
p,0 ,n
)
t
R
n.
Vecteur dentre.
Figure.15. Structure dun rseau de neurone multicouche
w
Ln0
x
po1
x
po2
w
110
f ( )
f ( )
y
p11 x
p11
x
p12
y
p12
w
1n2
w
111
w
121
+1
+1
x
pon
f ( )
x
p1n
y
p1n
w
120
+1
x
p,L-1,1
x
p,L-1,2
w
L10
f ( )
f ( )
y
pL1 x
pL1
x
pL2
y
pL2
+1
+1
x
p,L-1,n
f ( )
x
pLn
y
pLm
+1
w
L20
w
L1
w
L2 w
Ln
w
Ln
w
L1
w
L2
w
Ln
w
L2
w
L1
Couche de sortie
w
1n1
w
1nn
w
12n
w
11n
w
122
w
112
1
re
Couche
51
O
p
=(O
p,1
, O
p,2
, . . . . . . , O
p,m
)
t
R
m
. Vecteur des sorties dsir.
y
p
= (y
p,l,,1
, y
p,l,,2
, . . . . . . , y
p, l,,m
)
t
R
m
. Vecteur des sorties rel du rseau.
o
w
j,k,i
: la connexion entre le neurone k de la couche j-1 et le neurone i de la couche j.
y
p,j,k
: lentre totale du neurone k pour lchantillon p de la couche j.
w
j,k,0
=
j,k
: le poids fictif du neurone k de la couche j correspondant un biais dont
lentre est fixe 1.
Lentre totale du k nud pour la couche j est :
La sortie de ce nud sera :
x
p,j,k
= F (y
p,j,k
)
o F est une fonction de transfert sigmode.
4.9. Mise en oeuvre des rseaux neuronaux [YAS 99]
Nous allons suivre une dmarche reprise par Wierenga et Kluytmans (1994) qui est compose
de quatre tapes principales :
Etape 1 : fixer le nombre de couches caches
Mis part les couches d'entre et de sortie, l'analyste doit dcider du nombre de couches
intermdiaires ou caches. Sans couche cache, le rseau n'offre que de faibles possibilits
d'adaptation ; avec une couche cache, il est capable, avec un nombre suffisant de neurones,
d'approximer toute fonction continue (Hornik, 1991). Une seconde couche cache prend en
compte les discontinuits ventuelles.
Etape 2 : dterminer le nombre de neurones par couches caches
Chaque neurone supplmentaire permet de prendre en compte des profils spcifiques des
neurones d'entre. Un nombre plus important permet donc de mieux coller aux donnes
prsentes mais diminue la capacit de gnralisation du rseau. Ici non plus il n'existe pas de
rgle gnrale mais des rgles empiriques. La taille de la couche cache doit tre :
Soit gale celle de la couche dentre.
Soit gale 75% de celle-ci.
Soit gale la racine carre du produit des nombres dans la couche dentre et de sortie.
Notons que le dernier choix rduit le nombre de degrs de libert laisss au rseau, et donc la
capacit dadaptation sur lchantillon dapprentissage, au profit dune plus grande stabilit.
Une voie de recherche ultrieure consisterait soit procder l'estimation d'un rseau
comportant de nombreux neurones puis le simplifier par l'analyse des multicolinarits ou
par une rgle d'apprentissage liminant les neurones inutiles ; soit dfinir une architecture
n
0 i
i , 1 j , p i , k , j k , j , p
x w y
k , j
n
1 i
i , 1 j , p i , k , j
x w +
(4.1)
(4.2)
52
tenant compte de la structure des variables identifie au pralable par une analyse en
composantes principales.
Etape 3 : choisir la fonction d'activation
Nous considrerons la fonction logistique pour le passage de la couche d'entre la couche
cache. Le passage de cette dernire la couche de sortie sera soit linaire, soit sigmode
(logistique) selon nos types de variables.
Etape 4 : choisir l'apprentissage
Lapprentissage par rtro-propagation ncessite la dtermination du paramtre dajustement
des poids synaptiques chaque itration.
La dtermination du critre d'arrt est aussi cruciale dans la mesure o la convergence peut
passer par des minima locaux.
4.10. Algorithmes dapprentissage [7]
4.10.1. Retropropagation du gradient
Lalgorithme de rtro-propagation a t dvelopp en particulier par Rumelhart et Parkenet le
Cun en 1985 [YOU 99]. Cet algorithme repose sur la minimisation de lerreur quadratique
entre les sorties calcules et celles souhaites.
Le terme rtro-propagation du gradient provient du fait que lerreur calcule en sortie est
transmise en sens inverse vers lentre.
Lerreur commise sur le k
me
nud de sortie est :
p k
= O
p k
x
p l k
(4.3)
Par consquent lerreur totale (pour tous les nuds) est :
Pour minimiser E p, on calcule son gradient par rapport chaque poids w, puis on modifie les
poids dans le sens inverse du gradient.
Mise jour des poids de la couche de sortie

m
1 k
2
k , l , p k , p
m
1 k
2
k , p p
) x O (
2
1
2
1
E
(4.4)
j , k ,
2
k , , p
k , p
j , k ,
p
p
l
l
l
w
) x O (
2
1
w
E
E

(4.5)
[ ] ) y (
w
) x O (
k , l , p
j , k , l
k , l , p k , p
f

) y ( w
) y ( ) y ( f
) x O ( E
k , l , p j , k , l
k , l , p k , l , p
k , l , p k , p p

(4.6)
j , 1 l , p
m
0 j
j , 1 l , p j , k , l
j , k , l j , k , l
k , l , p
x ) x w (
w w
y
(4.7)
) y ( f
y
) y ( f
k , l , p
k , l , p
k , l , p

(4.8)
53
E
p
= - ( O
p,k
x
p,l,k
) f ( y
p,l,,k
) x
p,l-1, j
=
p,k
x
p,l,k
( 1 x
p,l,k
) x
p,l-1,j
(4.9)
La modification des poids est fonction du calcul du gradient. Ainsi, les poids sur la couche de
sortie sont mis jour de la faon suivante :
w
l,k,j
( t+1) = w
l,k,j
(t) +
p
w
l,k,j
(t) (4.10)
p
w
l,k,j
(t) = ( O
p,k
x
p,l,k
)f ( y
p,l,k
) x
p,l-1,j
(4.11)
ou :
: pas dapprentissage 0<<1
Remarque :
Le taux dapprentissage, un des paramtres de cet algorithme, ne doit pas etre trop grand
sinon il entranerait des oscillations de lerreur autour dun minimum quon ne pourra pas
atteindre et si est trop petit le temps dapprentissage serait trop grand.
On pose :
e
p,l,k
= ( O
p,k
x
p,l,k
)f ( y
p,l,k
) (4.12)
o :
e
p,l,k
:erreur de signal du k
me
nud de la couche de sortie .
Lquation des modifications des poids aura donc la forme suivante :
w
l,k,j
( t+1) = w
l,k,j
(t) + e
p,l,k
x
p,l-1,k
(4.13)
Mise jour des poids des couches caches
Le procd peut tre appliqu aux couches caches .Cependant un obstacle survient lors du
calcul de lerreur des sorties des nuds caches. Cette limitation provient du fait que les
sorties dsires ne sont pas connues.
Pour saffranchir de cet obstacle, nous devons dvelopper un terme derreur la sortie des
uds cachs.
Nous navons aucune ide a lavance de ce que peut etre la sortie correcte ou dsire pour ces
uds.
Pour cela, nous dveloppons le terme de lerreur a la sortie du rseau :

m
k
k l p k p p
x O E
1
2
, , ,
) (
2
1
[ ]

m
1 k
2
k , l , p k , p
) y ( f O
2
1
(4.14)

1
1
]
1

m
1 k
2
n
0 j
j , 1 l , p j , k , l k , p
) x w ( f O
2
1
54
Nous pouvons exploiter le fait que x
p,l-1,j
dpend des poids de la couche cache travers
lquation suivante :
y
p,l-1,j
pour valuer le gradient de E
p
par rapport aux poids des couches caches .
Chacun des facteurs de lquation (4.16) peut tre calcul explicitement :
Le rsultat est le suivant :
) x w ( f x
n
0 i
i , 2 l , p i , j , 1 l j , 1 l , p

(4.15)
m
1 k
i , j , 1 l
2
k , l , p k , p
i , j , 1 l
p
w
) x O (
2
1
w
E

m
1 k
i , j , 1 l
j , 1 l , p
j , 1 l , p
k , l , p
k , l , p
k , l , p
k , l , p k p,
w
y
y
y
y
x
) x (O

m
1 k
i , j , 1 l
j , 1 l , p
j , 1 l , p
j , 1 l , p
j , 1 l , p
k , l , p
k , l , p
k , l , p
k , l , p k p,
w
y
y
x
x
y
y
x
) x (O
(4.16)
) y ( f
y
) y ( f
y
x
k , l , p
k , l , p
k , l , p
k , l , p
k , l , p

j , k , l
j , 1 l , p
n
0 j
j , 1 l , p j , k , l
j , 1 l , p
k , l , p
w
x
) x w (
x
y
) y ( f
y
) y ( f
y
x
j , 1 l , p
j , 1 l , p
j , 1 l , p
j , 1 l , p
j , 1 l , p
i , 2 l , p
i , j , 1 l
j , 1 l , p
x
w
y
m
1 k
i , 2 l , p j , 1 l , p j , k , l k , l , p k , l , p k , p
i , j , 1 l
p
x ) y ( f w ) y ( f ) x O (
w
E
(4.17)
55
La mise jour des poids de la couche cache se fait dans le sens inverse du gradient en
utilisant lquation prcdente :
Nous pouvons utiliser la dfinition de e
p,l,k
de (4.12) pour crire :
(4.18)
avec : taux dapprentissage .
(4.19)
Notons que la mise jour de chaque poids de la couche cache dpend de toutes les erreurs de
signal e
p L k
sur la couche de sortie. En dfinissant le terme de lerreur des couches caches :
Alors lquation de mise jour des poids de la couche cache devient :
w
l-1,j,i
(t+1)=w
l-1,j,i
(t) + e
p,l-1,j
x
p,l-2,i
( 4.21 )
4.10.1.1. Rsum de lalgorithme de rtro-propagation
1. Appliquer un vecteur dentre x
p
= ( x
p,0,1
,x
p,0,2
, .. , x
p,0,n
)
t
aux nuds
dentres puis initialiser les poids du rseau ;
2. Excuter lchantillon dapprentissage travers le rseau ;
3. Calculer les termes derreur de signal de la couche de sortie et les couches caches en
utilisant ( 4.12 ) et ( 4.20 ) respectivement ;
4. Mise jour les poids de la couche de sortie et couches caches en utilisant ( 4.13 )
et ( 4.21 ) respectivement ;
5. Rpter ce processus jusqu ce que lerreur E
P
devienne acceptable ( aller 2 ) .
4.10.1.2. Considrations pratiques
Les poids du rseau doivent tre initialiss de petites valeurs alatoires.
la valeur du taux dapprentissage a un effet significatif sur les performances du
rseau, si ce taux est petit lalgorithme converge lentement, par contre sil est grand
lalgorithme risque de gnrer des oscillations.
Gnralement, doit tre compris entre 0 et 1 pour assurer la convergence de
lalgorithme vers une solution optimale.
Il nexiste pas de rgles permettant de dterminer le nombre de couches caches dans
un rseau donn ni le nombre de neurones dans chacune delles.
Thoriquement, lalgorithme ne doit se terminer ds que le minimum de lerreur
commise par le rseau sera atteint, correspondant un gradient nul, ce qui nest jamais
rencontr en pratique. Cest pourquoi un seuil est fix priori afin darrter
lapprentissage.
4.10.1.3. Acclration de lalgorithme avec le momentum
La convergence du rseau par rtro-propagation est un problme crucial car il requiert de
nombreuses itrations. Pour pallier ce problme, un paramtre est souvent rajout pour
acclrer la convergence. Ce paramtre est appel le momentum .

m
1 k
j , k , l k , l , p k , l , p k , p i , 2 l , p j , 1 l , p j , k , l p
w ) y ( f ) x O ( x ) y ( f w

m
1 k
j , k , l k , l , p i , 2 l , p j , 1 l , p j , k , l p
w e x ) y ( f w

m
1 k
j , k , l k , l , p j , 1 l , p j , 1 l , p
w e ) y ( f e
( 4.20 )
56
Le momentum est un moyen efficace pour acclrer lapprentissage et aussi pour pouvoir
sortir des minimums locaux.
La rgle de mise jour des poids devient alors :
w
j,k,i
(t+1)=w
j,k,i
(t) + e
p,j,k
x
p,j-1,i
+ [ w
j,k,i
(t) - w
j,k,i
(t-1) ]
: est la constante du momentum .
4.10.1.4. Lalgorithme RPROP
lalgorithme Backprop traditionnel modifie les poids partir de
ij
w
E
mais la grandeur de
cette diffrentielle ne reprsente pas vraiment la grandeur de la modification ncessaire du
changement de poids, la solution de ce problme est de ne pas se baser sur la valeur de cette
diffrentielle, ne tenir compte que de ses changements de signe do lide de lalgoritme
RPROP .La rgle de mise jour des poids devient alors :
Avec
ij
(update-value) est la valeur de modification du poids, qui volue en fonction des
changements de signe des diffrentielles de ce mme poids.
Les update-values et les poids ne sont changs quaprs chaque poque (batch learning).
Pendant une poque, on additionne les diffrentielles obtenues aprs chaque prsentation dun
lment de lensemble d apprentissage.
4.11. Mthodes doptimisation du second ordre [8]
Les mthodes doptimisation du second ordre sont des mthodes itratives de descente du
gradient qui consistent remplacer la fonction de cot par son approximation quadratique au
voisinage de point courant (quadratique osculatrice ou fonction elliptique ) [CIA90] :
s w G s s w g w J s Q
k
T T
k k k
) (
2
1
) ( ) ( ) ( + +
J :la fonction de cout
s w w
k k

+1
avec J w g
w
k
) ( Gradient
J w G
w k
2
) ( Hessien
Le gradient doit satisfaire aux conditions de Lipchitz dans un voisinage restreint .
ij
ij
ij
w
E
sign w
) (
+
+
< < <
<
>

n n
w
E
w
E
n
w
E
w
E
n
t
ij
t
ij
t
ij
t
ij
t
ij
t
ij
t
ij
t
ij
1 0 avec
sinon ,
0 * si ,
0 * si ,
) 1 (
) ( ) 1 (
) 1 (
) ( ) 1 (
) 1 ( ) (
(4.22)
(4.23)
(4.24)
57
Remarque : w designe la matrice de lensemble des poids des couches du rseau et la variable
k designe la k
me
itration .
4.11.1. Dfinition
On note le pas
k k k
p s o
k
est le pas variable et
k
p est la direction de la descente .La
direction de descente doit satisfaire 0 <
k
T
k
p g et
k
est un scalaire positif .
4.11.2. Algorithme de Newton
La mthode de Newton consiste calculer
1 + k
w de manire minimiser Q(s) de lquation
(4.24) .la formule itrative se dduit telle que :
) ( )] ( [
1
1 k k k k
w g w G w w

+
(4.25)
le minimum existe ,si le Hessien G est dfini positif .La mthode de Newton ncessite la
calcul du vecteur gradient et de linverse du Hessien de la fonction de cot.
Dans ce cas :
k k k
g G p
1
et
1
k
(4.26)
pour une fonction non linaire quelconque ,cette mthode ne converge pas ncessairement
vers un minimum global .De plus ,si le poids de dpart
0
w est initi trop loin du minimum , la
mthode ne converge pas [CIA90].
Pour amliorer les proprits de convergence de la mthode de Newton, de nombreuses
mthodes vont porter sur la reformulation de (4.26) :
k k k
s w w
+1
et
k k k
p s (4.27)
4.11.3. Optimisation du pas variable
Les mthodes doptimisations de
k
peuvent tre abordes selon deux points de vue :
1. Les mthodes du gradient pas optimal ou mthode de la continuation du gradient
dfinie par ) ( ) (
k k k k
w j p w J < + (line-search methods).Ces mthodes reviennent
une optimisation unidimensionnelle du pas
k
suivant la direction de la descente
k
p .On peut citer la rgle de NASH ou WOLFE-POWELL [NAS90],DENNIS-
SCHNABEL [DEN83],BRENT (interpolation par modle quadratique et cubique )
[BRE83].Les sources algorithmiques sont accessibles dans [BER95] [PRE92].
2. Les mthodes restriction de voisinage (Model-trust region methodes ou restricted
step methods[FLE87]).Ces mthodes consistent restreindre le voisinage
k
de wtel
que } : {
k k
k
s w pour chaque itration et respecter au plus prs
lapproximation quadratique de la fonctionde cot.En pratique, la plupart de ces
mthodes contrlent la restriction de voisinage par le Hessien modifi par la variable
k
intervenant dans le calcul de la direction de la descente (voir algorihme de
Newton) .
0
k

58
n k k k
I G H + (4.28)
avec
n
I matrice identit de rang n
Loptimisation du pas variable va assurer la convergence de la mthode itrative vers un
minimum (local ou global sous certaines conditions [FLE93]).Gnralement les mthodes
pas optimal sont plus coteuses en terme de calcul par itration que les mthodes restriction
de voisinage.
4.11.4. Mthode Quasi-Newton
Le principe des mthodes quasi-newtoniennes consiste en une gnralisation de la mthode de
Newton de lquation (4.26)
k k k
g H p
1

Le Hessien (ou le gradient) est approxim par une mthode itrative .Les premiers travaux
sont dus BROYDEN (1969) et connus sous le nom de Formule de rang [FLE87].
Formulation directe du Hessien
Plusieurs formulations ont t proposes :
k k k
C H H +
+1
(4.29)
Les amliorations successives sur les proprits de symtrie et de dfini positif [FOR96]
[FLE87] du Hessien ont conduit lalgorithme de :
DAVIDON-FLETCHER-POWELL (DFP) [FLE87].
,
_
,
_
+
k
T
k
T
k k k k
T
k k
k
T
k
T
k k
k
T
k
k k
T
k DFP
k
s y
y s H H s y
s y
y y
s y
s H s
C 1 (4.30)
BROYDEN-FLETCHER-GOLDFARB-SHANNOA (BFGS) [FLE87].
,
_

k k
T
k
k
T
k k k
k
T
k
T
k k BFGS
K
s H s
H s s H
s y
y y
C (4.31)
k k k
w w s
+1
avec
k k k
g g y
+1
k k k
s H y
1 +
(Condition quasi-newton)
Le Hessien
1 + k
H sera dfini positif si
k
H est dfini positif et 0
1
>
+ k k
T
k
s H s .H
0
valeur initiale
est gnralement gale la matrice identit I
n
et p
0
est initialis par la mthode du gradient
gale g
0
, direction oppose du gradient.
Si au cours dune itration, la matrice
1 + k
H nest pas dfinie positive, elle est rinitialise la
matrice identit et la direction de la descente est gale
k
g .
Si le minimum nest pas atteint en M itrations,
1 + k
H est rinitialis la matrice identit et la
direction de la descente est gale
k
g .
Une mthode quasi-newton est efficace dans le voisinage de la solution minimale pour des
problmes de grandes dimensions.
Formulation inverse du Hessien
59
La formulation de la matrice inverse du Hessien peut sexprimer directement partir des
quations prcdentes, soit par une lemme dinversion indirecte [OUS98] [RIV95],soit par le
calcul dinversion directe des quations (4.30)(4.31).
,
_

+
k k
T
k
k
T
k k k
k
T
k
T
k k
k
DFP
k
y H y
H y y H
y s
s s
H H
1
1 1
1 1
1
(4.32)
,
_
,
_
+ +

+
k
T
k
T
k k k k
T
k k
k
T
k
T
k k
k
T
k
k k
T
k
k
BFGS
k
y s
s y H H y s
y s
s s
y s
y H y
H H
1 1 1
1 1
1
1 (4.33)
Amlioration de la mthode BFGS
Une amlioration importante en terme de cot de calcul a t apporte par [BAT90] la
mthode BFGS. Le calcul du Hessien en terme de cot est pass de O(W
2
) O(W).cette
mthode appele one-step BFGS Method calcule par itration la direction de descente
partir de la mthode BFGS pour I H
k
matrice identit ,soit :
,
_
+
+
,
_
+
+ + +
+ +
k
T
k
k
T
k k k
T
k k
k
k
T
k
k
T
k
k
T
k
k
T
k
k k
y s
g y s g s y
s
y s
k y
y s
g s
g p
1 1 1
1 1
1 (4.34)
Cette mthode est quivalente au gradient conjugu selon POLAK-RIBIERE [SHE97].
4.11.5. Mthode du gradient conjugu
La mthode du gradient conjugu [TRI88] est une mthode diffrente des mthodes
Newtoniennes. Son cot de calcul est infrieur O(W
2
), ce qui la rend attrayante pour des
problmes de forte dimension. La direction de descente est gnre partir dun modle
quadratique par itration suivant la formule [ML90] :
k k k k
p g p +
+1
(4.35)
qui doit satisfaire la condition du systme conjugu suivante j i Gp p
j
T
i
, 0 (4.36)
k k
T
k
k k
T
k
k
p G p
p G g
1 +
(4.37)
On dcline plusieurs reformulations pour
k
qui transforment le Hessien
k
G partir de la
drive
k
g :
Formule de FETCHER-REEVES
k
T
k
k
T
k
k
g g
g g
1 1 + +
(4.38)
Formule de POLAK-RIBIERE :
k
T
k
k
T
k k
k
g g
g g g
1 1
) (
+ +

(4.39)
4.11.6. Mthode des moindres carrs non-linaire
Cette technique itrative est principalement utilise dans le cadre dinterpolation de donnes
[FLE87-Chap.6] et peut tre classe dans les mthodes quasi-newtonniennes.
Applique aux rseaux MLP,la fonction de cot scrit :
60
N
w r w r
w J
k
T
k
k
2
) ( ) (
) ( (4.40)
o le vecteur rsiduel :
l i l i l i
o t r
, , ,
S i ........ 1 N l ...... 1
S i N l r r
i i
.... 1 , ... 1 ,
vecteur
l i
r
,
erreur instantane entre la rponse thorique
l
t et la rponse calcule
l
o du i
me
neurone e sortie et l
me
stimulus.N est le nombre de stimuli .S est le nombre de sorties du
rseau.
Le gradient et le Hessien se dduisent partir de la matrice Jacobienne du vecteur rsiduel de
dimension NSxW (nombre de poids total) ,pour la k
me
itration
k
T
k k
r Ja g avec
j
i
j i
w
r
Ja
,
(4.41)
k
T
k k
S Ja G +
et (4.42)

NS
i
k i k i k
r r S
1
,
2
,
Le second terme du Hessien
k
S est un calcul relativement coteux en terme dexcution.
Plusieurs auteurs ont propos des simplifications.
Il peut tre, soit nglig
k
T
k k
Ja Ja G (4.43)
soit approxim par la mthode de BFGS
k k
T
k k
A Ja Ja G + (4.44)
avec
k
T
k
k
T
k k k
k
T
k
T
k k
k k
Bs s
B s s B
s y
y y
A A +
+1
et
k k
T
k k
A Ja Ja B +
+ + 1 1
Cette technique est adapte pour des problmes de petite dimension .En effet ,la taille de la
matrice jacobienne est une limitation cette mthode .
Lvaluation de la matrice jacobienne peut seffectuer par la mthode de rtropropagation du
gradient [NOR96] [BIS95] avec un calcul diffrent suivant que le poids appartient une
couche cache ou la couche de sortie .
4.11.7. Mthode de Gauss-Newton
A partir de lapproximation du gradient par la matrice jacobienne dans lalgorithme de
Newton, la direction de descente scrit :
[ ]
k
T
k k
T
k k
r Ja Ja Ja p
1
(4.45)
Une modification de cette mthode partir du calcul du jacobien est propose par
NORGAARD [NOR96] en utilisant la formulation rcursive de la mthode de Gauss-Newton
dcrite par LJUNG [LJU87].
4.11.8. Mthode dapprentissage retenue et dveloppe
Parmi les algorithmes de la famille quasi-Newton, la mthode de LEVENBERG-
MARQUARDT [MAR63] est un standard pour loptimisation de lerreur quadratique due
ses proprits de convergence rapide et de robustesse. Elle sappuie sur les techniques des
moindres carrs non-linaires et de lalgorithme de GAUSS-NEWTON voisinage restreint.
61
La principale motivation du choix de lalgorithme de LEVENBERG-MARQUARDT (LM)
repose sur la taille de la matrice du Hessien en fonction de la quantit de donnes de la base
dapprentissage, du cot moindre des calculs et de la garantie rapide de la convergence vers
un minimum. La mthode de LM se dduit de lequation (4.44) telle que :
k
T
k n k k
T
k k
r Ja I Ja Ja p
1
] [

+ (4.46)
Parmi les mthodes restriction de voisinage, la mthode de FLETCHER [NOR96] [FLE87]
a t retenue et dveloppe.
La variable
k
, intervenant dans le Hessien modifi dfini positif
n k k k
I G H + , est
contrle par le ratio
k
k
k
Q
J
R
(4.47)
) ( ) (
k k k k
s w J w J J + dnomm actual reduction
avec
) ( ) 0 (
k k
s Q Q Q dnomm predicted reduction
et la fonction elliptique : s w H s s w g w J s Q
k k
T T
k k k
) (
2
1
) ( ) ( ) ( + + .ce ratio tend vers 1 si la
fonction de cot se rapproche de la courbe quadratique osculatrice .
Lapprentissage est arrt lorsquun minimum est atteint ,soit en fonction dun critre darrt
sur la fonction de cot , soit sur la valeur minimale de la norme du gradient .
Algorithme
Initialisation des poids
0
w par une distribution uniforme selon la rgle de BEALE [SHE97]
et 0
0
>
La solution est donne par lalgorithme suivant la k
me
itration :
1-dduire de
k
w et
k
, calculer
k
g et
k
H suivant les quations (4.28), (4.41) et (4.43).
2-rsoudre
k k k
s H g
3-valuer de ) (
k k
s w J + et
k
R
calcul du paramtre
k
4-si 25 . 0
k
R alors
k k
4
1

+
5-si 75 . 0
k
R alors
2
1
k
k

+
sinon
k k

+1
calcul de la correction des poids
k
w
6-si 0
k
R alors
k k
w w
+1
sinon
k k k
s w w +
+1
Les constantes pour les valeurs seuils de
k
R sont empiriques [FLE87].
Avantage de la rgle LM
La mthode LM est un condens de deux techniques exposes prcdemment. En effet, cette
mthode tend vers la mthode de Newton pour une valeur de
k
petite mais est quivalente
62
la mthode du gradient simple pour un pas
k
1
pour une valeur de
k
grande. Le Hessien
est toujours dfini positif ce qui assure la convergence vers un minimum de la solution .
4.12. Les mthodes de rgularisation [5]
Les mthodes de rgularisation ne cherchent pas limiter la complexit du rseau, mais elles
contrlent la valeur des poids pendant l'apprentissage. Il devient possible d'utiliser des
modles avec un nombre lev de poids et donc un modle complexe, mme si le nombre
d'exemples d'apprentissage est faible.
[Bartlett, 1997] a montr que la valeur des poids tait plus importante que leur nombre afin
d'obtenir de modles qui ne sont pas surajusts. Il montre, que si un grand rseau est utilis et
que l'algorithme d'apprentissage trouve une erreur quadratique moyenne faible avec des poids
de valeurs absolues faibles, alors les performances en gnralisation dpendent de la taille des
poids plutt que de leur nombre.
Plusieurs mthodes de rgularisation existent dans la littrature, comme l'arrt prmatur
(early stopping) qui consiste arrter l'apprentissage avant la convergence ou les mthodes de
pnalisation. Les mthodes de pnalisation ajoutent un terme supplmentaire la fonction de
cot usuelle afin de favoriser les fonctions rgulires :
+ J J
'
J est une fonction de cot comme celles prsentes dans lquation (4.40), et W est une
fonction qui favorise les modles rguliers. L'apprentissage est ralis en minimisant la
nouvelle fonction J'. Un modle qui a bien appris la base d'apprentissage correspond une
valeur faible de J, alors qu'une fonction rgulire correspond une fonction W faible :
l'apprentissage doit trouver une solution qui satisfasse ces deux exigences. Parmi les
diffrentes formes possibles pour la fonction W, la mthode du weight decay est souvent
utilise, car elle est simple mettre en oeuvre, et plusieurs tudes ont montr qu'elle
conduisait de bons rsultats (voir par exemple [Hinton, 1987] [Krogh et Hertz, 1992]
[Gallinari et Cibas, 1999]) .
4.12.1. Arrt prmatur
Comme nous l'avons vu prcdemment, l'apprentissage consiste minimiser, grce un
algorithme itratif, une fonction de cot calcule sur la base d'apprentissage. La mthode de
l'arrt prmatur (early stopping) consiste arrter les itrations avant la convergence de
l'algorithme. Si la convergence n'est pas mene son terme, le modle ne s'ajuste pas trop
finement aux donnes d'apprentissage : le surajustement est limit.
Pour mettre en oeuvre cette mthode, il faut dterminer le nombre d'itrations utiliser
pendant l'apprentissage. La mthode la plus classique consiste suivre l'volution de la
fonction de cot sur une base de validation, et arrter les itrations lorsque le cot calcul
sur cette base commence crotre. Cependant, en pratique, cette mthode peut tre
inapplicable, car il est difficile de dterminer avec prcision le moment exact o il faut arrter
l'apprentissage puisque les performances sur la base de validation ne se dgradent pas
nettement.
On prfre donc utiliser les mthodes de rgularisation, d'autant que [Sjberg, 1994] a montr
que l'arrt prmatur tait identique un terme de pnalisation dans la fonction de cot.
4.12.2. Rgularisation par modration des poids (Weight Decay)
63
Lorsque les poids du rseau sont grands en valeur absolue, les sigmodes des neurones cachs
sont satures, si bien que les fonctions modlises peuvent avoir des variations brusques. Pour
obtenir des fonctions rgulires, il faut travailler avec la partie linaire des sigmodes, ce qui
implique d'avoir des poids dont la valeur absolue est faible.
La mthode de rgularisation du weight decay limite la valeur absolue des poids en
utilisant

p
i
i
w
1
2
2
1
, lapprentissage seffectue en minimisant :

+
p
i
i
w J J
1
2 '
2
O p est le nombre de poids que comporte le rseau.

Cette mthode est appele ridge regression dans le cas des modles linaires par rapport aux
paramtres [Saporta, 1990].
est un hyperparamtre qui dtermine limportance relative des deux termes dans la
nouvelle fonction de cot. Si est trop grand, les poids tendent rapidement vers zro, le
modle ne tient plus compte des donnes. Si est trop petit, le terme de rgularisation perd
de son importance et le rseau de neurones peut tre surajust. Dans le cas intermdiaire, les
poids aprs lapprentissage ont des valeurs modres.
Cette mthode prsente lavantage dtre trs simple mettre en oeuvre, puisque le gradient
de
'
J se calcule trs simplement partir du gradient de J et du vecteur des poids du rseau
w : w J J +
'
Il suffit dajouter la quantit w au vecteur J calcul par lalgorithme de rtropropagation .
En pratique, pour tenir compte du caractre diffrent des poids en fonction des couches, il faut
considrer plusieurs hyperparamtres [MacKay, 1992b] :

+ + +
2 1 0
2 3 2 2 2 1 '
2 2 2
W w
i
W w
i
W w
i
w w w J J

W
0
reprsente lensemble des poids reliant les biais aux neurones cachs, W1 reprsente
lensemble des poids reliant les entres aux neurones cachs et W3 reprsente lensemble des
poids relis au neurone de sortie (y compris le biais du neurone de sortie). Il convient donc de
dterminer les valeurs des trois hyperparamtres
1
,
2
,
3
.Dans ce but, MacKay[McKay
1992]propose une dmarche fonde statiquement dune manire solide, mais qui repose sur de
nombreuses hypothses et conduit des calculs lourds. En pratique, il apparat que les valeurs
de ces hyperparamtres ne sont pas critiques :une dmarche heuristique, qui consiste
effectuer plusieurs apprentissages avec des valeurs diffrentes des paramtres, tester les
modles obtenus sur un ensemble des donnes de validation, et choisir le meilleur, est
gnralement suffisante .
4.12.3. Lalgorithme br [6]
Il est dsirable de dterminer les paramtres de rgularisation optimales automatiquement.un
approche pour raliser cela est l'algorithme "br" fond par "David Mackay".Les poids et les
biais sont assums d'tre des variables alatoires avec des distributions spcifiques.Les
paramtres de rgularisation sont relis aux variances inconnues associes avec ces
distributions.On peut alors estimer ces paramtres en utilisant des techmiques statistiques.Cet
algorithme assure une mesure du nombre de paramtres (poids et biais) effectivement utiliss
par le rseau.Ce nombre effectif de paramtres doit rester le mme quelque soit le nombre
total de paramtres dans le rseau. Pour cela cet algorithme peut nous aider liminer les
travaux ncessaires pour obtenir le nombre optimal de neurones dans la couche cache.
64
4.13. Utilisation de la Bote outils Matlab Rseaux de Neurones-(Neural
Network Toolbox nntool) [6]
Il sagit dune structure hirarchique (certains membres de la structure de base sont eux-
mmes des structures) relativement complexe. Elle peut tre visualise lors de la cration du
rseaux ou plus tard.
4.13.1. Cration dun rseau
La fonction de cration dun rseau est spcifique au modle de rseau utilis (newc, newlvq,
etc).
Pour les rseaux multicouches, la cration du rseau est commande par la fonction newff :
reseau=newff( PR, [S
1
S
2
..................S
N1
] , {TF
1
TF
2
................TF
N1
}, BTF , BLF , PF ) ;
Avec :
PR : Plage des variations des entres (affichage par minmax(p)) .
Si : nombre des neurones dans la couche i, pour N1 couches.
TFi : fonction dactivation dans la couche i, par dfaut la fonction dactivation est tansig,
elle peut tre :
Hardlim : Fonctions Heaviside.
hardlims: Fonctions signe.
logsig : Fonction logarithme sigmode.
tansig : Fonction tangente sigmode.
pureline : fonction linaire.
satlins : Fonction linaire a seuil.
BTF : lalgorithme dapprentissage par paquetsdu rseau, la fonction BTF peut tre :
trainlm : apprentissage par lalgorithme de Levenberg-Marquardt
trainbfg : apprentissage par lalgorithme BFGS.
trainoss : apprentissage par lalgorithme one-step BFGS Method
trainbr : version de trainlm avec modration automatique des poids.
trainrp : apprentissage par lalgorithme RPROP.
trainscg : apprentissage par scaled conjuguate gradient (SCG)
traincgf : apprentissage par la mthode du gradient conjugu+FLETCHER-REEVES.
traincp : apprentissage par la mthode du gradient conjugu+POLAK-RIBIERE.
BLF : lalgorithme dapprentissage incrmental du rseau, la fonction BLF peut etre :
Learngd : Lalgorithme dapprentissage sera la descente de gradient taux
dapprentissage fixe.
Learngdm : version de learngd avec moment.
PF : fonction du cot.
mae : erreur absolu moyen
mse : erreur quadratique moyen
msereg : version de mse avec modrations des poids
sse : somme des carrs des erreurs
4.13.2. Apprentissage
Il existe 2 types dapprentissage :
Incrmental : fonction adapt.
Par paquets : fonction train.
Apprentissage incrmental (en-ligne, on-line) : les poids sont modifis chaque prsentation
dune entre.
65
Apprentissage par paquets (hors-ligne, off-line, batch mode) : les poids sont modifis
uniquement aprs prsentation de toutes les entres.
4.13.3. Simulation (ou activation) dun rseau
A = sim(net, p) ;
o net est le pointeur retourn par une fonction de cration de rseau.
4.13.4. gensim
gensim(net,st) simule le reseau de neurone avec un block en simulink ,st=-1 dans le cas o il
ny a pas de delais .
4.14. Conclusion :
Les rseaux de neurones formels, tels que nous les avons dfinis, possdent une proprit
remarquable qui est l'origine de leur intrt pratique dans des domaines trs divers : ce sont
des approximateurs universels parcimonieux.
La proprit d'approximation peut tre nonce de la manire suivante : toute fonction borne
suffisamment rgulire peut tre approche avec une prcision arbitraire, dans un domaine
fini de lespace de ses variables, par un rseau de neurones comportant une couche de
neurones cachs en nombre fini, possdant tous la mme fonction dactivation, et un neurone
de sortie linaire.
Cette proprit de parcimonie est prcieuse dans les applications industrielles.
L'apprentissage est vraisemblablement la proprit la plus intressante des rseaux neuronaux,
cependant il existe plusieurs algorithmes utiliss pour faire lapprentissage des rseaux
multicouches, en gnral, les mthodes du second ordre assure une convrgence plus rapide
que celle du premier ordre pour les rseaux dont lapprentissage est par paquets, pour les
rseaux dont lapprentissage est incrmental les mthodes du premier ordre assure une
convrgence plus rapide que celle du second ordre.
Pour les rseaux dont lapprentissage est par paquets :
Lalgorithme de Levenberg-Marquardt est la plus rapide et assure la meilleure
convergence vers un minimum de lerreur quadratique, pour les problmes
dapproximation des fonctions o le nombre des poids du rseau est infrieur cents.
Quand le nombre de poids augmente lefficacit de lalgorithme LM diminue, car la
taille du Hessien augmente et ncessite une trs grande place dans la mmoire, cet
algorithme est pauvre pour les problmes de classification.
Lalgorithme RPROP est la plus rapide et assure la meilleur convergence vers un
minimum de lerreur quadratique, pour les problmes de classification, mais cet
algorithme est pauvre pour les problmes dapproximations des fonctions et il
ncessite une place mmoire trs modeste.
Les algorithmes du gradient conjugu, en particulier SCG, performant sur des varits
des problmes, spcifiquement dans le cas o la taille du rseau est grande.
Lalgorithme SCG est aussi rapide que lalgorithme LM dans les problmes
dapproximation des fonctions (plus rapide pour les rseaux de grandes tailles), et il
est aussi rapide que lalgorithme RPROP pour les problmes de classification.
Lalgorithme SCG ncessite relativement une place mmoire trs modeste.

Chapitre 3 RN

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 3 RN

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 4 les Rseaux de neurones

Chapitre 4 les Rseaux de neurones

Chapitre 4 Les rseaux de neurones

O p est le nombre de poids que comporte le rseau.

Vous aimerez peut-être aussi