Réseaux Multicouches

Chapitre 3 : Rseaux multicouches
Introduction
Comme nous avons vu le perceptron linaire ne peut pas rsoudre le problme de la
classification non linaire (des chantillons non linairement sparables).
On peut concevoir plusieurs moyens de dpasser ces limites, comme le recodage des
problmes pour les rendre linaire .Par exemple pour la fonction XOR, il suffit de rajouter un
neurone intermdiaire entre la rtine et la cellule de dcision pour que le perceptron peut
apprendre la fonction XOR.
La notion de rseaux multicouches est ainsi dfinit .Un rseau multicouche peut donc tre
regard comme une gnralisation des perceptrons. Il se compose de 1
re
couche de cellules
dentre de sortie intermdiairement relie a la couche de sortie qui la seul en contact avec
lextrieur. Pour donner une rponse un stimulus prsente la couche dentre, le rseau
propage dun premier temps, le signal dentre la couche cach.
Les cellules de la couche cache calculent ensuite leur activation entre fonction des signaux
transmis par les cellules de la couche cach .Puis les cellules de la couche de sortie
transfrent leur activation en rponse qui constituent la rponse des rseaux de neurone
aux stimuli prsentes en entre. Comme pour le perceptron, le rseau multicouche utilise
lapprentissage supervise. Pour apprendre, le rseau doit connaitre la bonne rponse a fin
de calculer lerreur.
4.1. Analyse des rseaux multicouches
Un rseau multicouche est constitu de 3 types de couches de cellules : 1re couche
dentre ,1
re
ou plusieurs couches caches et une couche de sortie

Figure 10 : rseaux multicouches
On note
- X
k
: le vecteur I lments reprsentants le k
me
stimulus de la couche dentre qui
comporte I cellules. La matrice (I, K) des k stimulus apprendre est not X
- h
k
: le vecteur L lments reprsentants la rponse des cellules de la couche de
sortie pour la k
me
stimulus.
- O
k
: le vecteur J lments reprsentants la rponse dsire des cellules de la couche
de sortie pour le k
m
stimulus.
- T
k
: le vecteur J lment reprsentant la rponse dsir des cellules de la couche de
sortie pour le K
me
stimulus.
- W : cest la matrice dordre (I, L) des valeurs de connexions reliant les cellules de la
couche dentre aux cellules de la couche cache.
- Z : cest la matrice dordre (L, J) des valeurs de connexions reliant les cellules de la
couche cache et la couche de sortie.
Algorithme dapprentissage pour les rseaux multicouches est bas sur deux choses :
- Architecture des rseaux (nombre des couches caches)
- Algorithme adquat cette architecture.
Lalgorithme utilis pour cela est retro propagation du gradient nomm aussi retro
propagation de lerreur : la technique retro propagation correspond la technique
doptimisation non linaire du gradient base sur la mthode du gradient). Il est donc
ncessaire de considrer des fonctions derreurs drivable .Ceci implique quil nest pas
possible de considrer comme cellule lmentaire ,un perceptron linaire seuil .Nous
allons donc avoir besoin de considrer une nouvelle cellule lmentaire . La sortie de cette
cellule sera une fonction de variables relles drivables qui est une approximation de la
fonction Echelon.
Pour rpondre un stimulus le signal est propag de la couche dentre la couche de sortie
en passant par la couche cache. Les cellules de la couche cache calculent leur activation et
la transforme en rponse en utilisant leur fonction de transfert, puis il transforme cette
rponse aux cellules de la couche de sortie qui leur tour calcule leur activation et la
transforme en rponse avec leur fonction de transfert (fonction logique)
.
Ainsi, lorsque le k
me
stimulus est prsent en entre, le vecteur de rponse de la couche
cache h
k
est h
k
= f (w
T
x
k
)
La rponse de la cellule de sortie O
k
est O
k
=f (Z
T
*h
k
)

Figure 11 : perceptron multicouche

Le comportement des rseaux dpend de la matrice des connexions W et Z ,si le rseau ne donne pas
la rponse attendue, on peut modifier les matrices de connexions.
La retro propagation est une technique dapprentissage supervise (pour apprendre, le rseau doit
connaitre la rponse quil aurait d donner).
Elle modifier lintensit des connexions de manire diminuer lintensit de lerreur commise par la
cellule pour la rponse considre.
- OPTIMISATION PAR LA METHODE DE GRADIENT
- Retro propagation par la mthode du gradient
o Mmoires linaires :
La rgle dapprentissage de Widrow-Hoff utilise pour les mmoires linaires permet de trouver les
valeurs w
ij
de la manire suivante :
Wij(t+1) = w
j
(t) + (t
j
- o
j
) x
i
= w
ij
(t)+ W
ij
Dans le cadre des techniques doptimisation, la rgle dapprentissage de Windro-Hoff diminue
lerreur chaque itration. La correction correspond faire bouger le vecteur w dans la direction de
la valeur correspondant au minimum de lerreur.
Loptimisation consiste changer les valeurs de la fonction minimiser proportionnellement au
gradient local de f. la modification de w devient donc :
w = - Vwf=-
1 0
0 1
| |
|
\ .

Pour les mmoires linaires, la rponse pour le stimulus k est donne par : O
k
=w*x
k

Le vecteur derreur e
k
=t
k
- o
k

La fonction derreur E
k
=
1
2
e
k
2
=
1
2
(t
k
2
2 o
k
t
k +
o
k
2
).
On a: V
w
E
k
=
k
E
w
c
c
=
k
k
E
O
c
c
*
k
O
w
c
c
=
1
2
(-2 t
k
+2O
k
)
.
k
w x
w
c
c
= (O
k
t
k
).x
k

Do : w = -
f
w
c
c
= - (O
k
-t
k
)*x
k
= (t
k
- O
k
)*x
k
La rgle dapprentissage de Widrow-Hoff implmente donc la mthode du gradient, cela implique la
retro propagation reprsente bien une gnralisation des perceptrons.
- Pour les rseaux multicouches :
o Correction pour la couche de sortie
O
k
=f(Z
T
h
k
)
V
Z
E
k
=
k
E
Z
c
c
= . .
T
k k k
T
k k
E O Z h
O Z h Z
c c c
c c c
=
( )
. .
T T
k k k
T
k k
E f Z h fZ h
O Z h Z
c c c
c c c
=-(t
k
- O
k
) f (Z
T
h
k
).h
k
= . o
Sortie en k
.h
k

= (t
k
- O
k
).f(Z
T
h
k
) (1- f(Z
T
O
k
))h
k
= (t
k
-O
k
)O
k
(1- O
k
)h
k
Do : Z(t+1)=Z(t)+ . o
Sortie en k
.h
k
Pour les cellules de la couche de sortie, lerreur est vari en comparant la rponse thorique
avec la rponse donne par la cellule .Le vecteur derreur pour k
me
stimulus est : E
k
=t
k
-O
k

Le signal derreur prend en compte lerreur commise par la cellule et ltat dactivation de la
cellule, il est dfinit par : o
Sortie k
=f (Z
T
h
k)
et
e
k
= O
k
(1-O
k
). (t
k
-O
k
)
La rgle dapprentissage est donne par : Z(t+1)= Z(t)+ . o
Sortie
.h
k
=Z(t)+
t
Z
- Correction pour la couche cache :
Le vecteur de rponse de la couche cache est : h
k
=f (w
T
x
k
).
V
w
E
k
=
k
E
w
c
c
= . . . .
T T
k k k k x
T T
k k k k
E O Z h h W x
O Z h h W x w
c c c c c
c c c c c
=-(t
k
-O
k
).f (Z
T
h
k
).Z
T.
f(W
T
x
k
)x
k

=o
sortie,k
.Z
T
.h
k
(1-h
k
)x
k
=o
cach,k
.x
k

Pour les cellules de la couche cache le signal derreur est estim comme une fonction de
signal derreur en provenance de la couche de sortie dactivation des cellules de la couche
cache
o
cach,k
= f (w
T
x
k
) (Z
T
o
sortie,k
)=h
k
(1-h
k
) Z
T
(k). o
sortie,k
Do : W(t+1) =w(t)+ . o
cach,k
.x
k

Exercice : La retro propagation (rseaux multicouches)
Soit un rseau avec I=3 cellules dentre L=2 couches
Caches et J =3 cellules de sortie. La matrice de connexions
W relie les cellules de la couche dentre aux cellules de
la couche cache est dordre 3*2 elle est donne par :

La matrice de connexion Z relie les cellules de la couche cache aux
cellules de la couche de sortie, elle est dordre L *J (2,3)

Le but des rseaux est dapprendre associer un ensemble de stimulus un ensemble de rponse
.Le stimulus x prsenter lentre du rseau doit
donner la rponse

Lactivation de la cellule de la couche cache b=w
T
x

La rponse de la couche cache est : (la fonction logistique)

Cette activation est ensuite transmise aux cellules de la couche de
sortie, il calcule leur activation

Lerreur :

Lapprentissage :

Le signal derreur est calcul en comparant la rponse obtenu O
et la rponse attendu t
Le signal derreur de sortie est :
o
sortie
=f(a) L =0 (1-0) (t-o)

Les cellules de la couche de sortie permet de corriger leur synapse, il calcule donc Z et corrige Z(t)
qui devient Z[t+1] :
Z(t+1)= Z(t)+ .
S
sortie
.h
t

Le signal derreur pour les cellules de la couche cach se calcule dune manire analogue la couche
de sortie

Le signal derreur pour les cellules de la couche cach peut maintenant corriger en W*t+1+
| | | | | |
1
T
Cach
W t W t W W t X qo + = +A = +

==>

Réseaux Multicouches

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Réseaux Multicouches

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 3 : Rseaux multicouches

Vous aimerez peut-être aussi