MLP PDF

Le perceptron multicouche et son algorithme de
rétropropagation des erreurs
Marc Parizeau
Département de génie électrique et de génie informatique
Université Laval
10 septembre 2004
Le perceptron multicouche est un réseau orienté de neurones artificiels organisé en couches

et où l’information voyage dans un seul sens, de la couche d’entrée vers la couche de sor-
tie. La figure 1 donne l’exemple d’un réseau contenant une couche d’entrée, deux couches
cachées et une couche de sortie. La couche d’entrée représente toujours une couche virtuelle
associée aux entrées du système. Elle ne contient aucun neurone. Les couches suivantes sont
des couches de neurones. Dans l’exemple illustré, il y a 3 entrées, 4 neurones sur la première
couche cachée, trois neurones sur la deuxième et quatre neurones sur la couche de sortie. Les
sorties des neurones de la dernière couche correspondent toujours aux sorties du système.
Dans le cas général, un perceptron multicouche peut posséder un nombre de couches quel-
conque et un nombre de neurones (ou d’entrées) par couche également quelconque.
Les neurones sont reliés entre eux par des connexions pondérées. Ce sont les poids de
ces connexions qui gouvernent le fonctionnement du réseau et “programment” une appli-
cation de l’espace des entrées vers l’espace des sorties à l’aide d’une transformation non
linéaire. La création d’un perceptron multicouche pour résoudre un problème donné passe
donc par l’inférence de la meilleure application possible telle que définie par un ensemble
de données d’apprentissage constituées de paires de vecteurs d’entrées et de sorties désirées.
Cette inférence peut se faire, entre autre, par l’algorithme dit de rétropropagation.
1 Algorithme de rétropropagation
~
Soit le couple (~x(n), d(n)) désignant la ne donnée d’entraı̂nement du réseau où :
~
~x(n) =< x1 (n), . . . , xp (n) > et d(n) =< d1 (n), . . . , dq (n) > (1)
1
2 2 11 ALGORITHME ´
A LG O RITH MDEE RDÉTROPROPAGATION
E R ETRO PRO PAG ATIO N
couche 1er couche 2ème couche couche

d’entr·ee cach·ee cach·ee de sortie
FIG . 1 F IGExemple d’und’un

. 1 – Exemple r éseau detype
réseau de typeperceptron
perceptron multicouche.
multicouche.
correspondent respectivement aux p entrées et aux q sorties désirées du système. L’algorithme

correspondent respectivement aux p entr·ees et aux q sorties d·esir·ees du système.
de rétropropagation consiste alors à mesurer l’erreur entre les sorties désirées d(n) ~ L’algorithme
et les
de r·etropropagation consiste
sorties observées ~y (n) : alors à mesurer l’erreur en
t re les sorties d·esir·
ees !
d(n) et les
sorties observees!· y (n) : ~y (n) =< y1 (n), . . . , yq (n) > (2)
!y (n)l’avant
résultant de la propagation vers =< ydes
1 (n), q (n)
. . . ,~xy(n),
entrées et >à rétropropager cette erreur à (2)
travers les couches du réseau en allant des sorties vers les entrées.
r·esultant de la propagation vers l’avant des entr·ees!x(n), et à r·etropropager cette erreur à
travers les couches du r·eseau en allant des sorties vers lesentr·ees.
1.1 Cas de la couche de sortie
L’algorithme de rétropropagation procède à l’adaptation des poids neurone par neurone
1.1 Cas de la couche
en commençant de sortie
par la couche de sortie. Soit l’erreur observée ej (n) pour le neurone de sortie
j et la donnée d’entraı̂nement n :
L’algorithme de r·etropropagation procède à l’adaptati on des poids neurone par neurone
ej (n) = dj (n) − yj (n) (3)
en commenc‚ ant par la couche de sortie. Soit l’erreur observ ee
· e j (n) pour le neurone de sortie
j et la donn·
où ee d’entra
dj (n) nement
correspond n : désirée du neurone j et yj (n) à sa sortie observée.
à la sortie
ej (n) = dj (n) − yj (n) (3)
où dj (n) correspond à la sortie d·esir·ee du neurone j et y j (n) à sa sortie observee.

·
La variablen repr·esentera toujours la donn·ee d’entra nement c’est-à-dire le couple
1.1 1.de
Cas 1 laCasdel acouchedes
couche de sortie ortie 3
y0 = −1
y1 wj1 wj0 = θj
..
.
wji !r
yi yj = ϕ ( i=0 wjiyi )
.. wjr
.
yr
FIGdu
F IG . 2 – Modèle . 2neurone
Mod j.èle du neurone j.
– LaSoit E(n)n la
variable représentera
somme des toujours la donnée
erreurs d’entraı̂nement
quadratiques observc’est-à-dire
ees le couple
· sur l’ensembl e C des neurones
contenant un vecteur d’entrées et un vecteur de sorties désirées.
sortie :
– L’objectif de l’algorithme est d’adapter les poids des connexions
1 " 2 du réseau de manière
E(n) =
à minimiser la somme des erreurs sur tous les neurones de sortie.e (n)
2 j∈C j
– L’indice j représentera toujours le neurone pour lequel on veut adapter les poids.
Soit E(n) la somme des erreurs quadratiques observées sur l’ensemble C des neurones de
sortie : La sortie yj (n) du neurone j est d·e nie par :
1X 2
E(n) = e (n) (4)
2 j∈C j
# r $
"
yj (n) = ϕ[vj (n)] = ϕ wji(n)yi (n)
La sortie yj (n) du neurone j est définie par : i=0
où ϕ[.] est la fonction d’activation X du

r neurone,v (n) est la somme pond· er·ee des entr·e
" #
j
yj (n) = ϕ[vj (n)] = ϕ wji (n)yi (n) (5)
neurone j, wji (n) est le poids de lai=0 connexion entre le neuronei de la couche pr·ec·eden
le neurone j de la couche courante, et yi (n) est la sortie du neurone i. On suppose ici
où ϕ[.] est la fonction d’activation du neurone, vj (n) est la somme pondérée des entrées du
couche pr·ec·edente contient r neurones num·erot·es de 1 à r, que le poidsw j0(n) corre
neurone j, wji (n) est le poids de la connexion entre le neurone i de la couche précédente et
au jbiais
le neurone de la du neuronej
couche courante,et que l’entr·
et yi (n) esteey 0 (n)
la sortie du=neurone
−1. Lai. On gure 2 illustre
suppose ici quel’·equation
la 5.
L’indice
couche précédente i repr·
contient esentera
r neurones toujours
numérotés de un
1 à neurone sur lawj0couche
r, que le poids pr·ec·edente par rappo
(n) correspond
neurone
au biais du neurone j ; l’entrée
j et que on supposey0 (n) = par
−1.ailleurs
La figureque cette couche
2 illustre contient
l’équation 5. r neurones.
– L’indicePouri représentera
corriger l’erreur
toujours observ ee,
un neurone· ilsurs’agit de modi
la couche er le po
précédente ids rapport
par w ji(n) au dans le sens o
neurone j ; on suppose∂E(n) par ailleurs que cette couche contient r neurones.
au gradient ∂wji (n) de l’erreur (voir gure 3).
Pour corriger l’erreur observée, il s’agit de modifier le poids wji (n) dans le sens opposé
Cette
∂E(n) d·eriv
au gradient ∂wji (n) de l’erreur ee
· (voir
partielle
figurerepr·
3). esente un facteur de sensi bilit·e : si je change un peuw
est-ce
– Cette dérivée que creprésente
partielle ‚ a changeunbeaucoup (n) ? Si :oui,
facteur deEsensibilité si je alors
changejeunvais
peu wchanger
ji (n),
beaucoup w
est-ce quedans le sensbeaucoup
ça change inverseE(n)de cette
? Si d·erivalors
oui, ee
· car celachanger
je vais devraitbeaucoup
me ra pprocher
wji (n) beaucoup du
mum
dans le sens local.
inverse de Sinon, je dois
cette dérivée changer
car cela devraitseulement
me rapprocher un peuw
beaucoupji (n)
du pour
mini- corriger l’erre
mum local. je Sinon, je dois
suis tout prèschanger minimumun! peu wji (n) pour corriger l’erreur car
de ce seulement
je suis tout près de ce
Puisqu’il y minimum
ar neurones ! sur la couche pr·ec·edant la couche de sortie, il y aaussi r p
à adapter, et il importe donc de remarquer que la courbe de la gure 3 correspond
fait à une hyper-surface de r + 1 dimensions !
Par la règle de cha nage des d·erivees · partielles, qui no us dit que ∂f∂x(y) = ∂f∂y(y) · ∂x ∂y
, on ob
44 1 1ALGORITHME
A LG O RITH MDE
EDRE ´
ÉTROPROPAGATION
R ETRO PRO PAG ATIO N
E(n)
∂E(n)
∂wji (n)
wji (n)
FIG . 3 Gradient de l’erreur totale.

F IG . 3 – Gradient de l’erreur totale.
et on exprime la variation de poids ∆w ji(n) sous la forme suivante :

– Puisqu’il y a r neurones sur la couche précédant la couche de sortie, il y a aussi r poids
à adapter, et il importe donc de remarquer que la courbe de la figure 3 correspond en
∂E(n)
∆w (n)
fait à une hyper-surface de r + 1 dimensions
ji = −η! (7)
∂wji (n) ∂f (y) ∂f (y) ∂y
Par la règle de chaı̂nage des dérivées partielles, qui nous dit que ∂x = ∂y · ∂x , on obtient :
avec0 ≤ η ≤ 1 repr·esentant untaux d’apprentissage ou gain de l’algorithme.
∂E(n) ∂E(n) ∂ej (n) ∂yj (n) ∂vj (n)
·
Evaluons maintenant = des termes
chacun · du ·gradient.· , (6)
∂wji (n) ∂ej (n) ∂yj (n) ∂vj (n) ∂wji (n)
 
et on exprime la variation de poids ∆wji (n) sous la 1forme suivante :
e2 (n)
#
∂ 2 k
∂E(n) k∈C
∆w (n) = −η ∂E(n)
= (7)
∂ej (n)
ji
∂w ∂ej (n)
(n) ji
1 ∂e2j (n)
=
avec 0 ≤ η ≤ 1 représentant un taux d’apprentissage
· ou gain de l’algorithme.
2 ∂ej (n)
Évaluons maintenant chacun des termes du gradient.
= ej (n) 
e2k (n)
X
∂  12
∂E(n) k∈C
(n)=
∂e∂e(n)
j ∂[d
∂e jj(n)
(n) − yj (n)]
j =
∂yj (n) ∂y (n)
1 ∂e2j (n) j
= ·
2 ∂e (n)
= −1 j
= ej (n)
1.1 Cas de la couche de sortie 5
∂ej (n) ∂[dj (n) − yj (n)]

=
∂yj (n) ∂yj (n)
= −1
h i
1
∂yj (n) ∂
1+e−vj (n)
=
∂vj (n) ∂vj (n)
e−vj (n)
= h i2
1 + e−vj (n)
e−vj (n)
" #
= yj (n)
1 + e−vj (n)
e−vj (n) + 1
" #
1
= yj (n) −v
−
1+e j (n) 1 + e−vj (n)
= yj (n)[1 − yj (n)]
Et finalement :
r
" #
X
∂ wjl (n)yl (n)
∂vj (n) l=0
=
∂wji (n) ∂wji (n)
∂[wji (n)yi (n)]
=
∂wji (n)
= yi (n)
Nous obtenons donc :
∂E(n)
= −ej (n)yj (n)[1 − yj (n)]yi (n) (8)
∂wji (n)
et la règle dite du “delta” pour la couche de sortie s’exprime par :
∂E(n)
∆wji (n) = −η = ηδj (n)yi (n) (9)
∂wji (n)
avec :
δj (n) = ej (n)yj (n)[1 − yj (n)] (10)
qui correspond à ce qu’on appelle le “gradient local”.
– Jusqu’ici, nous avons traité seulement le cas de la couche de sortie ! Il reste maintenant
à faire l’adaptation des poids sur les couches cachées. . .
– Mais le problème est qu’on ne dispose plus de l’erreur observée ! ?
6 1 ALGORITHME DE RÉTROPROPAGATION
1.2 Cas d’une couche cachée

Considérons maintenant le cas des neurones sur la dernière couche cachée (le cas des
autres couches cachées est semblable).
– La variable n désignera toujours la donnée d’entraı̂nement c’est-à-dire un couple de
vecteurs d’entrées et de sorties désirées.
– L’objectif sera toujours d’adapter les poids de la couche courante en minimisant la
somme des erreurs sur les neurones de la couche de sortie.
– Les indices i et j désigneront respectivement (comme précédemment) un neurone sur
la couche précédente et un neurone sur la couche courante.
– L’indice k servira maintenant à désigner un neurone sur la couche suivante.
Reprenons l’expression de la dérivée partielle de l’erreur totale E(n) par rapport à wji mais
en ne dérivant plus par rapport à l’erreur ej (n) car celle-ci est maintenant inconnue :
∂E(n) ∂E(n) ∂yj (n) ∂vj (n)
= · · (11)
∂wji (n) ∂yj (n) ∂vj (n) ∂wji (n)
Par rapport aux résultats obtenus pour la couche de sortie, les deux derniers termes de cette
équation restent inchangés, seul le premier terme requiert d’être évalué :
 
e2k (n)
X
∂  21
∂E(n) k∈C
= (12)
∂yj (n) ∂yj (n)
Notre problème ici, contrairement au cas des neurones de la couche de sortie, est que tous les
ek (n) dans la somme ci-dessus dépendent de yj (n). On ne peut donc pas se débarrasser de
cette somme ! Néanmoins, nous pouvons écrire :
" #
∂E(n) X ∂ek (n)
= ek (n) ·
∂yj (n) k∈C ∂yj (n)
" #
X ∂ek (n) ∂vk (n)
= ek (n) · ·
k∈C ∂vk (n) ∂yj (n)
" #
∂ [dk (n) − ϕ(vk (n))] ∂ [
P
X l wkl (n)yl (n)]
= ek (n) · ·
k∈C ∂vk (n) ∂yj (n)
X
= [ek (n) · (−yk (n)[1 − yk (n)]) · wkj ]
k∈C
Et en substituant l’équation 10 on obtient :

∂E(n) X
=− δk (n)wkj (n) (13)
∂yj (n) k∈C
1.3 Sommaire de l’algorithme (règle du “delta”) 7
En substituant l’équation 13 dans l’équation 11, on obtient :

 
∂E(n) X
= −yj (n)[1 − yj (n)]  δk (n)wkj (n) yi (n) (14)
∂wji (n) k∈C
Et :
∂E(n)
∆wji (n) = −η = ηδj (n)yi (n) (15)
∂wji (n)
Avec : X
δj (n) = yj (n)[1 − yj (n)] δk (n)wkj (n) (16)
k∈C
On peut démontrer que les équations 15 et 16 sont valides pour toutes les couches cachées.
Notez bien, cependant, que dans le cas de la première couche cachée du réseau, puisqu’il n’y
a pas de couche précédente de neurones, il faut substituer la variable yi (n) par l’entrée xi (n).
1.3 Sommaire de l’algorithme (règle du “delta”)

L’algorithme de rétropropagation standard se résume donc à la série d’étapes suivantes :
1. Initialiser tous les poids à de petites valeurs aléatoires dans l’intervalle [−0.5, 0.5] ;
2. Normaliser les données d’entraı̂nement ;
3. Permuter aléatoirement les données d’entraı̂nement ;
4. Pour chaque donnée d’entraı̂nement n :
(a) Calculer les sorties observées en propageant les entrées vers l’avant ;
(b) Ajuster les poids en rétropropageant l’erreur observée :
wji (n) = wji (n − 1) + ∆wji (n) = wji (n − 1) + ηδj (n)yi (n) (17)
où le “gradient local” est défini par :


e (n)yj (n)[1 − yj (n)] Si j ∈ couche de sortie
 j


δj (n) =  X (18)
 yj (n)[1 − yj (n)]
 δk (n)wkj (n) Si j ∈ couche cachée
k
avec 0 ≤ η ≤ 1 représentant le taux d’apprentissage et yi (n) représentant soit

la sortie du neurone i sur la couche précédente, si celui-ci existe, soit l’entrée i
autrement.
5. Répéter les étape 3 et 4 jusqu’à un nombre maximum d’itérations ou jusqu’à ce que la
racine de l’erreur quadratique moyenne (EQM) soit inférieure à un certain seuil.
8 1 ALGORITHME DE RÉTROPROPAGATION
1.4 Règle du “delta généralisé”

L’équation 17 décrit ce qu’on appelle la règle du “delta” pour l’algorithme de rétropropa-
gation des erreurs. L’équation suivante, nommé règle du “delta généralisé”, décrit une autre
variante de l’algorithme :
wji (n) = wji (n − 1) + ηδj (n)yi (n) + α∆wji (n − 1) (19)
où 0 ≤ α ≤ 1 est un paramètre nommé momentum qui représente une espèce d’inertie dans
le changement de poids.

MLP PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

MLP PDF

Transféré par

Droits d'auteur :

Formats disponibles

Le perceptron multicouche et son algorithme de

rétropropagation des erreurs

Le perceptron multicouche est un réseau orienté de neurones artificiels organisé en couches

couche 1er couche 2ème couche couche

FIG . 1 F IGExemple d’und’un

correspondent respectivement aux p entrées et aux q sorties désirées du système. L’algorithme

ej (n) = dj (n) − yj (n) (3)

où dj (n) correspond à la sortie d·esir·ee du neurone j et y j (n) à sa sortie observee.

où ϕ[.] est la fonction d’activation X du

FIG . 3 Gradient de l’erreur totale.

et on exprime la variation de poids ∆w ji(n) sous la forme suivante :

∂ej (n) ∂[dj (n) − yj (n)]

1.2 Cas d’une couche cachée

Et en substituant l’équation 10 on obtient :

En substituant l’équation 13 dans l’équation 11, on obtient :

1.3 Sommaire de l’algorithme (règle du “delta”)

où le “gradient local” est défini par :

avec 0 ≤ η ≤ 1 représentant le taux d’apprentissage et yi (n) représentant soit

1.4 Règle du “delta généralisé”

wji (n) = wji (n − 1) + ηδj (n)yi (n) + α∆wji (n − 1) (19)

Vous aimerez peut-être aussi