Académique Documents
Professionnel Documents
Culture Documents
Reseaux de Neurones Multicouches 2
Reseaux de Neurones Multicouches 2
Le calcul s’effectue selon le formalisme du produit scalaire présenté précédemment. Des variantes
du perceptron existent avec plusieurs cellules de sortie et des fonctions d’activation différentes.
Selon les valeurs de vérité en entrée (X1 et X2), les différentes valeurs de sorties, correspondant
au OU logique, sont prises par le perceptron.
1
— Si X1 = 1 et X2 = 1
Comme Ai > 0
⇒ Yi = f (Ai ) = 1
(car f : fonction binaire à seuil)
2
Le perceptron : apprentissage
Pour l’apprentissage du perceptron, on commence par initialiser les poids de façon aléatoire.
On présente ensuite chaque exemple k d’un ensemble de données d’apprentissage. L’apprentis-
sage du perceptron consistera à corriger les poids selon l’erreur entre la réponse attendue d et
la sortie y calculée par le réseau : E k = dki − yik
Si il n’y a pas d’erreur, aucune correction n’est effectuée, sinon on corrige les poids wij propor-
tionnellement à l’erreur et à la valeur de l’entrée xj , en pondérant cette correction par un pas
epsilon ϵ (epsilon) pour ne pas tirer complètement la correction sur l’exemple k courant.
Si E k = 0 : pas de correction
h h−1
Sinon wij = wij + ϵE k xj
La lettre h signifie que ce procédé est répété plusieurs fois pour l’ensemble des exemples.
• Initialiser les poids W de façon aléatoire
• A chaque présentation d’un exemple d’apprentissage k
— Calculer l’erreur : E k = dki − yik
dki : réponse attendue pour k et yik : sortie calculée par le réseau pour k
— Corriger les poids selon l’erreur
Si E k ̸= 0 Alors wij h h−1
= wij + ϵE k xj
ϵ : taux (pas) d’apprentissage et h : itération de minimisation
Remarques
— Seul les exemples en erreur contribuent à la correction des poids
— Correction : on ne tient compte que d’un seul exemple k à la fois, sans se próccuper
des autres exemples.
— Le choix du pas d’apprentissage ϵ est délicat.
Fonction de décision
Un hyperplan dans Rn (où les coordonnées sont notées x1 , · · · , xn ) ∑ est défini par n + 1 pa-
ramètres w0 , w1 , · · · , wn . Il est défini par l’equation suivante : (H) n
i=1 wi xi + w0 = 0.
Géométriquement, si n=2 on obtient des droites et pour n=3 on obtient des plans. Dans le cas
où la dimension des données est supérieure à 3 ce sont des hyperplans (non représentables).
La figure ci-dessous montre un hyperplan (H) à 2 dimensions (donc une droite) d’équation
g(x) = w1 x1 + w2 x2 + w0 = 0 (si w0 = 0 alors H passe par l’origine).
On montre aussi, sur cette figure, la distance algébrique d’un point x à l’hyperplan (H).
g(x) = 0 ⇔ x ∈ (H).
L’hyperplan (H) sépare l’espace en 2 demi-espaces qui correspondent à :
D1 = {x/g(x) > 0}
D2 = {x/g(x) < 0}.
3
La fonction de classification réalisée par le perceptron correspond à la fonction de décision g(x),
telle que x appartiendra à la classe C1 si g(x) ≥ 0 et à la classe C2 si g(x) < 0.
Remarque : le seuil wi,0 (w0 sur la figure ci-dessous) d’un neurone peut être considéré comme
un poids synaptique particulier. Il suffit d’ajouter un neurone fictif à la couche d’entrée ayant
un état constant et égale à 1 et d’interpréter wi,0 comme étant son poids synaptique.
On peut rassembler tous les paramètres dans x ∈ Rn+1 et w ∈ Rn+1 comme suit :
1 w0
x1 w1
x= .. w= ..
. .
xn wn
Lorsque le problème est linéairement séparable, le perceptron converge vers une solution et
s’arrête lorsque tous les Ek = 0. Si l’on prend pour ensemble d’apprentissage le OU logique,
on veut apprendre à séparer les 1 (vrai) des 0 (faux), il existe un grand nombre de solutions
qui sont les droites séparatrices des deux classes. Les figures suivantes montrent 3 exemples de
droites séparatrices des deux classes :
Par contre pour le OU exclusif (XOR : eXclusive OR) il ne sera jamais possible de trouver
une droite séparatrice ; il reste toujours des erreurs et l’algorithme ne s’arrête jamais.
4
Règle de Widrow-Hoff
Une amélioration du perceptron a consisté à le doter d’une sortie continue, en utilisant une
fonction d’activation continue et dérivable.
Dans ces conditions, l’erreur Ek peut alors s’exprimer en terme de fonction de coût aux moindres
carrés E k = (dki − yik )2 que l’on pourra minimiser par une méthode de descente de gradient
pour obtenir un minimum local :
∂E k
h
wij = wijh−1 − ϵ h−1
∂wij
Lorsque l’on utilise une fonction d’activation linéaire, on obtient la règle de Widrow-Hoff qui
h
est similaire à celle du perceptron : wij h−1
= wij + ϵ(dki − yik )xj . Mais l’erreur E k ∈ R et tous les
exemples participent à la mise à jour des poids.
⋆ Avec la règle de Widrow-Hoff, on obtient une solution qui est souvent plus robuste.
⋆ Le perceptron ne trouve pas une solution finale sur laquelle s’arrêter, il oscille entre
plusieurs solutions possibles.