Reseaux de Neurones Multicouches 2

Réseaux de neurones multicouches 2
Perceptron (monocouche) et séparabilité linéaire

Le perceptron : présentation
Dans sa version la plus simple, le perceptron possède une couche de cellules d’entrée qui reçoit
les stimuli, et qui est entièrement connectée à une cellule de sortie munie de la fonction seuil.
Le calcul s’effectue selon le formalisme du produit scalaire présenté précédemment. Des variantes
du perceptron existent avec plusieurs cellules de sortie et des fonctions d’activation différentes.
Nous illustrons le fonctionnement du perceptron sur un exemple simple : le OU logique.
Perceptron avec les poids (biais ou seuil + poids) suivants :

Wi,1 = 1
Wi,2 = 1
Wi,0 = −0.5
Selon les valeurs de vérité en entrée (X1 et X2), les différentes valeurs de sorties, correspondant
au OU logique, sont prises par le perceptron.
1
— Si X1 = 1 et X2 = 1
Alors Ai = Wi,1 X1 + Wi,2 X2 + Wi,0 = (1 × 1) + (1 × 1)−0.5 = 1, 5
Comme Ai > 0
⇒ Yi = f (Ai ) = 1
(car f : fonction binaire à seuil)
On a donc la figure suivante :
— Si X1 = 0 et X2 = 1 Alors Ai = Wi,1 X1+Wi,2 X2+Wi,0 = (1×0)+(1×1)−0.5 = 0, 5

Comme Ai > 0 ⇒ Yi = f (Ai ) = 1
— Si X1 = 1 et X2 = 0 Alors Ai = Wi,1 X1+Wi,2 X2+Wi,0 = (1×1)+(1×0)−0.5 = 0, 5

Comme Ai > 0 ⇒ Yi = f (Ai ) = 1
— Si X1 = 0 et X2 = 0 Alors Ai = Wi,1 X1+Wi,2 X2+Wi,0 = (1×0)+(1×0)−0.5 = −0, 5

Comme Ai < 0 ⇒ Yi = f (Ai ) = 0
Cet exemple illustre que le perceptron réalise une fonction de classification.
2
Le perceptron : apprentissage
Pour l’apprentissage du perceptron, on commence par initialiser les poids de façon aléatoire.
On présente ensuite chaque exemple k d’un ensemble de données d’apprentissage. L’apprentis-
sage du perceptron consistera à corriger les poids selon l’erreur entre la réponse attendue d et
la sortie y calculée par le réseau : E k = dki − yik
Si il n’y a pas d’erreur, aucune correction n’est effectuée, sinon on corrige les poids wij propor-
tionnellement à l’erreur et à la valeur de l’entrée xj , en pondérant cette correction par un pas
epsilon ϵ (epsilon) pour ne pas tirer complètement la correction sur l’exemple k courant.
Si E k = 0 : pas de correction
h h−1
Sinon wij = wij + ϵE k xj
La lettre h signifie que ce procédé est répété plusieurs fois pour l’ensemble des exemples.
• Initialiser les poids W de façon aléatoire
• A chaque présentation d’un exemple d’apprentissage k
— Calculer l’erreur : E k = dki − yik
dki : réponse attendue pour k et yik : sortie calculée par le réseau pour k
— Corriger les poids selon l’erreur
Si E k ̸= 0 Alors wij h h−1
= wij + ϵE k xj
ϵ : taux (pas) d’apprentissage et h : itération de minimisation
Remarques
— Seul les exemples en erreur contribuent à la correction des poids
— Correction : on ne tient compte que d’un seul exemple k à la fois, sans se próccuper
des autres exemples.
— Le choix du pas d’apprentissage ϵ est délicat.
Fonction de décision
Un hyperplan dans Rn (où les coordonnées sont notées x1 , · · · , xn ) ∑ est défini par n + 1 pa-
ramètres w0 , w1 , · · · , wn . Il est défini par l’equation suivante : (H) n
i=1 wi xi + w0 = 0.
Géométriquement, si n=2 on obtient des droites et pour n=3 on obtient des plans. Dans le cas
où la dimension des données est supérieure à 3 ce sont des hyperplans (non représentables).
La figure ci-dessous montre un hyperplan (H) à 2 dimensions (donc une droite) d’équation
g(x) = w1 x1 + w2 x2 + w0 = 0 (si w0 = 0 alors H passe par l’origine).
On montre aussi, sur cette figure, la distance algébrique d’un point x à l’hyperplan (H).
g(x) = 0 ⇔ x ∈ (H).
L’hyperplan (H) sépare l’espace en 2 demi-espaces qui correspondent à :
D1 = {x/g(x) > 0}
D2 = {x/g(x) < 0}.
3
La fonction de classification réalisée par le perceptron correspond à la fonction de décision g(x),
telle que x appartiendra à la classe C1 si g(x) ≥ 0 et à la classe C2 si g(x) < 0.
Remarque : le seuil wi,0 (w0 sur la figure ci-dessous) d’un neurone peut être considéré comme
un poids synaptique particulier. Il suffit d’ajouter un neurone fictif à la couche d’entrée ayant
un état constant et égale à 1 et d’interpréter wi,0 comme étant son poids synaptique.
On peut rassembler tous les paramètres dans x ∈ Rn+1 et w ∈ Rn+1 comme suit :
   
1 w0
 x1   w1 
   
x= ..  w= .. 
 .   . 
xn wn
La fonction de décision g peut alors s’écrire (comme le produit scalaire) : g(x) = wT x.
Lorsque le problème est linéairement séparable, le perceptron converge vers une solution et
s’arrête lorsque tous les Ek = 0. Si l’on prend pour ensemble d’apprentissage le OU logique,
on veut apprendre à séparer les 1 (vrai) des 0 (faux), il existe un grand nombre de solutions
qui sont les droites séparatrices des deux classes. Les figures suivantes montrent 3 exemples de
droites séparatrices des deux classes :
Par contre pour le OU exclusif (XOR : eXclusive OR) il ne sera jamais possible de trouver
une droite séparatrice ; il reste toujours des erreurs et l’algorithme ne s’arrête jamais.
Le perceptron ne peut effectuer que des classifications linéairement séparables.
4
Règle de Widrow-Hoff
Une amélioration du perceptron a consisté à le doter d’une sortie continue, en utilisant une
fonction d’activation continue et dérivable.
Dans ces conditions, l’erreur Ek peut alors s’exprimer en terme de fonction de coût aux moindres
carrés E k = (dki − yik )2 que l’on pourra minimiser par une méthode de descente de gradient
pour obtenir un minimum local :
∂E k
h
wij = wijh−1 − ϵ h−1
∂wij
Lorsque l’on utilise une fonction d’activation linéaire, on obtient la règle de Widrow-Hoff qui
h
est similaire à celle du perceptron : wij h−1
= wij + ϵ(dki − yik )xj . Mais l’erreur E k ∈ R et tous les
exemples participent à la mise à jour des poids.
• Dans le cas d’un problème de classification linéairement séparable :
⋆ Le perceptron s’arrêtera à la première solution trouvée. Cette solution peut ne pas

être robuste (c’est-à-dire moins efficiente pour classer un exemple qui n’a pas participé
à l’apprentissage), c’est la notion de généralisation qui sera abordée dans la suite du
cours.
⋆ Avec la règle de Widrow-Hoff, on obtient une solution qui est souvent plus robuste.
• Dans le cas d’un problème de classification non linéairement séparable :
⋆ Le perceptron ne trouve pas une solution finale sur laquelle s’arrêter, il oscille entre
plusieurs solutions possibles.
⋆ Avec la règle de Widrow-Hoff on aboutit toujours à une solution acceptable.
Conclusion sur le perceptron

On peut rencontrer deux cas distincts de séparabilité : la séparabilité linéaire et la séparabilité
non-linéaire plus complexe.
Si le problème n’est pas linéairement séparable les performances de la classification obtenues

par un perceptron seront mauvaises.
Malgré ses limitations à la résolution de problèmes linéairement séparables, le perceptron a eu
le mérmite d’exister et ainsi d’ouvrir la voie aux perceptrons Multi-Couches.
Les perceptrons Multi-Couches (PMC ou MLP pour Multi-Layer Perceptron) sont des modèles
plus élaborés, tout à fait performants pour résoudre des problèmes non linéaires complexes en
classification ou régression.
C’est ce que nous découvrirons dans la prochaine section.

Reseaux de Neurones Multicouches 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Reseaux de Neurones Multicouches 2

Transféré par

Droits d'auteur :

Formats disponibles

Réseaux de neurones multicouches 2

Perceptron (monocouche) et séparabilité linéaire

Nous illustrons le fonctionnement du perceptron sur un exemple simple : le OU logique.

Perceptron avec les poids (biais ou seuil + poids) suivants :

Alors Ai = Wi,1 X1 + Wi,2 X2 + Wi,0 = (1 × 1) + (1 × 1)−0.5 = 1, 5

On a donc la figure suivante :

— Si X1 = 0 et X2 = 1 Alors Ai = Wi,1 X1+Wi,2 X2+Wi,0 = (1×0)+(1×1)−0.5 = 0, 5

— Si X1 = 1 et X2 = 0 Alors Ai = Wi,1 X1+Wi,2 X2+Wi,0 = (1×1)+(1×0)−0.5 = 0, 5

— Si X1 = 0 et X2 = 0 Alors Ai = Wi,1 X1+Wi,2 X2+Wi,0 = (1×0)+(1×0)−0.5 = −0, 5

Cet exemple illustre que le perceptron réalise une fonction de classification.

La fonction de décision g peut alors s’écrire (comme le produit scalaire) : g(x) = wT x.

Le perceptron ne peut eﬀectuer que des classifications linéairement séparables.

• Dans le cas d’un problème de classification linéairement séparable :

⋆ Le perceptron s’arrêtera à la première solution trouvée. Cette solution peut ne pas

• Dans le cas d’un problème de classification non linéairement séparable :

⋆ Avec la règle de Widrow-Hoﬀ on aboutit toujours à une solution acceptable.

Conclusion sur le perceptron

Si le problème n’est pas linéairement séparable les performances de la classification obtenues

Vous aimerez peut-être aussi