Vous êtes sur la page 1sur 5

Réseaux de neurones multicouches 2

Perceptron (monocouche) et séparabilité linéaire


Le perceptron : présentation
Dans sa version la plus simple, le perceptron possède une couche de cellules d’entrée qui reçoit
les stimuli, et qui est entièrement connectée à une cellule de sortie munie de la fonction seuil.

Le calcul s’effectue selon le formalisme du produit scalaire présenté précédemment. Des variantes
du perceptron existent avec plusieurs cellules de sortie et des fonctions d’activation différentes.

Nous illustrons le fonctionnement du perceptron sur un exemple simple : le OU logique.

Perceptron avec les poids (biais ou seuil + poids) suivants :


Wi,1 = 1
Wi,2 = 1
Wi,0 = −0.5

Selon les valeurs de vérité en entrée (X1 et X2), les différentes valeurs de sorties, correspondant
au OU logique, sont prises par le perceptron.

1
— Si X1 = 1 et X2 = 1

Alors Ai = Wi,1 X1 + Wi,2 X2 + Wi,0 = (1 × 1) + (1 × 1)−0.5 = 1, 5

Comme Ai > 0
⇒ Yi = f (Ai ) = 1
(car f : fonction binaire à seuil)

On a donc la figure suivante :

— Si X1 = 0 et X2 = 1 Alors Ai = Wi,1 X1+Wi,2 X2+Wi,0 = (1×0)+(1×1)−0.5 = 0, 5


Comme Ai > 0 ⇒ Yi = f (Ai ) = 1

— Si X1 = 1 et X2 = 0 Alors Ai = Wi,1 X1+Wi,2 X2+Wi,0 = (1×1)+(1×0)−0.5 = 0, 5


Comme Ai > 0 ⇒ Yi = f (Ai ) = 1

— Si X1 = 0 et X2 = 0 Alors Ai = Wi,1 X1+Wi,2 X2+Wi,0 = (1×0)+(1×0)−0.5 = −0, 5


Comme Ai < 0 ⇒ Yi = f (Ai ) = 0

Cet exemple illustre que le perceptron réalise une fonction de classification.

2
Le perceptron : apprentissage
Pour l’apprentissage du perceptron, on commence par initialiser les poids de façon aléatoire.
On présente ensuite chaque exemple k d’un ensemble de données d’apprentissage. L’apprentis-
sage du perceptron consistera à corriger les poids selon l’erreur entre la réponse attendue d et
la sortie y calculée par le réseau : E k = dki − yik
Si il n’y a pas d’erreur, aucune correction n’est effectuée, sinon on corrige les poids wij propor-
tionnellement à l’erreur et à la valeur de l’entrée xj , en pondérant cette correction par un pas
epsilon ϵ (epsilon) pour ne pas tirer complètement la correction sur l’exemple k courant.
Si E k = 0 : pas de correction
h h−1
Sinon wij = wij + ϵE k xj
La lettre h signifie que ce procédé est répété plusieurs fois pour l’ensemble des exemples.
• Initialiser les poids W de façon aléatoire
• A chaque présentation d’un exemple d’apprentissage k
— Calculer l’erreur : E k = dki − yik
dki : réponse attendue pour k et yik : sortie calculée par le réseau pour k
— Corriger les poids selon l’erreur
Si E k ̸= 0 Alors wij h h−1
= wij + ϵE k xj
ϵ : taux (pas) d’apprentissage et h : itération de minimisation
Remarques
— Seul les exemples en erreur contribuent à la correction des poids
— Correction : on ne tient compte que d’un seul exemple k à la fois, sans se próccuper
des autres exemples.
— Le choix du pas d’apprentissage ϵ est délicat.

Fonction de décision
Un hyperplan dans Rn (où les coordonnées sont notées x1 , · · · , xn ) ∑ est défini par n + 1 pa-
ramètres w0 , w1 , · · · , wn . Il est défini par l’equation suivante : (H) n
i=1 wi xi + w0 = 0.
Géométriquement, si n=2 on obtient des droites et pour n=3 on obtient des plans. Dans le cas
où la dimension des données est supérieure à 3 ce sont des hyperplans (non représentables).
La figure ci-dessous montre un hyperplan (H) à 2 dimensions (donc une droite) d’équation
g(x) = w1 x1 + w2 x2 + w0 = 0 (si w0 = 0 alors H passe par l’origine).

On montre aussi, sur cette figure, la distance algébrique d’un point x à l’hyperplan (H).
g(x) = 0 ⇔ x ∈ (H).
L’hyperplan (H) sépare l’espace en 2 demi-espaces qui correspondent à :
D1 = {x/g(x) > 0}
D2 = {x/g(x) < 0}.

3
La fonction de classification réalisée par le perceptron correspond à la fonction de décision g(x),
telle que x appartiendra à la classe C1 si g(x) ≥ 0 et à la classe C2 si g(x) < 0.

Remarque : le seuil wi,0 (w0 sur la figure ci-dessous) d’un neurone peut être considéré comme
un poids synaptique particulier. Il suffit d’ajouter un neurone fictif à la couche d’entrée ayant
un état constant et égale à 1 et d’interpréter wi,0 comme étant son poids synaptique.

On peut rassembler tous les paramètres dans x ∈ Rn+1 et w ∈ Rn+1 comme suit :
   
1 w0
 x1   w1 
   
x= ..  w= .. 
 .   . 
xn wn

La fonction de décision g peut alors s’écrire (comme le produit scalaire) : g(x) = wT x.

Lorsque le problème est linéairement séparable, le perceptron converge vers une solution et
s’arrête lorsque tous les Ek = 0. Si l’on prend pour ensemble d’apprentissage le OU logique,
on veut apprendre à séparer les 1 (vrai) des 0 (faux), il existe un grand nombre de solutions
qui sont les droites séparatrices des deux classes. Les figures suivantes montrent 3 exemples de
droites séparatrices des deux classes :

Par contre pour le OU exclusif (XOR : eXclusive OR) il ne sera jamais possible de trouver
une droite séparatrice ; il reste toujours des erreurs et l’algorithme ne s’arrête jamais.

Le perceptron ne peut effectuer que des classifications linéairement séparables.

4
Règle de Widrow-Hoff
Une amélioration du perceptron a consisté à le doter d’une sortie continue, en utilisant une
fonction d’activation continue et dérivable.
Dans ces conditions, l’erreur Ek peut alors s’exprimer en terme de fonction de coût aux moindres
carrés E k = (dki − yik )2 que l’on pourra minimiser par une méthode de descente de gradient
pour obtenir un minimum local :
∂E k
h
wij = wijh−1 − ϵ h−1
∂wij
Lorsque l’on utilise une fonction d’activation linéaire, on obtient la règle de Widrow-Hoff qui
h
est similaire à celle du perceptron : wij h−1
= wij + ϵ(dki − yik )xj . Mais l’erreur E k ∈ R et tous les
exemples participent à la mise à jour des poids.

• Dans le cas d’un problème de classification linéairement séparable :

⋆ Le perceptron s’arrêtera à la première solution trouvée. Cette solution peut ne pas


être robuste (c’est-à-dire moins efficiente pour classer un exemple qui n’a pas participé
à l’apprentissage), c’est la notion de généralisation qui sera abordée dans la suite du
cours.

⋆ Avec la règle de Widrow-Hoff, on obtient une solution qui est souvent plus robuste.

• Dans le cas d’un problème de classification non linéairement séparable :

⋆ Le perceptron ne trouve pas une solution finale sur laquelle s’arrêter, il oscille entre
plusieurs solutions possibles.

⋆ Avec la règle de Widrow-Hoff on aboutit toujours à une solution acceptable.

Conclusion sur le perceptron


On peut rencontrer deux cas distincts de séparabilité : la séparabilité linéaire et la séparabilité
non-linéaire plus complexe.

Si le problème n’est pas linéairement séparable les performances de la classification obtenues


par un perceptron seront mauvaises.
Malgré ses limitations à la résolution de problèmes linéairement séparables, le perceptron a eu
le mérmite d’exister et ainsi d’ouvrir la voie aux perceptrons Multi-Couches.
Les perceptrons Multi-Couches (PMC ou MLP pour Multi-Layer Perceptron) sont des modèles
plus élaborés, tout à fait performants pour résoudre des problèmes non linéaires complexes en
classification ou régression.
C’est ce que nous découvrirons dans la prochaine section.

Vous aimerez peut-être aussi