Vous êtes sur la page 1sur 17

II Le perceptron multicouche (MLP)

2.1 introduction

Les réseaux monocouches ne peuvent traiter que les problèmes linéairement séparables, ce qui
n’est pas le cas de la plupart des problèmes réels. Par exemple, le problème pourtant simple du
OU-Exclusif n’est pas linéairement séparable. Pour remédier à ce problème on fait appel aux
réseaux de neurone multicouche.
2.2 Réseaux de neurones multicouches

Le réseau de neurone multicouche est un réseau orienté de neurones artificiels organisé en


plusieurs couches ou l’information circule dans un sens de la couche d’entrée vers la couche de
sortie. La première couche est reliée aux entrées, puis ensuite chaque couche est reliée à la
couche précédente. C'est la dernière couche qui produit les sorties du PMC. Les sorties des
autres couches ne sont pas visibles à l'extérieur du réseau, et elles sont appelées pour cette
raison couches cachées (Hiden layers). Chaque nœud est connecté à tous les nœuds de la
coucha adjacente. Deux algorithmes d’entrainement sont utilisés

2.2.1 The multiple adaptive linear neurons (Madaline)

Une architecture Madaline simple est illustrée dans la figure ci-dessous, qui se compose de « n
» unités de couche d’entrée, « m » unités d’Adaline couche et unité « 1 » de la couche Madaline.
Chaque neurone des couches Adaline et Madaline a un biais d'excitation 1. La couche Adaline
est présente entre la couche d'entrée et la couche Madaline (de sortie) est dite couche cachée ;

Soit le coule (x(n), t(n)) représentant la nième données d’entrainement du réseau

1
Dans cet algorithme d'entraînement, seuls les poids entre la couche cachée et la couche
d'entrée sont ajustés, et les poids pou

les unités de sortie sont fixes, Les poids v1, v v 2, , … m et le biais b0 qui entrent dans
l'unité de sortie Y sont déterminés de telle sorte que le

La réponse de l’unité Y est 1. Ainsi, les poids entrant dans l’unité Y peuvent être considérés
commev v v 1 2 = = = = m 12

2
2.2.2 Algorithme de rétropropagation du gradient

L'algorithme d'apprentissage par rétro-propagation est l'un des développements les plus
importants dans les réseaux de neurones (Bryson and Ho, 1969; Werbos, 1974; Lecun, 1985;
Parker, 1985; Rumelhart, 1986), Les réseaux associés à l'algorithme d'apprentissage par rétro-
propagation sont également appelés réseaux de rétro-propagation (back-propagation networks
(BPNs)). L’extension de l’apprentissage par descente de gradient aux réseaux multicouches a
donc été développée pour traiter les problèmes dans lesquels les classes peuvent avoir des
formes quelconques les fonctions d’activations doit être dérivables.

Le principe de la descente du gradient appliqué au perceptron monocouche sera appliqué au


PMC.

L’erreur à minimiser est

3
Dans ce qui suit, on utilise la propriété suivante
𝑑 (𝑓(𝑔(𝑥))
= 𝑓 ′ (𝑔(𝑥) ∗ 𝑔′ (𝑥)
𝑑𝑥

𝑑 (𝑓(𝑔(𝑥))
= 𝑓 ′ (𝑔) ∗ 𝑔′ (𝑥)
𝑑𝑥

Pour la couche cachée

𝑑 (𝑓(𝑔(𝑥))
On remplace yink par son et en utilisant 𝑑𝑥
= 𝑓 ′ (𝑔) ∗ 𝑔′ (𝑥) expression
on obtient

4
Si les le réseau contient plusieurs couches cachées, leur podis sont calculés
de manière similaire.

Les résultats de ce développement sont les équations de base de


l’algorithme back propagation, le cas général est bien illustré dans
l’organigramme ci-dessous

5
Exemple

6
Exemple
On considère le réseau de neurone suivant, À l'aide du réseau de rétro-propagation, trouvez les
nouveaux poids. Il est présenté avec le modèle d'entrée [0, 1] et la sortie cible est 1. Utilisez un
taux d'apprentissage a = 0,25 et la fonction d’activation est une sigmoïde binaire

The initial weights are [w11 w21 w01] = [0.6 - 0.1 0.3],
[w12 w22 w02] = [ - 0.3 0.4 0.5] and [ w1 w 2 w0 ] = [0.4 0.1 - 0.2]

La fonction d’activation est de type


Valeurs initiales
Given the output sample [x1, x2] = [0, 1] and target t =1, et α=0.225

On applique directement les résultats de l’algorithme précèdent

1) Feed Forward phase

Pour la sortie y

7
2) Back propagation of the error

Calcul de l’erreur δk

Calcul des changements de poids synaptiques entre couche cachée et sortie

Calcul de l’erreur δj (j=1,2) entre entrée et couche cachée

8
Calcul des changements de poids synaptiques entre couche cachée et entrée

Calcul final des poids synaptiques

Sont les résultats d’une seule itération

Ces nouvelles valeurs de poids synaptiques sont introduites à nouveau pour calculer la
sortie du réseau et processus s’arrête lorsqu’il y tolérance acceptable sur les
changements de la sortie.

Avantage et inconvénients du perceptron multicouche

9
10
2.3 Réseaux de neurones RBF (radial basis functions)

Les réseaux RBF furent développés par M.J.D. Powell en 1985 et les premières utilisations
réalisées par Broomhead et Lowe en 1988. Ce modèle fait partie des réseaux de neurones
supervisés utilisé dans la classification et l’approximation de fonctions, reconnaissance de
la parole, prévision de signal
2.3.1 Architecture du réseau

L’architecture du réseau comporte trois couches :


— une couche d’entrée formée de d neurones avec, comme pour le PMC, la fonction
d’activation identité,
— une couche cachée formée de m neurones RBF opérant avec des fonctions radiales de
base,
— et une couche de sortie linéaire (ou affine) formée de s neurones.

L'expression qui définit une fonction d'activation gaussienne est donnée par :𝑧(𝑢) =
(𝑢−𝑐)2

𝑔(𝑢) = 𝑒 2𝜎2

11
où c définit le centre de la fonction gaussienne et σ désigne sa variance ( étendue) (dans
laquelle σ est égal à l'écart type)

La figure 6.3 illustre ces caractéristiques pour une fonction gaussienne avec trois valeurs
de variance différentes, dans lesquelles

Pour un FBR de type gaussien, la sensibilité est réglée à l’aide du paramètre d’étendue ,
pour lequel une valeur plus grande signifie moins de sensibilité.
La sortie yk est donnée par la relation suivante
𝑛

𝑦𝑘 = ∑ 𝑤𝑖𝑘 𝑧𝑖 (‖𝑥𝑖 − 𝑐𝑖 ‖)
𝑖=1

Avec ‖𝑥𝑖 − 𝑐𝑖 ‖ est la distance entre xi et ci

Par conséquent, la sortie de chaque neurone j de la couche intermédiaire s'exprime par :

Avec 𝑥̂𝑗𝑖 est le centre du RBF, et 𝑥𝑗𝑖 est jième variable des entrées data pattern

2.3.2 L’algorithme d’apprentissage

12
Le choix des paramètres de la fonction radiale n’est arbitraire, le centre c et la variance σ, qui
doivent être déterminés par des algorithmes bien adéquats pour le paramètre Centre c on peut
utiliser un l’algorithme de groupement des k moyennes adaptatif par exemple.
Etendues σ: determines par normalization:

Distance max. entre deux centres arbitraires dmax


= =
nombre of centres m1

Pour des cas simples, on choisit les paramètres c et σ comme données (inputs), et on ajuste
seulement les poids synaptiques par l’un des algorithmes vus précédemment.
L’algorithme suivant illustre bien un exemple d’entrainement simple du réseau RBF,

13
2.3.3 Avantages et Inconvénients

Avantages

• L’entrainement des réseaux en RBF est plus rapide qu'en Perceptron multicouche
(MLP) → nécessite de nombreuses interactions en MLP.

• Nous pouvons facilement interpréter quelle est la signification/fonction de chaque


nœud dans la couche cachée du RBNN. C'est difficile en MLP.

• La construction d'un réseau RBF est rapide et facile

Inconvénients

• La classification prendra plus de temps en RBNN qu'en MLP.

2.4 Modèle d’apprentissage profond (Deep Learning)

Un modèle de Deep Learning (apprentissage profond) est simplement un modèle empilant un


large nombre de couches de différents types de réseaux de neurones parmi lesquels nous citons
les réseaux de neurones récurrents, LSTM, et les réseaux de neurones à convolution ou
convolutif.
2.4.1 Les réseaux de neurones récurrents (RNN)
Les réseaux de neurones récurrents RNN sont un type de réseau de neurones largement utilisé
dans le domaine de l’apprentissage en profondeur (Deep Learning) Les RNN utilisent les sorties
précédentes comme entrées supplémentaires et sont parfaitement adaptés au traitement de
données séquentielles autrement dit (Les réseaux récurrents (RNN) servent à apprendre des
données organisées en séquences : mots dans une phrase, images dans une vidéo Généralement,
elles se présentent sous la forme suivante : (La cellule récurrente est définie par : (Elman 1990)
)

14
Boucle temporelle

Boucle récursive :la sortie ht dépend de l’observation présente xt et de l’état interne précédent
ht-1, la fonction d’activation est de type tanh
ht modélise la mémoire du réseau (historique jusqu’au pas de temps t)
Dans les RNN, la fonction ϕt = ϕ est identique (“partagée”) pour tous les pas de temps t

Lors que le réseau de neurone est déplié est équivalent à un modèle standard de réseau
multicouche

Le modèle équivalent d’un réseau de neurone récurrent est représenté sur la figure ci-dessous

la fonction d’activation est de type tanh

L’apprentissage se fait par rétropropagation du gradient une fois le réseau déplié, d’une manière
similaire à un réseau de neurone multicouche.

15
Configuration et utilisation du RNN

Rectangle = vecteur; flêche = fonction. (a) Entrée fixe à sortie fixe (ex. classification
d’image); (b) séquence en sortie (ex. annotation d’image, annotation en
sortie); (c) séquence en entrée (ex. question en entrée, oui/non en sortie);
(d) séquence à séquence (ex. traduction). (e) séquence à séquence synchrone
(e.g. annotation de vidéo).

Inconvenient
Les RNN traditionnels présentaient une limitation dans l’apprentissage et se heurtaient au
problème d’évanescence du gradient (Vanish Gradient Problem) ou de l’explosion du gradient
lors de la phase d’apprentissage si la séquence temporelle en particulier était trop longue.
En effet, la fonction d’activation tanh utilisée dans le RNN prend trop de valeur proche de zéro
lors des opérations de dérivés pendant la descente du gradient.
De plus, les RNNs « classiques » ne sont capables de mémoriser que le passé dit proche, et
commencent à « oublier » au bout d’une cinquantaine d’itérations environ.

2.4.2 Réseaux LSTM (Long Short Term Memory)

Les LSTM, inventées en 1997, sont devenues une technologie majeure pour traiter les données
temporelles, sont conçus pour palier au problème de mémoire des réseaux récurrents.
Le LSTM a été inventé pour résoudre le problème du vanishing and exploding
gradient rencontré dans un réseau de neurones récurrent classique.
Une cellule LSTM des réseaux de neurones récurrents est beaucoup plus complexe qu’une
cellule de RNN traditionnelle ou qu’un neurone traditionnel. Une unité LSTM commune est
composée d’une cellule, d’une porte d’oubli (Forget Gate), d’une porte d’entrée (Input Gate) et
d’une porte de sortie (Output Gate) et gère une mémoire dynamique (notée C) qui évolue en

16
fonction de la séquence de données temporelle. La Forget Gate est une opération amenant une
capacité à oublier une information (ou à en diminuer fortement le poids) qui était utile au temps
t-1 mais qui ne l’est plus à l’instant t. Input Gate est, à contrario, une opération qui offre à la
cellule la capacité de stocker une nouvelle information à l’instant t alors que cette même
information était inexistante ou peu pertinente (très faible poids) à l’instant t-1. Enfin, l’output
Gate pilote l’information qui sera transmise au temps t+1 en fonction de la mémoire C et de
fonction d’activation. La cellule LSTM, grâce à ce vecteur mémoire C, mémorise les valeurs
sur des intervalles de temps arbitraires et les trois portes régulent le flux d’informations entrant
et sortant de la cellule.

LSTM est une topologie neuronale extrêmement utile à partir du moment où une “série
temporelle” de données est en jeu.

2.4.3 Réseaux de neurones convolutif (à convolution)

17

Vous aimerez peut-être aussi