Académique Documents
Professionnel Documents
Culture Documents
2.1 introduction
Les réseaux monocouches ne peuvent traiter que les problèmes linéairement séparables, ce qui
n’est pas le cas de la plupart des problèmes réels. Par exemple, le problème pourtant simple du
OU-Exclusif n’est pas linéairement séparable. Pour remédier à ce problème on fait appel aux
réseaux de neurone multicouche.
2.2 Réseaux de neurones multicouches
Une architecture Madaline simple est illustrée dans la figure ci-dessous, qui se compose de « n
» unités de couche d’entrée, « m » unités d’Adaline couche et unité « 1 » de la couche Madaline.
Chaque neurone des couches Adaline et Madaline a un biais d'excitation 1. La couche Adaline
est présente entre la couche d'entrée et la couche Madaline (de sortie) est dite couche cachée ;
1
Dans cet algorithme d'entraînement, seuls les poids entre la couche cachée et la couche
d'entrée sont ajustés, et les poids pou
les unités de sortie sont fixes, Les poids v1, v v 2, , … m et le biais b0 qui entrent dans
l'unité de sortie Y sont déterminés de telle sorte que le
La réponse de l’unité Y est 1. Ainsi, les poids entrant dans l’unité Y peuvent être considérés
commev v v 1 2 = = = = m 12
2
2.2.2 Algorithme de rétropropagation du gradient
L'algorithme d'apprentissage par rétro-propagation est l'un des développements les plus
importants dans les réseaux de neurones (Bryson and Ho, 1969; Werbos, 1974; Lecun, 1985;
Parker, 1985; Rumelhart, 1986), Les réseaux associés à l'algorithme d'apprentissage par rétro-
propagation sont également appelés réseaux de rétro-propagation (back-propagation networks
(BPNs)). L’extension de l’apprentissage par descente de gradient aux réseaux multicouches a
donc été développée pour traiter les problèmes dans lesquels les classes peuvent avoir des
formes quelconques les fonctions d’activations doit être dérivables.
3
Dans ce qui suit, on utilise la propriété suivante
𝑑 (𝑓(𝑔(𝑥))
= 𝑓 ′ (𝑔(𝑥) ∗ 𝑔′ (𝑥)
𝑑𝑥
𝑑 (𝑓(𝑔(𝑥))
= 𝑓 ′ (𝑔) ∗ 𝑔′ (𝑥)
𝑑𝑥
𝑑 (𝑓(𝑔(𝑥))
On remplace yink par son et en utilisant 𝑑𝑥
= 𝑓 ′ (𝑔) ∗ 𝑔′ (𝑥) expression
on obtient
4
Si les le réseau contient plusieurs couches cachées, leur podis sont calculés
de manière similaire.
5
Exemple
6
Exemple
On considère le réseau de neurone suivant, À l'aide du réseau de rétro-propagation, trouvez les
nouveaux poids. Il est présenté avec le modèle d'entrée [0, 1] et la sortie cible est 1. Utilisez un
taux d'apprentissage a = 0,25 et la fonction d’activation est une sigmoïde binaire
The initial weights are [w11 w21 w01] = [0.6 - 0.1 0.3],
[w12 w22 w02] = [ - 0.3 0.4 0.5] and [ w1 w 2 w0 ] = [0.4 0.1 - 0.2]
Pour la sortie y
7
2) Back propagation of the error
Calcul de l’erreur δk
8
Calcul des changements de poids synaptiques entre couche cachée et entrée
Ces nouvelles valeurs de poids synaptiques sont introduites à nouveau pour calculer la
sortie du réseau et processus s’arrête lorsqu’il y tolérance acceptable sur les
changements de la sortie.
9
10
2.3 Réseaux de neurones RBF (radial basis functions)
Les réseaux RBF furent développés par M.J.D. Powell en 1985 et les premières utilisations
réalisées par Broomhead et Lowe en 1988. Ce modèle fait partie des réseaux de neurones
supervisés utilisé dans la classification et l’approximation de fonctions, reconnaissance de
la parole, prévision de signal
2.3.1 Architecture du réseau
L'expression qui définit une fonction d'activation gaussienne est donnée par :𝑧(𝑢) =
(𝑢−𝑐)2
−
𝑔(𝑢) = 𝑒 2𝜎2
11
où c définit le centre de la fonction gaussienne et σ désigne sa variance ( étendue) (dans
laquelle σ est égal à l'écart type)
La figure 6.3 illustre ces caractéristiques pour une fonction gaussienne avec trois valeurs
de variance différentes, dans lesquelles
Pour un FBR de type gaussien, la sensibilité est réglée à l’aide du paramètre d’étendue ,
pour lequel une valeur plus grande signifie moins de sensibilité.
La sortie yk est donnée par la relation suivante
𝑛
𝑦𝑘 = ∑ 𝑤𝑖𝑘 𝑧𝑖 (‖𝑥𝑖 − 𝑐𝑖 ‖)
𝑖=1
Avec 𝑥̂𝑗𝑖 est le centre du RBF, et 𝑥𝑗𝑖 est jième variable des entrées data pattern
12
Le choix des paramètres de la fonction radiale n’est arbitraire, le centre c et la variance σ, qui
doivent être déterminés par des algorithmes bien adéquats pour le paramètre Centre c on peut
utiliser un l’algorithme de groupement des k moyennes adaptatif par exemple.
Etendues σ: determines par normalization:
Pour des cas simples, on choisit les paramètres c et σ comme données (inputs), et on ajuste
seulement les poids synaptiques par l’un des algorithmes vus précédemment.
L’algorithme suivant illustre bien un exemple d’entrainement simple du réseau RBF,
13
2.3.3 Avantages et Inconvénients
Avantages
• L’entrainement des réseaux en RBF est plus rapide qu'en Perceptron multicouche
(MLP) → nécessite de nombreuses interactions en MLP.
Inconvénients
14
Boucle temporelle
Boucle récursive :la sortie ht dépend de l’observation présente xt et de l’état interne précédent
ht-1, la fonction d’activation est de type tanh
ht modélise la mémoire du réseau (historique jusqu’au pas de temps t)
Dans les RNN, la fonction ϕt = ϕ est identique (“partagée”) pour tous les pas de temps t
Lors que le réseau de neurone est déplié est équivalent à un modèle standard de réseau
multicouche
Le modèle équivalent d’un réseau de neurone récurrent est représenté sur la figure ci-dessous
L’apprentissage se fait par rétropropagation du gradient une fois le réseau déplié, d’une manière
similaire à un réseau de neurone multicouche.
15
Configuration et utilisation du RNN
Rectangle = vecteur; flêche = fonction. (a) Entrée fixe à sortie fixe (ex. classification
d’image); (b) séquence en sortie (ex. annotation d’image, annotation en
sortie); (c) séquence en entrée (ex. question en entrée, oui/non en sortie);
(d) séquence à séquence (ex. traduction). (e) séquence à séquence synchrone
(e.g. annotation de vidéo).
Inconvenient
Les RNN traditionnels présentaient une limitation dans l’apprentissage et se heurtaient au
problème d’évanescence du gradient (Vanish Gradient Problem) ou de l’explosion du gradient
lors de la phase d’apprentissage si la séquence temporelle en particulier était trop longue.
En effet, la fonction d’activation tanh utilisée dans le RNN prend trop de valeur proche de zéro
lors des opérations de dérivés pendant la descente du gradient.
De plus, les RNNs « classiques » ne sont capables de mémoriser que le passé dit proche, et
commencent à « oublier » au bout d’une cinquantaine d’itérations environ.
Les LSTM, inventées en 1997, sont devenues une technologie majeure pour traiter les données
temporelles, sont conçus pour palier au problème de mémoire des réseaux récurrents.
Le LSTM a été inventé pour résoudre le problème du vanishing and exploding
gradient rencontré dans un réseau de neurones récurrent classique.
Une cellule LSTM des réseaux de neurones récurrents est beaucoup plus complexe qu’une
cellule de RNN traditionnelle ou qu’un neurone traditionnel. Une unité LSTM commune est
composée d’une cellule, d’une porte d’oubli (Forget Gate), d’une porte d’entrée (Input Gate) et
d’une porte de sortie (Output Gate) et gère une mémoire dynamique (notée C) qui évolue en
16
fonction de la séquence de données temporelle. La Forget Gate est une opération amenant une
capacité à oublier une information (ou à en diminuer fortement le poids) qui était utile au temps
t-1 mais qui ne l’est plus à l’instant t. Input Gate est, à contrario, une opération qui offre à la
cellule la capacité de stocker une nouvelle information à l’instant t alors que cette même
information était inexistante ou peu pertinente (très faible poids) à l’instant t-1. Enfin, l’output
Gate pilote l’information qui sera transmise au temps t+1 en fonction de la mémoire C et de
fonction d’activation. La cellule LSTM, grâce à ce vecteur mémoire C, mémorise les valeurs
sur des intervalles de temps arbitraires et les trois portes régulent le flux d’informations entrant
et sortant de la cellule.
LSTM est une topologie neuronale extrêmement utile à partir du moment où une “série
temporelle” de données est en jeu.
17