Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Roukhe Ahmed
A.U. 2019-2020 Faculté des Sciences
Département de Physique Meknès
Réseaux de Neurones Artificiels
Introduction
Fondements Biologiques
Contexte Scientifique
Historique
Fondements Biologiques
Structure des neurones
• nn: nombre de neurones dans le cerveau: ~ 1011 (100 000 000 000)
•nc: nombre de connexions par neurone: ~ 104 à 105
•tc: temps de cycle (switching time): ~ 10-3 seconde
•tm: temps moyen d'une activité cognitive: ~ 0.1 seconde
(ex. reconnaissance de visages)
tc*100=0.1 seconde
Il n'y a donc de la place que pour 100 cycles de traitement,
ce qui est insuffisant pour une activité complexe !!!
Le cerveau doit donc effectuer des opérations en parallèle !!!
Caractéristiques du système nerveux
Caractéristiques :
• architecture
type d'interconnexion
choix des fonctions de transferts
• mode d'apprentissage
– comment estimer (=apprendre) les poids
Utilisation :
• système de décision
• approximation de fonctions
• résolution de problèmes
• mémorisation et compression
Réseau de Neurones (suite)
Avantages :
– Capacité de généralisation
Inconvénients :
– Représentation complexe
Le neurone formel
Structure d ’Interconnexion
Les modèles mathématiques
X U. entrée 0
La figure 1
U. Entrée
X
Le Neurone Formel
3 éléments de base:
un ensemble de synapses caractérisées par un poids wkj
La figure 2
Modèle étendu
La figure 3
Modèle non-linéaire (suite)
k est le seuil,
Pattern Pattern
d'entrée de sortie
0 1
1 1
0 Réseau 0
1 0
Stimulus Réponse
1 1
déc odage
codage 1 0
0 1
0 0
Structure d’Interconnexion
propagation avant (feedforward)
couche d’entrée
couche cachée
couche de sortie
réseau à connections
réseau multicouche
locales
propagation des activations : de l ’entrée vers la sortie
Structure d’Interconnexion
modèle récurrent (feedback network)
Définition
Apprentissage supervisé
Règles d ’apprentissage
Définition
L ’apprentissage (Learning) est une phase du développement d’un
réseau de neurones durant laquelle le comportement du réseau est
modifié jusqu’à l’obtention du comportement désiré.
L’apprentissage supervisé
erreur
Acteur(s) ou Agent(s)
Environnement
Schéma de principe
• But de l’étude
– Montrer que grâce aux propriétés d ’apprentissage, il n ’est pas nécessaire de construire un modèle du robot.
• La coordination des mouvements est guidée par les informations renvoyées par l’environnement.
Architecture du réseau
Inputs :
Pos ition of
the six legs
Output : Ej : Si :
E1 Ci1 Movement of the positions movements
leg i
Si
Learning
(weight computing)
i j
Wij
Il existe plusieurs règles de modification :
– Loi de Hebb : wij=Raiaj
– Règle de Widrow-Hoff (delta rule) : wij=R(di - ai)aj
– Règle de Grossberg : wij=R(aj - wij)ai
Règles d’apprentissage
Loi de Hebb :
Si deux unités connectées sont actives simultanément, le poids
de leur connexion est augmenté ou diminué. R est une constante
positive qui représente la force d'apprentissage (learning rate).
ai = -1 ai = 1 j i
w ij
aj = -1 Wij = R Wij = -R
aj = 1 Wij = -R Wij = R
Wij Rai a j
Règles d’apprentissage
Loi de Grossberg :
On augmente les poids qui entrent sur l'unité gagnante ai s'ils sont trop faibles, pour
les rapprocher du vecteur d'entrée aj. C’est la règle d’apprentissage utilisée dans les
cartes auto-organisatrices de Kohonen
Wij Ra i a j Wij j i
w ij
Différents modèles
Le perceptron
Limite du perceptron
Le perceptron multicouche
Le modèle de Hopfield
Le modèle d ’Elmann
Les réseaux concurrentiels
Les réseaux ART
Le réseau RBF
Le perceptron
n
C(D) = å( yi - di ) avec yi = y ( wxi + b)
2
i=1
n n
C(w, b) = å(y ( wxi + b) - di ) = å(y (WX ) - di )
2 2
i=1 i=1
¶C(W) n ¶y (WX) n
¶W i=1
(
= 2 å yi - y (WX)
¶W
) (
= 2 å yi - y (WX) y ' (WX) X = D
i=1
)
Trouver des poids permettant au réseau de réaliser une relation entrée-sortie
spécifiée par des exemples de cette relation
(Toujours le problème de la généralisation)
• Apprentissage:
Minimiser la fonction de coût E(w,{xl,ul}) en fonction du paramètre w
Utiliser pour ceci une méthode de descente de gradient
¶C(W)
DW = - (algorithme de rétro-propagation de gradient)
¶W
Algorithme itératif de gradient
Direction du gradient
C’(W)
Direction du gradient
C’(W)
Minimum du coût w
3 solutions
¶C(W) n
¶C(W) n
= 2å( di - y (Wxi ))xi
¶W i=1
¶C(W) n
¶C(W) n
= 2å( di - f (Wxi ))f ' (Wxi ) xi
¶W i=1
Discrimination Linéaire
X v.a. à valeurs dans R d (d caractéristiques)
d
frontière de décision linéaire : å w x + b = 0
j=1 j j
ì
ï d
ï å w jx j + b > 0 (ronds rouges)
ï j=1
í +
ï d + +
ï å w x +b£0 (croix verte) +
ï j=1 j j
î
+ + + +
+
é ù é ù + + +
ê x ú ê w ú +
ê 1 ú ê 1 ú
ê ... ú ê ... ú
ê ú ê ú
x ºê x ú , w ºê w ú , frontière de décision : wx + b = 0
ê j ú ê j ú
ê ... ú ê ... ú
ê ú ê ú
ê x ú ê w ú
ë d û ë d û
D º wx + b = 0 wx + b > 0
b
w x
w2
°
wx + b
b dist ( x, D ) =
d
wx + b < 0 w
w
b
w1
si x et y Î D Û wx + b = 0 et wy + b = 0
ET 0 0 0 1
XOR 1 1 0 0
0 0 0 0 0 1
0 1 Q 0 1 Q
S Y S T E M E
bias 1
1 bias
En vironn emen t
En vironn emen t
co uche
co uche
d'en trée co uche
de sort ie
(inp ut) i cachée
(o ut put ) k
(h idden ) j
Le perceptron multicouche
activation
ai
x j w jiai
j aj
a j f (x j )
W ji W bi as
bias = 1
1
a f x x
e x e x
a f x x
1 e e e
x
f x f x .1 f x f x 1 f x .1 f x
Le perceptron multicouche
apprentissage : retropropagation de l’erreur
• L'apprentissage (supervisé) En ajustant les paramètres d'un MLP, on peut lui faire calculer
toute sorte de fonction. Si on se donne une fonction vectorielle particulière, on peut tenter de
faire apprendre cette fonction par un MLP : c'est l'apprentissage. La méthode classique pour
l'apprentissage supervisé consiste à se donner un ensemble d'exemples, c'est à dire un
ensemble fini de couple de vecteurs (xi,yi). Dans un tel couple, xi désigne l'entrée du réseau et
yi la sortie désirée pour cette entrée. On écrit alors la fonction calculée par le réseau sous une
forme paramétrique : f(x,w) désigne la sortie du réseau quand on lui présente en entrée le
vecteur x et qu'il utilise les poids synaptiques contenus dans le vecteur w. On se donne enfin
une distance sur l'espace vectoriel de sortie, c'est à dire un moyen de mesurer l'erreur
commise en un point par le réseau. Si cette distance est notée d, on cherche alors à trouver la
valeur de w qui minimise la somme l'erreur totale commise par le réseau, c'est à dire la
somme des distances entre les sorties obtenues et les sorties désirées, c'est à dire somme des
d(f(xi,w),yi). Cette erreur est une fonction de w et on peut donc utiliser les techniques
classiques d'optimisation de fonction pour trouver son minimum.
Le perceptron multicouche
apprentissage : retropropagation de l’erreur
Sj = å aiVij
i S k a jW jk
aj = f ( Sj ) j
1 Calcul a ctiva tions 2 Calcul a ctiva tions ak f S k
unités cachées unités de sortie
Unités
a Unités a
d'entrée i Unités de sortie k
aj
ca chées
Calcul E rreur 3
entre
sorties d ésirées ek d k ak
et
sorties obtenues
j W jk k . f S j Calcul d e l'erreur 5 Calcul d e l'erreur 4
k ek . f S k
k sur les u nités cachées sur les u nités de s ortie
DVij = ed j ai W jk k a j
Le perceptron multicouche
Règle du delta généralisé