Académique Documents
Professionnel Documents
Culture Documents
LE RÉSEAU DE NEURONES
ARTIFICIEL
Biais
Définition
6
0 1
1 1
0 Réseau 0
Stimulus 1 0 Réponse
1 1 décodage
codage 1 0
0 1
0 0
Définition
7
a a a
1 2 3
23
Evaluation de X
Exemple d’utilisation : Classification des données
Chaque neurone de la couche représente une classe
Pour un exemple X donné, on obtient la classe de cet exemple
Fonctionnement
24
Le Perceptron (un seul neurone) en phase d'utilisation
L'apprentissage ayant été réalisé
Les poids sont fixes
Le neurone réalise une simple somme pondérée de ses entrées,
compare une valeur de seuil t, et fourni une réponse binaire en
sortie y
Exemple : On peut interpréter sa décision comme classe 1 si la
valeur de y est +1 et classe 2 si la valeur de y est 0.
x y=g(a)
1 1
y 0
t a
x2
Fonctionnement
25
Exercice: Sachant que les poids du Perceptron à deux entrées sont les
suivants : w1 = 0.8 ,w2 = 0.7 et que la valeur de seuil est
t =0.5,
Déterminez son comportement, sachant que les comportements du
ET logique, OU logique et OU exclusif sont respectivement :
x1 x2 y x1 x2 y x1 x2 y
0 0 0 0 0 0 0 0 0
0 1 0 0 1 1 0 1 1
1 0 0 1 0 1 1 0 1
1 1 1 1 1 1 1 1 0
Réponse = OU
Apprentissage
26
erreur
i j
Wji
Loi de Hebb :
Si deux unités connectées sont actives simultanément, le poids de
leur connexion est augmenté ou diminué. α est une constante
positive qui représente la force d'apprentissage (learning rate)
wji=αxiyj xi yj
i j
Wji
yj = -1 yj = 1
xi =-1 Wji = α Wji = - α
xi = 1 Wji = - α Wji = α
Règles d’apprentissage
31
Règle de delta :
aj activation produite par le réseau
dj réponse désirée par l'expert humain
Par exemple si la sortie est inférieure à la réponse désirée, il va
falloir augmenter le poids de la connexion à condition bien sûr
que l'unité j soit excitatrice (égale à 1). On est dans l'hypothèse
d'unités booléennes {0,1}. xi yj
i j
dj = 0 dj = 1 Wji
xi =0 wji = 0 wji = 0
wji= α(dj - yj)xi
xi = 1 wji = -α yj wji = α(1 - yj)
Règles d’apprentissage
32
Loi de Grossberg :
On augmente les poids qui entrent sur l'unité gagnante yj
s'ils sont trop faibles, pour les rapprocher du vecteur d'entrée
xi . C’est la règle d’apprentissage utilisée dans les cartes auto-
organisatrices de Kohonen
xi yj
wji= α(xi - wji)yj
i j
Wji
Apprentissage supervisé
33
EQM :
, pour 1 <=i<=p
ou b = biais
En simplifiant
Apprentissage par descente de gradient
36
Récapitulons :
d w i =- α e(n) (- xi(n))
e (n)=(d (n) -y (n) )
d w i =α (d (n) -y (n) ) (xi(n) )
pour 1 <=n<=N Nombre d’exemples
ET XOR OU
Théorème
bias 1 1
bias
Environnement
Environnement
couche
couche
d'entrée couche
de sortie
(input) i cachée
(output) k
(hidden ) j
Dimensionnement
43
Généralement :
Pas de règles pour le nombre des neurones des couches
cachée
Hornik (1989) a démontré que la plupart des fonctions
numériques peuvent être approximées par des réseaux
à une seule couche cachée --> Pb de complexité
PMC pour le XOR 1/3
44
x0 =1 1
0. 5
-0.5
-2 x1 XOR x2
1
x1
1 1
1
x2
1
1
biais=-0.5
biais=0.5
-2 x1 XOR x2
1
x1 1
1
1
x2
1
1
PMC pour le XOR 3/3
46
biais=-0.5
biais=0.5
-2 x1 XOR x2
1
x1
1 1
x2
1
Apprentissage
47
Algorithme de rétropropagation
Utilise la règle de modification des poids ("delta rule")
La fonction sigmoïde
-x
Algorithme de rétropropagation
48
Données du réseau
n ème exemple d’entrainement
Où
Vecteur d’entrée
Sortie désirée
Sortie Obtenue
Fonction d’activation
La variation de poids
Finalement
Adaptation des poids de la couche de sortie
55
Où le “gradient
local”
Cas des couches cachées
56
Inchangés
On obtient
Où
D’où
Adaptation des poids des couches cachées
59
Où
N.B.
Ces équations sont valides pour toutes les couches cachées
Classification :
Reconnaissance de formes :
les lettres de l ’alphabet
les chiffres de 0 à 9
Les réseaux de Kohonen
64
m Carte
La couche compétitive
possède une structure
n
topologique, ce qui
permet de définir un
voisinage pour le
neurone gagnant wi1 wi2 win
Le neurone peut être référencé par p1 p2 … pn
un seul indice i=n*5+m
ou deux indice m et n
Carte auto-organisée de Kohonen
67
w1 wi2 win
p1 p2 … pn
Carte auto organisatrice de kohonen
68
Vecteur d’entrée P
Regroupement : clustering
69
Applications :
Robotique : pilotage de robots
Compression des données
Classification des données
Statistiques
Le concept du voisinage
72
Taux d’apprentissage
On un voisinage autour modifie aussi les poids des neurones
voisins du neurone gagnant :
Fonctionnement
75
Où
p(t) désigne le stimulus d’apprentissage au temps t
Λg(t) représente le voisinage au temps t du neurone
gagnant g.
Topologie de voisinage d’un neurone
78
Où
η 0 est le taux d’apprentissage initial
ητ est le taux d’apprentissage final
τ délimite la frontière entre deux phases d’apprentissage
Modification du voisinage d’un neurone
avec le temps
80
Où
Λ est le voisinage initial etendu
0
Algorithme de Kohonen
81
La fonction de voisinage
82
gaussienne
redéfinir l’algorithme d’apprentissage dans le cas
ou la fonction de voisinage est une gaussienne