Cours RNpartie 3

Commande Intelligente
Cours n°6
Les réseaux de neurones (Part III)

Algorithmes
cours IA Master AS N.Achour 1

•Algorithme d’apprentissage basé sur la mémoire
•Ici la mémoire signifie une base de données sur l’environnement

présentée sous la forme
( xi , ci ) ci étant la classe i.
•ci est un scalaire qui peut être égal à 1 ou 0 par exemple.

•En général ce type d’apprentissage est adéquat pour des problèmes
de classification
•L’algorithme est basé sur la notion de voisinage
•L’un des algorithmes le plus connu est le KNN (K Nearest
Neighbourhood)
•K est un scalaire qui indique le nombre de voisins à examiner

Exemple
•K=3, déterminer la classe d’un élément ‘’d’’ n’appartenant
pas à la base de données
•On utilise la distance minimale Euclidienne entre le point d et

les 3 les plus proches voisins
dans ce cas la classe est 1

L’objectif de l’algorithme est de classer des exemples
non étiquetés sur la base de leurs similarités avec les
exemples de la base de données.
L’algorithme KNN nécessite donc :
•Une base de données d’apprentissage
•Une fonction de distance d (Euclidienne souvent)
•Un entier K

Pour tout nouveau point xtest pour lequel
l’algorithme doit prendre une décision (de quelle
classe il est ?)
•L’algorithme recherche dans la base les K points les plus proches d

xtest au sens de la distance Euclidienne ‘’d’’
•Attribue xtest à la classe qui est la plus fréquente chez les voisins

L’apprentissage Hebbien
•Ainsi appelé par rapport à son inventeur (Donald Hebb, 1949)
•C’est la plus ancienne et la plus réputée parmi les approches

d’apprentissage.
•Les travaux de Hebb sont largement inspirés de l’hippocampe

du cerveau qui joue un grand rôle dans l’apprentissage
Postulat de Hebb
Si un axone d’une cellule A est suffisamment proche d’une
cellule B pour l’exciter et si ce phénomène se répète assez
souvent, alors l’efficacité de cet axone est renforcée.

Dans le contexte des ANN, on dira :
•Si deux neurones de part et d’autre d’une synapse sont

activés simultanément (d’une façon synchrone) alors la force
de cette synapse augmente
•Si deux neurones de part et d’autre d’une synapse sont activés

d’une manière asynchrone alors la force de cette synapse est
affaiblie ou alors la synapse est carrément éliminée

Donc :
•C’est un mécanisme qui dépend du temps.
•C’est un mécanisme localisé dans l’espace
•C’est un mécanisme interactif : il dépend des signaux de

chaque côté de la synapse
•C’est un mécanisme corrélatif : on a l’apparition des deux

signaux pré et post synaptiques simultanément et directement
suivie du changement des poids synaptiques.

Algorithme de Hebb
xj(n) wkj k
j yk(n)
•Formulation mathématique de l’apprentissage Hebbien:
wkj(n)=F(yk(n).xj(n))
•F peut prendre plusieurs formes mathématiques, on en retient

deux :
La 1ière forme la plus simple est : wkj(n)= yk(n).xj(n)

Avec >0 c’est le taux d’apprentissage
Problème
•wkj en fonction de yk avec  x(n) comme paramètre:

on obtient une droite
•les poids wkj tendent vers des valeurs de saturation
Solution
•Réduire la vitesse de modification des poids

•Possibilité que les poids puissent diminuer et augmenter

La 2ième forme fait intervenir la notion de covariance
w kj (n )   ( x j  x )( y k  y)
x et y valeurs moyennes respectives de xj et yk dans un

intervalle de temps
w kj (n ) devient a lg ébrique
w kj (n )  0 si x j  x et y k  y
Dans ce cas on a un renforcement du poids synaptique


 x j  x et y k  y 
 

 
w kj (n )  0 si ou 



 
x j  x et y k  y 
 
•Les travaux de Hebb sont largement inspirés de

l’hippocampe du cerveau qui joue un grand rôle dans
l’apprentissage

Les types d’apprentissage
Apprentissage supervisé
•L’apprentissage par correction d’erreur
C’est un apprentissage dit avec un professeur (teacher)
Le professeur est en fait une base d’apprentissage ou base

d’exemples
Propriétés
•L’environnement n’est pas dans la boucle d’apprentissage:

c’est un apprentissage hors-ligne
•Les phases d’apprentissage et de test sont complètement
distinctes
•C’est un apprentissage hors ligne : Les phases d’apprentissage
et de test sont distinctes

L’apprentissage par renforcement
Programmation dynamique, Bellman en est l’initiateur
C’est un apprentissage dit avec un critique
Propriétés
•L’environnement est dans la boucle d’apprentissage
•C’est un apprentissage en ligne : Les phases d’apprentissage

et de test sont étroitement mêlées
•Maintenir un compromis efficace entre l’exploration et l’exploitation

Principe de l'apprentissage par renforcement
•Le système d’apprentissage effectue une action sur l'environnement
•L’action est interprétée en une récompense (positive ou négative)et

une représentation du nouvel état de l’environnement
•Cette nouvelle représentation est transmise au système

d’apprentissage.

•Le Reinforcement Learning repose sur un système de
récompenses et de pénalités
•C’est une méthode qui consiste à laisser l’algorithme

d’apprentissage apprendre de ses propres erreurs.
•S’il se trompe, il est ” pénalisé “

•Au contraire, s’il prend la bonne décision, il est ” récompensé’’
•Pour avoir plus de récompenses, le système d’apprentissage
va faire de son mieux pour optimiser sa prise de décisions
•Il va donc optimiser une fonction coût (une fonction objectif)
qui évalue l’accumulation de l’ensemble des actions réalisées
(il maximise la somme des récompenses au cours du temps)

•Le Q-Learning ( Chris Watkins )

Apprentissage non supervisé
•On l’appelle aussi auto-apprentissage
•Dans ce cas il n’y a pas de professeur, ni de critique
•C’est une forme d’apprentissage effectué uniquement à partir

de données brutes d’entrée (environnement)
Il n’y a aucune rétroaction sur le résultat de l’apprentissage

Cette forme d’apprentissage est très utilisée en classification
Tenter de comprendre les caractéristiques d’une base de données
•L’une des fonctions de l’apprentissage non supervisé est le

Clustering: regroupement des données en entités ayant des traits
communs

•Le problème de l’apprentissage non supervisé consiste à
discerner des motifs dans l’entrée quand aucune valeur de sortie
spécifique n’est donnée
•Un exemple d’application est les cartes auto-organisatrices (SOM:

(Self-Organization Maps)
•L’apprentissage non supervisé utilise souvent une règle de

compétition, le résultat est un neurone gagnant.

•Cette notion de neurone réceptif est très importante pour
la corrélation entre les données d’entrée et la topologie de la
couche de sortie
•Une compétition se fait entre les neurones réceptifs d’où sortira

Un neurone gagnant.
•Cette notion de neurone gagnant est très importante pour l’étape

d’adaptation des poids
•En effet, seuls les neurones situés autour du neurone gagnant

vont être concernés par l’adaptation des poids.

•La règle d’apprentissage (adaptation des poids) est
généralement une règle qui dérive de la règle de Hebb
•Calcul de la distance de chacun des neurones par rapport à une

entrée E={ei}
x i   e j  w ij
j
•Sélection du neurone le plus proche : Min(x)= xi
•Modification des poids pour le neurone choisi (i) et ses plus

• proches voisins (k)

L’ANN est sujet au compromis entre:
•L'exploitation (refaire des actions, dont il sait qu'elles
vont lui donner de bonnes récompenses)
•Et l'exploration (essayer de nouvelles actions, pour

apprendre de nouvelles choses)
Principaux algorithmes d'apprentissage par renforcement
•Le Temporal difference learning (TD-learning) (Richard Sutton)

•Le Q-Learning ( Chris Watkins ) (très utilisé)

Cours RNpartie 3

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours RNpartie 3

Transféré par

Droits d'auteur :

Formats disponibles

Commande Intelligente

Les réseaux de neurones (Part III)

cours IA Master AS N.Achour 1

•Ici la mémoire signifie une base de données sur l’environnement

•ci est un scalaire qui peut être égal à 1 ou 0 par exemple.

•K est un scalaire qui indique le nombre de voisins à examiner

cours IA Master AS N.Achour 2

•On utilise la distance minimale Euclidienne entre le point d et

cours IA Master AS N.Achour 3

L’algorithme KNN nécessite donc :

•Une base de données d’apprentissage

•Une fonction de distance d (Euclidienne souvent)

cours IA Master AS N.Achour 4

•L’algorithme recherche dans la base les K points les plus proches d

cours IA Master AS N.Achour 5

•C’est la plus ancienne et la plus réputée parmi les approches

•Les travaux de Hebb sont largement inspirés de l’hippocampe

cours IA Master AS N.Achour 6

•Si deux neurones de part et d’autre d’une synapse sont

•Si deux neurones de part et d’autre d’une synapse sont activés

cours IA Master AS N.Achour 7

•C’est un mécanisme qui dépend du temps.

•C’est un mécanisme localisé dans l’espace

•C’est un mécanisme interactif : il dépend des signaux de

•C’est un mécanisme corrélatif : on a l’apparition des deux

cours IA Master AS N.Achour 8

•Formulation mathématique de l’apprentissage Hebbien:

•F peut prendre plusieurs formes mathématiques, on en retient

La 1ière forme la plus simple est : wkj(n)= yk(n).xj(n)

•wkj en fonction de yk avec  x(n) comme paramètre:

•les poids wkj tendent vers des valeurs de saturation

•Réduire la vitesse de modification des poids

cours IA Master AS N.Achour 10

x et y valeurs moyennes respectives de xj et yk dans un

Dans ce cas on a un renforcement du poids synaptique

cours IA Master AS N.Achour 11

•Les travaux de Hebb sont largement inspirés de

cours IA Master AS N.Achour 12

Le professeur est en fait une base d’apprentissage ou base

•L’environnement n’est pas dans la boucle d’apprentissage:

cours IA Master AS N.Achour 14

•L’environnement est dans la boucle d’apprentissage

•C’est un apprentissage en ligne : Les phases d’apprentissage

•Maintenir un compromis efficace entre l’exploration et l’exploitation

cours IA Master AS N.Achour 15

•Le système d’apprentissage effectue une action sur l'environnement

•L’action est interprétée en une récompense (positive ou négative)et

•Cette nouvelle représentation est transmise au système

cours IA Master AS N.Achour 17

•C’est une méthode qui consiste à laisser l’algorithme

•S’il se trompe, il est ” pénalisé “

cours IA Master AS N.Achour 18

cours IA Master AS N.Achour 19

•Dans ce cas il n’y a pas de professeur, ni de critique

•C’est une forme d’apprentissage effectué uniquement à partir

Il n’y a aucune rétroaction sur le résultat de l’apprentissage

cours IA Master AS N.Achour 20

Tenter de comprendre les caractéristiques d’une base de données

•L’une des fonctions de l’apprentissage non supervisé est le

cours IA Master AS N.Achour 21

•Un exemple d’application est les cartes auto-organisatrices (SOM:

•L’apprentissage non supervisé utilise souvent une règle de

cours IA Master AS N.Achour 22