Vous êtes sur la page 1sur 26

Commande Intelligente

Cours n°6

Les réseaux de neurones (Part III)


Algorithmes

cours IA Master AS N.Achour 1


•Algorithme d’apprentissage basé sur la mémoire

•Ici la mémoire signifie une base de données sur l’environnement


présentée sous la forme

( xi , ci ) ci étant la classe i.

•ci est un scalaire qui peut être égal à 1 ou 0 par exemple.


•En général ce type d’apprentissage est adéquat pour des problèmes
de classification
•L’algorithme est basé sur la notion de voisinage
•L’un des algorithmes le plus connu est le KNN (K Nearest
Neighbourhood)

•K est un scalaire qui indique le nombre de voisins à examiner

cours IA Master AS N.Achour 2


Exemple
•K=3, déterminer la classe d’un élément ‘’d’’ n’appartenant
pas à la base de données

•On utilise la distance minimale Euclidienne entre le point d et


les 3 les plus proches voisins
dans ce cas la classe est 1

cours IA Master AS N.Achour 3


L’objectif de l’algorithme est de classer des exemples
non étiquetés sur la base de leurs similarités avec les
exemples de la base de données.

L’algorithme KNN nécessite donc :

•Une base de données d’apprentissage

•Une fonction de distance d (Euclidienne souvent)

•Un entier K

cours IA Master AS N.Achour 4


Pour tout nouveau point xtest pour lequel
l’algorithme doit prendre une décision (de quelle
classe il est ?)

•L’algorithme recherche dans la base les K points les plus proches d


xtest au sens de la distance Euclidienne ‘’d’’

•Attribue xtest à la classe qui est la plus fréquente chez les voisins

cours IA Master AS N.Achour 5


L’apprentissage Hebbien
•Ainsi appelé par rapport à son inventeur (Donald Hebb, 1949)

•C’est la plus ancienne et la plus réputée parmi les approches


d’apprentissage.

•Les travaux de Hebb sont largement inspirés de l’hippocampe


du cerveau qui joue un grand rôle dans l’apprentissage
Postulat de Hebb
Si un axone d’une cellule A est suffisamment proche d’une
cellule B pour l’exciter et si ce phénomène se répète assez
souvent, alors l’efficacité de cet axone est renforcée.

cours IA Master AS N.Achour 6


Dans le contexte des ANN, on dira :

•Si deux neurones de part et d’autre d’une synapse sont


activés simultanément (d’une façon synchrone) alors la force
de cette synapse augmente

•Si deux neurones de part et d’autre d’une synapse sont activés


d’une manière asynchrone alors la force de cette synapse est
affaiblie ou alors la synapse est carrément éliminée

cours IA Master AS N.Achour 7


Donc :

•C’est un mécanisme qui dépend du temps.

•C’est un mécanisme localisé dans l’espace

•C’est un mécanisme interactif : il dépend des signaux de


chaque côté de la synapse

•C’est un mécanisme corrélatif : on a l’apparition des deux


signaux pré et post synaptiques simultanément et directement
suivie du changement des poids synaptiques.

cours IA Master AS N.Achour 8


Algorithme de Hebb

xj(n) wkj k
j yk(n)

•Formulation mathématique de l’apprentissage Hebbien:

wkj(n)=F(yk(n).xj(n))

•F peut prendre plusieurs formes mathématiques, on en retient


deux :

La 1ière forme la plus simple est : wkj(n)= yk(n).xj(n)


cours IA Master AS N.Achour 9
Avec >0 c’est le taux d’apprentissage

Problème

•wkj en fonction de yk avec  x(n) comme paramètre:


on obtient une droite

•les poids wkj tendent vers des valeurs de saturation

Solution

•Réduire la vitesse de modification des poids


•Possibilité que les poids puissent diminuer et augmenter

cours IA Master AS N.Achour 10


La 2ième forme fait intervenir la notion de covariance

w kj (n )   ( x j  x )( y k  y)

x et y valeurs moyennes respectives de xj et yk dans un


intervalle de temps

w kj (n ) devient a lg ébrique

w kj (n )  0 si x j  x et y k  y

Dans ce cas on a un renforcement du poids synaptique

cours IA Master AS N.Achour 11



 x j  x et y k  y 
 

 
w kj (n )  0 si ou 



 
x j  x et y k  y 
 

•Les travaux de Hebb sont largement inspirés de


l’hippocampe du cerveau qui joue un grand rôle dans
l’apprentissage

cours IA Master AS N.Achour 12


Les types d’apprentissage
Apprentissage supervisé
•L’apprentissage par correction d’erreur
C’est un apprentissage dit avec un professeur (teacher)

Le professeur est en fait une base d’apprentissage ou base


d’exemples

Propriétés

•L’environnement n’est pas dans la boucle d’apprentissage:


c’est un apprentissage hors-ligne
•Les phases d’apprentissage et de test sont complètement
distinctes
cours IA Master AS N.Achour 13
•C’est un apprentissage hors ligne : Les phases d’apprentissage
et de test sont distinctes

cours IA Master AS N.Achour 14


L’apprentissage par renforcement
Programmation dynamique, Bellman en est l’initiateur
C’est un apprentissage dit avec un critique
Propriétés

•L’environnement est dans la boucle d’apprentissage

•C’est un apprentissage en ligne : Les phases d’apprentissage


et de test sont étroitement mêlées

•Maintenir un compromis efficace entre l’exploration et l’exploitation

cours IA Master AS N.Achour 15


cours IA Master AS N.Achour 16
Principe de l'apprentissage par renforcement

•Le système d’apprentissage effectue une action sur l'environnement

•L’action est interprétée en une récompense (positive ou négative)et


une représentation du nouvel état de l’environnement

•Cette nouvelle représentation est transmise au système


d’apprentissage.

cours IA Master AS N.Achour 17


•Le Reinforcement Learning repose sur un système de
récompenses et de pénalités

•C’est une méthode qui consiste à laisser l’algorithme


d’apprentissage apprendre de ses propres erreurs.

•S’il se trompe, il est ” pénalisé “


•Au contraire, s’il prend la bonne décision, il est ” récompensé’’
•Pour avoir plus de récompenses, le système d’apprentissage
va faire de son mieux pour optimiser sa prise de décisions
•Il va donc optimiser une fonction coût (une fonction objectif)
qui évalue l’accumulation de l’ensemble des actions réalisées
(il maximise la somme des récompenses au cours du temps)

cours IA Master AS N.Achour 18


•Le Q-Learning ( Chris Watkins )

cours IA Master AS N.Achour 19


Apprentissage non supervisé
•On l’appelle aussi auto-apprentissage

•Dans ce cas il n’y a pas de professeur, ni de critique

•C’est une forme d’apprentissage effectué uniquement à partir


de données brutes d’entrée (environnement)

Il n’y a aucune rétroaction sur le résultat de l’apprentissage

cours IA Master AS N.Achour 20


Cette forme d’apprentissage est très utilisée en classification

Tenter de comprendre les caractéristiques d’une base de données

•L’une des fonctions de l’apprentissage non supervisé est le


Clustering: regroupement des données en entités ayant des traits
communs

cours IA Master AS N.Achour 21


•Le problème de l’apprentissage non supervisé consiste à
discerner des motifs dans l’entrée quand aucune valeur de sortie
spécifique n’est donnée

•Un exemple d’application est les cartes auto-organisatrices (SOM:


(Self-Organization Maps)

•L’apprentissage non supervisé utilise souvent une règle de


compétition, le résultat est un neurone gagnant.

cours IA Master AS N.Achour 22


cours IA Master AS N.Achour 23
•Cette notion de neurone réceptif est très importante pour
la corrélation entre les données d’entrée et la topologie de la
couche de sortie

•Une compétition se fait entre les neurones réceptifs d’où sortira


Un neurone gagnant.

•Cette notion de neurone gagnant est très importante pour l’étape


d’adaptation des poids

•En effet, seuls les neurones situés autour du neurone gagnant


vont être concernés par l’adaptation des poids.

cours IA Master AS N.Achour 24


•La règle d’apprentissage (adaptation des poids) est
généralement une règle qui dérive de la règle de Hebb

•Calcul de la distance de chacun des neurones par rapport à une


entrée E={ei}

x i   e j  w ij
j

•Sélection du neurone le plus proche : Min(x)= xi

•Modification des poids pour le neurone choisi (i) et ses plus


• proches voisins (k)

cours IA Master AS N.Achour 25


L’ANN est sujet au compromis entre:
•L'exploitation (refaire des actions, dont il sait qu'elles
vont lui donner de bonnes récompenses)

•Et l'exploration (essayer de nouvelles actions, pour


apprendre de nouvelles choses)

Principaux algorithmes d'apprentissage par renforcement

•Le Temporal difference learning (TD-learning) (Richard Sutton)


•Le Q-Learning ( Chris Watkins ) (très utilisé)

cours IA Master AS N.Achour 26

Vous aimerez peut-être aussi