Vous êtes sur la page 1sur 31

INTRODUCTION AUX RESEAUX DE

NEURONES









MASTER

2005-2006







1. Introduction ___________________________________________________________ 3
Historique ____________________________________________________________________ 4
Analogie neurone formel et neurone biologique _____________________________________ 5
Exemple de rseaux de neurones __________________________________________________ 6
Applications ___________________________________________________________________ 7
2. Caractristiques des rseaux de neurones artificiels ___________________________ 8
2.1. Poids (w) et biais (b) dun neurone__________________________________________ 8
2.2. La fonction de sommation_________________________________________________ 8
2.3. La fonction de transfert__________________________________________________ 10
2.4. Rseaux statiques (Apprentissage par paquet ) et Rseaux dynamiques
(Apprentissage squentiel ) ___________________________________________________ 11
3. Les diffrents types de rseaux de neurones et leurs applications ________________ 12
3.1. Le perceptron __________________________________________________________ 12
3.1.1. Description _________________________________________________________________ 12
3.1.2. Loi dapprentissage du perceptron _______________________________________________ 12
3.2. Les rseaux (filtres) linaires _____________________________________________ 13
3.2.1. Description _________________________________________________________________ 13
3.2.2. Algorithme dapprentissage (LMS ou Windrow-Hoff algorithme)_______________________ 13
3.3. Le perceptron multicouche _______________________________________________ 15
3.3.1. Description _________________________________________________________________ 15
3.3.2. La rtro propagation ou algorithme dapprentissage de Backpropagation ______________ 15
3.3.3. Amlioration de la gnralisation (ou le dilemme biais/variance) _______________________ 16
3.3.4. Applications ________________________________________________________________ 17
3.4. Les rseaux de neurones fonctions radiales de base (Radial Basis Network) _____ 23
3.4.1. Description _________________________________________________________________ 23
3.4.2. Les rseaux de neurones rgression gnralise (Generalized Regression Networks) _______ 24
3.4.3. Les rseaux de neurones probabilistes (Probabilistic Neural Networks)___________________ 25
3.5. Les rseaux de neurones comptitifs ou cartes auto organisatrices ______________ 26
3.5.1. Rseaux de neurone comptitif ou rseaux de Kohonen (loi dapprentissage de Kohonen) ____ 26
3.5.2. Les cartes auto organisatrices ___________________________________________________ 27
3.5.3. Les LVQ rseaux de neurones___________________________________________________ 29
3.6. Les rseaux rcurents ___________________________________________________ 30
3.6.1. Rseaux de Elman____________________________________________________________ 30
3.6.2. Rseaux de Hopfield __________________________________________________________ 31















1. Introduction


Les rseaux de neurones sont composs dlments simples (ou neurones) fonctionnant en
parallle. Ces lments ont t fortement inspirs par le systme nerveux biologique. Comme
dans la nature, le fonctionnement du rseau (de neurone) est fortement influenc par la
connections des lments entre eux. On peut entraner un rseau de neurone pour une tche
spcifique (reconnaissance de caractres par exemple) en ajustant les valeurs des connections
(ou poids) entre les lments (neurone).
En gnral, lapprentissage des rseaux de neurones est effectu de sorte que pour une entre
particulire prsente au rseau corresponde une cible spcifique. Lajustement des poids se
fait par comparaison entre la rponse du rseau (ou sortie) et la cible, jusqu ce que la sortie
corresponde (au mieux ?) la cible. On utilise pour ce type dapprentissage dit supervis un
nombre consquent de pair entre/sortie.
Lapprentissage par paquet (batch training) du rseau consiste ajuster les poids et biais
en prsentant les vecteurs dentre/sortie de tout le jeu de donnes.
Lapprentissage pas pas ou squentiel (incremental training) consiste ajuster les poids
et biais en prsentant les composantes du vecteur dentre/sortie les unes aprs les autres. Ce
type dapprentissage est souvent qualifi dapprentissage en ligne ( on line training) ou
adaptatif ( adaptive training).
Lapprentissage permet aux rseaux de neurones de raliser des taches complexes dans
diffrents types dapplication (classification, identification, reconnaissance de caractres, de
la voix, vision, systme de contrle). Ces rseaux de neurones peuvent souvent apporter
une solution simple des problmes encore trop complexes ne pouvant tre rsolus
rapidement par les ordinateurs actuels (puissance de calcul insuffisante) ou par notre manque
de connaissances.
La mthode dapprentissage dite supervis est souvent utilise mais des techniques
dapprentissage non supervis existent pour des rseaux de neurones spcifiques. Ces rseaux
peuvent, par exemple, identifier des groupes de donnes (rseaux de Hopfield).
Les rseaux de neurones ont une histoire relativement jeune (environ 50 ans) et les
applications intressantes des rseaux de neurones nont vu le jour quil une vingtaine
danne (dveloppement de linformatique).
Lobjectif de ce cours (de 2 heures) est de prsenter (sommairement) les grands types de
rseaux de neurones, leurs applications et ventuellement les rgles et algorithmes
dapprentissage. On sattardera un petit peu plus sur le perceptron multicouche. Les figures de
ce cours sont issus du livre Neural Network Toolbox fournit par le logiciel Matlab et des
recherches effectues au Laboratoire de Mtorologie Physique.





Historique

Le champ des rseaux neuronaux va dmarrer par la prsentation en 1943 par W. McCulloch
et W. Pitts du neurone formel qui est une abstraction du neurone physiologique. Le
retentissement va tre norme. Par cette prsentation, ils veulent dmontrer que le cerveau est
quivalent une machine de Turing, la pense devient alors purement des mcanismes
matriels et logiques.
Une machine de Turing se rsume une tte de lecture comportant un nombre fini dtats
internes et un ruban. La puissance de lanalyse de Turing (1912-1954) tient au fait que sa
tte de lecture ne lit quun seul symbole la fois, et que cette lecture, associe la table
dtats adquate, suffit effectuer toutes les oprations possibles. La Machine de Turing est
toutefois une machine imaginaire, abstraite, et idale. Elle na pu tre construite. Son
fonctionnement implique en effet davoir un ruban extensible volont donc infini! La
combinaison de cette mmoire infinie et dun nombre dtats fini a cependant apport la
preuve que, si un problme est calculable, alors il existe une machine pour le rsoudre. Ds
lors, une MACHINE, reprenant les rgles de toutes les autres, est UNIVERSELLE .)
En 1949, D. Hebb prsente dans son ouvrage The Organization of Behavior une rgle
dapprentissage. De nombreux modles de rseaux aujourdhui sinspirent encore de la rgle
de Hebb.
En 1958, F. Rosenblatt dveloppe le modle du perceptron. Cest un rseau de neurones
inspir du systme visuel. Il possde deux couches de neurones : une couche de perception et
une couche lie la prise de dcision. Cest le premier systme artificiel capable dapprendre
par exprience.
Dans la mme priode, Le modle de LAdaline (ADAptive LINar Element) a t prsent
par B. Widrow et Hoff. Ce modle sera par la suite le modle de base des rseaux multi-
couches.
En 1969, M. Minsky et S. Papert publient une critique des proprits du Perceptron. Cela va
avoir une grande incidence sur la recherche dans ce domaine. Elle va fortement diminuer
jusquen 1972, o T. Kohonen prsente ses travaux sur les mmoires associatives et propose
des applications la reconnaissance de formes.
Cest en 1982 que J. Hopfield prsente son tude dun rseau compltement reboucl, dont il
analyse la dynamique.
















Analogie neurone formel et neurone biologique

























Exemple de rseaux de neurones





Rseau entirement boucl (carte
topologique)


Rseaux avec connections arrire (rseaux
rcurrent ou feedback










Rseau ordonn sans connexion arrire (rseau feed-forward)



Applications


Arospatial : pilotage automatique, simulation du vol
Automobile : systme de guidage automatique,
Dfense : guidage de missile, suivi de cible, reconnaissance du visage, radar, sonar,
lidar, traitement du signal, compression de donnes, suppression du bruit
Electronique : prdiction de la squence dun code, vision machine, synthtiseur
vocal, modle non linaire,
Finance : Prvision du cot de la vie
Secteur mdical : Analyse EEC et ECG
Tlcommunications : Compression de donnes







2. Caractristiques des rseaux de neurones artificiels


2.1. Poids (w) et biais (b) dun neurone




2.2. La fonction de sommation












Lentre dun neurone contient le biais et la somme des ses poids. La sortie dun neurone
dpend de lentre du neurone et de sa fonction de transfert f .


























2.3. La fonction de transfert



Fonction seuil

Tangente hyperbolique

Fonction Gaussienne



Pas unitaire

Sigmode

Linaire Seuille

Gaussienne

Identit f (x) = x











2.4. Rseaux statiques (Apprentissage par paquet ) et Rseaux dynamiques
(Apprentissage squentiel )


Le format des donnes dentre va affecter lvolution des poids et biais des rseaux de
neurones lors de leur apprentissage.
Un rseau dit statique est un rseau qui ne contient pas de connexion arrires (feedback or
delay). Par consquent, on peut lui prsenter les donnes en entre dans nimporte quel ordre,
cela ninfluencera pas lvolution de ses poids lors de la phase dapprentissage. Il est alors
prfrable de lui donner tout le jeu de donne en un seul coup lors de la phase
dapprentissage. On parle alors dapprentissage par paquet ( batch training ). Les rseaux
feedforward ne peuvent pas simuler des processus dpendant du temps.
Par contre, si lon veut simuler un processus qui dpend du temps, alors on pourra utiliser un
rseau de neurones contenant des connections arrires. Lordre de prsentation du jeu de
donnes au rseau de neurone sera alors primordial. On parle alors dapprentissage squentiel.

































3. Les diffrents types de rseaux de neurones et leurs applications
3.1. Le perceptron
3.1.1. Description



3.1.2. Loi dapprentissage du perceptron

Soient p et t les vecteurs dentre et sortie cible utiliss pour lapprentissage du perceptron et
a est rponse du perceptron. Lvolution de la valeur des poids W et des biais b du perceptron
vont varier, chaque fois (nombre de epoch) que les vecteurs dentre sont prsents au
perceptron, selon la rgle
( )
T T
ep p a t W = = et ( ) e a t b = = ) 1 ( ,
donc on aura :

+ =
+ =
e b b
ep W W
old new
T old new












Exercice : Dterminez un ensemble de poids (et une valeur de seuil) qui va produire la
classification suivante :
x1 x2 sortie
-0.2 0.5 0
0.2 -0.5 0
0.8 -0.8 1
0.8 0.8 1



3.2. Les rseaux (filtres) linaires

3.2.1. Description


3.2.2. Algorithme dapprentissage (LMS ou Windrow-Hoff algorithme)

Soient p et t les vecteurs dentre et sortie cible utiliss pour lapprentissage du rseau et a est
la rponse du rseau. Lobjectif des de minimiser la fonction cot F (erreur quadratique
moyenne entre entres et rponses du rseau) dfinie comme :
( ) ( ) | | ( ) | |
2
1
2
1
1 1

= =
= =
Q
k
Q
k
k e
Q
k a k t
Q
F ,

Q tant le nombre dexemples. Cette minimisation se fait selon une rgle delta :

W
F
W

= .

Lalgorithme LMS (Least Mean Squared) estime la k
ime
itration lerreur quadratique
moyenne en calculant la drive des erreurs quadratiques moyennes par rapport au poids
et biais du rseau. Ainsi :
2
e

( )
( )
( )
( )
( )
( )
R j
b
k e
k e
b
k e
w
k e
k e
w
k e
j j
... 1 pour
2
2
2
2
=



or

( ) ( ) ( ) | | ( ) ( ) ( ) | | ( )
( )
j
R
i
i i
j j j j
w
b k p w
w
k t
w
b k Wp k t
w
k a k t
w
k e

+
=


=1


donc on peut simplifier par

( )
( )
( )
R j
b
k e
k p
w
k e
j
j
... 1 pour
1
=




Cela veut dire que les poids et les biais du rseau doivent changer de

( ) ( ) k p k e 2 et ( ) k e 2 ,

o est le taux dapprentissage. Pour le cas de plusieurs neurones, on peut crire

( ) ( ) ( ) ( )
( ) ( ) ( )

+ = +
+ = +
k e k b k b
k p k e k W k W
T

2 1
2 1



Cela revient au postulat (rgle) de Hebb : si des neurones, de part et dautre dune synapse,
sont activs de manire synchrone et rpte, la force de la connexion synaptique va aller
croissant .

3.3. Le perceptron multicouche

3.3.1. Description




3.3.2. La rtro propagation ou algorithme dapprentissage de Backpropagation

La rtro propagation a t cre en gnralisant la loi dapprentissage de Widrow-Hoff des
rseaux de neurones multicouches constitus de fonctions de transfert diffrentiables. Les
vecteurs dentres et les vecteurs cibles correspondant sont utiliss pour apprendre le rseau.
Les rseaux de neurones constitus de biais et de fonctions de transfert sigmodale et une
couche de sortie constitue de fonctions de transfert linaires sont capables dapproximer
nimporte quelle fonction possdant un nombre fini de discontinuit.
La rgle delta impose toujours
W
F
W

= . La difficult rside toujours dans le calcul


de
W
F

.
La rtro propagation standard est un algorithme de descente du gradient, comme la loi
dapprentissage de Widrow-Hoff, dans lequel les poids du rseaux sont ajusts dans le sens du
gradient ngatif de la fonction cot. Le terme de rtro propagation veut dire que le gradient est
calcul pour des rseaux multicouches non linaires. De nombreuses techniques existent, plus
ou moins rapides, performantes et gourmandes en mmoire vive. Il apparat que la technique
de Levenberg-Marquardt est un algorithme trs rapide.








3.3.3. Amlioration de la gnralisation (ou le dilemme biais/variance)

Un problme qui apparat lors dun apprentissage est le problme du sur apprentissage. Si le
rseau de neurone apprend par cur, il donnera de mauvais rsultats quand on lui prsentera
des donnes un peu diffrentes. Des mthodes existent pour optimiser la phase
dapprentissage afin que le phnomne de sur ou sous apprentissage disparaisse, dont la
technique de learly stopping et de la rgularisation.


3.3.3.1.Rgularisation

La technique de rgularisation consiste imposer des contraintes, donc apporter une
information supplmentaire, sur lvolution des poids du rseau de neurones. Par exemple, on
peut volontairement pnaliser les poids trop grands selon la formule :
( )
2 1

=
i erreur
e
N
F et ( )
2 1

=
i poids
w
n
F donc on impose

( )
Poids erreur new
F F F + = 1

o est un paramtre doptimisation. Mais le problme rside dans le choix de la valeur de
ce paramtre.
La rgularisation bayesienne, qui suppose que les poids et les biais suivent des distributions
spcifiques (les paramtres sont estims au fur et mesure de lapprentissage) donne en
gnral des rsultats trs satisfaisants.

+
Vecteur dentres
Gnralisation :
Levenberg-Marquardt
Levenberg-Marquardt + rgularisation bayesienne


3.3.3.2. Early stopping

Cette technique consiste diviser les donnes disponibles en trois lots distincts. Le premier lot
sert entraner le rseau de neurone. Le second lot sert la validation du rseau. Lerreur de
validation doit normalement diminuer au cours du processus dapprentissage (la variance
diminue). Mais quand le rseau commence apprendre par cur (le biais augmente, alors
lerreur de validation recommence crotre), on arrte alors la phase dapprentissage. Le
troisime lot sert vrifier que la gnralisation est correcte.

3.3.3.3. Normalisation des donnes

Afin damliorer la performance des rseaux neuronaux multicouches, il est prfrable de
normaliser les donnes dentre et de sortie de telle sorte quelles se trouvent dans lintervalle
[-1 1].
3.3.3.4. Recherche de linformation

Avant de vouloir utiliser un rseau de neurones en tant quapproximation de fonction, il est
ncessaire de faire des tudes de sensibilits afin de dterminer les paramtres pertinents qui
doivent tre gards, et de supprimer les autres, qui ne ferait que diminuer la performance du
rseau. Une autre solution peut aussi consister faire une analyse en composante principale
sur le jeu de donnes (rduction de linformation).
3.3.4. Applications

3.3.4.1.Restitution de paramtres nuageux partir dimage satellite


Champ 2D de lpaisseur optique dun nuage htrogne (modle gaussien) et le champ de
radiance simul par un code radiatif 3D


Corrections
Vecteur
dentres
Vecteur de
sorties










3.3.4.2.Simulation de radiances au sommet dun nuage htrogne


Interactions rayonnement visible - htrognits nuageuses
P
N
Petite chelle
Grande chelle
Longueur/Hauteur < 0.2
Longueur/Hauteur > 20





z
View

Valeur des poids de 1 neurone
(;
Solar

(
0
=0;

0
=60)

en fonction de la distance (m)

0
partir du pixel central
y

x







Cibles
Radiances
SHDOM
Rseau de neurones
Entre
Sortie incluant des connexions
Compa
-
(appeles poids)

entre les neurones

Radiance
MNN
raison
Radiance
IPA
Ajustement
des poids


60
0

=
=
Observation
au nadir
Technique du pixel
Modle de transfert
Perceptrons multicouche
indpendant
radiatif 3D
Observation

Epaisseur optique moyenne =10; Rayon effectif=10um
Incidence solaire=60; albdo terrestre=0; couverture fractionnaire = 50 %


3.4. Les rseaux de neurones fonctions radiales de base (Radial Basis Network)


3.4.1. Description



Ici, la fonction de transfert est une exponentielle. Loprateur sommation disparat au profit de
lopration multiplication (lment par lment des matrices).
Les rseaux bases radiales ncessitent beaucoup plus de neurones quun rseau feedforward.


















3.4.2. Les rseaux de neurones rgression gnralise (Generalized Regression
Networks)




Dans un rseau rgression gnralise (GRNN), il y a un rseau base radiale auquel on
ajoute une couche de sortie constitue dune fonction de transfert linaire. nprod signifie une
multiplication lment par lment, moralis par la somme des lments de a.
Ces rseaux sont aussi utiliss en tant quapproximation de fonction, mais sont plus lourds
dutilisation que les perceptrons multicouches.






3.4.3. Les rseaux de neurones probabilistes (Probabilistic Neural Networks)





Ces rseaux sont gnralement utiliss pour des problmes de classification. La premire
couche qui est un rseau base radiale, donne une information sur la ressemblance entre la
donne dentre et le jeu de donnes utilis lors de lapprentissage. La deuxime couche
produit comme sortie un vecteur de probabilit. Finalement, une fonction de transfert
comptitive produit 1 ou 0.












3.5. 3.5. Les rseaux de neurones comptitifs ou cartes auto organisatrices Les rseaux de neurones comptitifs ou cartes auto organisatrices

Ces rseaux peuvent dtecter des rgularits et des corrlations dans les donnes dentres et
peuvent adapter leurs rponses en fonction de ces entres.
Ces rseaux peuvent dtecter des rgularits et des corrlations dans les donnes dentres et
peuvent adapter leurs rponses en fonction de ces entres.
Les neurones de ces rseaux peuvent reconnatre des groupes dans les vecteurs dentre. Les
cartes auto organisatrices peuvent apprendre reconnatre des groupes de vecteurs similaires,
ce qui entrane que les neurones physiquement proches les uns des autres dans la couche de
neurones rpondre ces vecteurs dentre similaires.
Les neurones de ces rseaux peuvent reconnatre des groupes dans les vecteurs dentre. Les
cartes auto organisatrices peuvent apprendre reconnatre des groupes de vecteurs similaires,
ce qui entrane que les neurones physiquement proches les uns des autres dans la couche de
neurones rpondre ces vecteurs dentre similaires.
La LVQ mthode (Learning Vector Quantization) permet dentraner les rseaux de neurones
comptitifs de manire supervise. Comme la classification se fait par le calcul de distance
entre les poids des vecteurs dentre, il ny a pas de mcanisme strict qui permettent de dfinir
si les vecteurs dentrs sont dans la mmes classe ou non. Celles-ci peuvent tre imposes par
lutilisateur.
La LVQ mthode (Learning Vector Quantization) permet dentraner les rseaux de neurones
comptitifs de manire supervise. Comme la classification se fait par le calcul de distance
entre les poids des vecteurs dentre, il ny a pas de mcanisme strict qui permettent de dfinir
si les vecteurs dentrs sont dans la mmes classe ou non. Celles-ci peuvent tre imposes par
lutilisateur.


3.5.1. Rseaux de neurone comptitif ou rseaux de Kohonen (loi dapprentissage de
Kohonen)
3.5.1. Rseaux de neurone comptitif ou rseaux de Kohonen (loi dapprentissage de
Kohonen)





Les poids des neurones vainqueurs sont ajusts suivant la loi de Kohonen qui impose que le
poids dun neurone qui est proche des donnes dentre sera ajust la prochaine tape. Ainsi,
ce type de rseau est capable dapprendre catgoriser des vecteurs dentre.
Lvolution de la colonne i de la matrice des poids du rseau est dicte par la rgle de
Kohonen :

( ) ( ) ( ) ( ) | | 1 1 + = q W q p q W q W
i i i


Ainsi, sil y a assez dexemples et de neurones, il se peut mme que la sortie des neurones
vainqueurs soit 1 et celle des autres 0.

3.5.2. Les cartes auto organisatrices

Les cartes auto organisatrices apprennent classifier des vecteurs dentre selon la faon dont
ils sont groups dans lespace. Ceci diffre des rseaux comptitifs o les neurones et leurs
voisins apprennent reconnatre des groupements dans lespace dentre. En effet, la rgle
dvolution des poids des neurones suit la rgle de Kohonen sauf quau lieu dactiver lunique
neurone vainqueur, tous les neurones se trouvant au voisinage (infrieur une distance d par
exemple), seront eux aussi activs.
Ces rseaux sont trs utiliss pour lanalyse de donnes. Ils permettent de cartographier en
deux dimensions et de distinguer des groupes dans des ensembles de donnes (Voir lexemple
graphique ci-dessous).




27

40 prsentations

120 prsentations

500 prsentations

5000 prsentations




















28
3.5.3. Les LVQ rseaux de neurones


Les rseaux LVQ ont une premire couche de neurones comptitifs et une seconde constitue
de neurone fonction de transfert linaire. Ce type de rseaux apprend classifier mais grce
la seconde couche, ce rseau classera selon les critres de classification imposs par
lutilisateur.



















29


3.6. Les rseaux rcurents


3.6.1. Rseaux de Elman




Le rseau de Elman des neurones tansig dans sa couche cache rcurrente et un neurone
linaire dans sa couche de sortie. Ce type de rseau peut aussi approximer nimporte quelle
type de fonction pourvu que la couche cache ait assez de neurones.
Puisque ce rseau peut enregistrer de linformation pour une rfrence future, il est capable
dapprendre des associations aussi bien temporelles que spatiales.










30

3.6.2. Rseaux de Hopfield







Ces rseaux sont des rseaux rcursifs, un peu plus complexes que les perceptrons
multicouches. Chaque cellule est connecte toutes les autres et les changements de valeurs
de cellules senchanent en cascade jusqu un tat stable. Ces rseaux sont bien adapts la
reconnaissance de formes.


31