Mejia 1-Part-I These 1992

I
Les Rseaux
de Neurones
2. Prsentation des rseaux neuronaux
2.1. Introduction
2.2. Les neurones
2.3. Architectures simples
2.4. Architectures multicouches
3. Apprentissage supervis
3.1. Introduction
3.2. Associer des donnes
3.3. Classification
3.4. LAdaline et lalgorithme LMSE
3.5. La rtro-propagation du gradient
3.6. Lapproche modulaire
4. Proprits thoriques des MLP
4.1. Approximation des fonctions par rseaux
multicouches
4.2. Proprits des rseaux pris en tant que
classifieurs
4.3. Utilisation dun MLP en tant que classifieur afin
de modliser les fonctions de transfert
complexes
4.4. Pondration de la mtrique
5. Simulateurs de rseaux neuronaux
5.1. La simulation des modles connexionnistes
5.2. Le simulateur SN
5.3. La bibliothque Galatea
22
I Les Rseaux de Neurones
2. Prsentation des rseaux neuronaux
On pense communment que lordinateur de lavenir sera
massivement parallle et tolrera les erreurs. Toutefois la
conception dune telle machine stant avre tonnamment
difficile, nous aurions abandonn depuis longtemps si le cerveau
ntait pas une preuve vivante que le traitement parallle et tolrant
les erreurs est possible et trs efficace.
John S. Denker, 1985
(Dans Les Rves de la Raison, Heinz Pagels, pp.118, InterEditions, 1990)
2. 1. Introduction
Les r seaux de neur ones ar ti fi ci el s ou r seaux connexi onni stes sont fonds
sur des modl es qui tentent dexpl i quer comment l es cel l ul es du cerveau et
l eurs i nterconnexi ons parvi ennent, dun poi nt de vue gl obal e, excuter des
cal cul s compl exes.
Ces systmes qui stockent et retrouvent l i nformati on de mani re
si mi l ai re au cerveau sont parti cul i rement adapts aux trai tements en
par al l l e de pr obl mes compl exes comme l a r econnai ssance automati que de l a
parol e, l a reconnai ssance de vi sages ou bi en l a si mul ati on de foncti ons de
transfert. I l s offrent donc un nouveau moyen de trai tement de l i nfor mati on
uti l i s en r econnai ssance de for mes (vi si on, i mage, par ol e, etc).
Les archi tectures connexi onni stes si nspi rent de l organi sati on neuronal e
du cerveau humai n. Dans l es rseaux de neurones arti fi ci el s de nombreux
processeurs appel s cel l ul es ou uni ts, capabl es de ral i ser des cal cul s
l mentai r es, sont str uctur s en couches successi ves capabl es dchanger des
i nformati ons au moyen de connexi ons qui l es rel i ent. On di t de ces uni ts
quel l es mi ment l es neur ones bi ol ogi ques.
24
Grce ce paral l l i sme massi f, on peut esprer pouvoi r surmonter l es
probl mes poss par des temps dattente i mportants caractri sti ques l a
rsol uti on de tches compl exes par des mthodes numri ques (tel que de
tches en r econnai ssance de vi ssages, de voi x, ).
Nous donnerons dans ce chapi tre l es noti ons de base pour l a
compr hensi on des r seaux de neur ones.
Ce chapi tre est organi s de l a faon sui vante. Nous prsenterons tout
dabord l l ment de base dun rseau connexi onni ste : l e neurone ou
pr ocesseur l mentai r e.
Ces l ments sont assembl s sui vant une certai ne archi tecture, dont nous
di scuterons l e rl e, pour former un rseau. Cette archi tecture dfi ni t une
composi ti on de foncti ons l mentai res qui peut tre uti l i se de pl usi eurs
faons l or s du foncti onnement du rseau, cest ce quon appel l e l a dynami que
du r seau.
Enfi n, et cest certai nement un des poi nts l es pl us i mportants, nous
trai tons de l apprenti ssage dans ces rseaux, cest di re de l a faon dont on
fi xe l es par amtr es des di ffr ents composants du r seau afi n qui l accompl i sse
une tche donne.
2. 2. Les neurones
Un rseau connexi onni ste est consti tu dl ments extrmement si mpl es
qui i nteragi ssent pour donner au rseau son comportement gl obal . Dans l es
modl es connexi onni stes, ces l ments sont des processeurs l mentai r es
dont l a dfi ni ti on est fai te en anal ogi e avec l es cel l ul es nerveuses, l es
neur ones.
Ces uni ts de base reoi vent des si gnaux provenant de l extri eur ou
dautr es neur ones du r seau. I l s cal cul ent une foncti on, si mpl e en gnral , de
ces si gnaux et envoi ent l eur tour des si gnaux vers un ou pl usi eurs autres
neur ones ou ver s l extr i eur . La Fi gur e 2.1 montr e un schma comportant l es
or ganes pr i nci paux dun neur one ar ti fi ci el .
Nous caractri sons un neurone par troi s concepts : son tat, ses
connexi ons avec dautres neurones et sa foncti on de transi ti on. Les secti ons
25
sui vantes dcri vent ces concepts. Nous dtai l l erons ensui te l a propagati on
des tats des neur ones l i ntr i eur dun r seau.
2. 2. 1. Ltat des neurones
Un neur one ar ti fi ci el est un l ment qui possde un tat i nterne. I l reoi t
des si gnaux qui l ui per mettent ventuel l ement, de changer dtat.
Nous noterons S l ensembl e des tats possi bl es dun neurone. S pourra
tr e par exempl e {0, 1} o 0 ser a i nter pr t comme l tat i nacti f et 1 l tat acti f.
S pourra gal ement prendre un nombre pl us grand de val eurs {0, 1, , P}
pour une i mage en P + 1 ni veaux de gri s ou mme, par extensi on, un
conti nuum de val eurs [-1, 1] ou R tout enti er. Dans une appl i cati on en
tl dtecti on l es val eurs correspondant aux si gnaux cho-radar peuvent tre
reprsentes l ai de de neurones val eurs conti nues. Ltat dun neurone
peut al ors tre dfi ni t dans l i nterval l e S = [-1, 1], o -1 reprsente l a val eur
mi ni mum du si gnal , et 1 l e maxi mum.
Un neurone possde une foncti on qui l ui permet de changer dtat en
foncti on des si gnaux qui l r eoi t : cest sa foncti on de tr ansi ti on.
s
i
s
1
s
2
s
n
Figure 2.1 : reprsentation dun neurone. Ltat s
i
du neurone est fonction des
entres s
1
, , s
n
. Le neurone produit une sortie qui sera transmise aux neurones
relis.
Ltat dun neurone est foncti on des tats des neurones auxquel s i l est
r el i . Pour cal cul er l tat dun neurone i l faut donc consi drer l es connexi ons
entre ce neurone et dautres neurones. Nous dfi ni rons par l a sui te l es
connexi ons entre neurones et l eur poi ds. Pui s, nous parl erons du cal cul de
l tat dun neur one.
2 Prsentation des rseaux neuronaux
26
2. 2. 2. Les connexions entre neurones
En 1943, War r en S. McCul l och et Wal ter Pi tts [McCul l och et Pi tts 43] ont
i ntrodui t l a noti on de rseaux de neurones arti fi ci el s. Leur but tai t de
reprsenter l acti vi t l ectri que des cel l ul es nerveuses du cerveau. Les
r seaux qui l s ont pr oposs, appel s rseaux neuro-logiques, tai ent composs
par l i nterconnexi on des peti tes uni ts l mentai res : l es neurones formels.
Leur modl e tai t i nspi r en par ti e des nouvel l es thori es mathmati ques des
automates tats fi ni s de l poque. Dans ce modl e, l es neurones tai ent
arrangs dune tel l e faon que l e tout formai t une machi ne capabl e, en
parti cul i er, de reconna tre des for mes
1
. Lorgani sati on des neurones dans
l es rseaux, autrement-di t l archi tecture des rseaux, a t i ci un facteur
dter mi nant pour l obtenti on de r sul tats i ntr essants.
Archi t ect ure est l e terme l e pl us gnral pour dsi gner l a faon dont sont
di sposs et connects l es di ffrents neurones qui composent un rseau. On
par l e gal ement de topologie (terme emprunt de l a thori e des graphes). Au
ni veau des neurones on parl e pl utt de voisinage. Ce terme fai t al l usi on l a
faon dont un neurone est connect dautres neurones. I l est donc en
rapport di rect avec l archi tecture du rseau. Voyons de pl us prs l a
si gni fi cati on du mot voi si nage dans une ar chi tectur e de r seaux de neur ones.
Le voisinage
Le voi si nage dun neurone est l ensembl e des neurones connects a ce
neurone. On parl e de voisinage dordre n pour un neurone i, si l y a n
neur ones connects ce neur one. Les connexi ons entr e neur ones ont souvent
un sens.
Dans l a Fi gure 2.2 nous prsentons des neurones avec des voi si nages
dor dr e 4, 8 et 6 r especti vement. Les connexi ons uti l i ses i ci nont pas de sens
parti cul i er, el l es sont bi di recti onnel l es. Ces types de voi si nages sont trs
uti l i ss, notamment dans l es modl es base dautomates cel l ul ai res
[Codd 68], [Fogel man-Soul i 85]. Dautres types de voi si nage pl us compl exes
1
Dans l es rseaux uti l i ss par McCul l och et Pi tts reconna tre une forme si gni fi ai t avoi r
une rponse vrai e dans l e neurone bool en de sorti e. I l s pouvai ent reconna tre des
formes sur l esquel l es on avai t appl i qu des transformati ons gomtri ques [McCul l och et
Pi tts 47].
27
sont possi bl es (voi r Fi gure 2.3). On peut par exempl e envi sager des
connexi ons compl tes entr e neur ones, on aur a al or s un voi si nage dordre N, N
tant l e nombr e total de neur ones du r seau (Fi gur e 2.3b).
(a) (b) (c)
Figure 2.2 : plusieurs types de voisinage entre neurones. Les neurones en gris
reprsentent le voisinage de celui du milieu.
Di ffrents types de voi si nage permettent de dfi ni r des archi tectures de
rseaux de neurones di ffrentes. Par exempl e, l a Fi gure 2.3a montre un
rseau o l es neurones sont arrangs dans une gri l l e. I ci l es connexi ons
rel i ent l es neurones ont un sens prci s. Les voi si ns l es pl us proches dans l e
sens hori zontal ou verti cal sont l es seul s rel i s au neurone du centre. La
Fi gure 2.3c prsente des neurones organi ss par couches. Les connexi ons
sont excl usi vement entre un ou pl usi eurs neurones appartenant une
couche du rseau et un neurone dune couche di ffrente. I l ny a pas de
connexi ons entr e des uni ts appar tenant l a mme couche de neur ones.
(a) (b) (c)
Figure 2.3 : organisation et voisinage dans un rseau de neurones. (a) les
connexions du rseau sont partielles, les neurones sont arrangs dans une grille et ils
ont des connexions exclusivement avec les voisins proches; (b) voisinage complet,
chaque neurone dans le rseau est connect avec la totalit des neurones du rseau;
(c) les neurones sont organiss par couches, il y a des connexions seulement entre les
neurones de couches diffrentes. En gris est signal le voisinage du neurone en noir.
28
Les connexions
Une connexi on est un l i en tabl i expl i ci tement entre deux neurones. Les
connexi ons sont aussi appel es synapses, en anal ogi e avec l e nom des
connecteur s des neur ones r el s
2
.
On note dans l a Fi gure 2.3 que l es l i ens entre neurones ont un sens,
i ndi qu par une fl che (pour spci fi er l e sens bi di recti onnel i l faut dfi ni r
deux connexi ons). Ce sens i mpl i que un fl ux di nformati on donc, une
dpendance. En effet, l tat dun neur one i est foncti on des tats des neurones
j connects i (fl ches al l ant de j i). De mme, l es tats des neurones l
auxquel s i est connect (fl ches al l ant de i l) sont i nfl uencs par l tat de i.
Ceci spci fi e encore pl us notre noti on de voi si nage qui peut tre dfi ni
fi nal ement de l a faon sui vante :
i,j N, si LIEN(j, i) j VOISINAGE(i) (2.1)
O N est l ensembl e des neurones du rseau; LIEN(j,i) est une foncti on
bool enne qui est vrai e si et seul ement si l e l i en entre l es neurones j et i,
dans l es sens j-i, exi ste; et VOISINAGE(i) reprsente l ensembl e des neurones
connects i. Notez cependant que l es neurones l auxquel s i est connect ne
sont pas compr i s dans l e voi si nage de i moi ns qui l exi ste de faon r ci pr oque
un l i en l-i.
Une connexi on entre deux neurones a une val eur numri que associ e
appel poids de connexion.
Les poids des connexions
Le poi ds de connexi on w
ij
entre deux neurones j et i peut prendre des
val eur s di scr tes dans Z ou bi en conti nues dans R. Li nfor mati on qui tr aver se
l a connexi on sera affecte par l a val eur du poi ds correspondent. Une
connexi on avec un poi ds w
ij
= 0 est qui val ente l absence de connexi on.
2
La par ti e pr i nci pal e dune cel l ul e ner veuse, ou neur one, est appel soma . El l e conti ent l es
composantes courants aux cel l ul es. La membrane cel l ul ai re qui l a recouvre forme des
r ami fi cati ons appel s dendrit es. Pour communi quer, un neurone envoi des si gnaux vers
dautres neurones travers une fi bre appel e l axone. Enfi n, cest travers des
formati ons spci al es au bout de l axone, l es synapses, que l e si gnal provenant du soma
dun neur one ar r i ve aux dendr i tes, ou au soma dautr es neur ones.
29
On dfi ni t une matri ce des poi ds de connexi ons W o l es l i gnes et l es
col onnes cor r espondent aux neur ones et chaque val eur w
ij
reprsente l e poi ds
de l a connexi on entr e l a cel l ul e j et l a cel l ul e i du r seau.
2. 2. 3. La fonction de transition
Nous nous i ntr essons i ci aux neur ones qui cal cul ent l eur tat parti r de
l i nformati on qui l s recoi vent. Nous uti l i serons par l a sui te l a notati on
sui vante :
S : l ensembl e dtats possi bl es des neur ones.
x
i
: l tat dun neur one i, o x
i
S.
A
i
: l 'acti vi t du neur one i.
w
ij
: l e poi ds de l a connexi on entr e l es neur ones j et i.
L'activit d'un neurone est cal cul e en foncti on des tats des neurones de
son voi si nage et des poi ds de l eur s connexi ons, sel on l a for mul e sui vante :
A
i
=
j
w
i j
x
j
(2.2)
Comme i l est i l l ustr dans l a Fi gure 2.4 l tat x
i
du neurone i est une
foncti on son acti vi t A
i
:
x
i
=
f
( )
A
i
(2.3)
A
i
x
1
x
2
x
n
w
i1
w
i2
w
in
x w
ij
) f(
i
A
x
i
=
A
i
=
j
j
x
i
quantit
d'information
tat du
neurone
Fi gure 2. 4 : calcul de ltat dun neurone. Ltat x
i
dun neurone i est une fonction
des tats des neurones j, de son voisinage, et des poids des connexions w
ij
.
La foncti on f, appel e fonction de transition peut avoi r pl usi eurs formes
di ffrentes. Lensembl e des tats possi bl es dpend, bi en entendu, de l a
foncti on de tr ansi ti on uti l i se.
30
Nous dcri vons par l a sui te l es foncti ons de transi ti on l es pl us uti l i ses
actuel l ement dans l e cadre des rseaux neuronaux : l a foncti on i denti t, l a
foncti on seui l et l a foncti on si gmode.
La fonction identit
Les neur ones dont l a foncti on de tr ansi ti on est l a foncti on i denti t (f
I
) sont
appel s automates linaires. Pour un tel automate, l tat est cal cul l ai de
de l quati on sui vante :
x
i
= f
I
( )
A
i
= A
i
=
j
w
i j
x
j
(2.4)
La mi se en uvre de modl es de si mul ati on fonds sur des automates
l i nai res est faci l i te par l a si mpl i ci t de l eur foncti on de transi ti on (i .e.
foncti on i denti t). En effet, l eur comportement peut tre dcri t l ai de
douti l s mathmati ques emprunts l al gbre l i nai re. Nous remarquons
que cette foncti on admet des val eurs non bornes pour l es tats, ce qui peut
entra ner des dbordements l ors des si mul ati ons. Les automates l i nai res
sont empl oys, entre autres, par T. Kohonen pour construi re son modl e de
mmoi r es associ ati ves [Kohonen 84].
La fonction seuil
Si l a foncti on de transi ti on est gal e une foncti on seui l (f
S
) on parl e
dautomates seuil. Ces automates ont t uti l i ss par McCul l och et Pi tts
dans l eur modl e dautomate for mel [McCul l och et Pi tts 43].
Pour ces automates l es tats x
i
sont bi nai res. Les ensembl es de val eurs
possi bl es l es pl us cour amment uti l i ses sont S = {-1, 1} et S = {0, 1}.
Dans un automate seui l l quati on qui dfi ni t l tat du neur one (2.4) est :
x
i
=
f
S
( )
A
i

i
= f
S
,
_
j
w
i j
x
j

i
(2.5)
31
o
i
est le seuil. Ai nsi , pour l ensembl e S = {-1, 1} :
x
i
=
'
1 si A
i

i

1 autrement
(2.6)
Ce qui veut di re que l tat du neurone i est gal -1 tant que l 'acti vi t A
i
du neur one ne dpasse pas l e seui l
i
(voi r l a Fi gur e 2.5).
x
i
=
'
1 si
j
( )
w
i j
x
j

i

0 sinon

j

( )
w
ij j
x
x
i
=
'
1 si
j
( )
w
i j
x
j

i

1 sinon

j

( )
w
ij j
x
(a) (b)
Fi gure 2. 5 : fonction seuil. Sa valeur est 1 si
i
( )
w
i
x
i
, sinon -1 (ou 0 dans le
cas o S={0,1}).
I l est gal ement possi bl e de dfi ni r des foncti ons de transi ti on mul ti -seui l .
De tel l es foncti ons permettent di ntrodui re des non-l i nari ts au ni veau du
foncti onnement du rseau ce qui peut tre ncessai re pour rsoudre des
probl mes compl exes. Leur dfaut est di ntrodui re un grand nombre de
di sconti nui ts qui amnent un compor tement i nstabl e pour l e rseau et de ne
pas permettre l uti l i sati on de val eurs conti nues pour l es tats. Une mani re
de dpasser ce handi cap est duti l i ser une fonction sigmode qui est une
foncti on conti nue, di ffr enti abl e et bor ne.
32
La fonction sigmode
La foncti on si gmode est i nspi re di rectement de l examen du
compor tement des cel l ul es ner veuses face aux si gnaux qui l eur ar r i vent. Une
foncti on si gmode a l a for me sui vante :
f( ) x = a
e
Kx
1
e
Kx
+ 1
(2.7)
Cette foncti on, contrai rement l a foncti on i denti t, est une foncti on
bor ne. En effet, el l e tend ver s a quand x + et tend vers -a quand x -.
Le paramtre a rgul e al ors l a val eur de saturati on; l e paramtre K sert
rgul er l a pente de l a courbe en tout poi nt hors saturati on (voi r Fi gure 2.6).
En par ti cul i er
a K
2
spci fi e l a pente l or i gi ne.
Si l on choi si t l es paramtres appropri s on peut si mul er l e comportement
dun automate seui l . La Fi gur e 2.6 i l l ustr e l e cas o une val eur l eve de K a
t choi si e (voi r courbe en poi nti l l ). Dans cette fi gure nous montrons une
fami l l e de foncti ons si gmode caractri ses par di ffrentes val eurs de K.
Notons que pour l es val eurs des paramtres que nous avons uti l i se pendant
nos recherches, a = 1.7159 et K = 1.3333, on obti ent f( ) -1 = -1 et f( ) 1 = 1. Ces
val eurs i ndui sent un comportement proche du l i nai re dans l i nterval l e
[-1, 1].
Famille de fonctions Sigmode
f
( )
x = a
e 1
Kx
e + 1
Kx
=1.72 a =0.67 =1.33 =2.66 K K K K=5.32
-2
2
a
-a
x
x) f(
1 2 3 4 5 -5 -4 -3 -2 -1
-1
1
Figure 2.6 : exemple dune famille de fonctions sigmode. Pour a = 1.72 et
K = 1.33 la fonction sigmode a un comportement proche dune fonction linaire dans
lintervalle [-1, 1].
33
A l a di ffrence de l a foncti on seui l l a foncti on si gmode est conti nue et
di ffrenti abl e. El l e est gal ement non-dcroi ssante. Nous l 'appel erons
foncti on quasi-linaire car el l e est pr esque l i nai re dans l 'i nterval l e d'i ntrt.
Comme l e montre l a Fi gure 2.7, l a foncti on si gmode f
( )
x et sa dri ve
premi re f'
( )
x sont toutes l es deux des foncti ons conti nues dans R. Ceci est
for t uti l e l or s des mani pul ati ons mathmati ques de ces foncti ons.
f(x) f'(x)
Fonction Sigmode et derive premire
-2
5
-1
2
-5 -4 -3 -2 -1 1 2 3 4
x
x) f(
1
Figure 2.7 : fonction sigmode f et drive premire f'. f est une fonction quasi-
linaire : diffrentiable et non-dcroissante. La drive f' est une fonction continue.
Nous appel ons l es rseaux mul ti couches qui uti l i sent ce type de foncti ons
Rseaux Multicouches Quasi-linaires (M.Q.L.). Dans nos modl es nous
uti l i sons des rseaux M.Q.L. dont l a foncti on de transi ti on est l a foncti on
si gmode que nous venons de dcr i r e.
2. 3. Architectures simples
Dans l a secti on prcdente nous avons vu l i ntrt dorgani ser l es
neurones dans des archi tectures parti cul i res (cf. 2.2.2). Aussi , nous avons
vu quel ques exempl es l mentai r es dar chi tectur es uti l i ses dans l es modl es
connexi onni stes. Dans cette secti on nous dcri vons un premi er exempl e
darchi tecture couches souvent uti l i se pour l apprenti ssage supervi s (cf.
chapi tr e 3) : l es mmoires associat ives. I l sagi t dune archi tecture si mpl e qui
a une dynami que de foncti onnement peu compl exe.
34
2. 3. 1. Les mmoires associatives
Une mmoi re associ ati ve est un systme qui reprsente des associ ati ons
entre deux sri es de vecteurs : une sri e de vecteurs dentre x
1
, x
2
, , x
m
,
dfi ni s dans R
n
, et une sr i e de vecteur s de sor ti e y
1
, y
2
, , y
m
,

dfi ni s dans R
p
.
Ces systmes sont souvent i mpl ments l ai de de r seaux neur onaux.
Le modl e pr sent i ci est cel ui de Mmoi re Associ ati ve Li nai re propos
par Teuvo Kohonen [Kohonen 1984] (voi r Fi gure 2.8). I l sagi t dun rseau de
neurones deux couches total ement connectes et composes dautomates
l i nai r es. Les tats des automates de l a premi re couche sont i ni ti al i ss avec
l es l ments dun des vecteurs de l a sri e dentre. Ces tats sont propags
vers l es automates de l a deuxi me couche, qui reprsentent l a rponse du
r seau.
y
k
x
k
M
y
k
x
k
M=W
(a) (b)
Figure 2.8 : modle de mmoire associative linaire. Dans un tel systme on
associe les vecteurs x
k
et y
k
. Cette association est faite avec la matrice M, selon la
formule y
k
= M x
k
. La figure (b) montre la reprsentation du modle mmoire
associative linaire par un rseau de neurones o les automates en entre sont
compltement connects aux automates linaires en sortie, la matrice des poids des
connexions W tant la mme matrice dassociation M.
I l est possi bl e de modl i ser l e comportement du rseau l ai de de l al gbre
l i nai r e. En effet, si x
k
est l e vecteur des si gnaux dentr e dfi ni dans R
n
, y
k
l e
vecteur des si gnaux de sorti e dfi ni dans R
p
et M est une matri ce dans R
pn
,
al or s l quati on qui associ e l e coupl e de vecteur s
( )
x
k
, y
k
est :
y
k
= M x
k
(2.8)
Dans l e cas dun rseau dautomates l i nai res deux couches, l a matri ce
M est l a matri ce de poi ds des connexi ons W. En rcri vant (2.8) en notati on
scal ai r e, on obti ent pour un vecteur k l quati on sui vante :
i N
SORTIE
, y
k
i
=
j N
ENTRE
w
i j
x
k
j
(2.9)
35
o N
ENTRE
est l ensembl e des neurones de l a couche dentre et N
SORTIE
l ensembl e des neurones de sorti e. Remarquons que cette quati on
correspond l a foncti on de transi ti on i denti t (2.4) que nous avons dfi ni e
aupar avant.
En concl usi on, l es mmoi res associ ati ves sont i mpl mentes l ai de de
rseaux neuronaux ayant des archi tectures si mpl es : i l s nont que deux
couches de cel l ul es (l a couche dentr e et l a couche de sorti e). Ceci reprsente
une l i mi tati on l ors du trai tement de probl mes compl exes. Nous al l ons
pr senter mai ntenant des ar chi tectur es pl us de deux couches. Comme nous
l e montr er ons par l a sui te, ces ar chi tectur es offrent une pl us grande capaci t
r soudr e l es pr obl mes compl exes que nous sommes amens r soudr e dans
l e cadr e de nos appl i cati ons.
2. 4. Architectures multicouches
Dans l a secti on prcdente nous avons prsent une archi tecture de
rseaux comportant deux couches de neurones. Bi en que l e terme
mul t i couches pui sse sappl i quer une tel l e archi tecture, i l est pl utt uti l i s
pour dsi gner des ar chi tectur es ayant troi s ou pl us couches de neurones. De
tel l es archi tectures sont gnral ement dsi gnes dans l a l i ttrature sous l e
nom : Mul ti -Layer Per ceptr on (MLP).
Comme nous l avons vu, l e voi si nage est un paramtre i mportant dans
l archi tecture des rseaux neuronaux. Nous al l ons dfi ni r dans l a premi re
parti e de cette secti on di ffrents types de voi si nage et de connexi ons. Nous
i l l ustr er ons ces di ver s types de connexi ons l ai de dexempl es darchi tectures
uti l i ses pour rsoudre des probl mes i ssus de domai nes tel s que l a vi si on et
l a parol e. Dans l a deuxi me parti e nous parl erons de l a dynami que de
pr opagati on des tats dans l e cadr e de ces ar chi tectur es mul ti couches.
2. 4. 1. Les Connexions
Dans une archi tecture mul ti couches l e rseau est arrang en couches de
neur ones avec l es car actr i sti ques sui vantes :
I l peut y avoi r une connexi on entre l e neurone j
q
dune couche q et l e
neurone i
p
dune couche p, si et seul ement si p q. Autrement-di t, i l
36
nexi ste pas de connexi on entre l es neurones dune mme couche (voi r
Fi gur e 2.9).
La couche p doi t se tr ouver en aval de l a couche q, cest--di re p > q, sauf
pour des ar chi tectur es tr s par ti cul i r es
3
.
i
j
e
n
t
r
e
s
o
r
t
i
e
couche :
1 2 q p nc-1 nc
sens de la propagation des tats
k
l
r
Figure 2.9 : rseau de neurones avec architecture multicouches. Il y a des
connexions seulement entre cellules i et j de couches diffrentes, i se trouvant dans une
couche en aval de celle o se trouve j (p > q).
Ces caractri sti ques i mposent des contrai ntes dans l archi tecture des
r seaux, i l r este cependant un nombr e i mpor tant des choi x fai re concernant
l es connexi ons entre l es neurones de couches di ffrentes. Dans l es secti ons
sui vantes nous al l ons pr senter 4 types de connexi ons cl assi ques : connexi ons
gl obal es, connexi ons l ocal es, connexi ons masque et connexi ons dl ai .
2. 4. 1. 1. Connexions globales
Larchi tecture des rseaux de neurones l a pl us si mpl e est cel l e o l es
connexi ons sont globales, cest--di re, tous l es neurones de deux couches
successi ves sont connects entre eux (voi r Fi gure 2.10). Par consquent,
l tat de chaque neurone de l a couche p est cal cul en foncti on des tats de
3
Dans certai ns cas [Pi neda 87] ou [Nerrand et al . 91] on trouve des archi tectures de
r seaux ayant des connexi ons al l ant dune couche q ver s une couche p o q > p. Souvent q
est l a couche de sorti e et p cel l e dentre. I l sagi t l de rseaux rcurrents et ces
connexi ons agi ssent comme une sorte de rtro-al i mentati on : l es sorti es sont pr ojetes
i nchanges vers l entre. Les sorti es produi tes l i nstant k sont foncti on des entres
l i nstant k mai s gal ement des sor ti es l i nstant pr cdent k-1.
37
tous l es neur ones dans q. Les mmoi res associ ati ves, que nous avons dcri tes
pr cdemment, sont un exempl e de r seaux uti l i sant ce type dar chi tectur e.
Les connexi ons gl obal es sont si mpl es ral i ser car aucun choi x ne doi t
tre fai t en ce qui concerne l es neurones connecter. Cependant, pour un
r seau o l e nombr e de neurones est i mportant, l e choi x dune archi tecture
connexi ons gl obal es, entr a ne un nombr e tr s i mpor tant de par amtr es l i br es.
couche p
couche q
connexions
compltes
Fi gure 2. 10 : connexions globales. Les neurones de la couche p sont connects
tous les neurones de la couche q.
Pr enons par exempl e, un rseau de reconnai ssance de vi sages permettant
de r econna tr e 5 per sonnes par ti r de 24 i mages par personne, chaque i mage
tant dfi ni e avec une rsol uti on de 4050 pi xel s. Ce rseau peut tre dfi ni
par une gri l l e dentre de 4050 neurones et une couche de sorti e de 5
neurones. Ce probl me comporte une certai ne compl exi t et i l faut que l e
r seau ai t au moi ns une couche i ntermdi ai re et que l a tai l l e de cette couche
soi t de l ord re d e gran d eu r
4
du probl me. Si nous prenons l e choi x fai t par E.
Vi ennet [Vi ennet 92] on aura deux couches i ntermdi ai res de 1000 et 210
neur ones r especti vement. Avec des connexi ons gl obal es on attei nt un nombre
de paramtres ajuster (l es poi ds des connexi ons) de l ordre de 10
6
. Pour
4
Lval uati on de l or dr e de gr andeur dun pr obl me nest pas si mpl e. Di sons que l e nombre
de cel l ul es caches doi t tr e pl us au moi ns en rapport au nombre de cel l ul es des couches
en avant et en aval de l a couche en questi on. Pl us i mportant que l e nombre de cel l ul es
caches est, peut-tr e, l e nombr e de par amtr es (c--d, l e nombre de poi ds de connexi ons)
par rapport au nombre dexempl es uti l i ss dans l entra nement cest ce que nous
pour ons appel er or dr e de gr andeur du pr obl me . Une pl us r i che base dapprenti ssage
gar anti r as des per for mances pl us fi abl es au ni veau de l a gnr al i sati on sur des nouveaux
exempl es. Stati sti quement i l est consei l l davoi r -peut-prs 6 foi s pl us dexempl es que
de paramtres ajuster. Les rseaux mul ti couches peuvent fourni r des bons rsul tats
mme avec moi ns dexempl es que de par amtr es, mai s i l faut survei l l er l ors du processus
dapprenti ssage l es performances sur l a base de test pour ne pas tomber dans
l appr enti ssage par cur de l a base dappr enti ssage.
38
reprsenter et mani pul er un tel rseau i l est ncessai re de di sposer dune
machi ne ayant des grandes capaci ts de stockage et de cal cul . Les mi cro-
ordi nateurs et stati ons de travai l actuel s arri vent tout-de-mme grer de
tel s r seaux, mai s l es temps de r ponse peuvent tr e assez mauvai s.
Le probl me du nombre i mportant de paramtres nest pas excl usi vement
un pr obl me de moyens de cal cul ou de pl ace de mmoi re. En effet, pl us i l y a
de paramtres l i bres ajuster, pl us on a besoi n di nformati on (dexempl es)
pour cal cul er l a foncti on gl obal e qui r el i e l entr e l a sor ti e du systme.
Cest pourquoi i l faut penser l i mi ter l e nombre de connexi ons du rseau
pour ai nsi di mi nuer l e nombre de paramtres esti mer. Dans l es secti ons
sui vantes nous pr sentons des types de connexi ons conus pour teni r compte
de ce besoi n de r ducti on du nombr e de connexi ons du r seau.
2. 4. 1. 2. Connexions locales
On parl e de connexions locales dans un rseau, si pour chaque neurone i
dune couche p, seul ement un groupe rdui t de neurones de l a couche
prcdente q, est connect i. La Fi gure 2.11 i l l ustre l es connexi ons l ocal es
entr e deux couches de neur ones. Outr e l e concept de connexi on l ocal e, on voi t
aussi l a noti on de recouvrement des poi ds. En effet, parmi l es troi s cel l ul es
dans q connectes une cel l ul e i dans p deux sont connects aussi l a cel l ul e
i+1. On parl e al ors dun recouvrement de 2 uni ts, ou de faon
compl mentai r e, dun dpl acement de 1.
i+1 i
couche p
couche q
connexions
locales
voisinage de i voisinage de i+1
Figure 2.11 : connexions locales. Les neurones de la couche p sont connects
quelques neurones de la couche q. Ltat de chaque cellule de la couche p est calcul en
fonction de linformation provenant de seulement 3 cellules dans la couche q.
Li ntrt duti l i ser des connexi ons l ocal es nest pas excl usi vement l a
rducti on du nombre de paramtres dun rseau quel conque. En effet, l tat
dun neur one est foncti on des tats des neur ones avec l esquel s i l est connect.
39
Or, pour un neurone ayant des connexi ons l ocal es provenant dun groupe
rdui t de neurones dans une autre couche, son tat sera foncti on
excl usi vement des tats des neurones de ce groupe. Ceci entra ne de
mul ti pl es possi bi l i ts : regroupement di nformati on, trai tement l ocal i s de
par amtr es du vecteur dentre, extracti on des caractri sti ques des si gnaux,
pr i se en compte du contexte, compr essi on de l i nfor mati on, Ce qui veut di re
grosso modo que l on peut spci fi er, dans l archi tecture du rseau, des
caractri sti ques du probl me rsoudre. Evi demment, i l ny a pas de rgl e
prci se pour ceci , chaque probl me a ses propres caractri sti ques qui
r equi r ent un examen attenti f dans l e contexte du probl me. On ne peut pas
affi rmer a priori, dans tous l es cas, l es qual i ts dune ar chi tectur e
quel conque. Sa dpend de l a tche et seul s des test russi s peuvent confi rmer
sa val i di t.
2. 4. 1. 3. Connexions masque
Si l es connexi ons l ocal es permettent de ral i ser des trai tements l ocal i ss
sur des groupes de cel l ul es, avec l es connexions masque, ou connexions
poids partags, l i nformati on arri vant un groupe de neurones peut tre
trai te de faon i denti que car i l s partagent l es mmes poi ds de connexi on.
Li de de poi ds par tags est i l l ustr e dans l a Fi gur e 2.12 : pl usi eur s coupl es de
neurones (j
q
, i
p
), dans l es couches q et p respecti vement, sont joi nts par des
connexi ons ayant une mme val eur du poi ds de connexi on.
couche p
couche q
connexions
locales avec
masques :
poids w1
poids w2
poids w3
i+1 i
j+1 j j+2 j+3
Figure 2.12 : connexions locales masque ou poids partags. Le voisinage est
local, les poids des connexions arrivant sur les neurones de la couche p sont appels
masque car chacun des neurones dans la couche p voit avec les mmes valeurs de
poids les neurones dans la couche q. Ainsi dans la figure, un mme type de pointill
dans les flches reprsente une mme valeur du poids de connexion.
Dans l a Fi gure 2.12, l es neurones (j, j+1, j+2) de l a couche q sont connects
au neurone i de p, respecti vement, avec l es poi ds de connexi ons (w1, w2, w3).
De mme, l es neurones (j+1, j+2, j+3) de q sont connect i+1 de p avec
exactement l es mmes poi ds (w1, w2, w3). Ai nsi de sui te pour tous l es
40
neurones des couches q et p du rseau. Li nformati on des neurones de l a
couche q arri vant chaque neurone i de p est donc affecte de l a mme faon
par l es poi ds des connexi ons qui l e connectent. Cest l a noti on de masque
dopr ateur s uti l i se dans l e domai ne danal yse di mages : cest un masque
tr aver s l equel l es neur ones de l a couche p voi ent l es neur ones de l a couche q.
Le masque i l l ustr dans l a Fi gure 2.12 est uni di mensi onnel : l es neurones
de q sont arrangs dans une formati on une di mensi on et l e masque
par cour t cette couche en l ongueur. Dans l a Fi gure 2.13 l arrangement de q
est bi di mensi onnel . Le masque est dpl ac dans l es deux sens, en l argeur et
en pr ofondeur , cest l a noti on de masque bi di mensi onnel . Le masque montr a
un dpl acement dans l es deux sens de 1 neur one.
0 1 0
1 +4 1
0 1 0
Laplacien
1 0 +1
2 0 +2
1 0 +1
Sobel
1 0 +1
1 0 +1
1 0 +1
Gradient
(a) (b)
Fi gure 2. 13 : masques de connexions. (a) Un masque dans un rseau de neurones
o un voisinage de 33 neurones est vu par chaque neurone de la couche suprieure.
(b) Diffrents masques utiliss couramment pour des tches dextraction des contours
dans une application de traitement des images par de mthodes classiques. Les valeurs
pourraient correspondre aux poids de connexions dans une approche connexionniste.
Les appl i cati ons en trai tement di mage sont un exempl e i mportant o
l uti l i sati on des rseaux mul ti couches avec des poi ds partags savr e
i ndi spensabl e. La Fi gure 2.13b montre troi s masques typi ques uti l i ss par
des mthodes cl assi ques de trai tement di mages pour effectuer des
tr ai tements de bas ni veau sur l i nformati on. Prenons par exempl e l e masque
gradi ent . Si nous prenons une i mage bi nai re, o S = [0, 1] (en noir=1 et
bl anc=0), dans une gri l l e deux di mensi ons, o chaque cel l ul e de l a gri l l e
r epr sente l tat dun pi xel de l i mage, l a convol uti on du masque
5
avec l i mage
5
Par convol uti on nous voul ons di re l appl i cati on systmati que du masque en parcourant
l i mage or i gi nal e compl te.
41
donnera comme rsul tat l extracti on des changements dtat de l i mage
6
. La
Fi gur e 2.14 montr e un exempl e duti l i sati on dun tel masque.
Gradient
Figure 2.14 : exemple dutilisation du masque du gradient, Un masque ddi
lobtention des changements de tons dans le sens horizontal est appliqu.
Pour uti l i ser des masques comme ceux de l a Fi gure 2.13b dans l es rseaux
de neurones, i l suffi t de donner l es bonnes val eurs aux poi ds de connexi ons.
Nanmoi ns, l a capaci t dapprenti ssage des mthodes connexi onni stes est
tel l e que l e rseau l ui mme peut trouver l e masque ncessai re afi n de
ral i ser l oprati on dsi re comme cest l e cas dans une appl i cati on au
tr ai tement des i mages pr sent dans [Loncel l e 91].
Nous avons vu dans cette secti on comment nous pouvons uti l i ser l es
connexi ons l ocal es poi ds partags pour effectuer des oprati ons
i ntr essantes sur l es donnes. I l est donc cl ai r que l a rducti on du nombre de
par amtr es nest pas l a seul e r ai son duti l i ser ce type de connexi ons.
Exe mp l e d u n e a r c h i t e c t u r e p ou r l a r e c on n a i s s a n c e d e vi s a ge s
Reprenons l exempl e de reconnai ssance de vi sages i ntrodui t
prcdemment (cf. 2.4.1.1. Connexi ons gl obal es) pour mettre en vi dence
l uti l i sati on des ar chi tectur es de r seaux poi ds partags [Vi ennet 92]. Nous
avons montr comment, en uti l i sant des connexi ons gl obal es, on attei nt pour
cette archi tecture un nombre de poi ds ajuster de l ordre de 10
6
.
Dfi ni ssons mai ntenant une nouvel l e archi tecture en uti l i sant l es
connexi ons l ocal es poi ds par tags.
Larchi tecture que nous avons dfi ni pour l exempl e ci t consi ste en une
gr i l l e dentr e de 4050 neurones, deux couches i ntermdi ai re de 1000 et 210
neur ones r especti vement, et une couche de sor ti e de 5 neur ones.
6
Vu l e masque, l es gradi ents reprs seront dans l axe hori zontal . Pour extrai re des
gr adi ents dans l e sens ver ti cal i l faudr ai t uti l i ser l a tr anspose du masque.
42
Di vi sons l es 1000 neurones qui formai ent prcdemment l a premi re
couche i nter mdi ai r e, en deux couches chacune 500 uni ts arranges dans
une gomtri e bi di mensi onnel l e de 2025. On a donc l e mme nombre de
neur ones, l a di ffr ence vi ent de l a faon dont i l s sont connects aux neurones
de l a couche dentre : chacun des neurones de ces deux couches
i ntermdi ai res est connect l a couche dentre avec un masque de
connexi ons de tai l l e 33. Un dpl acement de 2 uni ts est spci fi dans l es
deux sens (voi r Fi gures 2.13 et 2.15). Dans chacune des couches
i ntermdi ai res l e masque de connexi ons des val eurs di ffrentes. Par
consquent, entr e l a couche dentre et chacune de ces couches i l ny a que 9
poi ds de connexi ons di ffrents, donc 18 au total . I l faut noter cependant que
bi en que l e nombr e de poi ds de connexi ons soi t extr mement rdui t, l e nombre
de connexi ons nest pas rdui t dans l a mme proporti on. En effet, dun
nombr e de connexi ons de l or dr e de 10
6
dans l exempl e connexi ons gl obal es,
on est pass un nombre de connexi ons l ocal es de l ordre de 10
4
, o i l ny a
que 18 val eur s de poi ds di ffr entes.
Leffet dune tel l e archi tecture pour ces couches i ntermdi ai res est
dobteni r une versi on compresse, et affecte par un oprateur l e masque,
de l i mage ori gi nal e. Dune seul e i mage forme dans l a couche dentre de
4050 pi xel s on est pass deux dun quart de l a tai l l e ori gi nal e, de 2025
pi xel s chacune. Les deux couches ayant des masques de connexi ons
di ffrents obti ennent deux versi ons di ffrentes de l i mage compresse. Les
caractri sti ques extrai tes par ces deux masques, bi en que di ffr entes,
apportent des i nformati ons compl mentai res qui seront expl oi tes par l es
couches successi ves du mme r seau.
Dans notre exempl e ori gi nal , l a deuxi me couche i ntermdi ai re avai t 210
neurones connects gl obal ement l a couche prcdente. Substi tuons-l a
mai ntenant par 5 couches i denti ques avec au total l e mme nombre de
neur ones. Chacune des couches ayant une gomtri e de 67 neurones. Pour
chacune des couches, chaque neurone est connect par deux masques de 57
chacune des couches i ntermdi ai res du premi er ni veau. Chaque masque
ayant des par amtr es di ffrents. Cette nouvel l e couche sert l extracti on de
car actr i sti ques i mpor tantes sur l es i mages compr esss.
Enfi n, l es neurones de l a couche de sorti e ou neurones de dci si on sont
connects de faon gl obal e par tous l es neurones des couches du second
ni veau i ntermdi ai re. La couche de sorti e est forme par 5 cel l ul es de
43
dci si on, une pour chacun des i ndi vi dus r econna tr e. La reconnai ssance est
mesure par l e ni veau dacti vati on, l tat, de chacun des neurones de sorti e.
Chaque neur one tant attri bu un i ndi vi du, l e neurone ayant l tat l e pl us
acti f, i .e. supr i eur numr i quement aux autres neurones de sorti e, i ndi quera,
sui te l a prsentati on dune i mage l entre, l i ndi vi du reconnu par l e
r seau.
c
o
n
n
e
x
i
o
n
s

c
o
m
p
l
t
e
s
Figure 2.15 : exemple dune architecture multicouches pour la reconnaissance de
visages. Larchitecture utilise contient plusieurs couches poids partags
[Viennet 92].
En uti l i sant l es connexi ons l ocal es poi ds partags l e nombre total de
poi ds di ffr ents est mai ntenant de 403, contr e 10
6
dans l e cas des connexi ons
compl tes (l e nombr e total de par amtr es ajuster est cependant de 1618, 403
poi ds pl us 1215 val eur s de seui l ).
44
Les deux exempl es montr s, cel ui uti l i sant des connexi ons gl obal es et cel ui
uti l i sant des connexi ons l ocal es poi ds par tags excutent l a mme tche : l a
reconnai ssance, ou pl utt l a cl assi fi cati on de 5 i ndi vi dus en foncti on de l eur
vi sage. Le choi x des connexi ons l ocal es est i ci assez justi fi , car mi s part l e
fai t que nous voul i ons r dui r e l a tai l l e du r seau, i l sagi t dune appl i cati on o
l es donnes en entre ont un sens gomtri que. Des poi nts proches dans l a
gri l l e dentre conti ennent des i nformati ons reprsentant des trai ts proches
dans l e vi sage exami n. I l est natur el de l es pr endr e en compte ensembl e. En
r evanche, des poi nts l oi gns peuvent r epr senter des endroi ts dans l e vi sage
sans l a moi ndre corrl ati on. Les connexi ons l ocal es ti rerai ent profi t des
poi nts physi quement pr oches, donc tr s pr obabl ement cor r el s.
2. 4. 1. 4. Connexions permettant invariance dans le temps
Dans pl usi eurs appl i cati ons l e temps est une donne i ndi ssoci abl e des
si gnaux dentr e. La r econnai ssance de l a parol e est un des domai nes l e pl us
tudi dans l e cadre des rseaux neuronaux o l e temps joue un rl e trs
i mpor tant. Ce genr e de probl me ncessi te un modl e capabl e de reprsenter
des r el ati ons entr e l es di ffr ents si gnaux dans l e temps.
Les rseaux de neurones, l es pl us adapts pour de tel l es appl i cati ons sont
ceux qui uti l i sent l es connexi ons dlai (en angl ai s : Ti me-Del ay Neural
Networks TDNN) i ntrodui tes par Al exander Wai bel et Geoffrey Hi nton
[Wai bel et Hi nton 87]
7
. I l sagi t, en fai t, dune uti l i sati on parti cul i re de
connexi ons poi ds par tags afi n de pr opager l i nfor mati on du temps tr aver s
l e r seau. Les appl i cati ons l i s au probl me de l a reconnai ssance de l a parol e
sont par excel l ence des cas o l a pri se en compte du paramtre t emps dans
l i nfor mati on est capi tal e afi n desprer avoi r des modl es capabl es de bonnes
performances dans des tches comme l a cl assi fi cati on de ces si gnaux. Pour
i l l ustr er ceci nous al l ons prsenter une archi tecture de rseaux de neurones
conue cette effet.
7
Leur publ i cati on de 1987, rvi se mai s essenti el l ement l a mme a t publ i nouveau
r cemment dans Readings in S peech Recognit ion [Wai bel et al. 90].
45
Exe mp l e d u n e a r c h i t e c t u r e p ou r l i d e n t i fi c a t i on d u l oc u t e u r
Li denti fi cati on vocal e du l ocuteur est une appl i cati on o l e temps est une
donne fondamental e, cette i nformati on doi t donc tre pri se en compte par l e
modl e. Le temps nest pas cependant une donne expl i ci te que l on peut
pr senter au r seau par l e bi ai s des tats des cel l ul es dentre tel quon l e fai t
couramment avec dautres types di nformati on. Nous pouvons donner aux
rseaux neuronaux des i nformati ons sur l e probl me rsoudre par l e bi ai s
darchi tectures parti cul i res. I l faut donc construi re des ar chi tectur es
appr opr i es afi n dextr ai r e, ou pl us pr ci sment, de conserver l effet du temps
sur l i nformati on du si gnal trai ter. Li de tant de propager l apport du
temps jusquaux derni res couches du rseau y compri s l a couche de sorti e.
Pour r al i ser ceci l es connexi ons dl ai sont uti l i ses.
Pour i l l ustrer ce type de connexi ons nous prsentons une archi tecture
conue par Youns Bennani dans l e cadre de sa thse : Approches
Connexionnistes pour la Reconnaissance Automatique du Locuteur
[Bennani 92]. Ce r seau uti l i se une ar chi tectur e TDNN (voi r Fi gur e 2.16).
46
Taille de la fentre
Dplacement
Temps
F
r
q
u
e
n
c
e
s
Temps
Couche d'entre
Classes
1re Couche Cache
2me Couche Cache
1re Couche Cache
des Poids
2me Couche Cache
des Poids
Connexions
Totales
F
r
q
u
e
n
c
e
s
Fi gure 2. 16 : exemple dun rseau de neurones TDNN. Architecture utilise pour
lidentification vocale du locuteur [Bennani 92].
Explicat ion du codage des donnes et couche dent re
On pr sente en entre du rseau un si gnal de parol e correspondant une
dur e appr oxi mati ve de 0,25 sec. Cette dure du si gnal est modl i se par une
sui te de 25 val eurs (trames) de di mensi on 16 (une anal yse LPC dordre 16
t effectu sur l e si gnal chanti l l onn 16 KHz). Chaque vecteur reprsente
une dur e du si gnal de 10 ms.
La couche dentre est di mensi onne pour coder l es 25 trames dans
l esquel s est chanti l l onn l e si gnal , et l es 16 frquences dans l esquel l es sont
dcomposes l es trames. La couche dentre est par consquent de 2516
uni ts. Chaque uni t prend une val eur rel l e dans S = [a, b], a et b tant
r especti vement un mi ni mum et un maxi mum ar bi tr ai r es.
47
Premi er ext ract eur de caract ri st i ques
La premi re couche i ntermdi ai re est un ext ract eur de caractri sti ques
dans l e temps sur 5 trames conscuti ves. Chaque cel l ul e comporte un
masque sur l a couche dentre et voi t 5 trames conscuti ves du si gnal
parol e sur l ensembl e des 16 frquences. Son tat sera donc foncti on des
tr ames obser ves . 12 cel l ul es comme cel l e dcri te ci -dessus, sont mi ses cte-
-cte, avec l a mme couverture mai s des paramtres di ffrents. Cet
ensembl e de 12 masques par al l l es est dpl ac sur l e si gnal dentr e, de trame
en trame. Chaque dpl acement si gni fi e un nouvel ensembl e de cel l ul es qui
observent, comme l es prcdentes, 5 trames du si gnal dentre dont l es 4
pr emi r es tai ent aussi obser ves par l es 12 cel l ul es prcdantes. I l y a donc
un dpl acement de 1 et un recouvrement de 4. Afi n davoi r une couverture
total e du si gnal dentr e 21 dpl acements sont ncessai r es pour couvr i r l es 25
trames de l entre. Cette couche i ntermdi ai re requi ert donc 2112 cel l ul es,
o chaque col onne de 21 cel l ul es partage un des 12 masques de 516 sur l a
couche dentr e.
Le si gnal de par ol e en entr e est cod : sur chaque neurone de cette couche
i ntermdi ai re sont cods 5 trames conscuti ves de l entre. Cel a reprsente
approxi mati vement 50 ms du si gnal . Sur une col onne de 21 neurones nous
avons l e codage compl et du si gnal dentre par tranches de 50 ms. Les 12
masques nous permettent davoi r 12 codages di ffrents sur l es mmes
i nterval l es de temps. Nous pourri ons comprendre cette couche comme un
extracteur de caractri sti ques ayant une dure de l ordre de 50 ms dans l e
si gnal dentr e.
La rel ati on temporel l e des caractri sti ques du si gnal est garde : l es
masques au dbut des col onnes de neurones codent l es caractri sti ques des
pr emi r es tr ames du si gnal parol e donne l entre, cest--di re du dbut du
si gnal , tandi s que l es derni ers masques codent l es caractri sti ques prsentes
dans l es der ni r es tr ames, l a fi n du si gnal .
Deuxi me ext ract eur de caract ri st i ques
Une deuxi me couche i ntermdi ai re uti l i sant l e mme pri nci pe de
masques, ou dextracteurs, uti l i s dans l a premi re couche i ntermdi ai re est
connecte cette derni re. La deuxi me couche i ntermdi ai re se compose de
10 extracteurs, ou masques, connects 7 ranges conscuti ves de 12
neurones de l a premi re couche i ntermdi ai re. Le dpl acement est aussi
dune uni t, et i l faut se dpl acer 15 foi s pour avoi r une couverture compl te
48
des 21 r anges de l a couche prcdente. La deuxi me couche i ntermdi ai re a
donc une tai l l e de 1510 cel l ul es, avec des masques de connexi ons de 712 sur
l a pr emi r e couche cache.
I ci , sur chaque cel l ul e ser a code l i nfor mati on de 7 col onnes de l a pr emi r e
couche i ntermdi ai re, et, i ndi rectement, grce au codage ral i s par l a
pr emi r e, sur 11 tr ames conscuti ves du si gnal par ol e en entr e. La premi re
range dextracteurs sur l a deuxi me couche, couvre l es 7 premi res de l a
premi re, cest--di re l es 11 (6+5) premi res trames du si gnal dentre. Cel a
r epr sente appr oxi mati vement 110 ms sur l e si gnal de par ol e.
Couche de dci si on
Enfi n, l a couche de sor ti e, avec 10 uni ts de dci si on, une pour chacun des
l ocuteur s i denti fi er , est connecte de faon gl obal e avec l a deuxi me couche
i nter mdi ai r e du r seau.
I ci l a r el ati on tempor el l e t gar de jusqu l a fi n gr ce l uti l i sati on des
connexi ons dl ai . Seul s l es cel l ul es de l a couche de sorti e ont dans l e temps
une couver tur e gl obal e du si gnal par ol e. Cest ce ni veau que l a dci si on est
pri se, el l e est fai te en foncti on des tats des cel l ul es l a couche de sorti e. La
forme du si gnal parol e dans l e temps joue donc un rl e essenti el dans l a
dci si on.
2. 4. 2. La dynamique de propagation des tats
Dans l es appl i cati ons prsentes dans ce mmoi re cest cette archi tecture
mul ti couches qui a t r etenue. Comme nous l e montrerons dans l es secti ons
sui vantes ce type darchi tecture permet un trai tement paral l l e de
l i nformati on pour l es cel l ul es dans une couche, et squenti el couche par
couche.
La propagation des tats
Nous avons montr (cf. 2.2.1) quun neurone est dfi ni par son tat, sa
foncti on de transi ti on, ses connexi ons, etc. et que cet tat, grce aux
connexi ons entre neurones et l a foncti on de transi ti on, peut tre modi fi .
Essayons de comprendre mai ntenant l a faon dont l es tats des neurones se
pr opagent dans un r seaux.
49
La dynamique du rseau tabl i t l e moment o l es tats des di ffrents
neurones doi vent tre mi s jour. Le type de dynami que est caractri s par
l es deux concepts sui vants :
Le mode de changement des tats dans l e temps : on parl e al ors de
dynami que en t emps discret et dynami que en t emps cont inu.
Lor dr e dans l equel sont effectus l es changements des tats des neurones
dans l e rseau : on parl e al ors di trati ons parallles, it rat ions
squent i el l es ou encor e it rat ions bloc-squent ielles.
Nous nous i ntressons i ci pri nci pal ement aux modes di trati on et l a
dynami que uti l i ses par l es r seaux mul ti couches MLP (pour une descri pti on
dtai l l des di ffr ents modes de changement et di tr ati on voi r [Thi r i a 89]).
La dynamique de propagation
Dans l es r seaux MLP nous avons une dynami que de changement dtat
temps di scret associ e un mode di trati on bl oc-squenti el . Nous al l ons
mai ntenant pr ci ser ces noti ons.
Une dynamique temps discret est une dynami que o l a propagati on des
tats des neurones est fai te des i nstants di screts de temps. Cette
dynami que dfi ni t l i nstant de changement des tats mai s el l e ne dfi ni t pas
l es neurones qui doi vent changer dtat un i nstant donn. En effet, l es
neurones dans une mme couche peuvent changer dtat si mul tanment,
comme cest l e cas dans l es i trati ons paral l l es. Dautre part, l es neurones
dune couche doi vent attendr e l e changement dtat des neurones des couches
prcdentes afi n de pouvoi r l eur tour changer dtat. Cest l e cas des
i tr ati ons squenti el l es.
Le mode ditration bloc-squentiel est une combi nai son des modes
paral l l e et squenti el fond sur l a dfi ni ti on des parti ti ons ou bl ocs de
neurones qui changent dtat si mul tanment. Li de gnral e est que
pendant une i trati on, tous l es neurones dune mme parti ti on I
q
cal cul ent
l eurs tats en foncti on dune part, des nouveaux tats s(t+1) des neurones
appar tenant aux parti ti ons i nfri eures q, et dautre part, des anci ens tats
s(t) des neurones des parti ti ons supri eures q. Tous l es neurones
50
appar tenant une mme parti ti on changent l eurs tats si mul tanment. Les
di ffr entes par ti ti ons ou bl ocs I
q
opr ent de faon squenti el l e. Par l a sui te,
nous dfi ni r ons for mel l ement ces i des.
Soi t F l a foncti on de transi ti on gl obal e dun rseau compos de N
neur ones :
F : S
N
S
N
avec F =
( )
f
1
,
f
2
,
f
3
, ,
f
N
l ensembl e des foncti ons de transi ti on des N
neur ones du r seau.
Soi t (I
q
)
q = 1, 2, ..., c
une parti ti on ordonne de l ensembl e des neurones
{1, 2, , N} du r seau tel l e que, pour l es neur ones i et j [Fogel man-Soul i 85] :
i I
q
, j I
r
, q < r

i < j (2.10)
Une i trati on bl oc-squenti el l e sur F associ e l a parti ti on ordonne (I
q
)
q
est dfi ni e de l a mani r e sui vante :
Itrations bloc-squentielles
q ( 1, 2, , c), (2.11)
i I
q
, s
i
(t+1) =
fi
( ) y
q
(t)
o
y
1

(t)
=
s(t)
q ( 2, , c), y
q
j
(t) =
'
s
j
(t+1) si j
( )
I
1
U I
2
U U I
q1

s
j
(t) sinon
Pour l es rseaux mul ti couches, chaque parti ti on I
p
reprsente une couche
de neurones, l a parti ti on I
1
tant consti tue des neurones de l a couche
dentre et l a parti ti on I
c
des neurones de l a couche de sorti e. Les parti ti ons
51
i nfri eures l a parti ti on I
q
correspondent aux couches en amont de de cette
par ti ti on.
Dans l es rseaux mul ti couches qui font l objet de nos travaux, l es
neurones dune mme parti ti on I
q
cal cul ent l eurs tats uni quement en
foncti on des nouveaux tats s(t+1) des neurones appartenant aux parti ti ons
i nfr i eur es q.

3. Apprentissage supervis
3. 1. Introduction
Dans l e chapi tre prcdent nous avons i ntrodui t l es noti ons de base
concernant l es composants des rseaux de neurones et l a faon dont i l s sont
i nterconnects dans l es archi tectures. Nous avons gal ement menti onn l es
noti ons dapprenti ssage et de reconnai ssance qui permettent r especti vement
desti mer l es par amtr es de ces modl es l or s de l a r al i sati on dune tche et de
mettr e en uvr e l e modl e l ors de sa sti mul ati on par un nouveau si gnal . Les
rseaux de neurones permettent ai nsi de ral i ser des associ ati ons entre des
si gnaux dentre qui sont l es sti mul i du rseau et des si gnaux de sorti e qui
sont l e r sul tat du cal cul de ce r seau.
Nous al l ons par l a sui te dfi ni r de faon pl us prci se ces di ffrentes
noti ons en i nsi stant sur cel l e dapprenti ssage supervi s qui est au centre de
cette thse.
Nous consi drerons par l a sui te un rseau comme un associ ateur dfi ni
par son ar chi tectur e et un ensembl e de paramtres ajuster. Pour si mpl i fi er
l a prsentati on, nous consi drerons que l es seul s paramtres ajuster sont
l es poi ds des connexi ons.
Ces poi ds sont dtermi ns par un al gori thme di t dapprent i ssage. Les
al gori thmes uti l i ss en connexi onni sme foncti onnent parti r de rgl es
mathmati ques ou heuri sti ques qui modi fi ent l es poi ds i trati vement quand
on prsente des exempl es au rseau. On parl e al ors dapprentissage part ir
dexempl es. Lensembl e des donnes ayant servi mettre au poi nt l es poi ds
du r seau est appel ensemble dapprentissage. Pl usi eurs quanti ts peuvent
ser vi r mesur er l a qual i t des performances du rseau. El l es di ffrent sel on
l a nature de l a tche que l on veut fai re ral i ser au rseau. Ces mesures
peuvent tre cal cul es sur l ensembl e dapprenti ssage, toutefoi s, on est l a
pl upart du temps i ntress non pas par ce type de performances mai s par
cel l es que l e rseau obti endra en phase oprati onnel l e sur des formes qui ne
54
l ui ont jamai s t prsentes. Pour esti mer ces performances on uti l i se l a
pl upart du temps un ensembl e de si gnaux dont on connai t l es
caractri sti ques et qui nont pas servi l apprenti ssage. Cet ensembl e est
appel ensemble test. Dautres ensembl es de si gnaux sont quel quefoi s
empl oys pour r al i ser l appr enti ssage, notamment pour fai r e de l a val i dati on
cr oi se.
Pour une mme archi tecture de rseau on peut avoi r di ffrents
al gor i thmes dappr enti ssage qui di ffr ent par l a r gl e de mi se jour des poi ds.
On di sti ngue deux gr andes catgor i es de techni ques dapprenti ssage qui sont
l es al gori thmes supervi ss et ceux qui sont non supervi ss. Pour l es
premi res, on connai t l a foi s l e si gnal dentre prsent au rseau et un
si gnal dsi r que l on essai e de l ui fai re reprodui re. Le but de l apprenti ssage
est dapprendre ral i ser cette associ ati on pour l ensembl e des coupl es de
formes consti tuant l ensembl e dapprenti ssage. Dans l e second cas, on ne
connai t que l es formes dentre et l on dsi re que l e rseau extrai e de ces
formes une certai ne connai ssance structurel l e que l on pui sse par l a sui te
i nterprter ou uti l i ser dans dautres systmes. Par exempl e, on peut
i magi ner des si gnaux i nconnus sur l esquel s l e systme apprendra dtecter
l a prsence rpte de formes de base ou de si mi l ari ts. Ce derni er type
dapprenti ssage i ncl us l es al gori thmes di ts de regroupement ou cl usteri ng
dans l a l i ttr atur e de r econnai ssance des for mes.
Nous avons empl oy dans cette thse uni quement des al gori thmes
super vi ss dont nous dtai l l ons l e pr i nci pe.
Ces al gori thmes vi sent apprendre des associ ati ons entre des coupl es de
vecteurs (donne dentre, sorti e dsi re). Nous conservons l es notati ons du
chapi tr e pr cdent pour dcr i r e ces ensembl es de vecteur s. De trs nombreux
modl es de rseaux et al gori thmes ont t proposs dans l a l i ttrature
connexi onni ste pour r al i ser de tel l es associ ati ons. Toutefoi s, seul un certai n
nombre dentre eux possdent l es qual i ts requi ses pour l es tches qui nous
i ntressent. Comme nous l avons annonc dans l i ntroducti on, ces qual i ts
sont pri nci pal ement l a pui ssance dapproxi mati on pour des foncti ons
compl exes entre espaces qui peuvent tre de grande di mensi on et l a
possi bi l i t de mi se en uvre sur un nombre trs i mportant de donnes de
gr ande tai l l e. Le modl e que nous avons uti l i s et qui est gal ement l e modl e
l e pl us popul ai re depui s 1988 pour l es appl i cati ons de grande tai l l e est cel ui
55
des perceptrons multicouches (MLP). Lal gori thme dapprenti ssage est cel ui
de l a rt ro-propagat ion du gradient [Rumel har t et al . 86b].
Dans ce chapi tre, nous al l ons prsenter l e probl me gnral de
l apprenti ssage supervi s, pui s nous dcri rons l al gori thme de l Adal i ne
avant de passer cel ui de rtro-propagati on. Nous dcri rons ensui te ti tre
di l l ustrati on un probl me sur l equel nous avons travai l l au dbut de cette
thse qui est cel ui de l a str uctur e secondai r e des pr oti nes gl obul ai r es.
3. 2. Associer des donnes
Lassoci ati on entre donnes peut tre de di ffrent type sel on l es
caractri sti ques du probl me trai ter. On di sti ngue cl assi quement deux
gr and types qui sont l auto-associ ati on et l htr o-associ ati on.
Auto-association
Laut o-associat ion consi ste associ er un vecteur x
k
l ui mme. Quand on
veut uti l i ser un rseau de neurone pour cel a, on se retrouve devant l e
pr obl me dapprendre associ er, avec l e rseau que l on uti l i se, un ensembl e
de
{ }
( )
x
k
, x
k
.
Bi en que cette noti on pui sse para tre un peu surprenante au premi er
abor d, i l y a de nombr euses appl i cati ons qui ncessi tent dassoci er un si gnal
l ui mme. Nous avons i ntrodui t dans l e chapi tre prcdent l a noti on de
mmoi re associ ati ve et cel l e pl us gnral e darchi tecture dun rseau
mul ti couche. Ces rseaux peuvent tous deux tre uti l i ss pour ral i ser des
associ ati ons quel conques et en par ti cul i er pour fai r e de l auto-associ ati on. Les
deux appl i cati ons l es pl us cour antes de l auto-associ ati on sont :
la ralisat ion de mmoires associatives rsistantes au bruit : apprendre ce
type dassoci ati on permettra par exempl e de retrouver une des formes
appri ses quand on prsentera au rseau une versi on brui te dune des
formes qui l ui a t prsente pendant l apprenti ssage. Ce brui t peut
rsul ter des caractri sti ques du capteur de si gnal , dune erreur de
mani pul ati on, dune tr oncatur e de l i nfor mati on,
la compression dinformation : l a Fi gure 3.1 montre un rseau
mul ti couches o l es couches i ntermdi ai res ont moi ns duni ts que cel l es
3. Apprentissage Supervis
56
dentre. Supposons que l on uti l i se ce type de rseau pour ral i ser une
auto-associ ati on. Li nfor mati on dentr e ser a tout dabord projete sur un
espace de di mensi on pl us fai bl e que cel l e de l espace dentre, el l e sera
donc sous for me compr esse. Cette pr ojecti on ser vi r a ensui te reprodui re
l i nfor mati on de sorti e qui sera soi t i denti que soi t proche de l i nformati on
dentre. Ce type de rseau peut donc servi r ral i ser de l a compr essi on
di nfor mati on.
entre
couche
cache
sortie entre sortie
TRANSMISION DES
DONNES COMPRESS
(a) (b)
Fi gure 3. 1 : architecture pour une application en auto-association. Pour une entre
x
k
donne au rseau, les tats des neurones des couches caches, avec moins dunits
que la couche dentre, reprsentent une version compress de x
k
. Ce fait peut tre
exploit pour compresser des signaux afin par exemple de les transmettre sous forme
rduite. Ceci avec les premires couches du rseau. Lors de la rception, le signal sera
dcompress avec le rseau complmentaire.
Nombre de travaux uti l i sent ce genre de rseaux, notamment en
tr ai tement des i mages satel l i tes [Cottr el l 82, Mougeot et al . 90, Loncel l e 90].
Htro-association
Le cas pl us gnral est cel ui de l ht ro-associat ion o l on entra ne l e
rseau associ er des vecteurs di ffrents entre eux. Ces vecteurs peuvent
apparteni r des espaces rel s de tai l l e quel conque. On di sti nguera un cas
par ti cul i er tr s fr quemment r encontr qui est cel ui de l a classificat ion.
3. 3. Classification
Pour ce type dappl i cati on, on veut ti queter des si gnaux par une cl asse
choi si e par mi un ensembl e fi ni . Les r ponses dsi r es, o vecteur s y
k
, sont l es
mmes pour tous l es exempl es appartenant une mme cl asse l es vecteurs
x
1k
, x
1k
, associ s y
k
. La val eur numri que du vecteur y
k
que l on
attri bue l a cl asse k nest pas si gni fi cati ve en el l e-mme. Cette val eur
57
permet uni quement de retrouver l es cl asses : di ffrentes val eurs pour y
k
peuvent amener r soudr e l a mme cl assi fi cati on.
Ai nsi par exempl e, pour une appl i cati on de r econnai ssance automati que de
caractres, i ndpendamment de l a pol i ce uti l i se, on fai t correspondre
chacune des l ettres de l al phabet l a mme cl asse quel l e que soi t l a pol i ce
uti l i se (voi r Fi gur e 3.2).
b
B
b
B
b
B
b
B
a
A
a
A
a
A
a
A
Figure 3.2 : exemple de lhtro-association. Un lettre sous plusieurs types de
polices de caractres est associ au caractre reprsentant le lettre dans une
reprsentation plus universelle. Chaque lettre de lalphabet correspond une classe.
La Fi gure 3.3 montre une reprsentati on des cl asses pour l exempl e de l a
r econnai ssance automati que des textes cr i ts. Cette r epr sentati on qui est l a
pl us communment uti l i se consi ste dcri re l es cl asses par des vecteurs
dans l espace {0, 1}
p
ou bi en {-1, 1}
p
o p est l e nombre total de cl asses. La
cl asse numro i sera i denti fi e par un vecteur de sorti e dsi re compos
uni quement de 0 (ou de -1) except l empl acement i o l on aur a l a val eur 1.
A : 100000000000000000000000000
B : 010000000000000000000000000
C : 001000000000000000000000000
Z : 000000000000000000000000001
Fi gure 3. 3 : reprsentation des classes. Une reprsentation plus universelle dune

classe peut tre celle montre dans la figure. Il faut autant de chiffres que de classes.
Les diffrents lettres A composant la premire classe, ils sont associs au vecteur
10000. Pour la deuxime classe, lettre B, le vecteur 01000 lui est associ;
et ainsi de suite jusqu la classe des Z o cest le vecteur 00001 qui est associ.
58
Pour l exempl e de l a Fi gure 3.2, l es di ffrentes l ettres A composant l a
pr emi r e cl asse, sont associ s au vecteur [10000]. Pour l a deuxi me cl asse,
l ettre B, l e vecteur [01000] l ui est associ ; et ai nsi de sui te jusqu l a
cl asse des Z o ce vecteur est [00001].
3. 4. LAdaline et lalgorithme LMSE
Au dbut des annes 60 B. Wi drow et M.E. Hoff ont propos un systme
adaptatif
8
qui l s ont appel Adal i ne (de l angl ai s adapti ve l i near el ement)
[Wi drow et Hoff 60, Wi drow 62]. LAdal i ne permet dapprendre des
associ ati ons de R
n
dans R. Nous dtai l l ons cet al gori thme car i l peut tre
consi dr comme l anctre de trs nombreux al gori thmes adaptati fs uti l i ss
actuel l ement en connexi onni sme; l al gori thme de rtro-propagati on que nous
prsenterons en 3.5 nest quune versi on du mme type dal gori thme
appl i qu une ar chi tectur e di ffr ente.
Adal i ne est un systme adaptati f qui , comme son nom l i ndi que, cal cul e sa
sorti e par une combi nai son l i nai re de ses entres. La rgl e de modi fi cati on
des poi ds connue gal ement sous l e nom de rgl e de Wi drow-Hoff est une
ver si on adaptati ve du gradi ent de l a pl us grande pente. Nous dcri rons tout
dabor d l ar chi tectur e du r seau pui s l al gor i thme l ui mme.
La mise en uvre physique
La premi re mi se en uvre de l Adal i ne tai t un ci rcui t l ectri que
consti tu dun ensembl e de potenti omtres rsi stances vari abl es connects
un ci rcui t capabl e daddi ti onner l es i ntensi ts de courant l ectri que
produi tes par l es si gnaux de vol tage en entre. Pour l uti l i sati on en
cl assi fi cati on, cet addi ti onneur tai t sui vi dun l ment seui l dont l a sor ti e
tai t +1 ou 1, sel on l a pol ari t de l a somme obtenue. La Fi gure 3.4 montre l e
ci r cui t cor r espondant.
8
Le terme de adapt at if sappl i que aux systmes de transformati on de si gnaux, qui sont
capabl es de sadapter graduel l ement, ou dadapter l eurs paramtres, en foncti on de
cer tai nes car actr i sti ques des si gnaux.
59
Fi gure 3. 4 : Adaline. Reprsentation physique du systme adaptatif linaire.
Si on note l es conductances l i nverse des rsi stances par
j
, j = 0, 1, , n,
j
l es si gnaux dentre et l e sorti e, al ors l a sorti e du bl oc addi ti onneur sera
donne par :
=
j=1
n
j

0
(3.2)
On peut remarquer que l a mi se en paral l l e de p Adal i nes permet de
construi re un systme l i nai re ou seui l sui vant l e cas qui associ e des
vecteur s de R
n
des vecteur s de R
p
. Ces systmes dupl i quent tout si mpl ement
l a cel l ul e de base prsente sur l a Fi gure 3.4. Les mmoi res associ ati ves que
nous avons dcri tes au chapi tre prcdant peuvent parfai tement tre mi ses
en oeuvre sur ce type de machi ne. Par l a sui te, nous prsenterons
l al gori thme en consi drant une archi tecture avec pl usi eurs adal i nes qui
foncti onnent en par al l l e sur l e mme si gnal dentr e. Cel a per met dtr e pl us
gnr al au pr i x dune fai bl e compl exi fi cati on des notati ons.
Ladaptation
Lquati on (3.2) nest autre que l a foncti on de transi ti on dfi ni e pour l es
automates l i nai res, bi ai se dun paramtre
0
qui permet de rgl er l endroi t
o se fer a l e seui l l age. Pour cette rai son, on l appel l e tout si mpl ement l e seui l
du neur one.
60
Bi en que l e systme physi que de l Adal i ne soi t un systme conti nu dans l e
temps, nous al l ons dcri re i ci l al gori thme adaptati f avec une dynami que
adaptati ve temps di scret. Ceci permet de si mpl i fi er l a prsentati on et de
dcr i r e si mul tanment l al gor i thme que l on met en uvr e.
On consi dr e dsor mai s des i nter val l es de temps t
k
o k = 1, 2, .
Lquati on (3.2) pour pl usi eurs uni ts de sorti e di ndi ce i, o i = 1, 2, , p,
peut tr e r cr i te de l a faon sui vante :
s
k
i
=
j=1
n
w
k
ij

x
k
j

0
(3.3)
Le probl me dadaptati on consi ste en l a dtermi nati on des coeffi ci ents w
ij
de faon ce que l a rponse du systme pour une entre donne soi t correcte
(s
i
= y
i
). Si , cause de l a nature du probl me, une rponse exacte nest pas
possi bl e pour tous l es coupl es entre-sorti e, on tentera de mi ni mi ser l erreur
moyenne entr e l es r ponses dsi r es et cal cul es.
Lquati on gnral e dun al gori thme adaptati f pour l a modi fi cati on des
coeffi ci ents w
ij
est donne par :
w
k+1
ij
= w
k
ij

+ w
k
ij
(3.4)
o w
k
ij
est l a vari ati on du coeffi ci ent w
ij
au temps t
k
. Ce coeffi ci ent peut
tre obtenu de di ffrentes faons, chacune dentre el l es correspondent un
al gori thme dapprenti ssage. De nombreuses mthodes proposent des rgl es
heuri sti ques pour ces modi fi cati ons de poi ds. Une autre grande fami l l e de
mthodes est base sur l a mi se en oeuvre de techni ques di tes de gradi ent
adaptati f. Ce sont el l es que nous al l ons dvel opper .
Fonction de cot et mthode de gradient
Les techni ques de gradi ent permettent l esti mati on des paramtres w par
l opti mi sati on dune foncti on de cot qui caractri se l es performances du
rseau. Cette foncti on de cot sera cal cul e entre l es vecteurs dsi rs et l es
vecteur s cal cul s par l e r seau.
Soi t l ensembl e des vecteurs dentre x
1
, x
2
, , x
m
, dfi ni s dans R
n
, l es
vecteurs rponses y
1
, y
2
, , y
m
, dfi ni s dans R
p
et W l a matri ce de poi ds de
connexi ons dfi ni e dans R
pn
. Al ors, on a :
61
x
k
=
[ ]
x
k
1
, x
k
2
, , x
k
n
T
, y
k
=
[ ]
y
k
1
, y
k
2
, , y
k
p
T
et (3.6)
W =
{ }
w
1
| w
2
| | w
p
T
=
{ }
w
ij
pn
o w
i
=
[ ]
w
1i
, w
2i
, , w
ni
T
est l e vecteur col onne compos par l es poi ds des
connexi ons entre l es n cel l ul es dentre et l automate i en sorti e. Dfi ni ssons
l a foncti on de cot sui vante :
C( ) W =
1
2
k=1
m
| | | |
W
T
x
k
y
k
2
(3.7)
o | | | |
2
est l a norme cuadrati que. Le probl me est al ors de trouver un W
*
pour W tel qui l mi ni mi se C
( )
W . Une condi ti on ncessai r e est l a sui vante :
|
C( ) W
W=W
*
=
'
C( ) W
w
ij
T
pn
W=W
*
= 0 (3.8)
Les techni ques de gr adi ent sont des mthodes dopti mi sati on i trati ves qui
per mettent de trouver des sol uti ons vri fi ant l a condi ti on (3.8). La versi on l a
pl us si mpl e de ces techni ques est cel l e di te du gradient de la plus grande
pent e :
Dfinir la configuration initiale W = W
0
(3.9)
t
k
, k = 1, 2,
W
T
k+1
=
W
T
k
C
( )
W
k
o est un scal ai r e posi ti f, souvent dpendant de k auquel cas on ecri t
k
et qui est appel l e pas ditration. Ce coeffi ci ent est i ncorpor dans l a terme
w
k
ij
de l quati on (3.4).
Dans l e cas quadrati que, en rempl aant (3.7) dans (3.9) on obti ent
l expr essi on :
W
T
k+1
=
W
T
k

k
k=1
m
( )
W
T
x
k
y
k
x
T
k
(3.10)
62
Dans (3.10) l es changements de chaque w
ij
W sont foncti on des toutes l es
donnes
( )
x
k
, y
k
, k = 1, 2, , m, m tant l e nombr e dexempl es.
Le gradient stochastique : la rgle de Widrow-Hoff
Ces techni ques de gradi ent ne sont pas adaptes au cas des rseaux
connexi onni stes o l on dsi re mettre en oeuvre des systmes adaptati fs
capabl es de modi fi er l eurs paramtres en conti nu en foncti on dun
envi r onnement qui peut changer . Wi dr ow et Hoff ont pr opos en 1960 l a rgl e
adaptati ve qui porte l eur nom et qui est gal ement connue sous l e nom de
rgl e LMSE [Wi drow et Hoff 60]. I l sagi t tout si mpl ement dune rgl e de
gr adi ent sui vant l a pl us grande pente o l es paramtres w sont modi fi s non
pas en tenant compte chaque i trati on de l erreur gl obal e ral i se sur un
ensembl e de for mes, mai s o apr s chaque pr sentati on de forme on modi fi e l e
vecteur de paramtres. La formul ati on mathmati que de l a rgl e est l a
sui vante :
W
T
k+1
=
W
T
k

k
( )
W
T
x
k
y
k
x
T
k
(3.11)
o
( )
x
k
, y
k
est l e coupl e prsent l i nstant de temps t
k
. I l a t dmontr
que, dans l e cas dune erreur quadrati que, (3.11) converge avec probabi l i t 1
ver s W
*
, l a sol uti on de W que mi ni mi se l a foncti on de cot C
( )
W .
Lal gori thme de l Adal i ne est trs gnral pui squi l permet dapprendre
des associ ati ons quel conques. Quel que soi t l a nature du probl me tudi , cet
al gori thme fourni ra une sol uti on qui est l a mei l l eure que l on pui sse avoi r
avec cette archi tecture au sens de l erreur aux moi ndres carrs. Toutefoi s,
l ar chi tectur e uti l i se tant extrmement si mpl e, i l est vi dent que l a qual i t
de l approxi mati on trouve ne sera pas toujours excel l ente. La Fi gure 3.5
i l l ustr e sur des exempl es si mpl es de cl assi fi cati on l es hyperpl ans sparateur
trouvs par une Adal i ne. Lhyperpl an trouv sera cel ui mi ni mi sant l er r eur
quadrati que. Notons qui l ne correspond pas toujours l a sparati on
opti mal e et qui l peut exi ster des probl mes l i nai rement sparabl es pour
l esquel s l Adal i ne ne tr ouver a pas de sol uti on [Fi gur e 3.5b].
Lal gori thme de l Adal i ne est extrmement empl oy, cest notamment
l al gor i thme de base en tr ai tement adaptati f du si gnal . Toutefoi s, cause des
l i mi tati ons voques pl us haut, on a cherch des archi tectures et des
al gori thmes permettant de ral i ser des tches pl us compl exes ou avec une
mei l l eure approxi mati on que cel l e fourni e par une si mpl e Adal i ne. Ces
63
r echer ches ont donn l i eu de trs nombreuses publ i cati ons dans l es annes
60-70. Toutefoi s, aucun al gori thme gnral na t formul permettant
dentra ner des rseaux pl us compl exes et dusage gnral . Wi drow par
exempl e a l ui mme propos l a noti on de Madal i ne [Wi drow et Wi nter 88] o
pl usi eurs adal i nes sont uti l i ses si mul tanment ou squenti el l ement pour
rsoudre des probl mes non sol ubl es de faon exacte par une seul e Adal i ne.
Les Madal i nes, comme tous l es al gori thmes prsents l a mme poque,
ncessi tent une i mportante connai ssance a priori du probl me qui permette
de dfi ni r l archi tecture empl oyer. Ce type de connai ssance nest bi en sr
quasi ment jamai s di sponi bl e quand on sattaque un probl me rel . I l ne
sagi t donc pas dune machi ne dappr enti ssage gnr al .
solution linaire :
sparation approximative
solution non-linaire :
sparation exacte
Classe 2 Classe 2
Classe 1 Classe 1
(a) (b)
Fi gure 3. 5 : Capacit de sparation entre classes dAdaline. Adaline convient trs
bien pour des problmes ayant un hyperplan sparateur entre les diffrentes classes.
Quand ce nest pas le cas, (a) Adaline trouve un Hyperplan sparateur optimal. Dans
un problme plusieurs entres : (b) le problme XOR, une solution linaire peut tre
trs contraignante par rapport une solution non-linaire.
I l faut attendr e l e mi l i eu des annes 80 pour voi r appara tre des machi nes
beaucoup pl us pui ssantes que cel l e des annes 60 avec des procdures
dapprenti ssage gnral es et effi caces. Le modl e l e pl us cl bre qui est
gal ement cel ui que nous avons empl oy pour nos appl i cati ons est cel ui des
per ceptr ons mul ti couches entra ns par l al gori thme de rtro-propagation du
gradi ent . Toutefoi s, cet al gori thme nest quune gnral i sati on un type
dar chi tectur e pl us compl exe de cel ui de l Adal i ne.
64
3. 5. La rtro-propagation du gradient
Les l i mi tati ons des modl es neuronaux des annes 60 comme l Adal i ne ou
le Perceptron [Rosenbl att 57], ont condui t l es chercheurs abandonner
progressi vement cette l i gne de mthodes dapprenti ssage au profi t des
approches symbol i ques de ce que l on appel l e aujourdhui l I ntel l i gence
Ar ti fi ci el l e cl assi que.
Dans l es annes 80, gr ce aux travaux de Teuvo Kohonen [Kohonen 84] et
de J. Hopfi el d [Hopfi el d 82], cette voi e t remi se au got du jour et a susci t
un i ntrt croi ssant de l a part de nombreux chercheurs i ssus de di ffrentes
di sci pl i nes.
Cest ai nsi que fut propos si mul tanment par pl usi eurs qui pes
travai l l ant i ndpendamment lalgorithme de la rtro-propagation du
gradi ent . Davi d E. Rumel hart, Geoffrey E. Hi nton et Ronal d J. Wi l l i ams en
1986 [Rumel har t et al. 86], ont prsent l a mthode, qui l s ont appel la Rgle
Delta Gnralise [Rumel hart et al. 86b]. Presque si mul tanment, Yan
l e Cun [l e Cun 85] et Davi d B. Parker [Parker 85] prsentai ent chacun
spar ment des al gor i thmes dappr enti ssage si mi l ai r es.
Des dri vati ons formel l es de l a mthode de rtro-propagati on du gradi ent
peuvent tr e tr ouves dans [Fogel man-Soul i et al. 87] et [l e Cun 87].
3. 5. 1. Une nouvelle architecture
Lapport fondamental de ce nouveau type de rseau a t de proposer une
mthode dapprenti ssage effi cace pour entra ner des rseaux composs
duni ts non l i nai r es assembl s dans des ar chi tectur es compl exes.
Les units
Dans l es perceptrons mul ti couches, l es uni ts peuvent ventuel l ement
tre l i nai res comme dans Adal i ne; el l es peuvent tre aussi non l i nai res et
cest l i ntrt de ce type duni ts. Pour des rai sons l a foi s hi stori ques et
prati ques, l es uni ts empl oyes dans l a pl upart des modl es neuronaux sont
du type quasi -l i nai r e au sens o on l a dfi ni en 2.2.5.
65
Ai nsi , l tat dune cel l ul e i est cal cul par :
x

i
=
f
j=1
n
w
ij
x
j

0
(3.13)
o f est une foncti on di ffrenti abl e, l a pl us communment empl oye tant
cel l e or i gi nel l ement pr opose dans l e modl es des MLP, i l sagi t de l a fonct ion
si gmo de (cf. 2.2.5); x
j
r epr sente l es tats des cel l ul es connects l a cel l ul e i;
w
ij
l e poi ds de connexi on entr e l es cel l ul es j et i; et
0
l e seui l associ l a cel l ul e
i.
Lorganisation des cellules
LAdal i ne possde des uni ts dentre et des uni ts de sorti e. Les deux
types de cel l ul es tant accessi bl es par l e monde extri eur sont di tes uni ts
externes. El l es consti tuent respecti vement l i nterface dentre et cel l e de
sor ti e du systme.
Les rseaux MLP possdent l e mme type di nterface, mai s ont gal ement
des cel l ul es qui ne sont ni des uni ts dentre ni des uni ts de sorti e et qui
sont appel es cellules caches. Ltat des cel l ul es caches ntant pas
accessi bl e de l extr i eur , i l est modi fi en foncti on des tats des autres cel l ul es
du r seau. Une donne prsente en entre du rseau est propage travers
l es connexi ons jusquaux cel l ul es caches. De mme, l es tats de cel l ul es
caches sont propags travers, ventuel l ement dautres couches caches,
jusqu l a couche de sorti e du rseau. La rtro-propagati on du gradi ent
permet de travai l l er avec un rseau pl usi eurs couches de neurones, ou
r seau mul ti couches; on par l e souvent de Percept ron Mul t i couches.
Luti l i sati on des automates quasi -l i nai res dans l al gori thme de rtro-
propagati on du gradi ent conjugue aux archi tectures mul ti couches vont
per mettr e cette mthode de rsoudre certai n type de probl mes qui l ntai t
pas possi bl e de rsoudre effi cacement par l es rseaux pl us si mpl es comme
l Adal i ne et l e Percept ron.
66
3. 5. 2. Lalgorithme de rtro-propagation du gradient
Notons x
i
l tat dun neur one i, x
i
S qui est l ensembl e des tats possi bl es.
Sel on (2.3) l tat x
i
du neur one i est cal cul par :
x
i
=
f
( )
A
i

i
(3.14)
o, pour l es MLP, f est une foncti on si gmode, A
i
l 'acti vi t du neur one i et
i
l e seui l associ au neur one i. L'acti vi t A
i
est donne par :
A
i
=
j
w
i j
x
j
(3.15)
o j est i ndi ce des neur ones en amont du neur one i, et w
ij
est l e poi ds de l a
connexi on du neur one j au neur one i.
Propagation des tats
On consi dr e encor e une foi s l ensembl e des vecteur s dentr e x
1
, x
2
, , x
m
,
dfi ni s dans R
n
et l es vecteurs rponses y
1
, y
2
, , y
m
, dfi ni s dans R
p
et W l a
matri ce de poi ds de connexi ons cette foi s-ci dfi ni e dans R
ncnc
, nc tant l e
nombr e total de cel l ul es. Al or s,
x
k
=
[ ]
x
k
1
, x
k
2
, , x
k
n
T
, y
k
=
[ ]
y
k
1
, y
k
2
, , y
k
p
T
et (3.16)
W =
]
1
1
1
0 0 0 0
w
1
0 0 0
0 w
2
0 0
: : : : :
0 0 w
p
0
=
{ }
w
ij
ncnc
, o w
i
=
{ }
w
kl
nc
(i-1)
nc
(i)
chaque sous-matr i ce w
i
conti ent l es poi ds de connexi ons entr e l a couche i-1
avec nc
(i-1)
cel l ul es et l a couche i avec nc
(i)
cel l ul es.
A chaque i nstant k, un vecteur x
k
est prsent dans l a couche dentre du
r seau. Les tats des n cel l ul es en entr e prennent l es val eurs (x
k
1
, x
k
2
, , x
k
n
).
Ces tats sont propags sel on l es quati ons (3.14) et (3.15), vers des uni ts se
trouvant dans l es couches en aval de l a couche dentre jusqu arri ver l a
couche de sor ti e.
67
Appel ons s
k
= (s
k
1
, s
k
2
, , s
k
p
) l a rponse du rseau pour une entr e x
k
donne. s
k
est l e vecteur compos par l es tats de p cel l ul es de l a couche de
sorti e. Leurs tats ont t cal cul s par l es quati ons (3.14) et (3.15) en
foncti on des cel l ul es j connectes l a couche de sor ti e.
i
j
couche :
1 2 q-1 q nc-1 nc
sens de la propagation des tats
q+1
x
1
x
2
x
n
s
1
s
2
s
p
y
1
y
2
y
p
s
o
r
t
i
e

c
a
l
c
u
l
e
s
k
:
s
o
r
t
i
e

d
e
s
i
r
e
y
k
:
e
n
t
r
e
x
k
:
Fi gure 3. 6 : propagation des tats dans un rseau multicouche.La propagation des
tats se fait en aval ds la couche dentre vers la couche de sortie. Ltat de la cellule
i dans la couche q est fonction des tats des cellules j des couches prcdentes q-1, etc.
Rtro-propagation de lerreur
Le but tant dobteni r pour une entre x
k
une rponse s
k
l a pl us proche
possi bl e du vecteur y
k
dsi r correspondant, on est amen opti mi ser notre
rseau afi n de rdui re l a di ffrence entre sorti e dsi re et cal cul e comme
pour l Adal i ne.
Dfi ni ssons l a foncti on de cot sui vante :
C
k
( ) W =
i=1
p
( )
s
k
i

y
k
i
2
(3.17)
qui est l erreur ou di stance quadrati que entre l a sorti e cal cul e s
k
et l a
sorti e dsi re y
k
. La total i t des poi ds de connexi ons du rseau doi t tre
ajuste en foncti on de cette erreur. Cette foncti on de cot dpendra bi en sr
de l tat du systme et de l exempl e qui l ui est pr sent.
68
Pour mi ni mi ser l a foncti on de cot C
k
( ) W on doi t cal cul er son gradi ent par
r appor t W.
C
k
( ) W
w
ij
=
C
k
( ) W
A
i

A
i
w
ij
=
C
k
( ) W
A
i
x
j
=
k
i
x
j
(3.18)
ceci en posant
k
i
=
C
k
( ) W
A
i
Pour l es cel l ul es i de l a couche de sorti e on peut rcri re
k
i
de l a mani r e
sui vante :
k
i
=
C
k
( ) W
A
i
=
C
k
( ) W
s
i

f
'
( )
A
i
= 2
( )
s
k
i

y
k
i

f
'
( )
A
i
(3.19)
Pour l es cel l ul es i ne fai sant pas parti e des cel l ul es de l a couche de sor ti e
on a :
k
i
=
C
k
( ) W
A
i
=
C
k
( ) W
x
i

f
'
( )
A
i
mai s
C
k
( ) W
x
i
=
l
C
k
( ) W
A
l

A
l
x
i
=
k
l
w
li
o l es cel l ul es l sont en aval de l a cel l ul e i. On obti ent al or s :
k
i
=
f
'
( )
A
i

k
l
w
li
(3.20)
pour l es neur ones i dans l es couches i nter mdi ai r es du r seau.
69
i
l
couche :
1 2 q-1 q nc-1 nc
sens de la rtro-propagation des erreurs
q+1
x
1
x
2
x
n
p
g
r
a
d
i
e
n
t
s

d
e

s
o
r
t
i
e
e
n
t
r
e
x
k
:
Figure 3.7 : rtro-propagation des gradients.La rtro-propagation des gradients se
fait en amont ds la couche de sortie ver la couche dentre. Le gradient de la cellule i
dans la couche q est fonction des gradients des cellules l des couches suprieures q+1,
etc.
Enfi n, sel on l quati on gnr al e dadaptati on des coeffi ci ents w
ij
(3.4) :
w
k+1
ij
= w
k
ij

+ w
k
ij
(3.21)
dont l es w
k
ij
sont donnes par l expr essi on
w
k
ij
=
k

C
k
( ) W
w
ij
=
k

k
i
x
j
(3.22)
La val eur du pas dappr enti ssage
k
est typi quement assez peti te et dcro t
dans l e temps.
Les gr adi ents
k
i
sont donns par l es quati ons (3.19) et (3.20).
Lal gori thme dapprenti ssage est rsum dans l e tabl eau ci -dessous.
Di ffr ents cr i tr es peuvent tr e empl oys pour ar r ter l e pr ocessus.
70
Algorithme dApprentissage de la rtro-propagation du gradient stochastique
Soit N le nombre total dautomates dun rseau,
c le nombre de couches ou partitions dans lesquels sont arrangs ces automates,
n la taille des vecteurs dentre x
k
(ou nombre dautomates dans la couche dentre), et
p la taille des vecteurs de sortie y
k
(ou nombre dautomates dans la couche de sortie).
Soit (I
q
)
q = 1, 2, . . . , c
une partition ordonne de lensemble dautomates { } 1, 2, , N ,
dfinie telle que pour les automates j et i :
j I
q
, i I
r
, q < r

j < i
La premire partition I
1
= ( 1, 2, , n) correspond aux indices des n automates
reprsentant la couche dentre.
La dernire partition I
c
= ( ) cp1, cp2, , c correspond aux indices des p
automates reprsentant la couche de sortie.
Soit I
0
= (0) une partition contenant seulement un automate, lautomate 0. Ltat de cet
automate est fix 1. Cet automate est connect tous les autres automates du rseau,
lexception des automates de la couche dentre. La valeur w
i,0
du poids de connexion
entre cet automate et un automate i quelconque reprsente le seuil
i
pour ce dernier dans
lquation du calcul dtat (3.14).
Propagation des tats :
1) Prsenter un exemple x
k
Pour q = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . << la couche dentre >>
i I
q
, s
i
= x
k
i
2) Propager les entres
q (2, , c), . . . . . . . . . . . << les couches intermdiaires et la couche de sortie >>
i I
q
, A
i
=
j
( )
I
0
UI
1
UI
2
UUI
q-1
w
k
ij
s
j
s
i
=
f
( )
A
i
3) Calculer les gradients partir de la sortie calcule s
k
et la sortie dsire y
k
.
Pour q = c . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . << la couche de sortie >>
i I
q
,
k
i
=
f
'
( )
A
i

[ ]
s
i
y
k
i
4) Rtro-propager les gradients
q ( c1, c2, , 2), . . . . . . . . << les couches intermdiaires en ordre descendant >>
i I
q
,
k
i
=
f
'
( )
A
i

]
1
1
l
( )
I
q+1
UI
q+2
UUI
c
k
l
w
k
li
5) Correction des poids de connexions
q (2, , c), . . . . . . . . . . . << les couches intermdiaires et la couche de sortie >>
i I
q
,
j
( )
I
0
U I
1
U I
2
U U I
q-1
w
k+1
ij
= w
k
ij
+
k

k
i
x
j
6) Rpter partir de (1) avec un nouvel exemple x
k
.
71
Gradient stochastique ou gradient dterministe
La foncti on de cot dfi ni e dans l a mt hode du gradient, tel l e quon l a vue
l ors de l a prsentati on dAdal i ne (dfi ni e dans l quati on (3.7)), est l a
moyenne du cot donne par l quati on (3.17) pour l es m exempl es consti tuant
l a base dappr enti ssage i .e. :
C( ) W =
1
2
k=1
m
( )
F(x
k
, W)

y
k
2
o F(x
k
, W) cor r espond l a sor ti e du rseau aprs prsentati on de x
k
, et y
k
est l a sorti e dsi re associ e. Dans ce cas, l es poi ds des connexi ons sont
ajusts seul ement aprs avoi r prsent tous l es exempl es et cal cul l e cot
gl obal donn pour l quati on prcdente. Ceci correspond au gradient total
cal cul l or s dune mi ni mi sati on cl assi que par descent e de gradi ent .
I l a t dmontr que l a mthode uti l i se dans nos travaux, o l es
paramtres du rseau sont modi fi s sel on l e gradi ent cal cul pour chaque
exempl e (foncti on de cot donne par (3.17)), appel e gradient stochastique,
converge avec probabi l i t 1 vers un mi ni mum l ocal tout en tant moi ns
prdi spose que l a vrai e mthode de l a descente de gradi ent rester bl oque
dans des mi ni ma i ni ntr essants [Bottou 91].
Cet al gor i thme pr sente de nombr eux avantages, outre son adaptati vi t; i l
est total ement gnral et peut tre adapt tout type darchi tecture. Nous
dtai l l er ons par l a sui te quel ques cas i ntr essants.
Algorithme avec poids partags
Dans l e cas de poi ds partags l a mi ni mi sati on de l a foncti on de cot C
k
( ) W
par r appor t W vari e l grement par rapport (3.18). En effet, l al gori thme
doi t assurer une mi se jour des poi ds afi n de donner l a mme val eur aux
poi ds par tags.
Soi t w
ij
l e poi ds de connexi on entre l es cel l ul es j et i du rseau. Ce poi ds
tant partag par dautres connexi ons entre cel l ul es, appel ons N
l
l ensembl e
des coupl es de cel l ul es qui partagent l a connexi on w
ij
, et dune faon pl us
gnral e
l
l e poi ds w
ij
qui qui l es rel i ent. On a donc : N
l
=
{ }
(i
1
, j
1
), (i
2
, j
2
), .
Le gr adi ent de l a foncti on de cot C
k
( ) W par r appor t
l
est donn par :
72
C
k
( ) W
l
=
(i, j)N
l
C
k
( ) W
A
i

A
i
w
ij
=
(i, j)N
l

k
i
x
j
(3.23)
De cette faon, on peut modi fi er l e pas n 5 dans l al gori thme de l a rtro-
pr opagati on du gr adi ent stochasti que et donner une for me pl us gnral e de l a
mi se au poi nt des poi ds de connexi ons :
5) Correction des poids de connexions
q (2, , P), . . . . . . . . . . . << les couches intermdiaires et la couche de sortie >>
l

{ }
ensemble de poids w
ij
arrivant aux cellules i de la partition I
q
k+1
l
=
k
l
+
k

(i, j) N
l
k
i
x
j
<< o N
l
est lensemble de couples de cellules (i, j) partageant le poids
l
, >>
<< pour i I
q
et j
( )
I
0
UI
1
UI
2
U UI
q-1
>>
Notons cependant que cette faon de modi fi er l es poi ds engl obe l e cas o i l
ny a pas de poi ds partags et o tous l es poi ds sont di ffrents. Dans ce cas,
l es di ffrents ensembl es N
l
ne conti ennent quun seul coupl e (i, j) i ndi quant
l es deux cel l ul es cor r espondant l a connexi on qui a comme poi ds
l
= w
ij
.
Le pas dapprentissage
Lapprenti ssage avec l a rtro-propagati on du gradi ent dpend fortement
de l a val eur donne au scal ai re
k
dans l expressi on (3.21). Pour l a mi se en
oeuvr e l a pl us si mpl e de cet al gori thme, est un scal ai re uni que pour tout l e
rseau. Cette val eur est modi fi e di mi nue manuel l ement au fur et
mesur e que l e r seau appr end. I l nest pas si mpl e de fai re manuel l ement une
modi fi cati on opti mal e de cette val eur : une val eur tr op i mpor tante va trs vi te
fai re di verger l e rseau de l a sol uti on recherche l es poi ds tombent dans l a
zone de saturati on des foncti ons si gmodes uti l i ses comme foncti ons de
transi ti on. Une trop peti te val eur ral enti ra normment l e processus
dapprenti ssage. Avec un peu dhabi tude, on peut bi en sr deveni r expert
dans l es modi fi cati ons des val eurs de pendant l apprenti ssage et arri ver
ai nsi obteni r de trs bonnes courbes de convergences. Toutefoi s, ce procd
nest pas total ement sati sfai sant et l uti l i sateur novi ce ai merai t bi en di sposer
de pr ocdur es automati ques de var i ati on de .
73
La val eur opti mal e de dpend l a foi s du probl me rsoudre et de l a
nature du rseau uti l i s. I ntui ti vement, on peut trs bi en comprendre que
dans une r gi on r el ati vement pl ate de l a foncti on de cot, on ai t i ntr t al l er
beaucoup pl us vi te que dans l e cas dune r gi on ayant des pentes rai des. Une
val eur i mpor tante d accl re l a convergence pour l e premi er cas tandi s que
pour l e deuxi me el l e peut fai r e di ver ger l a pr ocdur e.
La connai ssance dune i nformati on l ocal e sur l a forme de l espace des
erreurs pourrai t nous permettre de choi si r l e bon , i trati on aprs i trati on
et cel l ul e par cel l ul e. Cette connai ssance est possi bl e en expl oi tant
l i nfor mati on des dr i ves de l a foncti on de cot dor dr e supr i eur 1.
Drives de second ordre : mthode de Newton
Pour trouver une sol uti on W
*
qui mi ni mi se C
( )
W l a mthode prcdente
uti l i se uni quement l i nformati on donne par l a dri ve de premi er ordre. I l
est connu en opti mi sati on cl assi que que l uti l i sati on des i nformati ons
donnes par l es dri ves dordre supri eur peut accl rer l e processus de
r echer che dune sol uti on opti mal e. De nombreux travaux ont tent dtendre
cette approche aux techni ques adaptati ves dans l e cadre des rseaux de
neur ones.
On peut ai nsi ci ter [Wal tr ous 87, Becker & l e Cun 89, Pr i na et al. 88]. Tous
par tent de l a mthode de Newton, et se di ffrenci ent sel on l es approxi mati ons
qui l s pr oposent pour for mul er des al gor i thmes du second or dr e adaptati fs.
Nous prsentons l es noti ons de base communes aux mthodes du second
ordre et qui sont ncessai res pour comprendre ces di ffrents al gor i thmes.
Nous renvoyons aux di ffrents papi ers ci ts pour une descri pti on des
al gor i thmes eux mmes.
Le dvel oppement de sr i es de Tayl or pour l a foncti on de cot C
k
( ) W autour
du poi nt W donne :
C
( )
W + W C( ) W +
|
C( ) W
W
W +
1
2
W
T
| H
W
W + (3.24)
74
o H l a matr i ce Hessi enne reprsente l e terme de deuxi me ordre, et l es
poi nts i ndi quent l es termes de troi si me ordre et dordres supri eurs. Ces
ter mes sont en pr ati que pr esque nul s et ne sont pas pr i s en compte.
La sol uti on qui mi ni mi se (3.24) est de l a for me :
W
k+1
W
k

k

|
H
1
W
k
|
C( ) W
W
k
(3.25)
Pour
k
= 1 cette quati on reprsente l a mthode de Newton pour rsoudre
des systmes dquati ons non-l i nai r es.
La sol uti on de H
1
, dans l e cas gnral , prsente des di ffi cul ts dordre
di vers. Lune dentre el l es est une questi on de moyens physi ques : pour une
appl i cati on de grand tai l l e o l espace des exempl es est dune tai l l e
consi drabl e, l e matri ce W peut attei ndre des di mensi ons qui font de l a
gesti on du hessi en H stockage et i nversi on une tche presque i mpossi bl e.
En effet, si n est l e nombre de poi ds, l oprati on di nversi on du hessi en est
dune compl exi t trs l eve ( O(n
3
), i .e. l e nombre doprati ons ncessai res
pour i nver ser H est de l or dr e de n
3
!). Une tel l e quanti t dopr ati ons excl ur ai t
de fai t l uti l i sati on prati que de cette mthode dans des cas rel s de grand
tai l l e.
Des mthodes numri ques savrent ncessai res pour rsoudre cette
rel ati on de faon pl us effi cace en temps de cal cul et en gesti on de mmoi re.
Cest dans l a mthode uti l i se et l es si mpl i fi cati ons fai tes pour rsoudre H
1
dans l expressi on (3.25) que se di ffrenci ent entre eux l es di ffrents travaux
ci ts ci -dessus ai nsi que l a mthode uti l i se dans nos travaux. Dans l es
apprenti ssages effectus pour nos travaux, on a uti l i s dabord une
appr oxi mati on di agonal e de H
1
chaque pr sentati on chaque i nstant k et
aprs l a mthode de Levenberg-Marquardt pour rsoudre cette
appr oxi mati on (voi r [Pr ess et al. 88] pour l es dtai l s de cal cul ).
3. 6. Lapproche modulaire
Dans l es secti ons prcdentes, nous avons i ntrodui t l es al gori thmes que
nous avons uti l i s pour nos di ffrentes appl i cati ons ai nsi que di ffrentes
var i antes qui en consti tuent des adaptati ons pour des archi tectures donnes
75
ou des aml i orati ons. Ce type de rseau de neurones permet de ral i ser des
tches extr mement compl exes et permet de construi re des machi nes dont l a
pui ssance a de nos jours t l argement dmontre tant au ni veau prati que
que thori que. Toutefoi s, di ffrents probl mes l i s l a qual i t des
esti mateurs obtenus, l a quanti t de cal cul s ncessai re pour ral i ser
l apprenti ssage et donc au temps de mi se en oeuvre ou de test de ces
machi nes, rendend l eur uti l i sati on brute i neffi cace pour des probl mes
compl exes ou de trs grande tai l l e. Nous avons, au sei n de l qui pe,
rapi dement t confront ce probl me ds que nous avons essay de
r soudr e des appl i cati ons de ce type. La sol uti on que nous avons trouve, qui
sest rvl e l a seul e vi abl e au travers des di ffrentes expri ences que nous
avons eus sur des probl mes de tai l l e i mportante, est de construi re des
systmes modul ai res. De nombreux travaux ont t ral i ss pour l a foi s
tabl i r une thor i e de ces systmes et per mettr e l eur mi se en oeuvre prati que.
Ci tons par exempl e l es ceux effectus par Lon Bottou [Bottou 91], Mi chel de
Bol l i vi er [Bol l i vi er 92] et Youns Bennani [Bennani 92] au sei n de l qui pe.
Luti l i sati on dune approche modul ai re est une des faons di ntrodui re de
l a connai ssance dans l a rsol uti on des probl mes
9
par des mthodes
connexi onni stes. Les di ffrents modul es et l eur assembl age permettent
di ntgr er des connai ssances l mentai res que l on possde sur l e probl me
rsoudre et cel a de faon extrmement si mpl e. Les archi tectures ai nsi
constr ui tes permettent de rdui re consi drabl ement l a di mensi on de l espace
de recherche de l a procdure dapprenti ssage par rapport l uti l i sati on dun
r seau monol i thi que. El l es per mettent gal ement de gui der l a recherche vers
des sol uti ons i ntressantes et dvi ter des mi ni ma l ocaux dangereux.
Contrai rement ce qui avai t t fai t dans l es annes 60 pour l es Madal i nes
par exempl e, ce type dapproche est parfai tement uti l i sabl e pour des
probl mes de grande tai l l e. La dcomposi ti on dun probl me compl exe en
pl usi eurs sous-probl mes trai ts chacun de faon modul ai re par un rseau
par ti cul i er amne souvent une mei l l eur e appr oche du pr obl me.
Dans l appl i cati on pri nci pal e prsente dans ce mmoi re, l e cal cul des
caractri sti ques du vent sur l ocan en foncti on des mesures radar, nous
avons effectu une dcomposi ti on sui vant deux di r ecti ons :
9
Lexpressi on rsol uti on des probl mes est assez l arge, nous nous l i mi tons i ci des
pr obl mes de cl assi fi cati on de si gnaux ai nsi qu l a si mul ati on des foncti ons de tr ansfer t.
76
Dcomposit ion vert icale : l a tche rsoudre est dcompose en pl usi eurs
sous-tches, chacune pouvant tre dcompose son tour. La sol uti on se
fai t en rsol vant successi vement l es di ffrentes tches. Li nformati on
i ssue de l a sol uti on dune tche peut savrer i ndi spensabl e l a sol uti on
dautr es tches dans des ni veaux supr i eur s.
Dcomposition horizontale : dans certai ns types de probl mes, et dans l e
ntr e en parti cul i er, l a tche rsoudre doi t se fai re systmati quement
parti r de donnes i ssues de di ffrentes condi ti ons de pri se di nformati on
connues. Souvent, un si mpl e trai tement sur l es donnes peut suffi re
l homogni sati on de l i nfor mati on. Dautr es foi s, ce nest pas si si mpl e, et
un rseau ou un ensembl e de rseaux ddi l a sol uti on du probl me
savre ncessai re pour l a sol uti on de l a tche pour chaque source de
donnes. La dcomposi ti on hori zontal e est aussi effectue quand une
tche peut se dcomposer en pl usi eur s sous tches i ndpendantes; dans ce
cas aussi , i l y aur a un r seau par sous tche.
(a) (b)
Fi gure 3. 8 : Dcomposition verticale et horizontale dune tche. (a) Dans le cas de
dcomposition verticale, la tche est divis en sous-tches qui cooprent de faon
ascendante la solution complte : la solution dune sous-tche peut tre relevante dans
la solution dune autre plus haute, une rsolution des tches en srie simpose.
(b) Dans le cas horizontal, la tche peut se dcomposer en plusieurs sous-tches
indpendantes, l nous pouvons intervenir de faon simultane dans la rsolution des
sous-tches.
La cooprati on est donc effectue par l es rseaux en al ternant l es modes
paral l l e et squenti el . Les rseaux appartenant un mme ni veau sont
i ndpendants entre eux et peuvent donc travai l l er en paral l l e. Lexcuti on
squenti el l e est de l i nterdpendance des entres aux di ffrents ni veaux
du systme ai nsi que cel l e des sous-tches. En effet, l a dcomposi ti on que
77
nous avons effectue est dans l e sens verti cal et l es cal cul s des rseaux dun
ni veau donn sappui ent sur l es rsul tats du ni veau prcdent. Lensembl e
consti tue une archi tecture spci al i se massi vement paral l l e. Ce type
darchi tecture nous a permi s dattei ndre moi ndre cot des performances
l eves.
Luti l i sati on dune approche modul ai re a apport nos travaux
pr i nci pal ement l es car actr i sti ques sui vantes :
lefficacit : l a sol uti on du pr obl me tr ai t sest avr e trs di ffi ci l e l ai de
dun r seau uni que. La dcomposi ti on du probl me en sous-tches nous
per mi s de l e tr ai ter effi cacement l ai de des r seaux neur onaux.
la prcision : l a spar ati on du pr obl me en sous-tches, l a dl i mi tati on du
probl me sel on di ffrentes hi rarchi es de donnes et l a dcomposi ti on
sel on ces hi rarchi es nous a permi s daml i orer l es prci si ons dans l es
par amtr es cal cul s.
la rapidit des calculs : l a sol uti on dune tche compl exe l ai de des
archi tectures de rseaux modul ai res condui t une rducti on de l a tai l l e
des rseaux, l a rsol uti on de l a tche avec un uni que rseau ncessi tant
un rseau dune tai l l e et une compl exi t supri eures. Ceci se tradui t par
une accl rati on du cal cul . La dcomposi ti on hori zontal e, du fai t de
l i ndpendance des cal cul s, permet denvi sager l excuti on paral l l e des
modul es avec l es aml i or ati ons vi dentes dans l e temps de trai tement que
ceci entr a ne.
Gr ce tous ces concepts, nous avons dfi ni une mthodol ogi e qui permet
de constr ui r e des systmes de r seaux de neur ones pour tr ai ter des probl mes
compl exes souvent l i s aux appl i cati ons r el l es.
78
4. Proprits thoriques des MLP
4. 1. Approximation des fonctions par rseaux
multicouches
4. 1. 1. Familles des fonctions gnres par les rseaux MLP
Consi dr ons des ar chi tectur es du type r seaux mul ti couches dfi ni es dans
l a secti on 2.4. Pour ce type darchi tectures, l es automates sont rparti s par
ni veaux et l es connexi ons sont toujours di ri ges des couches i nfri eures vers
l es couches supri eures. Notons par c l e nombre de couches du rseau, f l a
foncti on si gmode uti l i se par chaque automate pour cal cul er son i nput et W
l a matr i ce des poi ds du r seau.
Nous supposons par l a sui te que l a couche dentre conti ent n cel l ul es et
cel l e de sorti e conti ent p cel l ul es. De mme, nous supposons m l e nombre
dexempl es.
Pour tout exempl e x =
( )
x
1
, , x
n
, x R
n
, prsente l a couche dentre, l e
rseau cal cul e sur ses p cel l ul es de sorti e un vecteur de R
p
:
F(x, W) =
( )
F
1
(x, W), ,F
p
(x, W) . Ai nsi l e rseau dfi ni t une foncti on de R
n
dans R
p
note par F( , W) =
( )
F
1
( , W), ,F
p
( , W) .
Quand nous consi drons un rseau avec une archi tecture A bi en
dter mi ne (l e nombr e de couches, l e nombr e de cel l ul es par couche, l e type de
foncti on de tr ansi ti on et l es connexi ons entr e cel l ul es) nous spci fi ons une des
fami l l es de foncti ons F
A
=
{ }
F( , W) | W conti nues de R
n
dans R
p
. Les
di ffrentes archi tectures dfi ni ssent di ffrentes cl asses de foncti ons F
A
.
Lensembl e des cl asses dfi ni t une fami l l e de foncti ons conti nues de R
n
dans
R
p
note par F.
Nous al l ons mai ntenant car actr i ser cette fami l l e de foncti on F
A
. Pour l es
archi tectures consi dres, l es connexi ons vont toujours des couches
80
i nfri eures vers l es couches supri eures (i < j w
ij
= 0), i l est possi bl e de
reprsenter l ensembl e des val eurs numri ques des connexi ons dans une
matr i ce car r e par bl ocs W de di mensi on (nb, nb) dans l aquel l e nb reprsente l e
nombre total dautomates. Chaque bl oc reprsentant l ensembl e des poi ds
joi gnant l es automates de deux couches adjacentes.
Si l on appel l e n
0
= n, n
1
, .., n
c-2
, n
c-1
= p l e nombre dautomates respecti fs
des c couches, l a matr i ce W (par exempl e pour c = 4) a l a for me sui vante :
n
n1
n2
p
0 0 0
0 0 0
0 0 0
0 0
1.....n1....n11..n2
1
n
1
n1
1
n2
1
I
W1
W2
1..p
p
W1
W2
W3
0 W3
Figure 4.1 : matrice des poids W dun rseau c=4 couches de cellules et 3
couches de poids.
o w
1
, w
2
, w
3
, r epr sentent l es matr i ces de connexi ons l i ant l a couche i-1
l a couche i pour i var i ant de 1 c1.
Un tat du rseau peut donc tre reprsent par un vecteur de di mensi on
nb dont chaque composante est l tat dun automate du r seau. Nous noter ons
sig
l a foncti on vectori el l e de di mensi on nb dont chaque l ment est une
foncti on si gmode. Une for me x = (x
1
,..., x
n
) de di mensi on n prsente en entre
du rseau se reprsente donc par un vecteur de di mensi on nb, o nb > n,
x = (x
1
,..., x
n
, 0, , 0). Si l on appl i que au rseau une dynami que de
changement dtat bl oc-squenti el l e (cf. 2.4.2), l e cal cul des val eurs de sorti e
du MLP sobti ent en c1 i tr ati ons de l a foncti on (
sig
o W). A chaque i trati on,
l e cal cul du nouveau vecteur dtat sobti ent l ai de de l a matri ce de
connexi ons W. Par exempl e, l a pr emi r e i tr ati on donne :
x
(1)
=
( )
sig
o W =
( )
0, , 0, s
1
, , s
n1
, 0, , 0
81
o s
1
, , s
n1
reprsentent l es tats des automates de l a premi re couche
cache. Au bout de c-1 i tr ati ons on obti ent l e vecteur de sor ti e tendu :
s = (
sig
o W)
c1
x = (0, , 0, s
1
, , s
p
) o (s
1
, , s
p
) est l e vecteur de sorti e
cl assi que du rseau. La fami l l e de foncti ons F
A
reprsentes par une
archi tecture A donne est donc = (
sig
o W)
c1
. Chaque matri ce W du type
pr cdent per met dobteni r un l ment de cette fami l l e.
4. 1. 2. Approximation dune fonction continue par rseaux MLP
Approxi mer une foncti on T quel conque de R
n
dans R
p
l ai de dun rseau
MLP i mpl i que l e fai t de choi si r une archi tecture de rseau dont l a premi re
couche possde n automates et l a derni re p, ai nsi quun systme de poi ds
associ s. Ceci revi ent choi si r une foncti on dans l a fami l l e de foncti ons F.
Larchi tecture A du rseau, et en parti cul i er l e nombre de couches
i nter mdi ai r es et l e nombr e dautomates du rseau, est choi si e en foncti on de
l a compl exi t de l a foncti on appr oxi mer . Ce choi x fi xe a priori l a fami l l e F
A

l i ntri eur de l aquel l e nous dsi rons trouver l approxi mati on. Des rsul tats
expri mentaux et thori ques permettent de montrer que 1 ou 2 couches de
cel l ul es caches suffi sent pour approxi mer un grand nombre de foncti ons
[Li ppmann 87, Cybenko 89, Funahashi 89 et Hor ni k et al . 89].
Nous rappel ons i ci un rsul tat thori que sous sa forme l a pl us gnral e
montrant que toute foncti on conti nue d'un compact de R
n
dans R
p
peut tre
approxi me par un rseau mul ti couche dont l es automates des couches
caches uti l i sent des foncti ons si gmodes et dont l es automates de sorti e sont
l i nai r es. Nous r envoyons [Cybenko 89] pour l es dmonstr ati ons.
Thorme : Soit f(x) une fonction non-constante, borne, monotone croissante et
continue. Soit K un sous ensemble compact de R
n
. Pour toute fonction T continue
T : K R
p
, dfinie par x =
( )
x
1
, x
2
, , x
n

( )
T
1
(x), , T
p
(x) , et pour
tout > 0, il existe un rseau A une couche cache, dont la fonction de transition est
f(x) pour chacune des cellules caches et linaire pour les cellules de sortie, tel que :
max
xK
[ ] d( ) T(x) F(x, W) <
o W est la matrice des poids de connexions associe, d() la mtrique usuelle de R
p
et
F(,W) la fonction gnre par le rseau.
82
Le r sul tat pr cdent dmontr e l exi stence dun rseau une seul e couche
cache per mettant dappr oxi mer une foncti on conti nue T un prs dans un
sous ensembl e compact K de R
n
. Cependant, ce rsul tat ne nous donne pas
di ndi cati ons prci ses sur l e nombre de cel l ul es caches consi dr er .
Expri mental ement, i l sembl e quaugmenter l e nombre de couches permette
dattei ndre l approxi mati on cherche moi ndre cot (nombre de connexi ons
et de cel l ul es caches).
Un travai l rcent qui va dans ce sens est cel ui de Bl um et Li [Bl um et
Li 91]. Dans ce travai l , l es auteurs tudi ent l approxi mati on des foncti ons
l ai de de r seaux mul ti couches dans l esquel l es l es foncti ons de transi ti on des
uni ts caches sont des foncti ons seui l val eurs dans {1, 0}, al ors que cel l es
des uni ts de sor ti es sont l i nai r es. Nous notons par l a sui te ces rseaux par
BL
. Les foncti ons gnr es par de tel s r seaux sont des foncti ons constantes
par morceaux. Une foncti on g : K R
n
R dfi ni e sur l e compact K est di te
constante par morceaux si l exi ste une parti ti on fi ni e de K {D
i
}
i=1..n
tel que g
soi t constante dans chaque D
i
.
Les auteurs dmontrent qutant donne une foncti on conti nue
f : K R
n
R i l exi ste un rseau
BL
ayant deux couches caches qui
approxi me uni formment sur K l a foncti on f un prs. La dmonstrati on
uti l i se l e fai t que f peut tre approxi me uni formment sur K, et un prs,
par une foncti on si mpl e g dont l a parti ti on associ e est forme par m
hyper cubes. I l s constr ui sent al or s un r seau
BL
deux couches caches qui
gnr e exactement l a foncti on g, l a constructi on de ce rseau ncessi te 2nm
uni ts sur l a pr emi r e couche cache et m uni ts sur l a seconde, l e nombre de
poi ds de ce rseau tant gal m(4n+1). Le probl me de l a dtermi nati on du
nombre m, pour une foncti on f donne et pour une prci si on souhai te,
ncessi te des i nformati ons gl obal es sur f. Ces i nformati ons peuvent tre
donnes par l une des pr opr i ts sui vantes :
f conti nue sur K i mpl i que quel l e est uni formment conti nue, donc pour
tout > 0 i l exi ste () tel l e que si x y < () al ors f(x) f(y) < . Ai nsi m
est gal au pl us peti t enti er supr i eur ou gal
1
()
.
Si f est conti nment dri vabl e avec ||f ' || k, al ors, pour ||x y||
suffi samment peti te, nous avons ||f(x) f(y)|| k||x y||. Nous pouvons
pr endr e al or s m
k
.
83
Parei l l ement si f est Li pschi tzi enne (i .e. sati sfai sant ||f(x) f(y)|| k||x y||)
de constante k, al or s pour tout nous pouvons pr endr e m
k
.
Ces tr oi s pr opr i ts donnent une borne supri eure du nombre des cel l ul es
caches. El l es nous prci sent aussi que, dans l e cas gnral , ce nombre est
i nver sement pr opor ti onnel au module de cont inuit () de l a foncti on f.
4. 2. Proprits des rseaux pris en tant que
classifieurs
Les rseaux mul ti couches sont trs souvent uti l i ss en tant que
cl assi fi eurs (voi r 3.3). Une des mthodes l es pl us uti l i ses en thori e
stati sti que de l a dci si on est l a rgl e de dci si on de Bayes pour un ri sque
mi ni mum. Cest une mthode probabi l i ste qui suppose que des i nformati ons
probabi l i stes sur l es nuages de poi nts consti tus par l es di ffrentes cl asses
sont accessi bl es. La dtermi nati on de cette foncti on ncessi te donc l a
connai ssance de val eurs qui ne sont pas di rectement accessi bl es
l expr i ence.
Ds que l e nombr e dl ments de l ensembl e dapprenti ssage est trop l ev,
i l est i mpossi bl e desti mer avec prci si on l es val eurs de p(X) et p(X | F
i
),
densi t et densi t condi ti onnel l e de probabi l i t de X, sans fai re dhypothses
sur l es propri ts que vri fi ent l es exempl es. I l exi ste al ors deux sortes de
mthodes par amtr i ques :
l es mthodes paramtri ques Bayesi ennes permettent desti mer l a densi t
de probabi l i t, en recherchant l a mei l l eure densi t l i ntri eur dune
fami l l e de densi t, pour en ddui r e sel on l a thor i e Bayesi enne l es sur faces
spar atr i ces.
l es mthodes paramtri ques non Bayesi ennes permettent de construi re
di rectement l es surfaces sparatri ces choi si es l i ntri eur dune fami l l e
de sur faces, sans passer par l es densi ts de probabi l i t. On peut i ci aussi
parl er dapproche paramtri que, pui sque l on si ntresse une fami l l e de
surfaces di scri mi nantes engendre par des paramtres dont nous
cher chons dter mi ner l es mei l l eur es val eur s possi bl es.
Les rseaux mul ti couches comme nous venons de l e rappel er
apparti ennent aux mthodes paramtri ques non Bayesi ennes. Leur empl oi
84
permet de ne fai re aucune hypothse sur l es di stri buti ons de probabi l i ts
contrai rement aux mthodes paramtri ques Bayesi ennes qui prsupposent
des condi ti ons trs fortes, comme cel l e de l a di stri buti on Gaussi enne des
exempl es dans chaque cl asse, ce qui est l e pl us souvent i r r al i ste.
Le for mal i sme de modl i sati on uti l i s par l es r seaux est l e mme, mai s l es
rponses y
k
dsi res doi vent mai ntenant permettre de cl asser l es di ffrentes
formes. Pour un vecteur dentre x
k
donn, si l on choi si t un codage en
S = {a, b}, nous pr enons :
y
k
= ( ) b, b, , a, b , b
avec y
k
i
= a, seul ement si x
k
appar ti ent l a cl asse i.
Si nous appel ons F
A
l a fami l l e de foncti ons gnres par l archi tecture du
rseau choi si (voi r l a secti on prcdente) nous cherchons dtermi ner l a
foncti on F(x, W) =
( )
F
1
(x, W), ,F
p
(x, W)

de F
A
qui mi ni mi se l a foncti on de cot
C(m, W) :
C(m, W) =
k=1
m
]
1
1
1
i=1
p
( )
F
i
(x
k
, W) y
k
i
2
(4.1)
m tant l e nombr e dexempl es.
4. 2. 1. Rseaux multicouches et rgle de dcision de Bayes
Notati ons :
X : ensembl e de toutes l es for mes dappr enti ssage.
x : for me quel conque de X.
p : nombr e de cl asses.
i
: ensembl e des formes de l a cl asse i, et par extensi on dsi gne aussi l a
cl asse.
i
: ensembl e des for mes qui nappar ti ennent pas l a cl asse i.
m : nombr e de for mes ou car di nal de X.
85
m
i
: l effecti f de l a cl asse
i
.
m
i
: l effecti f de
i
; m
i
= m m
i
.
Nous supposons connus :
p(x) l a foncti on densi t de pr obabi l i t au poi nt x.
P
i
= P(
i
) l a pr obabi l i t a priori de l a cl asse
i
.
P
i
= P(
i
) l a pr obabi l i t a priori de
i
; P
i
= 1 P
i
.
p(x |
i
) l a densi t de pr obabi l i t au poi nt x, condi ti onne par l a cl asse
i
.
Pour une forme x, l a probabi l i t dappartenance l a cl asse
i
peut tre
cal cul e l ai de de l a for mul e de Bayes.
P(
i

| x) =
p(x |
i

)P
i

p(x)
(4.2)
avec
p(x) =
i=1
p
p(x |
i
)P
i
(4.3)
La r gl e de dci si on de Bayes est l a sui vante :
Dcider
i
si P(
i

| x) = sup
j
P(
j

| x)
Ce qui est qui val ent :
Dcider
i
si p(x

|
i
)P
i

= sup
j
p(x |
j
)P
j
Nous dfi ni ssons l a foncti on di scr i mi nante de Bayes :
g(x) =
( )
g
1
, , g
p
avec g
i
= P(
i
| x)
j i
P(
j
| x)
La r gl e de dci si on de Bayes cr i t :
Dcider
i
si g
i
(x) g
j
(x) j i
86
Nous dfi ni ssons un cri tre de dci si on () comme tant une foncti on de
R
n

{ }
1, 2, , p . Pour un x donn ce cri tre permet daffecter x l a cl asse
(x)
. Dans ce cas :
P(erreur | x) =
j (x)
P(
j
| x) = 1 P(
(x)
| x)
et l a pr obabi l i t der r eur total e :
P(erreur) =
P(erreur | x)p(x)dx

=
[ ]
1 P(
(x)
| x) p(x)dx

I l nest pas trs di ffi ci l e de voi r que l a rgl e de dci si on de Bayes nonce
ci -dessus est cel l e qui mi ni mi se l a pr obabi l i t der r eur [Duda et Har t 73].
4. 2. 2. Apprentissage par un rseau des fonctions de dcisions de
Bayes
Nous dfi ni ssons :
C
k
(m,W) =
x
k
[ ]
F
k
(x, W) a
2
+

x
k
[ ]
F
k
(x, W) b
2
(4.4)
et
C(m,W) =
k=1
p
C
k
(m,W)

(4.5)
Nous pouvons cr i r e :
C(m,W) = (4.6)
m
k=1
p
]
1
1
1
x
k
m
k
m
1
m
k
( )
F
k
(x, W) a
2
+
x
k
m
k
m
1
m
k
( )
F
k
(x, W) b
2
Ai nsi , quand m l expr essi on
C(m,W)
m
tend ver s :
lim
m

C(m,W)
m
= (4.7)
k=1
p
[ ]
P
k

E
k
{ } ( )
F
k
(x, W) a
2
+ P
k

E
k
{ } ( )
F
k
(x, W) b
2

o
87
E
k
{ } ( )
F
k
(x, W) a
2
=
( )
F
k
(x, W) a
2

p(x |
k
) dx
E
k
{ } ( )
F
k
(x, W) b
2
=
( )
F
k
(x, W) b
2

p(x |
k
) dx
k
tant l e compl mentai re de
k
. Compte tenu de p(x |
k
)P
k
=
P(
k
| x)p(x) l expr essi on (4.7) devi ent al or s :
lim
m

C(m,W)
m
=
k=1
p
]
1
( )
F
k
(x, W) a
2
P(
k
| x)p(x)dx +
( )
F
k
(x, W) b
2
P(
k
| x)p(x)dx
en dvel oppant l e car r et en gr oupant l es ter mes nous obtenons :
lim
m

C(m,W)
m
=
k=1
p
F
k
(x, W)
2
[ ]
P(
k
| x) + P(
k
| x) p(x)dx

2
F
k
(x, W)
[ ]
aP(
k
| x) + bP(
k
| x) p(x)dx

]
1
1
+
[ ]
a
2
P(
k
| x) + b
2
P(
k
| x) p(x)dx

Lexpressi on P(
k
| x) + P(
k
| x) est gal e 1. Si nous rempl aons al ors
aP(
k
| x) + bP(
k
| x) par h
k
(x) et si nous compl tons l e carr par rapport
h
k
(x), nous obtenons enfi n :
lim
m

C(m,W)
m
=
k=1
p
[ ]
F
k
(x, W) h
k
(x)
2
p(x)dx

h
k
(x)
2
p(x)dx

]
1
1
+
[ ]
a
2
P(
k
| x) + b
2
P(
k
| x) p(x)dx

(4.8)
Le deuxi me et l e tr oi si me ter me sont i ndpendants de W. Ai nsi , pour un
nombre dexempl es m suffi samment grand, mi ni mi ser C(m, W) revi ent
mi ni mi ser e
2
( )
F =
p
k=1
[ ] F
k
(x,W) h
k
(x)
2
p(x)dx qui est l erreur quadrati que
moyenne entr e l es sor ti es du r seau et h
k
(x).
Exami nons l e ter me h
k
(x) = aP(
k
| x) + bP(
k
| x) dfi ni pr cdemment pour
un codage gnral S = {a, b}. Dans l e cas parti cul i er dun codage S = {1, -1},
h
k
(x) = P(
k
| x) P(
k
| x) r epr sente l a foncti on di scri mi nante de Bayes g
k
(x).
88
De mme, dans l e cas o l e codage gnral est S = {1, 0}, h
k
(x) = P(
k
| x)
r epr sente l a pr obabi l i t dappar tenance l a cl asse
k
pour une forme donne
x. En consquence, avec un codage S = {1, -1}, l ors de l a mi ni mi sati on de
C(m,W) l es rseaux mul ti couches approxi ment l a foncti on di scri mi nante de
Bayes g
k
(x).
4. 3. Utilisation dun MLP en tant que classifieur
afin de modliser les fonctions de transfert
complexes
Souvent, nous di sposons des donnes reprsentant des mesures dun
phnomne compl exe dont nous ne connai ssons pas dune faon prci se l a l oi .
De mme, nous esprons di sposer dune mthode permettant de modl i ser l e
phnomne parti r de ces donnes. Or, nous avons vu que l es MLP forment
un outi l pui ssant pour modl i ser des foncti ons uni voques (x T(x)).
Nous prsentons dans ce paragraphe une mthode uti l i sant l es MLP qui
permet de ddui re des i nformati ons suppl mentai res sur l a compl exi t de l a
foncti on de transfert tudi e. Li nterprtati on des sorti es du rseau permet
de proposer pl usi eurs val eurs T(x) avec des coeffi ci ents de vrai sembl ances
associ s, l es val eurs l es pl us probabl es ayant l es pl us grands coeffi ci ents.
Ceci est i mportant quand l a foncti on de transfert tudi e est mul ti voque, l es
mesures associ es fortement brui tes et admettant des ambi guts
i ntr i nsques.
Supposons que T prenne ses val eurs dans l i nterval l e [a, b], nous
di scrti sons cet i nterval l e en p i nterval l es gaux : I
i

=
[ ]
a +
ba
p
(i 1), a +
ba
p
i ,
1 i p; x sera di te de cl asse i si T(x) I
i
. Pos de cette mani re, nous nous
ramenons un probl me de cl assi fi cati on. Nous i denti fi ons par l a sui te
chaque i nter val l e I
i
par son mi l i eu m
i

= a +
ba
p
( )
i
1
2
. Nous notons par p(I
i
| x)
l a pr obabi l i t qutant donn x, al ors T(x) I
i
, et par g
i
(x) = p(I
i
| x)
ji
p(I
i
| x) l es
foncti ons di scri mi nantes de Bayes dfi ni es au paragraphe prcdent. Nous
uti l i sons un MLP pouvant recevoi r l es donnes x en entre et comportant p
cel l ul es de sor ti e, l a i-me cel l ul e de sor ti e r epr sentant l i nter val l e I
i
. Pour un
vecteur dentr e x l a rponse dsi re y = (y
1
, y
2
, , y
p
) est dfi ni e par y
i
= +1
si T(x) appar ti ent I
i
. et y
i
= - 1 si non.
89
Pour une matri ce de poi ds W donne, l e MLP gnre l a foncti on
F( , W) : R
n
R
p
. Pour une entre x, l e rseau cal cul e en sorti e un vecteur de
di mensi on p,
( )
F
1
(x, W), ,F
p
(x, W) . Le processus dapprenti ssage consi ste
mi ni mi ser l a foncti on cot :
C( ) m,W =
k=1
m
| | | | F(x
k
, W) y
2
=
k=1
m
i=1
p
| | | | F
i
(x
k
, W) y
i
2
Aprs apprenti ssage, et chaque donne x prsente, l e rseau cal cul e p
tats de sorti es F
i
(x, W*), (1 i n), l e i-me tat tant une approxi mati on,
l i ntri eur de l a fami l l e dtermi ne par l archi tecture, de l a foncti on
di scr i mi nante de Bayes g
i
(x) (4.2). Le r seau pr opose pour chaque donne x, p
val eur s possi bl es m
i

(mi l i eu des I
i
) avec l es tats F
i
(x, W*) comme coeffi ci ents
de vr ai sembl ances attachs chacun deux.
Nous donnons dans l e chapi tr e 10 une appl i cati on uti l i sant cette mthode.
Cette appl i cati on nous permet de mettre en vi dence l e fai t que l a premi re
foncti on tr ai te est uni voque al or s que l a seconde est mul ti voque.
A chaque exempl e x de l ensembl e dapprenti ssage, nous pouvons associ er
une courbe des tats des cel l ul es de sorti es reprsentant, en absci sses i
(1 i n) et en or donne F
i
(x, W*).
Un pi c de l a courbe des tats de sorti es, peut tre caractri s par l e
maxi mum l ocal i et l es deux tats (i 1) et (i + 1) qui l entourent. Li ntensi t
dun pi c tant dfi ni e par F
i
(x, W*), nous pouvons l ui associ er comme val eur
numr i que l a moyenne pondr e :
y
i
=
k=i1
i+1
F
k
(x, W*) m
k
k=i1
i+1
F
k
(x, W*)
(4.9)
Ai nsi , en foncti on du nombre des pi cs et de l eur i ntensi t, l e r seau
propose, pour chaque x, des val eurs y
i
k

(k = 1, ,np) correspondant aux np
premi ers pi cs choi si s. Ces pi cs sont ordonns par ordre dcroi ssant des
probabi l i ts a priori,
( )
p(I
i
1
| x) p(I
i
np
| x) . La val eur y
i

propose par l a
for mul e (4.9) pour l e pi c de centr e i est une val eur numri que de l i nterval l e I
i
,
pl us prci se que m
i
,

car el l e ti ent aussi compte des probabi l i ts a priori des
90
cl asses voi si nes. T, qui est une foncti on rel l e, est donc approxi me par des
val eur r el l es.
La vi sual i sati on des di ffrentes courbes des tats des cel l ul es de sorti es,
donne une i de sur l a compl exi t de l a foncti on T. Ai nsi , une courbe des tats
avec un seul pi c i ndi que une foncti on de natur e uni voque al ors quune courbe
des tats de sorti es prsentant au moi ns deux pi cs i ndi que une foncti on
mul ti voque et compl exe (Fi gur e 4.2).
Fi gure 4. 2 : reprsentation de lactivation des sorties du rseau dans le cas de deux
problmes diffrents. Pour le premier problme, le calcul de la vitesse du vent, un seul
pic est prsent dans la solution propose par le rseau. En revanche, dans le cas du
calcul de la direction, deux pics (et parfois plus) son proposs comme solution par le
rseau. Dans la figure c indique rponse calcule et d rponse dsire.
Par l a sui te, cette mthode dapproxi mati on dune foncti on de transfert,
sera appel e mthode dapproxi mati on par cl assi fi cati on. Une tel l e mthode
amne uti l i ser des cl assi fi eurs qui uti l i sent un nombre p trs grand de
91
cl asses : p r epr sentant l e nombr e di nter val l es consi drs, i l est donc l i l a
pr ci si on de l appr oxi mati on cher che.
4. 4. Pondration de la mtrique
Nous avons mi s au poi nt une aml i or ati on de l a foncti on de cot
C( ) m,W =
k=1
m
| | | | F(x
k
, W) y
2
faci l i tant l a mi se au poi nt de tel s cl assi fi eurs. La prsente secti on i l l ustre
l es fondements thor i ques dune tel l e aml i or ati on.
Les rseaux permettent, sous certai nes condi ti ons, de cal cul er l es
probabi l i ts a priori P(
j
| x). Ces probabi l i ts permettent al ors de
dtermi ner l es foncti ons di scri mi nantes de Bayes g
i
(x) = P(
i
| x)

ji
P(
j
| x). Or, dune mani re gnral e, l e probl me fondamental est de
dter mi ner des foncti ons di scr i mi nantes h
i
(x)

vr i fi ant l a pr opr i t :
x, h
i
(x) = SUP
j
h
j
(x) g
i
(x) = SUP
j
g
j
(x)
Ces foncti ons dfi ni ssent al ors l es mmes surfaces sparatri ces que cel l es
dfi ni es par l es foncti ons di scr i mi nantes de Bayes
( )
g
i
(x) = g
j
(x) .
Souvent, nous chercherons des foncti ons h
i
(x )

ayant des val eur s
numri ques pl us di scri mi nantes que l es g
i
(x )

l i ntri eur de l eur cl asses
respecti ves, et suffi samment proche des g
i
(x ) autour des fronti res
spar atr i ces.
Si nous choi si ssons un codage en S = {1, 1}, nous pr enons :
y
k
= ( ) -1, -1, , 1, -1 , -1 avec y
k
i
= 1 si x
k
appartient la classe i.
Nous consi dr ons al or s l a foncti on cot :
Q
j
(m, W) =
x
j
[ ]
F
j
(x, W) 1
2
+
x
j
[ ]
F
j
(x, W) + 1
2
(4.10)
o est un coeffi ci ent de pondr ati on ( > 1), et
92
Q(m, W) =
j=1
p
Q
j
(m, W)

(4.11)
Nous avons al or s,
Q(m, W) = C(m,W) + ( 1)
j=1
p
]
1
1
x
j
[ ]
F
j
(x, W) 1
2
(4.12)
Quand m l expr essi on
Q(m,W)
m
tend ver s :
lim
m

Q(m,W)
m
=

j=1
p
[ ]
F
j
(x, W) g
j
(x)
2
p(x)dx + constante +
( 1)
j=1
p
[ ]
F
j
(x, W) 1
2
P(
j
| x)p(x)dx (4.13)
En anal ysant de pr s l e der ni er ter me nous r emar quons que :
l i mpor tance de ce ter me cr o t avec l a val eur de .
si une parti e de l a cl asse j est reprsente par une rgi on de centrode c,
al or s pl us x est pr oche de c, pl us l a probabi l i t P(
j

| x) est grande et pl us
l e tr oi si me ter me a tendance ti r er F
j
(x, W) ver s 1. Dautre part, pl us x
sl oi gne de c, pl us l a probabi l i t P(
j

| x) est peti te et pl us l e premi er
ter me a tendance ti r er F
j
(x, W) ver s g
j
(x ).
Ai nsi , pour un nombre suffi samment grand dexempl es (m) et pour un
convenabl ement choi si , l a foncti on de cot prcdente permet de gnrer des
foncti ons F
j
(x, W) qui ont l a pr opr i t sui vante :
chaque F
j
(x, W) prend des val eurs numri ques, l i ntri eur de sa cl asse j,
supr i eur es cel l es pr i ses par l a foncti on di scr i mi nante de Bayes et prend
des val eurs proches de cel l e-ci autour de l a surface sparatri ce et
l extr i eur de l a cl asse j.
Nous donnons par l a sui te l es performances obtenues sur un mme
probl me avec une mme archi tecture en uti l i sant dune part l e cri tre de
cot cl assi que C( ) m, W et dautre part l e cri tre modi fi Q( ) m, W . I l sagi t dun
93
cl assi fi eur avec 36 cl asses, donc 36 cel l ul es dans l a couche de sorti e, deux
couches caches, chacune de 25 cel l ul es et 30 cel l ul es en entre ce que fai t
en tout 2361 paramtres ajuster (2275 poi ds de connexi ons + 86 seui l s) .
Lentre est gl obal ement connecte l a premi re couche cache. De mme
entr e l es deux couches caches ai nsi quentr e l a deuxi me couche cache et l a
sorti e. Lensembl e de donnes uti l i ss dans l apprenti ssage est un ensembl e
qui l i br compos de 172 patter ns par cl asse soi t un total de 6192 patterns
.
La Tabl e 4.1 i l l ustr e l es avantages dune modi fi cati on de l a pondrati on de
l a mtri que de sorti e dans l e cas o l e nombre de cl asses est i mportant. Ces
essai s ai nsi que dautr es que nous avons effectu pour un nombre di ffrent de
cl asses (16 ou 11) nous l ai ssent concl ure que l uti l i sati on de l a mtri que
modi fi Q( ) m, W augmente l a vi tesse de convergence. Nous avons remarqu
expri mental ement quen l ai ssant entra ner l onguement un rseau avec l a
foncti on de cot cl assi que C( ) m, W nous ar r i vons, dans l a pl upart de cas, des
per for mances tr s comparabl es cel l es avec l a foncti on modi fi Q( ) m, W , mai s
jamai s si gni fi cati vement supri eures. Dans ce derni er cas, cependant, nous
avons trouv profi tabl e de conti nuer uti l i ser Q( ) m, W dabord parce quel l e
accl re l e processus dapprenti ssage, et ensui te parce que l es sorti es du
r seau sont beaucoup pl us di scr i mi nantes que dans l e cas cl assi que. Si nous
sommes i ntresss aux sorti es du rseaux en tant que coeffi ci ents de
vrai sembl ance, l a foncti on de cot Q( ) m, W uti l i s pendant l apprenti ssage
nous assur e une beaucoup pl us i mpor tante acti vi t dans l es cel l ul es de sorti e
qui i ndi quent l a cl asse l a pl us pr obabl e.
Comp a r a i s on d e s p e r for ma n c e s :
a p p r e n t i s s a ge a ve c u n c r i t r e d e c o t c l a s s i q u e
C( ) m, W c on t r e c r i t r e mod i fi Q( ) m, W
36 cla sses
cr i t r e
c l a s s i q u e C( ) m, W
cr i t r e mod i fi
Q( ) m, W
1 p i c a p p . 67,4 % 75,3 %
t est 67,8 % 76,0 %
2 p i c s a p p . 98,5 % 99,4 %
t est 98,8 % 99,4 %
Table 4.1 : Pondration de la mtrique. Comparaison des rsultats obtenus en
entranant un rseau sans pondration de la mtrique de sortie et un autre avec
pondration. Les performances sont suprieures dans le cas du rseau entran avec
pondration.
94
La Fi gur e 4.3 nous montr e l es tats de l a couche cache pour deux rseaux
di ffrents, l ors de l a prsentati on du mme pattern en entre. I l sagi t a
nouveau du cl assi fi eur avec 36 cl asses menti onn ci -dessus. Un rseau a t
entra n en uti l i sant l a foncti on de cot cl assi que C( ) m, W , fi gure supr i eur e,
et l autr e en uti l i sant l a foncti on modi fi e Q( ) m, W ), fi gur e i nfr i eur e.
Figure 4.3 : tats des cellules de sortie lors des apprentissages sans et avec
modification de la mtrique. Le pouvoir sparateur du coefficient de vraisemblance
F
j
(x, W) est bien meilleur dans le cas o lon utilise la nouvelle mtrique (figure
infrieure).
Laml i orati on apporte par l uti l i sati on de cette mtri que est trs
cl ai rement i l l ustre par l a Fi gure 4.3 sur l aquel l e nous voyons l es rponses
apportes par l es deux rseaux une mme forme. Les tats des cel l ul es 14
(di recti on du vent entre 130 et 140) et 33 (di recti on entre 320 et 330) qui
sont l es pl us pr obabl es, sont l ar gement augments. Le pouvoi r sparateur du
coeffi ci ent de vr ai sembl ance F
j
(x, W) est bi en mei l l eur .
5. 1. La simulation des modles connexionnistes
Bi en qui l sagi sse dun domai ne de recherche trs dvel opp, l es modl es
connexi onni stes sont encore l oi n dtre i mpl ments sur des machi nes
possdant de vri tabl es archi tectures neuronal es. La grande vari t de
modl es exi stants et l eurs mul ti pl es di ffrences conceptuel l es,
di mpl mentati on et de dynami que font de l a constructi on physi que de
r seaux neur onaux tout un sujet de r echer che de gr ande compl exi t.
La si mul ati on de modl es connexi onni stes sur des ordi nateurs
conventi onnel s reste de l oi n l outi l l e pl us rpandu dans l a recherche et
l expl oi tati on des rseaux de neurones. Les si mul at eurs tai ent i ni ti al ement
des programmes permettant l expl oi tati on dun uni que formal i sme. Des
nouvel l es tendances, notamment l e dvel oppement de systmes modul ai res
qui uti l i sent pl usi eurs modl es neuronaux di ffrents, posent des probl mes
aux usager s des si mul ateur s.
Actuel l ement, des systmes hybri des mettant en concours di verses
techni ques sont de pl us en pl us uti l i ss dans l e domai ne. La gnrati on
actuel l e de si mul ateur s doi t par consquent tre suffi samment soupl e afi n de
sadapter aux besoi ns des chercheurs sans l es obl i ger se pl onger dans des
dtai l s de pr ogr ammati on.
Deux appr oches de si mul ati on sont prsentes par l a sui te, l es deux tant
uti l i ses pour dvel opper nos recherches. Tour dabord, l e si mul ateur S N2 :
un pui ssant outi l permettant une programmati on ai se en l angage de haut
ni veau. En sui te, l a bi bl i othque de foncti ons GALATEA qui fourni t des
envi r onnements de si mul ati on adapts aux di ffr ents modl es et une panopl i e
de foncti ons en l angage C permettant, avec une rel ati ve ai sance, l a
programmati on de machi nes hybri des compl exes (mul ti -rseaux et mul ti -
for mal i sme).
96
5. 2. Le simulateur SN
Le si mul ateur S N [Bottou et l e Cun 88] est un pui ssant outi l conu pour
des rseaux du type perceptron mul ti couches, entra ns par des al gor i thmes
de l a fami l l e de l a rtro-propagati on du gradi ent GBP. Le noyau du
si mul ateur est programm en l angage C. Li nterface uti l i sateur est un
i nterprteur Li sp, et l es foncti ons de haut ni veau sont cri tes dans ce
l angage, fai sant appel cel l es de bas ni veau en l angage C. Cette
caractri sti que permet aux usagers duti l i ser l es foncti ons proposes par
dfaut ou bi en de l es modi fi er sel on l es besoi ns de l appl i cati on trai ter. Ses
capaci ts gr aphi ques per mettent de sur vei l l er vi suel l ement l es performances,
l es taux der r eur s ai nsi que dexami ner l es tats des neurones et l es poi ds des
connexi ons.
I l exi ste une versi on qui i ntgre des techni ques de second ordre pour l a
mi ni mi sati on de l er r eur du gr adi ent dans GBP Mthode de Newton associ
l al gori thme de Levemberg-Marquardt. Cette versi on permet un pi l otage
automati que l ors de l entra nement ou apprenti ssage. En effet, l usager est
l i br de l a tche de survei l l ance des performances et de di mi nuti on
progressi ve du pas dapprenti ssage, ceci tant fai t de faon automati que par
l al gor i thme au fur et mesur e que l entr a nement du r seau pr ogr esse.
La possi bi l i t de modi fi er l es procdures Li sp fourni es par dfaut sur SN
permet aussi de programmer sur l e si mul ateur dautres al gori thmes,
di ffrents de l a rtro-propagati on du gradi ent, en uti l i sant tout de mme des
foncti ons ai nsi que des str uctur es de donnes uti l i ses par ce der ni er .
Pendant l e droul ement de ma thse jai sui vi l vol uti on des di ffrentes
ver si ons de S N. La der ni r e ver si on, S N2.5, i ntr odui t une concepti on ori ente
objet des l ments consti tuti fs du si mul ateur. De pl us, el l e i ntgre une
i nterface graphi que, absente dans l es versi ons prcdentes, permettant l a
spci fi cati on de l archi tecture du rseau. El l e permet gal ement de spci fi er
l e type de connexi ons entre couches gl obal , l ocal , poi ds partags et, dune
faon gnr al e, l es di ffr ents par amtr es i nter venant dans une si mul ati on.
5. 3. La bibliothque Galatea
La bi bl i othque Galat ea [Mej a et al . 90] a t dvel oppe dans l e cadre du
pr ojet ESPRI T-Pygmal i on. Lobjecti f recherch pour cette bi bl i othque est de
97
four ni r aux uti l i sateur s des bi bl i othques de foncti ons en l angage C pouvant
tr e appel es par un programme C i mpl mentant des al gori thmes de rseaux
de neurones. Au cours du dvel oppement de l a bi bl i othque une descri pti on
uni fi e des al gori thmes a t retenue afi n de faci l i ter l a concepti on des
modul es pr sents et l es dvel oppement ul tr i eur s.
Un rseau dcri t dans Galat ea est une bo te noi re, ayant un vecteur
dentre et un vecteur de sorti e. Un certai n nombre de foncti ons per mettent
davoi r accs aux vari abl es i nternes du rseau qui sont organi ses en
vecteur s. Luti l i sateur peut dfi ni r un rseau sous forme dune vari abl e qui l
peut i ni ti al i ser avec une topol ogi e spci fi que. I l peut avoi r accs au vecteur
dentre, de sorti e, aux tats et aux poi ds i nternes, et poser et consul ter l es
di ffr ents paramtres. I l peut aussi fai re acti ver et entra ner l e rseau pour
un vecteur dentr e donn.
Le probl me de base dans l a concepti on de Galat ea tai t l a dfi ni ti on des
structures des donnes. En effet, des structures de donnes compl exes
peuvent tre trs gnral es dans certai ns cas et restri cti ves dans dautres
(surtout pour l es dvel oppements futurs). Ce qui est gagn, en ni veau
dabstr acti on, dans un cas, est per du par manque de soupl esse pour un autre.
Ai nsi , l e choi x a t duti l i ser des structures de donnes de bas ni veau : l es
vecteurs de nombres rel s. Ce choi x a un i nconvni ent : l e cal cul sur l es
r seaux de neur ones est souvent mal adapt aux structures de vecteurs, sauf
dans des cas par ti cul i er s (par exempl e : l es r seaux mul ti couches enti r ement
connects). Mai s l i nconvni ent prcdent est compens par l e fai t que dans
beaucoup dappl i cati ons l es donnes se prsentent comme des sui tes de
vecteur s.
Des procdures adaptes pour l e cal cul sur l es rseaux des neurones sont
fourni es. Ces procdures sont bases sur l i de de rgl es de cal cul
(recomput at ion rules). Une rgl e de cal cul est forme pri nci pal ement par une
foncti on et une sui te de poi nteur s sur des vecteurs de rel s. Quand une rgl e
est excute, sa l i ste de poi nteurs est passe sa foncti on qui excute un
cal cul bi en dter mi n.
Les r gl es de cal cul s peuvent tre cres, i ni ti al i ses, excutes et l i bres
El l es dcri vent pri nci pal ement l e cal cul qui doi t tre excut sur un rseau
donn et non l a str uctur e du r seau.
98
Liste de pointeurs
Vecteur
d'tats
Vecteur de
poids
S X1 Y1 Xn Yn X2 Y2
Fonction :
S=X1Y1+X2Y2+. . . +XnYn
reprsent at ion d' une
f onct ion sous f orme
de rgle de calcul
Figure 5.1 : Exemple dune rgle de calcul. Cette rgle ralise le produit scalaire
entre les vecteurs {x
i
}les tats et {y
i
}les poids o i=1, , n, et stocke le rsultat
dans s.
Organisation de Galatea
Le noyau de base de Galat ea comporte pl usi eurs modul es de bi bl i othques
de foncti ons : deux modul e douti l s et pl usi eurs modul es ddi s des
al gori thmes spci fi ques. En pl us de ce noyau, Galat ea comporte un
envi r onnement qui per met de constr ui r e des programmes i nteracti fs pouvant
excuter des commandes par l i gnes ou en chargeant des fi chi ers de
commandes. Enfi n, Galat ea comporte des programmes dval uati on des
modul es spci fi ques aux al gor i thmes (voi r Fi gur e 5.2).
1) Les deux Modules dout ils. I l s conti ennent :
Les dfi ni ti ons des structures de donnes des matri ces de di mensi on
deux et de di mensi on var i abl e, et des r gl es de cal cul .
Les foncti ons qui grent l es structures de donnes pr cdentes,
i ni ti al i sati on, destructi on, sauvegarde et l ecture dun fi chi er et toutes
l es opr ati ons de base suscepti bl es dtr e uti l i ses dans l es al gori thmes
des r seaux de neur ones.
Les structures de donnes et l es foncti ons ddi es l i nterpol ati on des
foncti ons non l i nai r es par des spl i nes cubi ques.
Les foncti ons de tr ai tement des er r eur s et de gesti on de l a mmoi r e.
99
Des structures de donnes de bases permettant de dfi ni r l es
connexi ons dans des r seaux couches et ayant di ffrents cl usters par
couche.
Des foncti ons standard de cal cul de di stances, de cl assi fi cati on et de
per for mance.
Gestion de commandes
Fonctions d'interaction avec l'utilisateur
Gestion de fichiers d'aide (Help)
Environement d'Execution - env
Bibliothque d'algorithmes Connexionnistes
Partie Indpendante
des Algorithmes - aip
Bibliothque d'outils - tools
allocation de mmoire
gestion d'erreurs
fonctions pour le calcul des rseaux :
- gestion des rgles de calcul
- oprations vectorielles
spcification de l'architecture des
rseaux
gestion de tableaux de donnes
normes, distances et critres de
evaluation des performances
GBP
TMAP
HOP
Modules des Algorithmes
Programmes
d'applications faits
par les usagers
Programmes
d'valuation des
algorithmes
Figure 5.2 : organisation des composants de GALATEA. Les composants de
GALATEA sont cinq dont les principaux sont la partie indpendante des algorithmes
AIP, la bibliothque des outilsTOOLS et les modules des algorithmes. Ce dernier
regroupe touts les algorithmes connexionnistes programms (voir Table 5.1). La
bibliothque de lenvironnement standard ENV fournit aux usagers des programmes
dvaluation un moyen simple mais efficace daccder aux diffrents fonctionnalits des
algorithmes programms.
2) Les modules des algorithmes : I l s regroupent, l heure actuel l e, tous l es
al gor i thmes connexi onni stes numr s dans l a Tabl e 5.1.
100
Chaque modul e est ddi un modl e et un al gori thme parti cul i er des
rseaux de neurones. I l conti ent l a structure de donnes permettant de
dfi ni r l e type de rseau donn, et des groupes de foncti ons associ es. Le
rseau est dfi ni par une vari abl e, un groupe de foncti ons permettent
davoi r accs tous l es tats, l es poi ds et l es paramtres i nternes, et
i mpl mentent l es oprati ons di ni ti al i sati on et de destructi on du rseau.
Dautres groupes de foncti ons reprsentent l es oprati ons de base et
per mettent di mpl menter toutes l es vari antes connues de cet al gori thme.
Ai nsi , l e modul e ddi l al gori thme de l a rtro-propagati on du gradi ent
di spose de procdures de bas ni veau pouvant tre uti l i ses pour
i mpl menter di ffr entes var i antes tel s l es masques poi ds par tags.
La Tabl e 5.1 r epr sente l a l i ste des modul es di sponi bl es actuel l ement :
a lgor i t h me a br vi a t i on
Hopfi el d Nets Hop
Gr adi ent Back Pr opagati on GBP
Gr adi ent Back Pr opagati on wi th Feedback GBPF
Kaner va associ ati ve memor y Kan
Li near Associ ati ve Memor y (Kohonen) LAM
Adapti ve Resonance Theor y 1 (Gr ossber g) ART1
Bol tzmann Machi nes BM
Topol ogi cal Maps (Kohonen) TMap
Li near Vector Quanti zati on (Kohonen) LVQ
Bi di r ecti onal Associ ati ve Memor y BAM
Competi ti ve Lear ni ng CMPL
Tabl e 5. 1 : algorithmes connexionnistes dans GALATEA.
3) Le module de lenvironnement standard : I l sagi t dun programme assez
gnral comportant un envi ronnement du type i nteracti f oprant par
l i gne de commandes. Des foncti onnal i ts pour grer des fi chi ers de
commandes, des fi chi ers dai de (hel p), l excuti on des commandes du
systme dexpl oi tati on, ai nsi quune foncti on de statut sont compri ses de
faon standar d. Laddi ti on de foncti onnal i ts est une tche faci l e : i l suffi t
di ncorporer l es foncti ons dsi res et de dfi ni r l es noms des commandes
associ es ces foncti onnal i ts. Cet envi ronnement fourni t aussi des
foncti ons permettant l a sai si e i nteracti ve de donnes de types di ffrents,
ce qui permet l a capture des paramtres ncessai res l ors de l appel de
cer tai nes foncti ons.
101
4) Les programmes dvaluation des algorithmes : Les programmes
dval uati on des al gori thmes ont t cri ts en uti l i sant l e modul e
prcdent. Ces programmes sont cri ts afi n de tester et val i der l e
foncti onnement des di ffrentes foncti ons des modul es des al gori thmes de
l a Tabl e 5.1. I l s servent aussi comme exempl es de l uti l i sati on et l a
foncti onnal i t des di ffrentes foncti ons de ces modul es. Ces programmes
peuvent tr e uti l i ss pour tr ai ter des appl i cati ons r el l es.
Limitations
La bi bl i othque Galat ea na pas t l ori gi ne conue pour deveni r un
produi t compl et. Bi en quon pui sse dvel opper des appl i cati ons avec l es
envi ronnements de test fourni s avec l a bi bl i othque, l expl oi tati on vri tabl e
des al gor i thmes et des car actr i sti ques modul ai r es de Galat ea ne peut se fai re
quavec un peu de pr ogr ammati on de l a par t de l uti l i sateur .
Une l i mi tati on de concepti on est l i e l uti l i sati on de vecteurs comme
structure de donne. Les modl es ncessi tant l al l ocati on dynami que de
mmoi re (addi ti on de nouveaux neurones, nouvel l es connexi ons) peuvent se
voi r l i mi ts par ce choi x. Cest une l i mi tati on acceptabl e, car dans l a pl upart
des cas on peut esti mer l avance l a tai l l e maxi mal e prvue l ors du
foncti onnement du programme. En revanche, l es arrangements vectori el s
des donnes accl rent consi drabl ement l es tches parfoi s si l ourdes en
cal cul tel l es l entr a nement des r seaux et l es tests sur de bases de donnes de
gr ande tai l l e.
Conclusion
Les travaux de concepti on et di mpl mentati on de l a bi bl i othque Galat ea
nous ont permi s de mi eux comprendre l e mcani sme dapprenti ssage de
pl usi eur s al gor i thmes peu connus.
Le travai l a t un vri tabl e apport dqui pe. I ni ti al ement, l ors de l a
concepti on jai eu l occasi on de travai l l er de prs avec Leon Bottou, que je
remerci e de l ai de qu'i l ma apport ai nsi que de ses i nnombrabl es bonnes
i des qui sont mai ntenant au cur de Galat ea.
Quel ques modul es ont t programms par dautres partenai res du projet,
mai s l a pl upar t ont t cr i ts par di ffr ents membres de notre l aboratoi re. Le
tr avai l fi nal est un pr odui t de pr s de 40 000 l i gnes cr i tes en l angage C. Mon
102
travai l a t de supervi ser l e dvel oppement de Galat ea, di ntgrer de faon
homogne tous l es modul es cri ts et de produi re l a documentati on fi nal e
[Mej a 89]. Galat ea a eu i ni ti al ement un statut de l i bre ci rcul ati on et el l e a
t di stri bue de nombreux l aboratoi res si tus un peu partout dans l e
monde.

Mejia 1-Part-I These 1992

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Mejia 1-Part-I These 1992

Transféré par

Droits d'auteur :

Formats disponibles

I

Fi gure 3. 3 : reprsentation des classes. Une reprsentation plus universelle dune

Vous aimerez peut-être aussi