Vous êtes sur la page 1sur 30

CHAPITRE

II

Techniques Neuronales adaptes aux donnes


spatio-temporelles

II.1 INTRODUCTION
Le terme de rseaux de neurones formels (ou artificiels) fait rver certains, et fait
peur dautres ; la ralit est la fois plus prosaque et rassurante. Les rseaux de
neurones sont une technique de traitement de donnes qui fera bientt partie de la boite
outils de tout ingnieur proccup de tirer le maximum dinformations pertinentes des
donnes quil possde : faire des prvisions, laborer des modles, reconnatre des
formes ou des signaux, etc. Si cette vrit est largement admise aux Etats-Unis, au
Japon et en Grande Bretagne, elle semble plus difficile faire reconnatre en France
[DREYFUS, 1997]. Pourtant, de nombreuses applications sont oprationnelles dans notre
pays, que ce soit dans le milieu de la recherche ou dans lindustrie.
Nous dbutons ce chapitre par une prsentation relativement brve sur le principe de
calcul neuronal. Cette prsentation est suivie de quelques indications gnrales sur la
mthodologie de dveloppement dun rseau de neurones ; ceci nous permet
dintroduire les notions de base dont nous nous servirons par la suite. Ensuite, nous
prsentons les rseaux de neurones les plus utiliss pour le traitement des donnes que
nous utilisons dans notre application : les donnes caractre spatio-temporel (donnes
dont les caractristiques varient au cours du temps). La comparaison de diverses
architectures neuronales nous permettra de justifier le choix du type de rseaux de
neurones que nous avons utilis pour notre application. Enfin, nous prsentons plusieurs
mthodes doptimisation permettant de rduire le temps de dveloppement ou amliorer
les performances du rseau de neurones. Nous indiquons alors les algorithmes qui nous
semblent les plus appropries compte tenu de notre application et ses contraintes. Enfin,
nous dtaillons les particularits lies lemploi du type de rseau slectionn et notre
objectif de ralisation matrielle.

II.2 RESEAUX DE NEURONES: PRESENTATION GENERALE


Un rseau de neurones artificiel7 peut tre dfini comme un ensemble de petites units
de calculs relies entre elles par des liens de communication. Linformation transporte
7

Les rseaux de neurones biologiques tant beaucoup plus complexes que les modles mathmatiques que
nous utilisons, nous devrions constamment employer le terme de Rseau de neurones artificiels.
Cependant, afin dallger la lecture de ce document, nous utiliserons simplement le terme de Rseaux de
Neurones.

27

par ces connexions est de type numrique (par opposition symbolique) ; elle peut tre
code de diverses manires. Chaque unit, susceptible de possder localement une
mmoire de faible capacit, ralise un calcul partir de donnes issues de ses
connexions et de donnes locales.
Certains rseaux de neurones modlisent des rseaux de neurones biologiques, dautres
pas. Historiquement, lobjectif principal de la recherche sur rseaux de neurones tait
daccrotre nos connaissance sur le mcanisme crbrale via llaboration de systmes
artificiels capables de reproduire des calculs complexes (voire intelligents), similaires
ceux queffectue le cerveau humain.
La plupart des rseaux de neurones font appel des rgles dapprentissage sur des
donnes pour ajuster les poids des connexions. En dautre termes, les rseaux de
neurones sont gnralement labors partir dexemples (comme un enfant apprend
reconnatre un chien dun chat partir dexemples pour espce). Ils prsentent ensuite
une certaine capacit de gnralisation pour des donnes non prsentes dans la base
dapprentissage. La technique des rseaux de neurones est donc, dans son principe, une
mthode de rgression, analogue aux mthode de rgression linaire ou multilinaire.
Une fois que lajustement des paramtres (les poids) a t effectu, le rseau de
neurones constitue un modle statistique non linaire. Lavantage des rseaux de
neurones sur les mthodes de rgression classique est quils ncessitent, en gnral, un
nombre de paramtres ajustables plus faible pour obtenir un modle non linaire de
prcision donne [DREYFUS, 1997].

II.2.1 Description architecturale


Sur le plan architectural, un rseau de neurones peut tre vu comme est un ensemble
dunits lmentaires (les neurones) interconnectes de manire former un systme
avec une ou plusieurs entres et une ou plusieurs sorties. Modliser un rseau de
neurones, cest dcrire le modle du neurone et le modle des connexions entre ces
neurones.

a) Modle du neurone
Il existe un grand nombre de modles de neurones. Les modles les plus utiliss sont
bass sur le modle dvelopp par McCulloch & Pitts [MACCULLOCH et al ., 1943]. Le
neurone peut tre reprsent par une cellule possdant plusieurs entres et une sortie, et
peut tre modlis par deux oprateurs (figure II-1) :
un oprateur de sommation qui labore un potentiel post-synaptique p
gal la somme pondre des entres de la cellule : p= i(wi.xi) , avec wi le
poids et xi lentre (tat du neurone connect en entre).
un oprateur de dcision qui calcule ltat de la sortie s du neurone en
fonction de son potentiel p : cet oprateur est appel fonction
dactivation : s= F(p)
Le calcul de ltat du neurone est obtenu en calculant le potentiel post-synaptique et en y
appliquant ensuite loprateur de dcision. Le calcul est appel : mise jour du neurone.

28

x1

w1
w2

x2

w3
x3
figure II-1 : exemple de neurone avec 3 entres et une sortie

Dans le cas du modle de McCulloch & Pitts, loprateur de dcision est une fonction
seuil. Ltat du neurone est dfini sur deux tats ; sa valeur est suivant du potentiel postsynaptique et du seuil (). Ce genre de neurone est appel neurone binaire.
Lutilisation dune fonction non drivable (comme la fonction seuil) comportant
quelques inconvnients lors de lapprentissage, on fait souvent appel des fonctions
monotones, croissantes et drivables. Ltat du neurone est alors multivalu. Pour
effectuer une classification, on utilise souvent une fonction de type sigmode , par
exemple une tangente hyperbolique dont la sortie est borne entre -1 et 1 (figure II-2).
F(p)
1

F(p) =

(ep 1)
(ep + 1)

p
= th( 2 )

0,5
p
0
-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8
-0,5
-1

p: potentiel post-synaptique
F(p): fonction dactivation
: pente de la courbe

figure II-2 : fonction dactivation : tangente hyperbolique (th)

Dans un rseau, on distingue trois types de neurones :


les neurones dentre, aussi appels cellules perceptives du fait de leur
proprit acqurir des donnes dont la provenance est en dehors du rseau,
les neurones de sortie, qui dfinissent la sortie du rseau,
les neurones cachs, qui nont aucune relations avec le monde extrieur au
rseau, juste avec les autres neurones du rseau.

b) Topologie
La topologie dun rseau de neurone est dfinie par son architecture (ou structure) et la
nature de ses connexions.
Architecture
La plupart des rseaux de neurones ont une topologie dfinie sous forme de couches. Il
existe quelques exceptions lorsque le rseau nest pas explicitement dfini sur plusieurs
couches (comme par exemple certaines mmoires associatives), mais elles peuvent
alors tre considrs comme nayant quune seule couche. Larchitecture du rseau peut
alors tre dcrite par le nombre de couches et le nombre de neurones dans chaque
couche.

29

Une terminologie similaire celle prsente pour dfinir les diffrents types de neurones
est utilise pour dfinir les couches dun rseau multicouche (figure II-3) :
couche dentre pour une couche constitue de cellules perceptives,
couche cache pour une couche constitue de neurones cachs,
couche de sortie pour une couche constitue de neurones de sorties.

...
Couche
dentre

...

...
Couches
caches

...

...
Couche
de sortie

figure II-3 : rseau de neurones couches

Dans un rseau multicouches, les diffrentes couches sont gnralement ordonnes et


indexes dans le sens croissant de la couche dentre vers la couche de sortie.
Connexions
Le Modle de connexion dfinit la manire dont sont interconnects les neurones dun
rseau. En se basant sur la structure couches, on distingue diffrents types de
connexions : les connexions intercouches (interconnexion entre neurones de couches
voisine), les connexions supracouche (lorsque les couches ne sont pas adjacentes), les
connexions intracouches (connexions entre neurones dune mme couche) et
lautoconnexion (un neurone avec lui-mme).
De manire gnrale, le sens de transfert de linformation dans un rseau est dfini par
la nature des connexions: directes ou rcurrentes (figure II-4). Les connexions directes
sont celles qui sont diriges dune couche dindice infrieur vers une couche dindice
suprieur. Les connexions sont dites rcurrentes lorsque des sorties de neurones dune
couche sont connectes aux entres dune couche dindice infrieur.

figure II-4 : connexion directe (a) et rcurrentes (b)

Par ailleurs, entre deux couches, les connexions peuvent tre partielles ou totales (figure
II-5). Lutilisation de connexions partielles permet de regrouper certaines zones du
rseau pour effectuer une fonction spcifique.
Cette caractristique de connexion se rvle dune grande importance lorsque lon
souhaite simuler un rseau de neurones sur une machine parallle [ELIE, 1993]; nous
reviendrons sur cette notion dans le chapitre consacr la ralisation matrielle dun
systme neuronal.

30

figure II-5 : connexions partielles (a) et totales (b)

Dans le cadre de notre tude, nous nous somme limits aux rseaux couches. On
notera toutefois quil existe dautres types de rseaux, optimiss pour des taches
particulires. On citera par exemple le rseau de Hopfield [HOPFIELD, 1982], rseau
rcurrent totalement connect, qui de part son aptitude converger vers des tats stables
(appels attracteurs) est souvent utilis pour des tches de mmoire associative.

II.2.2 Apprentissage et utilisation


a) Phases de mise en uvre et dutilisation
Le rseau de neurones est utilis pour raliser une fonction particulire, dans notre cas,
il sagit dune classification. Cette fonction va tre labore lors dune phase
dapprentissage. Le rsultat de cette fonction est obtenu lors dune phase dutilisation
(ou propagation) du rseau. La propagation travers le rseau seffectue par
modification de ltat des neurones, de la premire couche cache jusqu la sortie du
rseau.
Dans un rseau de neurones, linformation est code par les poids lis aux connexions.
Lapprentissage est ralis par des algorithmes de calcul dont le but est dadapter ces
poids en fonction des stimuli prsents lentre du rseau. Une fois lapprentissage
fini, les poids ne sont plus modifis.
Les procdures dapprentissage peuvent tre classes en deux catgories : apprentissage
supervis et apprentissage non supervis. Dans le cadre dune classification, la ncessit
de pouvoir valuer un taux de succs pour qualifier la performance du rseau implique
quon lui prsente des exemples connus pour effectuer lapprentissage et pour procder
aux tests. Lapprentissage est alors qualifi de supervis. Lapprentissage non supervis
est plutt adapt des rseaux appels gnralement auto-organisateurs ou
apprentissage comptitif. Lapprentissage seffectue alors par prsentation, un rseau
autonome, de donnes possdant une certaine redondance. Lobjectif du rseau est alors
de dgager des rgularits. Ainsi que nous lavons indiqu dans le chapitre prcdent, un
tel rseau peut tre utilis pour lobtention de prototypes. Lobjectif de notre tude tant
deffectuer une classification, nous nutilisons que lapprentissage de type supervis.

b) Algorithme dapprentissage : rgle de rtropropagation du gradient


La rgle du gradient de lerreur (delta rule) est lune des rgles les plus utilises pour
lapprentissage de rseaux de neurones. Cette rgle, initialement dveloppe pour
rsoudre des problmes de traitements adaptatifs du signal [WIDROW et HOFF, 1960]
ensuite t exploite pour obtenir le trs populaire algorithme de rtropropagation du

31

gradient de lerreur (backpropagation) [RUMELHART et al., 1986] pour rseaux de


neurones multicouche. Lobjectif de cet algorithme est de minimiser une fonction de
cot E. Lquation (II-1) exprime cette fonction de cot partir de lerreur
quadratique, pour un couple entre-sortie, avec dk la sortie dsire pour le neurone
dindice k et sk la sortie obtenue par le rseau.
E = (d k s k )

(II-1)

Lapprentissage comporte une premire phase de calcul dans le sens direct o chaque
neurone effectue la somme pondre de ses entres et applique ensuite la fonction
dactivation f (fonction drivable) pour obtenir la mise jour du neurone. Lquation
(II-2) correspond cette mise jour avec pi le potentiel post-synaptique du neurone i, xj
ltat du neurone de la couche prcdente et wij le poids de la connexion entre les deux
neurones.
n

si = f ( pi ) o pi = wij x j

(II-2)

j =0

Cette phase, dite de propagation, permet de calculer la sortie du rseau en fonction de


lentre.
Lalgorithme de rtropropagation consiste effectuer une descente de gradient sur le
critre E. Le gradient de E est calcul pour tous les poids de la manire suivante :
E
E p i
E
=
=
xj
wij pi wij p i
Le gradient sera ensuite not Cj et C j =

(II-3)
E
.
pi

On distingue alors deux cas, suivant que le neurone dindice i est un neurone de sortie
ou non. Dans le cas de la couche de sortie, le gradient attach aux cellules de sortie est
alors obtenu par lquation (II-4):
Ci =

=
(d k s k ) 2 = 2.(d i si ). f ( p i )
pi
p i k

(II-4)

car seul si dpend de pi et si = f(pi).


Pour les neurones des couches caches, lordre de calcul des gradients est linverse de
celui utilis pour la mise jour des tats dans le rseau. Il seffectue de la couche de
sortie vers lentre ; on parle alors de rtropropagation. Lexpression du gradient est
obtenu comme indiqu dans lquation :
Ci =

n
n
n
p
p s
E
E p k
=
= Ck k = Ck k i
pi
pi k =0
s i p i
k = 0 p k p i
k =0

soit encore : C i =

(II-5)

f ( pi ) wki C k
k =0

avec Ck le gradient du neurone k de la couche suivante (dans le sens de la propagation).

32

Dans le cas de lalgorithme de gradient total, les exemples de la base dapprentissage


sont prsents successivement au rseau, les gradients accumuls au fur et mesure et la
modification des poids nintervient quaprs prsentation de tous les exemples (par
opposition au gradient stochastique o la modification des poids est effectue pour
chaque exemple prsent).
La modification des poids est obtenue suivant lquation (II-6) o est un petit nombre
positif qui reprsente le pas de dplacement en direction du minimum le plus proche.
wijt +1 = wijt + .C i .s j

(II-6)

Nous verrons pas la suite certaines amliorations quil est possible dapporter cet
algorithme.
Prcisons enfin que la phase dapprentissage est souvent arrte lorsque lerreur calcule
sur lensemble de la base dapprentissage est infrieure un seuil dtermin par
lutilisateur. Dautres mthodes seront prsentes par la suite.

II.2.3 Procdure de dveloppement dun rseau de neurones.


Le cycle classique de dveloppement peut tre spar en sept tapes :
1. la collecte des donnes,
2. lanalyse des donnes,
3. la sparation des bases de donnes,
4. le choix dun rseau de neurones ,
5. la mise en forme des donnes,
6. lapprentissage,
7. la validation.

Collecte des donnes:


Lobjectif de cette tape est de recueillir des donnes, la fois pour dvelopper le rseau
de neurones et pour le tester. Dans le cas dapplications sur des donnes relles,
lobjectif est de rassembler un nombre de donnes suffisant pour constituer une base
reprsentative des donnes susceptibles dintervenir en phase dutilisation du systme
neuronal.
La fonction ralise rsultant dun calcul statistique, le modle quil constitue na de
validit que dans le domaine o on la ajust. En dautres termes, la prsentation de
donnes trs diffrentes de celles qui ont t utilises lors de lapprentissage peut
entraner une sortie totalement imprvisible.

Analyse des donnes


Il est souvent prfrable deffectuer une analyse des donnes de manire dterminer
les caractristiques discriminantes pour dtecter ou diffrencier ces donnes. Ces
caractristiques constituent lentre du rseau de neurones. Notons que cette tude nest
pas spcifique aux rseaux de neurones, quelque soit la mthode de dtection ou de

33

classification utilise, il est gnralement ncessaire de prsenter des caractristiques


reprsentatives. Des exemples de fonctions discriminantes seront donnes dans le
chapitre V.
Cette dtermination des caractristiques a des consquences la fois sur la taille du
rseau (et donc le temps de simulation), sur les performances du systme (pouvoir de
sparation, taux de dtection), et sur le temps de dveloppement (temps
dapprentissage).
Une tude statistique sur les donnes peut permettre dcarter celles qui sont aberrantes
et redondantes.
Dans le cas dun problme de classification, il appartient lexprimentateur de
dterminer le nombre de classes auxquelles ses donnes appartiennent et de dterminer
pour chaque donne la classe laquelle elle appartient.

Sparation des bases de donnes


Afin de dvelopper une application base de rseaux de neurones, il est ncessaire de
disposer de deux bases de donnes : une base pour effectuer lapprentissage et une autre
pour tester le rseau obtenu et dterminer ses performances. Afin de contrler la phase
dapprentissage, il est souvent prfrable de possder une troisime base de donnes
appele base de validation croise . Les avantages lis lutilisation de cette
troisime base de donnes seront exposs dans les sections suivantes.
Il ny a pas de rgle pour dterminer ce partage de manire quantitatif. Il rsulte souvent
dun compromis tenant compte du nombre de donnes dont on dispose et du temps
imparti pour effectuer lapprentissage. Chaque base doit cependant satisfaire aux
contraintes de reprsentativit de chaque classe de donnes et doit gnralement reflter
la distribution relle, cest dire la probabilit doccurrence des diverses classes.

Choix dun rseau de neurones


Il existe un grand nombre de types de rseaux de neurones, avec pour chacun des
avantages et des inconvnients. Le choix dun rseau peut dpendre :
de la tche effectuer (classification, association, contrle de processus,
sparation aveugle de sources...),
de la nature des donnes (dans notre cas, des donnes prsentant des
variations au cours du temps),
dventuelles contraintes dutilisation temps-rel (certains types de rseaux
de neurones, tels que la machine de Boltzmann [AZENCOTT et al., 1992],
ncessitant des tirages alatoires et un nombre de cycles de calculs indfini
avant stabilisation du rsultat en sortie, prsentent plus de contraintes que
dautres rseaux pour une utilisation temps-rel),
des diffrents types de rseaux de neurones disponibles dans le logiciel de
simulation que lon compte utiliser ( moins de le programmer).
Ce choix est aussi fonction de la matrise ou de la connaissance que lon a de certains
rseaux, ou encore du temps dont on dispose pour tester une architecture prtendu plus
performante.

34

Mise en forme des donnes pour un rseau de neurones


De manire gnrale, les bases de donnes doivent subir un prtraitement afin dtre
adaptes aux entres et sorties du rseau de neurones. Un prtraitement courant consiste
effectuer une normalisation approprie, qui tienne compte de lamplitude des valeurs
acceptes par le rseau. Nous reviendrons par la suite sur les avantages et inconvnients
de la normalisation.

Apprentissage du rseau de neurones


Tous les modles de rseaux de neurones requirent un apprentissage. Plusieurs types
dapprentissages peuvent tre adapts un mme type de rseau de neurones. Les
critres de choix sont souvent la rapidit de convergence ou les performances de
gnralisation.
Le critre darrt de lapprentissage est souvent calcul partir dune fonction de cot,
caractrisant lcart entre les valeurs de sortie obtenues et les valeurs de rfrences
(rponses souhaites pour chaque exemple prsent). La technique de validation croise,
qui sera prcise par la suite, permet un arrt adquat de lapprentissage pour obtenir de
bonnes performances de gnralisation.
Certains algorithmes dapprentissage se chargent de la dtermination des paramtres
architecturaux du rseau de neurones. Si on nutilise pas ces techniques, lobtention des
paramtres architecturaux optimaux se fera par comparaison des performances obtenues
pour diffrentes architectures de rseaux de neurones.
Des contraintes dues lventuelle ralisation matrielle du rseau peuvent tre
introduites lors de lapprentissage.

Validation
Une fois le rseau de neurones entran (aprs apprentissage), il est ncessaire de le
tester sur une base de donnes diffrentes de celles utilises pour lapprentissage ou la
validation croise. Ce test permet la fois dapprcier les performances du systme
neuronal et de dtecter le type de donnes qui pose problme. Si les performances ne
sont pas satisfaisantes, il faudra soit modifier larchitecture du rseau, soit modifier la
base dapprentissage (caractristiques discriminantes ou reprsentativit des donnes de
chaque classe).

II.3 RESEAUX DE NEURONES ADAPTES AUX DONNEES SPATIOTEMPORELLES

De nombreuses applications, traites par des rseaux de neurones, requirent


lutilisation de donnes prsentant des caractristiques temporelles : filtrage, mmoire
associative, sparation aveugle de sources, commande de processus, dtection, etc. On
parle de donnes spatio-temporelles lorsque un instant donn, plusieurs
caractristiques sont reprsentes. A titre dexemple, un spectrogramme est considr
comme une donne spatio-temporelle.
Les rseaux de neurones peuvent exploiter linformation temporelle de diffrentes
manires. On peut citer :

35

une reprsentation spatiale de linformation temporelle,


lintroduction de retards dans les neurones ou les connexions,
lutilisation de connexions rcurrentes.
A titre indicatif, on notera quil existe aussi des rseaux de neurones qui utilisent un
codage par impulsion pour reprsenter linformation temporelle : le signal est alors
reprsent comme une suite discrte de valeurs scalaires dans le temps [FERHAOUI,
1996]. Ce type de rseau de neurones ne sera pas envisag ici car sa ralisation
matrielle, utilisant prfrentiellement une technologie analogique, ne semble pas
encore prouve.
Aprs avoir prsent ces trois diffrentes possibilits dexploitation de linformation
temporelle, nous justifierons notre choix darchitecture.

II.3.1 Reprsentation spatiale de linformation temporelle:


En utilisant des registres dcalage ou des lignes retard, il est possible deffectuer une
transformation temps-espace de la donne caractre temporel. Cette transformation a
pour but de reprsenter lvolution de caractristiques temporelle en entre du rseau.
Ainsi, lentre du rseau tant un signal temporel x(t) (figure II-6), ce signal passe
travers diverses units de retard dont le nombre dfinit la largeur de la fentre
dobservation.

x(t)

figure II-6 : Reprsentation spatiale de linformation en entre dun rseau de neurones

Lintrt de cette mthode de transformation des donnes temporelles repose sur la


possibilit de pouvoir utiliser des architectures et algorithmes dapprentissage standard,
dont la mise en uvre est relativement simple et bnficie dun grand nombre dtudes.
Cet approche a t utilise pour une application de synthse de la parole : Net-Talk
[SEJNOWSKI et al., 1987]. Cette application apprend lire des squences de caractres en
anglais et les convertit en chanes de phonmes qui servent alors dentres un
synthtiseur vocal.

II.3.2 Introduction de retards dans les connexions: le TDNN


Les rseaux de type TDNN (Time Delay Neural Network) reprennent la structure de
type perceptron multicouche. La premire application de ce systme neuronal a concern
la reconnaissance de la parole, et en particulier la dtection des phonmes /b/, /d/ et /g/
[WAIBEL et al., 1989]. Les neurones de la premire couche cache sont relis aux
neurones de la couche dentre par des connexions retard, et les neurones de la
36

deuxime couche cache sont connects ceux de la premire couche cache par le
mme principe. Ce nombre de retards ou pas de temps dfinit la largeur de fentre de
spcialisation. Cette mesure a aussi pour consquence de sensibiliser la premire
couche cache aux transitions rapides du signal dentre, tandis que les variations plus
lentes sont prises en compte par la fentre de spcialisation de la seconde couche
cache.
La figure II-7 et la figure II-8 reprsentent toutes deux le mme rseau TDNN dvelopp
pour la dtection de sifflements aux frquences EBF [MINIERE, 1994]. La premire
reprsentation est sous forme dveloppe alors que la seconde met en vidence laspect
temporel au sein du rseau de neurones. Lentre du rseau est une partie de
spectrogramme dfinie sur 5 frquences et 10 pas de temps. La premire couche cache
contient 4 neurones, et la seconde couche cache contient autant de neurones que la
sortie (soit 1 neurone dans ce cas).
La figure II-7 est la reprsentation la plus simple pour apprhender ce type de rseau de
neurones. Mis part la couche de sortie, les tats des neurones des autres couches sont
reprsents sur plusieurs pas de temps. La sortie est obtenue par accumulation des tats
temporels du neurone de la deuxime couche cache (aussi appele sortie temporelle).
Couche dentre
5 neurones
fentre de
spcialisation
avec 3 dlais

fentre
dobservation
avec 10 dlais

t1
t2
t3
t4
t5
t6
t7
t8
t9
t10

F1 F2 F3 F4 F5

Couche cache 1
4 neurones

Couche cache 2

Couche de sortie

figure II-7 : reprsentation dveloppe du TDNN

Avec ce type de reprsentation dveloppe, on peut considrer le TDNN comme un


rseau apparent au perceptron multicouche, mais utilisant des poids partags. Les poids
partags correspondent des poids de mme valeur pour des connexions entre neurones
dfinis au mme instant ti. Par exemple, la valeur de la connexion entre la 1ere cellule
perceptive de la couche dentre au temps t1 et le 2me neurone de la premire couche
cache au temps t1 est la mme que la connexion entre la 1ere cellule perceptive de la
couche dentre au temps tn et le 2ime neurone de la premire couche cache au temps
tn. Lensemble des cellules perceptives de la couche dentre connectes un mme
neurone de la premire couche cache est appel fentre de spcialisation.
Lentre du rseau de la figure II-8 correspond aux caractristiques spectrales (F1 F5)
un temps t donn. Les retards dans les connexions sont reprsents : la fentre de
spcialisation est constitue de 3 pas de temps pour la couche dentre, et de 4 pas de
temps pour la premire couche cache.

37

4
3

F1 F2 F3 F4 F5

figure II-8: reprsentation temporelle du TDNN

Le principe de poids partags confre au TDNN une aptitude grer les invariances par
translations dans le temps. Une consquence de ceci est que, si un phnomne est
dtecter en entre du rseau de neurones, sa position exacte dans le temps importe peu.

II.3.3 Utilisation de connexions rcurrentes.


Lutilisation de connexions rcurrentes dans un rseau introduit une capacit de
mmorisation. Lentre des rseaux rcurrents est constitue des caractristiques
obtenues un instant donn. La sortie du rseau volue au rythme des entres en
fonction de ces caractristiques.
La figure II-9 prsente deux rseaux de neurones rcurrents de type multicouche. Ils ont
comme particularit de possder une couche appele couche de contexte qui copie
lactivit des neurones de la couche cache (a) ou de la couche de sortie (b). Les sorties
des neurones de cette couche spciale sont utilises en entre de la couche cache. Seuls
les poids des connexions directes sont modifiables.

Couche de
sortie

a)
1

Couche
cache

Couche de
contexte

Couche
dentre

Couche de
sortie

b)
1

Couche
cache

Couche de
contexte

Couche
dentre

figure II-9 : rseau rcurrent de Elman (a) et Jordan (b)

Pour le rseau SRN (Simple Recurrent Network) [ELMAN, 1990] reprsent figure II-9a,
les neurones de la couche de contexte mmorisent lactivit des neurones cachs,
linstant prcdent. Ce principe permet de reconnatre des squences ainsi que de les
complter.
Dans le cas de la structure de Jordan (figure II-9b), les neurones de la couche de
contexte rcuprent la fois leur activit pondre par le coefficient et lactivit

38

des neurones de sortie. Ce type de rseau est utilis pour la classification et la gnration
de squences [JORDAN, 1988].

II.3.4 Choix de larchitecture


Linconvnient de la mthode de transformation spatiale des donnes temporelles est
quil ny a aucune exploitation du caractre temporel dans le fonctionnement interne des
rseaux. De plus, la reprsentation spatiale de la dimension temporelle ajoute un degr
de libert supplmentaire : lemplacement du phnomne dans la couche dentre. Ce
problme a t rsolu par le TDNN, de par la contrainte impose aux poids afin
dexploiter le principe dinvariance en translation des signaux dentre.
Linconvnient des rseaux rcursifs provient du fait quils favorisent la corrlation
dvnements en provenance du pass rcent par rapport au pass plus lointain (seul
lexprimentation permet destimer le temps de prise en compte). Avec le TDNN, par
dimensionnement de la fentre de spcialisation pour chaque couche, il est possible de
dterminer approximativement le nombre de pas de temps sur lequel on souhaite dfinir
des relations par rapport lvolution des caractristiques au cours du temps. On notera
cependant que lavantage des rseaux rcurrents sur le TDNN est quils peuvent tre
utiliss pour la reproduction de squences temporelles [HERAULT et al., 1994], ce qui
nest pas possible avec lutilisation des retards dans les connexions. Dans notre cas, ce
type de proprit ne nous concerne pas.
Ainsi, la vue des arguments prcdents, il apparat que le rseau de type TDNN
prsente bien des avantages par rapport aux autres rseaux. Une vritable tude
comparative consisterait tester les performances obtenues pour notre application avec
chaque type de rseau de neurones. Ltude mene par Xavier Minire [MINIERE, 1994]
ayant montr que le TDNN pouvait donner de bons rsultats pour des donnes similaires
aux ntres, il ne nous a pas sembl ncessaire deffectuer une telle tude comparative.

II.4

OPTIMISATION DU RESEAU ET DE SON DEVELOPPEMENT

La capacit dun rseau raliser une fonction peut tre estime partir de deux
paramtres: lerreur dapproximation et lerreur de gnralisation. Lerreur
dapproximation exprime la diffrence entre la fonction ralise par le rseau et la
fonction dsire. Cette erreur rsulte du caractre fini de la taille dun rseau ; ceci a
pour consquence de limiter la capacit dun rseau mmoriser une fonction dsire8
ou encore de dfinir avec prcision lespace correspondant une classe de donnes.
Lerreur de gnralisation est mise en vidence lorsque les performances sur la base de
test sont sensiblement infrieures celles obtenues sur la base dapprentissage. Ce
phnomne se produit lorsque le rseau a appris par cur les exemples de la base
dapprentissage. Ce problme provient du nombre fini de donnes dans la base
dapprentissage.

Il a t montr [HORNIK et al., 1989] que toute fonction continue pouvait tre approche par un rseau de
neurones multicouche, avec une prcision qui dpend du nombre de neurones dans les couches caches,
lorsque la base dapprentissage est suppose infinie.

39

Afin de reprsenter les consquences de ces deux types derreurs, imaginons une
application pour laquelle lobjectif est de sparer les donnes en deux classes : les ronds
et les losanges (figure II-10).

figure II-10 : exemple derreur de gnralisation et dapproximation

La ligne pointille correspond la distribution thorique. Compte tenu de lincertitude


que lon suppose sur la mesure de ces donnes, certains points peuvent tre mal placs.
La zone grise reprsente une limite de classe qui aurait pu tre obtenue avec une
architecture neuronale constitue dun nombre de neurone et connexion insuffisant.
Lerreur dapproximation est importante.
Par contre, pour une architecture possdant un nombre de neurones trop important
(donne arbitraire dpendante de lapplication), si on ne prend pas de prcaution, la
limite de zone peut alors tre dfinie ainsi que le suggre la ligne continue : chaque
donne est prise en compte, il se produit une mauvaise gnralisation.
Notre objectif final tant une ralisation matrielle embarquable, temps-rel et destine
ne reproduire que la phase dutilisation du rseau, il est souhaitable de dvelopper une
architecture neuronale aussi petite que possible ; ceci sous entend avec un nombre
minimum de neurones, de connexions, et de bits pour le codage des donnes dans le
rseau. Ainsi, par diminution du nombre de calculs ncessaires la simulation, on peut
non seulement courter le temps de propagation, mais aussi contribuer rduire le cot
matriel (surface, nergie, technologie, etc.).
Par consquent, le dveloppement du systme de reconnaissance rsulte dun
compromis entre les performances du systme neuronal et le cot, qui est fonction de la
taille de larchitecture. En effet, pour une base dapprentissage suppose parfaite
(nombre dexemples infini) la diminution de la taille du rseau influe directement sur
lerreur dapproximation.
La littrature foisonne dalgorithmes doptimisation pour rseaux de neurones, tous plus
performants les uns que les autres si lon en croit leurs auteurs. Si les avantages quils
apportent sont incontestables la vue des exemples prsents, il apparat souvent quils
apportent un nombre dinconvnients tel que lon peut se demander si une utilisation
correcte de lalgorithme classique de rtropropagation ne suffirait pas. Des tudes de
comparaison de divers algorithmes dapprentissage ont t effectues [ALPSAN et al.,
1994] ; les auteurs considrent quun choix judicieux des paramtres de lalgorithme
classique de rtropropagation du gradient le rend tout fait concurrentiel par rapport
dautres.

40

Avant dentreprendre lutilisation dun algorithme, il convient de dterminer les


caractristiques que lon souhaite optimiser. Les critres doptimisation les plus
courants sont les suivants:
lamlioration du pouvoir de gnralisation (les performances du systme
neuronal),
la minimisation de larchitecture (pour rduire la quantit de calculs en phase
dutilisation),
la prise en compte de caractristiques destines limplantation matrielle
(prcision, robustesse, units spcifiques),
la minimisation du temps dapprentissage.
On notera que, bien que lapprentissage du rseau doive tre au sol, la diminution du
temps de calcul est un facteur ne pas ngliger, car il nest pas rare que le temps
dapprentissage se compte en heures voire en jours.
Le TDNN est un rseau de neurones de type multicouche. Les algorithmes utiliss pour
les rseaux multicouches sont souvent facilement adaptables au TDNN. La diffrence
provient de la contrainte de partage de poids, qui peut tre intgre en effectuant un
calcul de moyenne appropri lors de la mise jour des poids du rseau pendant
lapprentissage.
Aprs avoir pass en revue quelques mthodes destines optimiser la taille dun rseau
de neurones, nous nous penchons sur dautres mthodes permettant damliorer la
vitesse dapprentissage et le pouvoir de gnralisation dun rseau. Puis, nous montrons
comment prendre en compte, ds lapprentissage, des contraintes ou caractristiques
lies la ralisation matrielle. Enfin, nous justifions notre choix de mise en uvre du
systme neuronal.

II.4.1 Optimisation de larchitecture


La taille de larchitecture optimale ne sera pas la mme suivant les prtraitements
effectus sur les donnes avant de les prsenter au rseau de neurones. Le choix de la
reprsentation spectrale pour la dtection des sifflements est tout fait reprsentatif dun
prtraitement destin aider le systme neuronal en lui fournissant des caractristiques
pertinentes directement exploitables. Il est certain que pour obtenir un mme taux de
dtection, il faudrait faire appel une architecture autrement plus volumineuse, si on
prsentait au rseau uniquement la forme donde. Ainsi, avant de rechercher optimiser
une architecture, il est indispensable doptimiser le prtraitement. Dans le cas dune
classification par exemple, un prtraitement visant rendre orthogonaux ou linairement
sparables les vecteurs caractrisant les diffrentes classes, peut contribuer rduire le
nombre de couches dun rseau, voire dans certain cas nen garder que deux (lentre et
la sortie). Ceci dit, lorsquun problme est linairement sparable, il est inutile de faire
appel une technique neuronale.
Il nexiste malheureusement pas de super-architecture neuronale [MCCORMACK et
al., 1993], cest dire darchitecture fixe pour laquelle il suffirait dadapter les poids au
problme afin dobtenir les meilleurs performances possibles. De manire gnrale, la
taille et le type des connexions dun rseau influent sur ses performances. Notons
toutefois que cette variation de performance nest pas particulirement brusque, et quil
existe souvent plusieurs architectures permettant dobtenir la mme performance. Dans

41

notre cas, larchitecture optimale sera celle qui possde la plus petite taille, ou plus
prcisment celle qui ncessitera le moins de calculs pour raliser la fonction demande.
Deux mthodes sont souvent utilises pour dterminer larchitecture dun rseau de
neurones :
la mthode empirique, par approximations successives,
lutilisation dalgorithmes doptimisation architecturale.

a) Mthode empirique
Lintrt dune optimisation manuelle rside dans la possibilit dintgrer dans
larchitecture des connaissances pralables sur les donnes. Ceci peut tre effectu par
exemple par lutilisation de connexions partielles plutt que totales, de connexions
directes entre lentre et la sortie, de connexions rcurrentes, et/ou de poids partags.
Notons que la matrise de ce type de procd ncessite une certaine exprience de la part
du concepteur. Le TDNN est un bon exemple darchitecture conue pour exploiter une
connaissance particulire sur les donnes : leur caractristique temporelle. Par contrainte
de partage de poids, la proprit dinvariance en translation dans le temps est
automatiquement incluse dans le rseau.
La dmarche empirique consiste comparer les performances obtenues pour diffrentes
architectures, et ne conserver ensuite que celle qui correspond au meilleur compromis
performance / cot architecturale. Si le choix des paramtres de dfinition de
larchitecture appartient au concepteur, il peut toutefois saider dalgorithmes pour
comparer les capacits de gnralisation de plusieurs architectures [MURATA, 1992;
WADA et al., 1991] partir de la base dapprentissage. Nous verrons par la suite quil
est possible, au del dune certaine taille de rseau, de saffranchir de ce problme
derreur de gnralisation en observant, lors de lapprentissage, le comportement du
rseau avec une base dite de validation croise .
Dans le cadre de notre tude, les paramtres dterminer pour le TDNN sont :
le nombre de neurones dans chaque couche,
le nombre total de pas de temps dfinissant la largeur de la couche dentre,
le nombre de pas de temps dfinissant la largeur des fentres de
spcialisation.
La dtermination du nombre de pas de temps pour les couches caches (Nbdn) se dduit
du nombre de retards dans les connexions de la couche prcdente (Nbdn-1) et de la
largeur de la fentre de spcialisation (Nbfn-1) de la manire suivante:
Nbdn = Nbdn-1 - Nbfn-1 + 1.

(II-7)

La connaissance des caractristiques du phnomne dtecter (par exemple la dure


maximale pour un phnomne transitoire) permet de fournir des indications la fois sur
la largeur de la fentre de spcialisation et sur le nombre de pas de temps de la couche
dentre. Ce point sera analys dans la sous-section II.5.1.
Des formules mathmatiques ont t dveloppes pour estimer le nombre optimal de
neurones dans un rseau multicouche [MURATA, 1992]. En pratique, elles ne sont gure
utilisables du fait du nombre dhypothses portant sur la base dapprentissage et sur la
taille du rseau.

42

Des tudes la fois exprimentales et thoriques ont dmontr les relations troites
existantes entre le nombre de connexions et de neurones, et la capacit de mmorisation
du rseau ; les poids des connexions sont des lments de mmorisation distribus dans
le rseau. Une capacit de mmorisation trop importante peut nuire au pouvoir de
gnralisation du rseau [MCCORMACK et al., 1993]. Les indications pratiques que lon
peut trouver dans la littrature restent ce jour totalement insuffisantes pour parvenir
dterminer larchitecture optimale.

b) Optimisation automatique
Lide sduisante dajuster la taille du rseau pendant lapprentissage, afin que sa
complexit soit adapte au problme rsoudre, a conduit au dveloppement
dalgorithmes de croissance et de dgnrescence. Dans le cadre de cette tude, nous
nous limitons prsenter quelques algorithmes utilisables pour des architectures
multicouches.
Algorithmes de croissance de rseaux de neurones
Le but des algorithmes de croissance est deffectuer lapprentissage avec, au dpart, une
architecture trs petite (en terme de nombre de neurones), et de laccrotre en fonction
des performances obtenues sur la base dapprentissage. Il a t longtemps reproch aux
mthodes de croissance dtre trs gourmandes en neurones ajouts et de donner des
rsultats en gnralisation assez mdiocres [HERAULT et al., 1994]. Afin dviter ce
problme, les algorithmes de croissance rcents exploitent la relation qui existe entre la
taille dun rseau et la base dapprentissage. Ainsi, avec le SElective Learning with
Flexible neural architecture (SELF) [ZHANG, 1994], le principe consiste dmarrer
lapprentissage avec un petit nombre de neurones dans la couche cache et un petit
nombre dexemples. Par analyse du droulement de lapprentissage, selon quil y a ou
non convergence, il y a augmentation soit du nombre de donnes, soit du nombre de
neurones.
Afin dobtenir une bonne gnralisation, une technique consiste utiliser diffrentes
rsolutions pour la reprsentation des caractristiques des donnes dapprentissage
[CHAN et al., 1994]. Ensuite, lauteur fait crotre le rseau en fonction de la rsolution
impose ses donnes. Daprs lui, ce principe de multi-rsolution permet de
contraindre le rseau ne pas sattacher aux dtails. On notera cependant que la mise en
oeuvre de cette technique a t ralise sur des donnes de type image.
Algorithmes de dgnrescence
Dans les mthodes de dgnrescence, on part dun rseau sur-dimensionn que lon
simplifie au cours de lapprentissage (par diminution du nombre de neurones et de
connexions). Les principes les plus utiliss consistent soit supprimer brutalement des
poids ou des neurones tout en effectuant un contrle par une mesure de sensibilit, soit
utiliser pour lapprentissage une fonction de cot qui inclue un facteur visant
sanctionner la complexit du rseau.
La mesure de sensibilit utilise par lalgorithme GRM ( Gradual Reduction Method )
de rduction du nombre de neurones [YAMAMOTO et al., 1993] intgre les notions de
variance et de validation croise entre les neurones. Le principe gnral consiste
liminer les neurones pour lesquels ltat de sortie ne fluctue pas suffisamment en

43

fonction des donnes de la base dapprentissage. Les phases dlimination sont alors
alternes avec des phases dapprentissage.
Cette succession de phases dlagage et dapprentissage implique souvent un cot de
calcul lev car cela revient effectuer plusieurs apprentissages la suite, avec chaque
fois une nouvelle architecture. Pour viter ceci, certains [WEIGEND et al., 1991] ajoutent
la fonction de cot un terme relatif la complexit du rseau. De ce fait, il ny a pas de
rinitialisation (souvent partielle) des poids, ainsi que cela est gnralement effectu
lorsque des neurones ou des connexions sont supprims. Ce terme est alors plus ou
moins pondr suivant limportance que lon souhaite donner la rduction de la taille
du rseau.
Une autre possibilit consiste remplacer totalement la fonction de cot, gnralement
base sur le calcul de lerreur quadratique (somme des diffrences leves au carr entre
les sorties obtenues par le rseau et les sorties de rfrence), par un autre critre relatif
la quantit dinformations stockes dans le rseau. Ainsi, la minimisation de ce critre
contribue liminer des poids et donc des connexions. KAMIMURA exploite pour cela la
notion dentropie utilise en thermodynamique pour qualifier le dsordre [KAMIMURA et
al., 1994]. Daprs lauteur, cet algorithme possde la particularit dengendrer un
pouvoir de gnralisation leve.

c) Empirisme ou automatisme ?
Nous avons vu que lapprentissage pouvait, dans certains cas, se charger de dfinir la
taille du rseau de neurones. Lintrt de lutilisation de ces algorithmes est parfois
discutable. Un des arguments allant lencontre des mthodes automatiques provient du
nombre important de calculs gnralement ncessaires leur mise en oeuvre. La
mthode manuelle itrative avec un algorithme optimis en rapidit peut permettre un
gain de temps non ngligeable. Le cot de mise en uvre de ces algorithmes peut aussi
tre un facteur dissuasif. Il est facile aujourdhui de se procurer des bibliothques de
programmes (par exemple pour des langages comme le C ou Matlab) ou des platesformes de dveloppement de systmes neuronaux (par exemple SNNS9), et il est
souvent plus rapide de les utiliser bon escient que davoir modifier le code source.
Dautre part, si lutilisation dun algorithme de gnration automatique darchitecture
peut savrer ncessaire pour des architectures importantes en nombre de neurones, dans
notre cas, le besoin ne sen est pas fait sentir : non seulement les architectures testes ne
dpassent pas quelques dizaines de neurones, mais en plus nous avons disposition un
parc informatique nous permettant le lancement dapprentissages en batch la nuit sur
plusieurs machines. Le choix de larchitecture seffectue alors par comparaison des
performances obtenues pour des architectures de tailles diffrentes. La stratgie consiste
dfinir une architecture initiale pour effectuer un premier apprentissage, puis
procder par une mthode de dichotomie classique pour obtenir larchitecture la plus
petite permettant dobtenir de bonnes performances.

SNNS: logiciel informatique de luniversit de Stuttgart ddi au dveloppement de rseaux de neurones.


Cette plateforme logicielle est gratuite et peut tre obtenue, ce jour, par FTP anonyme via internet
ladresse ftp.informatik.univ-stuttgart.de

44

II.4.2 Apprentissage : gnralisation et rapidit


Un grand nombre de propositions damlioration de lalgorithme de rtropropagation du
gradient total ont dj t publies et continuent encore ltre. Dans la plupart des cas,
le principe consiste apporter quelques modifications afin de rsoudre certains
problmes tels que ceux de lenteur de convergence, darrt prmatur de
lapprentissage, ou de surapprentissage .
Il existe aussi des algorithmes dapprentissage bass sur des concepts trs diffrents. A
titre dexemple, citons lalgorithme NLP [HSIUNG et al., 1991] optimis pour acclrer
le temps de convergence lors de lapprentissage, ou encore une adaptation pour le
TDNN du principe utilis par les rseaux de neurones fonction radiale de base (RBF),
reconnus pour leur rapidit dapprentissage [BERTOLD, 1993]. Leur mise en uvre est
quelquefois difficile et provoque laltration dautres caractristiques (par exemple, du
pouvoir de gnralisation). Dans le cadre de notre tude, nous nous sommes limit aux
algorithmes bass sur celui de la rtropropagation du gradient car non seulement ils sont
adaptables au TDNN, mais pour une personne qui dsirerait optimiser son algorithme
dapprentissage, ils ne ncessitent pas une modification importante du code source du
programme dapprentissage.
Les paragraphes suivants prsentent des algorithmes destins augmenter le pouvoir de
gnralisation et/ou la rapidit de lapprentissage.

a) Acclration de lapprentissage
Il y a deux manires doptimiser un apprentissage: utiliser au mieux lalgorithme que
lon possde ou le modifier. Ici, nous voquerons ces deux possibilits au travers de
diffrentes caractristiques lies lapprentissage : le gain dadaptation et la manire
dinitialiser les poids lors du lancement de lapprentissage.
Le gain dadaptation
Le choix des paramtres dun algorithme dapprentissage influe beaucoup sur la rapidit
de calculs. Dans le cas de lalgorithme de rtropropagation, le calcul du gradient
consiste dfinir, dans un espace contenant autant de dimensions quil y a de poids, la
direction dans laquelle doit seffectuer la modification des poids. Le principe de
descente de gradient consiste alors effectuer de manire itrative (pas par pas) une
modification des poids suivant cette direction jusqu arriver un minimum sur la
fonction de cot reprsentant lcart entre les sorties obtenues et les sorties de rfrence.
Si ce pas, aussi appel gain dadaptation , est dfini trop petit, le nombre de pas
ncessaires peut savrer relativement important et contribue donc ralentir de manire
non ngligeable lapprentissage. Notons quil est mme possible que lalgorithme,
rencontrant un minimum local, ne puisse plus en sortir. A linverse, si le pas est trop
important, lalgorithme peut devenir instable.
Une mthode trs employe consiste modifier lalgorithme pour ajouter ce gain
dadaptation un terme appel momentum [RUMELHART et al., 1986]. Son usage,
proportionnel la modification de poids effectue au cycle prcdent, revient faire
varier le pas en fonction de la progression dans la direction du gradient. Une autre
possibilit consiste considrer que la courbe de la fonction derreur, selon une
direction synaptique, peut tre approxime par une parabole [FALHMAN, 1989]. Cet

45

algorithme nomm quickprop utilise, pour chaque poids, la pente de la fonction


derreur aux itrations courantes et celle de la variation de poids entre ces deux
itrations. Ces informations sont suffisantes pour dterminer lquation dune parabole
passant par les deux derniers points.
Dautre part, au cours de lapprentissage, chaque couche est influence par le
comportement des couches suprieures (principe de rtropropagation) : si le potentiel
post-synaptique dun neurone est lev (en valeur absolue), la sigmode sera utilise en
zone sature (figure II-11) et ltat du neurone sera proche des bornes : 1 ou -1.
1
0,8
0,6

0,4

0,2
0
-8

-7

-6

-5

-4

-3

-2

-1

-0,2

-0,4
-0,6
-0,8
-1

figure II-11 : fonction dactivation (a) et sa drive (b)

La faiblesse de lamplitude des modifications de poids est une consquence de cette


saturation (lamplitude des modifications tant proportionnelle la drive de la
sigmode). De ce fait, lapprentissage met plus de temps converger. Afin dviter ce
problme, lalgorithme DLBP [TAKECHI et al., 1993] utilise des coefficients
dapprentissage diffrents pour chaque couche.
Initialisation des poids
Au lancement de lapprentissage, les valeurs initiales des poids doivent tre diffrentes
de zro pour que lalgorithme de rtropropagation puisse fonctionner. Dautre part,
lutilisation de valeurs leves peut provoquer un phnomne de saturation prmature
qui contribue diminuer la vitesse de convergence de lapprentissage [LEE et al., 1991].
Ce phnomne est fonction de lamplitude des poids, de la pente de la sigmode et du
nombre de neurones dans chaque couche [VITELA, 1994]. Afin de se situer dans la zone
linaire de la sigmode (zone dfinie pour une entre proche de 0), une mthode [BUREL,
1991] consiste effectuer une initialisation des poids selon une distribution uniforme
dans lintervalle [-M, M], avec M dfini par lquation (II-8):
M=

0.87

[ ]

(II-8)

k n E x2j

avec k la pente de la fonction dactivation dans la zone linaire, n le nombre dentres


du neurone et E[x2] la variance des donnes de la base dapprentissage.
Une telle limitation des poids garantie quil ny aura pas de saturation prmature, mais
ne garantit absolument rien quand la suite de lapprentissage. Il a t montr
[KIM, 1993; KAYLANI et al., 1994] quil tait possible de limiter cet effet de saturation
en initialisant les poids des connexions entre la couche dentre et la premire couche

46

cache, de manire gnrer des hyperplans appropris pour dlimiter les classes ou
lespace de reconnaissance. Ce type dinitialisation des poids nest cependant pas facile
mettre en uvre.
Prsentation des exemples
Lalgorithme de rtropropagation du gradient total implique un calcul derreur pour
chaque exemple de la base avant deffectuer la modification des poids. Lalternative qui
consister effectuer une modification des poids aprs chaque prsentation dun exemple
de la base dapprentissage (algorithme de gradient stochastique) acclre
lapprentissage, mais a pour inconvnient dtre moins performante en gnralisation.
Afin de ne garder que les avantages de chaque algorithme, [SAWAI et al., 1989] propose
une mthode pour faire varier le nombre dexemples pour le calcul de lerreur de
manire croissante tout au long de lapprentissage. Au dbut de lapprentissage, il
nutilise quun petit nombre dexemples, suffisant pour indiquer les directions
principales de descente de gradient. Ce nombre dexemples est ensuite progressivement
augment en fonction du nombre de cycles dapprentissage.
Autres possibilits
Le problme de saturation peut par exemple tre contourn en ajoutant la sigmode et
sa drive une constante, ou encore en diminuant la pente de la sigmode de manire
augmenter la zone de pseudo-linarit.
La littrature regorge dautres possibilits permettant acclrer lapprentissage. Les
performances annonces ne sont malheureusement pas toujours reproductibles car elles
sont fonction du contexte exprimental.

b) Augmentation du pouvoir de gnralisation


Nous avons voqu plusieurs fois le problme du surapprentissage, qui est provoqu par
la capacit dun rseau de neurones, possdant un nombre dunits de mmorisation
plus que ncessaire (on parle aussi de surparamtrisation), apprendre parfaitement
les exemples de la base dapprentissage. Typiquement, lvolution de lerreur
quadratique sur la base dapprentissage en fonction du nombre de cycles
dapprentissage, se comporte comme la courbe A de la figure II-12 Sur cette mme
figure est galement reprsente lvolution de lerreur quadratique en gnralisation
calcule partir dune base de donnes diffrente de la base dapprentissage (courbe B).
apprentissage
insuffisant

Erreur

gnralisation

sur apprentissage

Gnralisation
optimale

B
apprentissage

Nombre de cycles
dapprentissage

figure II-12 : volution de lerreur dapprentissage et de gnralisation

47

Afin darrter lapprentissage juste avant que ne se produise ce phnomne de


surapprentissage, plusieurs mthodes ont t proposes. La plus simple consiste
disposer de trois bases de donnes distinctes : une base dapprentissage, une base de test
et une base dite de validation croise . Cette dernire base est utilise pendant
lapprentissage afin dexaminer le comportement du rseau pour des donnes qui lui
sont inconnues. Ainsi, lapprentissage est arrt lorsque lerreur sur cette courbe B (base
de validation croise) atteint un minimum.
Notons que cette technique ncessite davoir suffisamment de donnes pour constituer
trois bases la fois reprsentatives et distinctes. Dans le cas o on ne disposerait pas de
suffisamment de donnes, une techniques a t dveloppe pour nutiliser que la base
dapprentissage ; elle consiste effectuer deux apprentissages successifs. Pour le
premier apprentissage, la base de dapprentissage est divise en deux de manire
constituer une plus petite base dapprentissage et une base de validation croise. Le
nombre de cycles dapprentissage ncessaire pour parvenir la zone de gnralisation
optimale est conserv. Ce nombre est ensuite utilis pour stopper lapprentissage avec la
base dapprentissage globale [LANG et al., 1990].

c) Mthodes utilises pour notre tude


La slection des mthodes doptimisation prsentes prcdemment rsulte dun
compromis entre lestimation du profit dutilisation des algorithmes et celle de leur cot
de mise en uvre (la quantit de modifications du code du programme dapprentissage
et le temps ncessaire cette modification).
Ainsi, aprs initialisation des poids selon lquation dfinie prcdemment, nous
utilisons lalgorithme du gradient total avec le principe de validation croise pour
viter que ne se produise le phnomne de surapprentissage nfaste au pouvoir de
gnralisation.
Afin dacclrer lapprentissage, nous calculons systmatiquement le pas dadaptation
appliquer au gradient avec une mthode dapproximation parabolique.

II.4.3 Apprentissage orient vers lintgration matrielle


Des algorithmes ont aussi t mis au point dans le but damliorer des caractristiques
matrielles telles que la tolrance aux fautes, ou pour permettre une implantation
matrielle ddie faible cot. En effet, le cot de la ralisation matrielle peut tre
diminu en utilisant des donnes codes avec une faible prcision, ou en modifiant
certaines fonctionnalits comme par exemple : linarisation par morceaux de la
sigmode ou encore utilisation des poids sous la forme 2n afin de remplacer le
multiplieur par un registre dcalage). Ces diffrentes possibilits de modification
fonctionnelle seront prsentes dans le chapitre sur la ralisation matrielle dun rseau
de neurones (chapitre IV).

a) Tolrance aux fautes


Une des particularits des rseaux de neurones rside dans leur capacit de tolrance aux
fautes. Cette proprit est due au caractre distribu de linformation sur toutes les

48

connexions. Une tude a t mene pour observer la sensibilit aux S.E.U.10 de


larchitecture TDNN que nous avons dveloppe pour la dtection de sifflements
[ASSOUM et al., 1996]. Les rsultats ont montr la bonne tolrance aux fautes de ce type
darchitecture. Gnralement, pour se protger des phnomnes causs par les
irradiations, on utilise des astuces matrielles : technologie durcie, duplication dunits
fonctionnelles, etc.
Afin de renforcer encore le pouvoir de tolrance aux fautes dun rseau de neurones, une
possibilit consiste inclure dans lapprentissage une probabilit derreur pour chaque
neurone [LIN et al., 1994; CHIU et al., 1994]. Cette modification va contraindre le rseau
distribuer les calculs sur diffrents neurones.
Une autre possibilit consiste limiter les parties sensibles du rseau de neurones, cest
dire les poids de forte amplitude et les neurones les plus influents. La limitation de
lamplitude des poids peut-tre effectue soit par ajout dun bruit indpendant en entre
de la premire couche cache [KURITA et al., 1994], ce qui tend diminuer lamplitude
des poids des connexions avec la couche de sortie, soit en introduisant un paramtre
pnalisant les poids de plus forte amplitude lors du calcul du gradient [CHIU et al., 1994;
WEIGEND et al., 1991]. Ce dernier utilise conjointement une procdure appele
Addition/Deletion Procedure (ADP) pour liminer les neurones de faible importance
et ajouter certains neurones pour repartir la charge sur plusieurs neurones.
De manire gnrale, lutilisation de ces algorithmes permet dobserver une plus faible
dgradation des performances du rseau lorsque certaines fonctionnalits sont altres.
En gnral, si on compare deux rseaux ralisant la mme fonction et obtenant les
mmes performances de classification, lun des deux ayant t dvelopp de sorte quil
ait une certaine capacit de tolrance aux fautes, on note alors que cette proprit se
traduit par une augmentation de la taille du rseau. Rien ne se perd, rien ne se cre,
tout se transforme ....

b) Limitation de la prcision
Toute simulation numrique implique un choix de codage des lments dinformation
internes au rseau (ltat des neurones, les poids, la fonction dactivation). La plupart de
temps, la simulation seffectue sur une plate-forme informatique, et la prcision est alors
dfinie dans le programme de simulation par le type de variable utilise (gnralement
en virgule flottante avec une simple ou double prcision).
Dans le cas de la ralisation dun composant lectronique ddi la simulation dun
rseau de neurones, il est important de limiter au mieux la prcision afin de rpondre
aux contraintes de consommation et dutilisation en temps rel. Les techniques
employes pour prendre en compte cet effet de prcision diffrent suivant
que lapprentissage est effectu :
en dehors du composant,
en incluant le composant dans la boucle dapprentissage,
dans le composant (ou en simulant ses caractristiques).

10

On qualifie de S.E.U. (Single Event Upset) les dommages occasionns llectronique embarque dans
les missions spatiales par les ions lourds des zones de forte irradiation. La consquence de ce phnomne
est linversion dun ou plusieurs bits dans une unit de mmorisation. Il est indispensable de tenir compte
de ce phnomne pour les satellites qui traversent les ceintures de radiation terrestre.

49

La premire possibilit consiste effectuer lapprentissage sur un ordinateur, sans


limitation de prcision, puis tronquer ou arrondir les poids obtenus une fois
lapprentissage effectu, afin de les adapter au codage utilis sur larchitecture cible
[ASANOV et al., 1991]. Cette manire de procder est la fois la plus simple mettre en
uvre et la plus rapide. Cependant, intuitivement, cette mthode ne semble pas
totalement fiable. En effet, si lon observe la figure II-13 reprsentant une possibilit (a
priori) de courbe derreur en fonction de la variation dun poids, lapprentissage sans
contrainte de prcision doit normalement sarrter au minimum de la courbe. Une
troncature du poids va modifier sa position de manire alatoire. Un tel graphique laisse
penser quil est probable que leffet de la troncature puisse savrer nfaste.

Erreur

apprentissage
avec prcision
limite

apprentissage sans
cointrainte de prcision
suivi dune troncature
malheureuse ou heureuse
apprentissage sans
contrainte de prcision

Un poids
figure II-13 : effets possibles de la troncature sur un poids

Des tudes menes sur ce sujet ont montr que la prcision ncessaire pour la
propagation est dpendante de lapplication [BAKER et al., 1989]. Il a t montr [HOLT
et al.,1993] que les poids peuvent, pour la plus part des applications, tre cods sur 8
bits pour simuler la propagation de rseaux de neurones multicouches. Des analyses
statistiques sur leffet de la quantification des poids [PICHE, 1995] ont rvles que
lutilisation dune sigmode plutt quune fonction de Heaviside comme fonction
dactivation pouvait permettre une prcision plus faible : 6 bits.
Afin dintroduire leffet produit par la restriction de la prcision des donnes et des
poids lors de lapprentissage, on peut utiliser le composant (ou bien le simuler)
lintrieur de la boucle dapprentissage. Le calcul des poids est effectu hors composant
et donc sans contrainte de prcision. A chaque cycle, les poids sont envoys au
composant, lequel nutilise quune version discrtise. Ainsi leffet de quantification est
alors utilis uniquement pour le calcul de propagation. Ce principe permet dobtenir de
bonnes performances avec un faible nombre de bits de prcision [FIESLER et al., 1988].
Cependant cet algorithme implique toujours lutilisation dune procdure de rduction
des poids pour passer de la version continue la version utilise par le composant.
Une dernire possibilit consiste prendre totalement en compte les caractristiques
matrielles en effectuant lapprentissage sur le composant ou en le simulant. Ce principe
peut provoquer des problmes lors de lapprentissage lorsque la modification apporter
un poids ne peut tre prise en compte du fait de la limitation de prcision. Il a t
montr [ASANOV, 1991 ; HOLT et al., 1993] que lalgorithme de rtropropagation est
particulirement sensible la limitation de la prcision des poids, et peut savrer
inefficace pour un codage avec moins de 16 bits. Ds lors, un certain nombre
dalgorithmes ont t mis au point pour viter les problmes dus la discrtisation des
poids. Certains ont montr que lon pouvait limiter les effets indsirables de cette
quantification en augmentant la valeur du coefficient de gain de lapprentissage
classique [CAVIGLIA et al ., 1990]. De mme, des amliorations peuvent tre obtenues
en effectuant des tirages alatoires sur les bits de poids le plus faible (unit binaire de
plus faible importance dans codage binaire) [BAKER et al., 1989] ou encore, en
50

modifiant les bits de poids faible dans le sens de la direction du gradient [DNDAR,
1995]. La figure II-14 est tire des rsultats obtenues par G. Dndar en utilisant
lalgorithme intitul Backpropagation with quantization . Il montre lintrt de faire
intervenir ces contraintes de prcision dans lapprentissage par rapport lutilisation de
la mthode dapprentissage classique suivie dune rduction brutale de la prcision.
Performances
100
( %)

Apprentissage avec contrainte

50

Troncature

nombre de bits de
codage des poids

0
5

11

13

15

figure II-14 : diffrence entre apprentissage avec ou sans contrainte de prcision

Nos tudes bibliographiques ne nous permettent pas destimer sil est prfrable
dinclure le composant dans la boucle dapprentissage ou de simuler un apprentissage
dans le composant.

c) Consquences de laspect matriel sur notre logiciel dapprentissage


De faon gnrale, en utilisant le principe de validation croise, lapprentissage est
arrt lorsque la courbe de cot associe au test des donnes de la base de validation
croise prsente un minimum. Or, lorsque lon inflige lapprentissage des contraintes
de prcision destines obtenir des poids cods sur un nombre de bits fix, cette courbe
nest pas rgulire et prsente plusieurs minima. Ces irrgularits, que lon constate
dans lvolution de lerreur quadratique en fonction du nombre de cycles
dapprentissage, semblent causes par lutilisation de tirages alatoires pour viter les
problmes dus la prcision lors de la modification des poids. Afin de contourner ce
problme, nous conservons dans un fichier le jeux de poids correspondant la meilleure
performance obtenue sur cette base de validation croise (notre estimation des
performances sera prsente en dtail par la suite). Lutilisation du taux de performances
plutt que de lerreur quadratique, souvent utilise, permet de saffranchir des
problmes causs par la dtermination de la sortie du rseau lors de lapparition et de la
disparition dun phnomne dans la couche dentre du rseau. Lapprentissage sarrte
lorsquil y a eu un grand nombre de cycles donnant lieu une diminution de lerreur
quadratique sur la base dapprentissage et napportant aucun gain de performance sur la
base de validation croise (pour notre application, une limite de 300 cycles semble
suffisante).
Nous avons test plusieurs mthodes afin de prendre en compte, au cours de
lapprentissage, la prcision de larchitecture cible. Au dbut de notre tude de
conception, nous avons constat des diffrences significatives entre les performances
obtenues avec ou sans troncature des poids aprs apprentissage. Nous avons donc
introduit ces contraintes de prcision uniquement lors de la propagation du rseau. Nous
avons aussi modifi notre algorithme de manire obtenir, lors des mises jours, des
poids cods selon la prcision du matriel. Ces essais se sont avrs peu concluant car
nous obtenions approximativement les mmes performances quavant, avec un temps
dapprentissage beaucoup plus long. Ltude correspondant linsertion des contraintes

51

de prcision lors de lapprentissage sera dveloppe dans le chapitre ddi ltude sur
la ralisation matrielle (chapitre IV).

II.5 DEVELOPPEMENT AVEC UN TDNN


Nous avons prsent des algorithmes doptimisation pouvant tre adapts au TDNN.
Lors de la phase de conception nous avons d faire face certaines contraintes lies
lutilisation de ce type de rseau.
Le premier point que nous abordons concerne le choix de la taille de la couche dentre
et de la fentre de spcialisation compte tenu du phnomne dtecter. Le second
concerne la dtermination de la valeur de rfrence pour chaque exemple de la base et le
calcul des performances du rseau. Enfin, nous indiquerons la mthode de calcul que
nous employons pour lvaluation des performances.

II.5.1 Adquation phnomnes - architecture


Les phnomnes de type sifflement ont une dure qui varie de quelques millisecondes
quelques secondes. Or, nous avons observ que les performances du rseau se
dgradaient rapidement lorsque les caractristiques de description du phnomne taient
tales sur un nombre de pas de temps suprieur la largeur de la fentre de
spcialisation. Cette tude est prsente dans la section III.3 du chapitre III.. Ces
rsultats nous ont incit poser un principe reliant le nombre de pas de temps prsent en
entre du rseau et la largeur de la fentre de spcialisation : le nombre de pas de temps
de la fentre de spcialisation de la couche dentre du TDNN doit tre au moins gale
au nombre de pas de temps sur lequel les caractristiques des phnomnes sont dfinis.
Dautre part, le nombre de pas de temps de la couche dentre dpend principalement de
la largeur de la fentre de spcialisation et de lespacement des phnomnes entre eux.
Nous avons constat exprimentalement quil est prfrable que le nombre de pas de
temps de la couche dentre soit suprieur deux fois la largeur de la fentre de
spcialisation. A linverse, lutilisation dun nombre important de pas de temps peut
poser des problmes de sparation des phnomnes compte tenu de la proprit
d'invariance dans le temps du TDNN. La figure II-15 illustre ce problme: lorsque des
sifflements sont trs proches, il est difficile de les sparer car ils sont dtects quelque
soit leur place dans la fentre dentre du rseau de neurones.
Couche dentre
du rseau de neurones

2 sifflements
rapprochs dans
le temps

figure II-15 : problme de sparation de phnomnes rapprochs

Notons que ces principes seront mis en quation dans le chapitre suivant et serviront
lobtention des caractristiques du systme ddi aux sifflements.

52

II.5.2 Dtermination des valeurs de rfrence


Nous avons vu prcdemment quil est ncessaire, dans le cas dun apprentissage
supervis, de dterminer au pralable pour chaque exemple la sortie souhaite du rseau
de neurone (la sortie de rfrence). La dtermination de cette sortie nest pas immdiate
lorsque le phnomne dtecter nest pas entirement dfini dans la couche dentre.
Ceci se produit pour chaque phnomne lors de son entre et de sa sortie de la zone de
visualisation du rseau (la couche dentre du rseau), (figure II-16).

figure II-16 : sifflement dans la couche dentre du rseau : au


dbut (a), au centre (b), la fin (c)

Les expriences que nous avons effectues afin de dterminer une mthode acceptable
pour dfinir les sorties de rfrence pour ces cas limites nous ont conduit deux
remarques. La premire est que ces cas limites doivent tre prsents dans la base
dapprentissage. Il ne faut pas laisser le rseau les dterminer lui-mme en ne prsentant
que des phnomnes centrs dans la fentre dentre. La seconde est quil semble
prfrable de ne pas se limiter un codage de type binaire qui se bornerait indiquer sil
y a prsence ou absence du phnomne dtecter pour chaque exemple. Lidal
est davoir une sortie proportionnelle la quantit de caractristiques dterminantes
pour la dtection dun phnomne.
Ainsi, cette valeur de rfrence est dfinie, tout comme ltat des neurones, dans
lintervalle [-1, 1]. La mthode que nous avons employe consiste valuer le nombre
de cellules perceptives de la couche dentre qui dfinissent la prsence dun
phnomne dans sa globalit. Lorsque cette quantit est rduite moins de la moiti, ce
phnomne est considr comme non reconnaissable et la sortie correspondante est
impose -1 . Sinon, la valeur de la sortie est proportionnelle, dans lintervalle [-1,
1], la quantit de caractristiques visibles en entre du rseau de neurones.

II.5.3 Dtermination des performances dun systme de dtection


Dans le cadre de notre application, lobjectif le plus important est de limiter le nombre
de fausses reconnaissances. Ainsi, le critre de performance que nous utilisons doit tre
dautant plus lev que le nombre de bonnes dtections est lev, et que le nombre de
fausses reconnaissances est faible. Le calcul du taux de performance a t dfini lors de
ltude mene par X. Minire [MINIERE, 1994] ; il est obtenu partir du nombre de
phnomnes reconnus (nbR), du nombre de phnomnes prsents dans la base (nbT) et
du nombre de fausses dtections ou invention (nbI) :
Taux de performance =

nbR nbT
100
( nbI + nbT) 2

(II-9)

Un phnomne est considr comme reconnu si la valeur de sortie du rseau dpasse un


seuil fix, et ce au moins une fois pendant les cycles o il est prsent en entre du
rseau. Nous considrons quil y a une fausse dtection lorsque la sortie du rseau est
suprieure au seuil et que la sortie de rfrence est -1 .
53

Afin dobtenir une ide concrte des consquences de ce calcul de performance, nous
introduisons ds maintenant la base de test que nous utiliserons par la suite. Elle est
constitue de 11152 exemples. Ces exemples sont des squences dans lesquelles 87
phnomnes sont dtecter. Chaque exemple est une reprsentation dun ensemble de
caractristiques un instant donn. Ainsi, chaque phnomne est reprsent sur
plusieurs exemples de la base de donne (soit environ 600 exemples contenant des
sifflements). Pour en revenir notre formule de calcul de la performance, il est
intressant de noter que nbR est limit 87 du fait du nombre de phnomnes prsents
dans la base, alors que nbI peut tre beaucoup plus lev (10049 exemples). Lutilisation
dune telle formule sanctionne donc beaucoup les inventions. La figure II-17 reprsente
des courbes de niveau des performances en fonction du nombre de reconnaissances et du
nombre dinventions. Cette figure a t obtenue partir de lquation (II-9) avec
nbT=87. Ces courbes montrent la forte influence du nombre dinventions sur la
dgradation du taux de performance (reprsent par des courbes de niveau avec un pas
de 5).

figure II-17 : courbe de niveau des performances en fonction de nbR et nbI

Lors du dveloppement du rseau de neurones pour dtecter des sifflements aux


frquences EBF [MINIERE, 1994], il a t observ que les performances taient
optimales lorsque le seuil tait gal 0,87 (le rapport 100 entre le nombre de
sifflements et le seuil nest que concidence). Dans notre tude, nous avons repris cette
valeur de seuil, et nous avons recherch par apprentissage les poids qui permettent
dobtenir les meilleures performances sur la base de validation croise, compte tenu de
cette valeur de seuil.
Si lon impose une valeur de seuil et que lon utilise cette valeur pour dfinir le critre
darrt de lapprentissage, une fois cet apprentissage termin, les performances seront
logiquement optimales sur la base de validation croise (larrt de lapprentissage
seffectuant sur le maximum de performances obtenu sur cette base). Sous rserve que
lapprentissage se soit droul correctement, que la valeur dfinie pour le seuil soit
raliste et que les donnes de la base de validation croise soient reprsentatives des
donnes de la base de test, on peut sattendre ce que les performances obtenues sur la
54

base de test soient elles aussi optimales pour la valeur de seuil fixe. Afin de vrifier
cette hypothse, partir dun rseau ayant effectu un apprentissage, nous avons calcul
les performances qui auraient t obtenues sur la base de test pour diffrentes valeurs du
seuil entre 0,5 et 1,0 (figure II-18).
Performances
100
90
80
70
60
50
40
30
20
10

0.87

0.5

0.6

0.7

0.8

0.9

1.0

figure II-18: variation des performances en fonction du seuil

Cette courbe prsente un maximum pour la valeur du seuil utilise lors de


lapprentissage. En utilisant ce principe, on vite le cot arbitraire li la dtermination
ultrieure du seuil. Toutefois, ce principe ne permet pas de garantir lobtention des
meilleures performances possibles ; une autre valeur de seuil, choisie avant
apprentissage, pourrait peut-tre permettre dobtenir de meilleurs rsultats. Pour garantir
lobtention de performances optimales, il serait bon que ce seuil puisse tre ajust au
cours de lapprentissage au mme titre que les poids du rseau de neurones. Maintenant,
compte tenu des performances obtenues pour notre systme et du temps quil aurait t
ncessaire de consacrer cette tude, nous navons pas poursuivi plus loin dans cette
voie.
Nous avons souhait observer linfluence de la prcision accorde aux donnes sur le
seuil. Pour cela, nous avons fait varier la prcision en tronquant les tats des neurones
selon le nombre de bits accord. L'histogramme de la figure II-19 reprsente la valeur du
seuil permettant dobtenir le maximum de performances. Pour un nombre de bits
suprieur 10, cette valeur maximal correspond au seuil impos: 0,87.

55

histogramme B

histogramme A
1
0,8
valeur 0,6
du seuil
0,4
0,2
0
6

9 10 11 12 13 14 15 16

nombre de bits de codage des poids

16
14
12
10
cart en %
8
6
4
2
0
6

10 11 12 13 14 15 16

nombre de bits de codage des poids

figure II-19 : pour un nombre de bits diffrent, valeur du seuil correspondant aux
performances optimales (A) et cart de performance entre cette valeur
optimale et 0,87 (B)

L'histogramme B de la figure II-19 reprsente lcart entre la performance maximale


obtenue quelque soit le seuil, et celle obtenue pour un seuil 0.87. A partir de cette
figure, on en dduit quil est ncessaire dutiliser un nombre de bits suprieur 6 pour le
codage des poids, afin dtre proches des performances optimales.
Nous pensons galement que les performances seraient srement moins dgrades en
utilisant un seuil cod avec la mme prcision que les donnes. Ainsi, avec 8 bits, il
serait prfrable dutiliser un seuil par exemple gal 0.875 (0.87 ne pouvant tre cod
sans perte avec 8 bits, dont 6 sont utiliss au codage de la partie dcimale).

II.6 CONCLUSION DU CHAPITRE


Dans ce chapitre, nous avons indiqu les mthodes utilises lors du dveloppement de
notre systme de rseaux de neurones. Certaines mthodes proviennent de nos tudes
bibliographiques, dautres ont t mises au point pour rpondre aux particularits de
notre application. Nous avons, par exemple, propos une mthode permettant d'obtenir
des performances optimales pour une valeur de seuil fixe avant apprentissage.
Lors de cette phase de dveloppement, nous avons d faire face un certain nombre de
problmes pour effectuer la classification des sifflements lectroniques. Ces problmes
nous ont amen complter nos connaissances dune part sur lutilisation des rseaux
de neurones et dautre part sur certaines caractristiques propres au TDNN ; leur tude
est prsente au chapitre suivant.

56