Vous êtes sur la page 1sur 32

Revue dIntelligence Artificielle.

Volume X nX/2002, pages 1 32



Rseaux de neurones rcurrents fonctions
de base radiales : RRFR


Application au pronostic

Ryad Zemouri Daniel Racoceanu Noureddine Zerhouni

Laboratoire dAutomatique de Besanon,
Groupe Maintenance et Sret de Fonctionnement,
25, Rue Alain Savary
25000 Besanon
France
rzemouri@ens2m.fr - daniel.racoceanu@ens2m.fr - zerhouni@ens2m.fr

RSUM. Cet article prsente un rseau RFR rcurrent (Rseaux Rcurrent Fonction de
base Radiales) appliqu un problme de pronostic dun systme non linaire. Le processus
dapprentissage du rseau RRFR se dcompose en deux tapes. Durant la premire tape, les
paramtres des neurones gaussiens sont dtermins par la mthode non supervise des K-
moyens, dont les performances ont t amliores avec la technique FuzzyMinMax. Dans une
seconde tape, les poids des connexions de sortie sont dtermins par une technique
supervise de rgression linaire. A travers lapplication sur le benchmark Box and Jenkins
gaz, nous illustrons la capacit du RRFR de prdire lvolution dun systme non linaire. Ses
performances se montrent nettement suprieurs celles du TDRBF, ds lors quon augmente
lhorizon des prdictions temporelles. La technique FuzzyMinMax rend la convergence de
lalgorithme des K-moyens plus stable.
ABSTRACT. This paper introduces a Recurrent Radial Basis Function network (RRBF) for non-
linear system prognosis. The training process is divided in two stages. First, the parameters
of the RRBF are determined by the unsupervised k-means algorithm. The ineffectiveness of
this algorithm is improved by the FuzzyMinMax technique. In the second stage, a
multivariable linear regression supervised learning technique is used to determine the
weights of the connections between the hidden and output layer. We test the RRBF on the Box
and Jenkins furnace database. This application shows that the RRBF is able to predict the
evolution of a non-linear system. The performances of the RRBF are compared with those of
the TDRBF. The RRBF gives better results for long run predictions. The FuzzyMinMax
technique makes the K-means more stable.
MOTS-CLS : Maintenance prventive, Surveillance, Pronostic, Rseaux de neurones
temporels, RFR - Rseaux de neurones fonctions de base radiales.
KEYWORDS : Preventive maintenance, Monitoring, Prognosis, Dynamic Neural Network, RBF
- Radial Basis Function.
2 Revue dIntelligence Artificielle. Volume X nX/2002
1. Introduction
La surveillance des quipements industriels ncessite le traitement dun certain
nombre de signaux capteurs. Cette fonction se divise en deux taches lmentaires :
la dtection et le diagnostic des dfaillances. La procdure de dtection d'une
dfaillance revient tout d'abord comparer la signature courante une signature de
rfrence associe au mode de fonctionnement identifi, et ensuite prendre une
dcision en fonction du rsultat de la comparaison (Zwingelstein, 1995). La fonction
diagnostic devra essentiellement localiser lorgane dfaillant et identifier les causes
de cette dfaillance (Lefebvre, 2000). On peut diviser les mthodologies de
surveillance en deux groupes : mthodologies de surveillance avec modle et sans
modle formel de lquipement (Dash et al., 2000). Les premires mthodologies
utilisent gnralement les techniques de lautomatique (Combacau, 1991). La
deuxime catgorie de mthodologies est plus intressante ds lors quun modle
formel du systme est inexistant ou difficile obtenir (Dubuisson, 1990). Dans ce
cas, on utilise les outils de la statistique et de lintelligence artificielle. Les rseaux
de neurones artificiels sont ainsi convoits pour leur capacit dapprentissage,
dadaptation et de gnralisation. Leur paralllisme ainsi que leur capacit de traiter
des donnes htrognes (donnes quantitatives et qualitatives) reprsente un atout
considrable par rapport aux autres outils (Bernauer et al., 1993)-(Freitas et al.,
1999)-(Keller et al., 1994)-(Petsche et al., 1996)-(Rengaswamy et al., 1995)-
(Poulard, 1996)-(Vemuri et al., 1997)-(Vemuri et al., 1998), (Smyth, 1994), (Koivo,
1994), (Zemouri et al., 2002 - b -).
La dynamique dun quipement reprsente une dimension importante pour la
dtection dynamique des dfaillances. Ne pas pouvoir dissocier entre une vraie
dgradation et une fausse alarme, peut avoir des consquences conomiques
dfavorables pour la production (Basseville, 1996). Ce traitement ne peut se faire
que par une prise en compte de lvolution dun signal capteur. Cette prise en
compte permet galement de prdire son volution temporelle afin de pronostiquer
le mode de fonctionnement de lquipement. Cest dans cette optique que nous
proposons une architecture dynamique de Rseau de neurones Rcurrents Fonction
de base Radiales (RRFR), capable dapprendre des squences temporelles. Le rseau
RRFR prsent dans cet article se base sur les avantages des rseaux RFR en terme
de temps dapprentissage (Mak et al., 2000), (Hutchinson, 1994), (Ghosh et al.,
1992), (Ghosh et al., 2000), (Hwang et al., 1997), (Hernandez, 1999), (Poggio et al.,
1989), (Mustawi et al., 1992). Laspect rcurrent ou dynamique est obtenu grce
une auto-connexion au niveau des neurones de la premire couche. Cette couche
reprsente en quelque sorte une mmoire dynamique du rseau RFR, lui permettant
dapprendre une volution temporelle des donnes.
La dtermination des caractristiques des neurones cachs (neurones gaussiens)
se fait par lalgorithme des K-moyens (MacQueen, 1967). Cette technique prsente
nanmoins quelques faiblesses, en loccurrence la dtermination du nombre optimal
des centres K et linstabilit du rsultat due linitialisation alatoire de ces centres.
Rseaux de neurones RFR rcurrents 3


Nous avons exploit la technique FuzzyMinMax pour dfinir le nombre K ainsi que
ltat initial des centres. Les rayons dinfluence des centres seront alors dtermins
par la technique RCE.
Nous avons test le rseau RRFR sur un problme type didentification dun
systme non-linaire : le benchmark Box and Jenkins gaz. Le but de lapplication
est de prdire la concentration de sortie en CO
2
dun four gaz. Les poids des
connexions de sortie du rseau RRFR sont dtermins par une mthode de
rgression linaire. Les rsultats montrent que le RRFR est capable de prdire
lvolution de la valeur de sortie du four partir dune base dapprentissage. Grce
ltape dinitialisation des centres, lalgorithme des K-moyens converge chaque
fois vers le mme tat. Les rsultats exprimentaux montrent que les performances
du RRFR sont meilleures que ceux du TDRBF, et ce essentiellement pour de grands
horizons de prdiction.
Larticle est structur en six parties : le paragraphe suivant prsente un bref tat
de lart des rseaux RFR, de leurs applications ainsi que des techniques
dapprentissage les plus utilises pour ce type darchitecture neuronale. Nous
donnons par la suite, dans le 3
me
paragraphe, une large description des diffrentes
reprsentations du temps dans les rseaux de neurones. Nous concluons cette section
par une discussion par rapport aux avantages et aux inconvnients de chaque
architecture. Ceci justifie lintrt dune nouvelle reprsentation dynamique dun
rseau RFR. Cette nouvelle architecture, appele RRFR est ainsi prsente dans le
paragraphe 4. Le 5
me
paragraphe prsente la technique dapprentissage du RRFR.
Ce paragraphe est divis en deux parties : une partie pour linitialisation du neurone
boucl et une deuxime partie pour la dtermination des caractristiques des
prototypes (centres et rayons dinfluence). Le 6
me
paragraphe traite les diffrents
rsultats obtenus par notre rseau sur un four gaz. Nous avons ainsi compar les
performances du RRFR avec ceux du TDRBF pour plusieurs horizons de prdiction.
Enfin, le dernier paragraphe est ddi aux conclusions et aux perspectives de cette
tude.
2. Rseaux de neurones fonctions de base radiales RFR
2.1. Gnralits
Les rseaux de neurones fonctions de base radiales sont capables de fournir une
reprsentation locale de l'espace grce des fonctions de base dont l'influence est
restreinte une certaine zone de l'espace. Les paramtres de cette fonction de base
sont donns par un vecteur de rfrence (centre ou prototype) [
j
]
j=1,,n
et la
dimension
j
du champ d'influence. La rponse de la fonction de base dpend donc
de la distance de l'entre x au vecteur prototype
j
, et de la taille du champ
d'influence :
4 Revue dIntelligence Artificielle. Volume X nX/2002
( ) ( , )
j j j
x x =
[1]

o les fonctions (.)
j
sont gnralement maximales lorsque
j
x = et tendent vers 0
quand
j
x . La gaussienne est la fonction la plus employe. Elle s'exprime,
sous la forme la plus gnrale, par :

1
1
( ) exp( ( ) ( ))
2
t
j j j j
x x x

= [2]

o
j
dsigne la matrice de variance-covariance associe la cellule. Diffrents
paramtrages de
j
sont possibles. Un choix courant reste cependant
2
j j
I = o
l'on suppose que la dcroissance de la gaussienne est la mme pour toutes les
directions de l'espace (gaussienne isotrope). Les courbes d'isoactivation des cellules
caches sont alors des hyper-sphres. Un nombre restreint de fonctions de base
participent au calcul de la sortie pour une entre donne. Les RFR peuvent tre
classs en deux catgories, en fonction du type de neurone de sortie : normalis et
non-normalis (Mak et al., 2000), (Moody et al., 1989), (Xu, 1998).
2.1.1. Problme d'interpolation et approximation de fonction
L'interpolation est dfinie comme suit : soit un ensemble de N vecteurs d'entre
x
n
de dimension d et un ensemble une dimension t
n
(n=1,..,N). Le problme est
de trouver une fonction continue h(x) tel que : h(x
n
) = t
n
.
La solution ce problme en utilisant les RFR consiste choisir un groupe de N
fonctions de base, centres aux N points d'entre, en utilisant la dfinition des
fonctions radiales avec
n
w le poids de la connexion de la n
me
fonction de base vers le
neurone de sortie (Ghosh et al. 1992) (Poggio, 1989) :

1
( ) ( ) x x x
N
n n
n
h w
=
=

[3]

Il a t dmontr (Michelli, 1986) qu'il existe une classe de fonctions
(gaussiennes, multiquadratique,.) o la matrice [ ( , )]
ij i j j
= = est non
singulire et par consquent, le vecteur de pondration peut scrire sous la forme
suivante
1,...,
w [ ]
n n N
w
=
= :

-1
w= .t
[4]

En pratique, le problme d'interpolation n'est pas toujours intressant.
Premirement, les donnes sont gnralement bruites et l'interpolation utilisant
toutes les donnes de l'apprentissage peut provoquer un sur-apprentissage et par
consquent, une faible gnralisation. Deuximement, pour garantir une
interpolation correcte, le nombre de fonctions de base est gal au nombre de
Rseaux de neurones RFR rcurrents 5


vecteurs d'apprentissage. Ceci peut donner une dimension importante au problme
d'apprentissage. Les fonctions radiales peuvent tre adaptes pour un problme
d'approximation de fonction et de gnralisation par apprentissage (Ghosh et al.
1992), (Poggio, 1989).
2.1.2. Classification
Les RFR sont galement utiliss dans des problmes de classification. En thorie
de la classification probabiliste, la loi du vecteur x, quand on ne connat pas sa
classe d'appartenance, est donne par la loi mlange f(x) :

0
( ) Pr( ) ( / ) x x
M
i i
i
f f
=
=

[5]

( / )
i
f x et Pr( )
i
supposes connues, reprsentent la loi conditionnelle
d'appartenance du vecteur x dans la classe
i
et respectivement la probabilit
priori des classes
i
. Par analogie, la sortie d'un RFR prsente l'expression suivante
(Ghosh et al., 2000) :

0
( ) ( ) x x
M
ki i
i
f w
=
=

[6]

avec
ki
w reprsentant le poids de la connexion entre le i
me
neurone radial et le k
me

neurone de sortie.
Cette expression ressemble une expression de distribution de loi mlange [5]
(Ghosh et al., 2000), o :

1
( / ) Pr( )
( ) Pr( / )
( / ) Pr( )
x
x x
x
i i
i i M
i i
i
f
f



=
= =


[7]

et les poids :

Pr( / ) Pr( )
Pr( / )
Pr( )
i k k
ki k i
i
C C
w C

= =
[8]

D'aprs cette reprsentation, les centres des gaussiennes peuvent tre considrs
comme tant des vecteurs reprsentatifs. La sortie des units caches reprsente la
probabilit posteriori d'appartenance du vecteur d'entre x la classe (
i
). Les
poids des connexions reprsentent la probabilit priori des classes et la sortie de
tout le rseau matrialise la probabilit posteriori de la classe de sortie C
k
.
6 Revue dIntelligence Artificielle. Volume X nX/2002
2.2. Techniques d'apprentissage
L'apprentissage des RFR permet de dterminer les paramtres de ces rseaux qui
sont les centres des fonctions radiales, la matrice de variance et les poids des
connexions entre les neurones de la couche intermdiaire et ceux de la couche de
sortie. On peut classer ces techniques en trois groupes :
2.2.1. Techniques supervises
Le principe de ces techniques est de minimiser l'erreur quadratique (Ghosh et al.,
1992) :

n
n
E E =


[9]

en utilisant la fonction gaussienne, et en considrant , ,
ij jk j
w x les variations du
poids, du centre et respectivement du rayon des fonctions gaussiennes, chaque pas
d'apprentissage.
La loi de mise jour est obtenue en utilisant la descente de gradient sur E
n

(Rumelhart et al., 1986)- (Le Cun, 1985).
2.2.2. Techniques heuristiques
Le principe de ces techniques est de dterminer les paramtres du rseau d'une
manire itrative. Gnralement, on commence par initialiser le rseau sur un centre
avec un rayon d'influence initial (C
0
,
0
). Les centres des prototypes
i
C sont crs au
fur et mesure de la prsentation des vecteurs d'apprentissage. L'tape suivante a
pour but de modifier les rayons d'influence et les poids des connexions ( , )
i i
w
(uniquement les poids entre la couche intermdiaire et la couche de sortie).
Deux techniques sont gnralement utilises : lalgorithme RCE (Restricted
Coulomb Energy) introduit par (Hudak, 1992), et lalgorithme DDA (Dynamic
Decay Adjustment) par (Berthold et al., 1995). Le principe de ces deux techniques
est dajuster les rayons dinfluence des prototypes en fonctions dun seuil . Les
conflits entre prototypes sont rduits dans lalgorithme DDA par lajout dun
deuxime seuil
+
.
2.2.3. Techniques d'apprentissage en deux temps
Ces techniques permettent d'estimer les paramtres du RFR en deux phases : une
premire phase sert dterminer les centres et les rayons des fonctions de base.
Dans cette tape on utilise uniquement les vecteurs d'entre. L'apprentissage est
considr comme tant non supervis. On peut citer la technique des segmentations
en K-moyennes des centres
1
qui minimise la somme des erreurs quadratique entre

1
. Connue sous lappellation anglophone K-means
Rseaux de neurones RFR rcurrents 7


les vecteurs dentre et les centres des prototypes. Une autre technique qui permet de
dterminer les paramtres des noyaux est la mthode EM (Expectation
Maximisation) qui sinspire sur les modles de mlange de gaussiennes (Dempster et
al., 1977). La deuxime phase a pour but de calculer les poids des connexions de la
couche cache vers la couche de sortie (apprentissage supervis). Ces poids sont
dtermins soit par renforcement (maximum dappartenance) dans le cas dune
application en classification (Hernandez, 1999), soit par un algorithme des moindres
carrs en minimisant une fonction de risque empirique (Rumelhart et al., 1986).
3. Reprsentation du temps dans les rseaux de neurones
La reprsentation donne par (Chappelier et al., 1996), (Chappelier, 1996) fait
apparatre deux types de solutions. Le temps dans les rseaux de neurones peut tre
reprsent, soit par un mcanisme externe, soit par un mcanisme interne. Ces deux
termes correspondent respectivement une reprsentation spatiale et une
reprsentation dynamique du temps (Elman, 1990) (Fig.1).

Rseaux de
neurones temporels
Temps, mcanisme externe:
(NETalk)
(TDNN)
(TDRBF)
Temps mcanisme
interne.
Le temps est implicite
( rseau rcurrent)

Le temps est reprsent
explicitement dans
l'architecture
Le temps au niveau
des connexions
Le temps au niveau
du neurone
Modle fonction
du temps
Modle
biologique


Figure 1. Reprsentation du temps dans les rseaux de neurones
3.1. Reprsentation spatiale du temps
La faon la plus immdiate de reprsenter le temps dans les rseaux de neurones
est dutiliser une reprsentation spatiale du temps. Linformation temporelle
contenue dans les donnes est alors transforme en une information spatiale, cest
dire une forme quil sagit de reconnatre. Des lors, les techniques de classification
par rseaux de neurones habituellement employes deviennent applicables. Cette
8 Revue dIntelligence Artificielle. Volume X nX/2002
transformation du temporel en spatial sobtient par lutilisation classique de ligne
retard. Au lieu de prsenter au rseau chaque vnement ds son apparition, il
convient dattendre un certain temps avant de procder la classification de la forme
obtenue. Ce type de reprsentation du temps fait donc appel un mcanisme externe
qui est charg de retarder ou de retenir un certain temps les donnes, ce qui conduit
lappeler galement reprsentation externe du temps.
3.1.1. NETtalk (Sejnowski et al., 1986)
Il s'agit d'apprendre prononcer un texte en anglais partir des phrases
proposes lettre aprs lettre l'entre du rseau. NETtalk utilise une reprsentation
spatiale du temps sous la forme d'une fentre temporelle d'une longueur de 7 lettres.
L'objectif est alors de prononcer correctement le phonme qui se trouve au centre de
la fentre. Le rseau est constitu d'une couche d'entre, d'une couche cache et
d'une couche de sortie. L'apprentissage est ralis avec l'algorithme de
rtropropagation.
3.1.2. TDNN (Time Delay Neural Networks) (Waibel et al., 1989)
Offre un autre exemple de reprsentation spatiale du temps appliqu la
reconnaissance de la parole. Une fentre temporelle est utilise l'entre du rseau
mais galement pour chaque neurone de la couche cache et de la couche de sortie.
L'apprentissage est ralis avec la rtropropagation.
3.1.3. TDRBF (Time Delay Radial Basis Function)
Introduit par Berthold en 1994 pour la reconnaissance de phonmes (Berthold,
1994). Les rseaux TDRBF combinent les caractristiques des TDNN et des RFR
(RBF). Ce type de rseau de neurone utilise galement une fentre temporelle
lentre du rseau (comme les TDNN). Son avantage rside dans la simplicit de son
apprentissage (simplicit des techniques dapprentissage des RFR).
3.2. Reprsentation dynamique du temps
Il existe un tout autre type de reprsentation du temps par l'effet qu'il produit.
Ceci conduit doter le rseau de proprits dynamiques, d'o le nom de
reprsentation dynamique du temps. En dautres termes, cela revient donner au
rseau la capacit de mmoriser des informations. Il existe diffrents moyens de
raliser une telle mmoire :
3.2.1. Rseaux rcurrents
La connectivit des units dans les rseaux de neurones rcurrents ne se limite
pas, comme dans le cas des rseaux propagation avant (feedforward), des
architectures dans lesquelles l'information se propage de l'entre vers la sortie
couche aprs couche. Tout type de connexion est admis, c'est dire d'un neurone
Rseaux de neurones RFR rcurrents 9


n'importe quel autre, y compris lui-mme. Ceci donne lieu des comportements
dynamiques qui peuvent tre fort complexes.
Parmi les architectures les plus connues, nous pouvons citer le modle de
Hopfield (Hopfield, 1982) bas sur le concept de mmoire adresse par son contenu
(mmoire associative). Ce type de rseau est gnralement utilis dans des
problmes d'optimisation, o les vecteurs mmoriss jouent le rle d'attracteurs. Le
rseau se stabilise dans un de ces points en minimisant sa fonction d'nergie
(apprentissage non-supervis).
D'autres algorithmes d'apprentissage supervis ont t proposs pour des types
de rseau rcurrent couches. Ce sont des adaptations de l'algorithme de rtro-
propagation du gradient des rseaux feedforward (Rumelhart et al., 1986)- (Le Cun,
1985)-(Werbos, 1974). Une de ces adaptations est l'algorithme appel
rtropropagation rcurrente qui ncessite une inversion de matrice de taille N x N
chaque itration (Rohwer et al., 1987). Le principe de cet algorithme est de propager
l'erreur de la couche de sortie vers la couche d'entre avec une certaine modification
des poids et des fonctions d'activations des neurones. Les poids des connexions
rcurrentes sont ainsi mis jour avec le mme principe que la mise jour des poids
dans l'algorithme de rtropropagation du gradient. Un autre type d'algorithme
d'apprentissage pour les rseaux rcurrents est appel rtropropagation dans le
temps. Le but de cet algorithme est d'obtenir une certaine rponse dsire pour
certains neurones certains instants. L'ide est de dupliquer les neurones sur
l'horizon temporel (t = 1,2,,T) de faon ce qu'une unit
t
i
V reprsente l'tat
( )
i
V t du rseau rcurrent quivalent (Rumelhart et al., 1986). Le rseau ainsi dpli
est de type feedforward et peut faire l'objet d'un apprentissage par une version
lgrement modifie de l'algorithme de la rtropropagation. Williams et Zipser
(Williams et al., 1989) ont propos un algorithme pour l'apprentissage dans les
rseaux entirement connects qui vite d'avoir dupliquer les units. Une version
de cet algorithme appele RTRL
2
s'effectue en temps rel ce qui revient raliser
l'apprentissage pendant que les donnes sont prsentes au rseau au lieu d'avoir
attendre que la totalit des donnes soient produite.
Afin de ne pas trop compliquer le processus d'apprentissage, il existe des rseaux
dynamiques partiellement rcurrents. Les connexions rcurrentes utilises
permettent au rseau de prendre en compte les informations d'un pass rcent, et
sont gnralement fixes (ne font pas l'objet d'un apprentissage). L'architecture
propose par (Elman, 1990) utilise une couche appele couche de contexte qui
duplique les tats des neurones de la couche cache l'instant prcdent. Une autre
architecture similaire celle de Elman est propose par Jordan (Jordan, 1986). Dans
cette architecture, les units de la couche de contexte reoivent une copie des tats
des units de la couche de sortie mais tiennent galement compte de leur propre tat
l'instant prcdent. Dans les deux types d'architectures, l'algorithme

2
. Real Time Recurrent Learning
10 Revue dIntelligence Artificielle. Volume X nX/2002
d'apprentissage utilis est celui de la rtropropagation du gradient, o les connexions
rcurrentes ne sont pas ncessairement modifiables.
3.2.2. Les connexions dlais
Pour ce type de rseau, chaque connexion possde la fois un poids et un dlai
et o peut exister plus d'une connexion entre deux units (notamment avec des dlais
diffrents). La difficult que pose ce type de modle dlai sur les connexions,
rside dans l'laboration d'un algorithme d'apprentissage qui permette non seulement
une adaptation des poids des connexions, mais galement une adaptation des dlais.
3.3. Analyse des reprsentations temporelles
La reprsentation spatiale du temps, qui est caractrise par l'emploi d'une
mtaphore spatiale du temps, prsente plusieurs dsavantages. Tout d'abord elle
suppose l'existence d'une interface avec le monde extrieur dont le rle est de
retarder ou de retenir les donnes jusqu'au moment de leur utilisation dans le rseau :
comment connatre l'instant o les donnes doivent tre traites ? Le second
dsavantage est reprsent par le fait d'utiliser une fentre temporelle (ou des
retards) de longueur finie et dtermine priori soit par la plus longue information
traiter, soit en supposant la mme longueur pour toutes les donnes. Enfin, c'est dans
la nature mme de la reprsentation spatiale que se pose la difficult de diffrencier
une position temporelle relative d'une position temporelle absolue (Elman, 1990).
Les rseaux rcurrents peuvent exhiber deux types de comportements temporels :
soit ils se stabilisent dans un certain nombre de points d'quilibre, soit ils sont
capables de dcrire une trajectoire particulire dans leur espace d'tat. Un
changement infinitsimal des conditions initiales ou de la pente d'un point
intermdiaire sur la trajectoire peut changer le point d'quilibre vers lequel le
systme volue.
Les algorithmes d'apprentissage dans les rseaux rcurrent permettent, lorsque
les modles classiques de type feedforward ont chou, d'envisager la rsolution des
problmes dans lesquels le temps occupe une place essentielle. Ils offrent galement
par le fait qu'ils utilisent une reprsentation dynamique du temps des potentialits
que n'offrent pas les modles qui font appel une reprsentation spatiale du temps.
Les temps d'apprentissage et les ressources informatiques ncessaires leur mise en
uvre peuvent tre relativement importantes.
Le rseau de neurone que nous prsentons au paragraphe suivant combine les
avantages des rseaux fonctions de base radiales RFR et ceux des rseaux
rcurrents. En effet, le problme de la lourdeur du processus d'apprentissage des
rseaux rcurrents peut tre viter grce la souplesse de l'apprentissage des RFR.
Rseaux de neurones RFR rcurrents 11


4. RFR dynamiques : Rseaux de neurones Rcurrents Fonctions de base
Radiales (RRFR)
Le rseau de neurones que nous proposons considre le temps comme une
reprsentation interne au rseau (Chappellier, 1996), (Elman, 1990). Cet aspect
dynamique est obtenu par une rcurrence des connexions au niveau des neurones de
la couche dentre (
1
) (Fig.2). Ces auto-connexions procurent aux neurones
dentre une capacit de prise en compte dun certain pass des donnes en entre.
On peut ainsi qualifier la couche (
1
) de mmoire dynamique du rseau RRFR. Le
rseau de neurone est donc dot de deux types de mmoires : une mmoire
dynamique (couche
1
) pour la prise en compte de la dynamique des donnes en
entre, et une mmoire statique (couche
2
) pour mmoriser les prototypes. La
couche de sortie (
3
) reprsente la couche de dcision.


I1 1 1 1
( , )
2 2 2
( , )
( , )
n n n


1


In




Figure 2. Rseau RRFR (Rseaux Rcurrents Fonctions de base Radiales )


4.1. Neurone boucl
Chaque neurone de la couche d'entre effectue une sommation l'instant t entre
son entre I
i
et sa sortie de l'instant prcdent (t-1) pondre par le poids de l'auto-
connexion w
ii
. Il donne en sortie le rsultat de la fonction d'activation :

( ) = ( 1) + ( )
i ii i i
a t w x t I t [10]

( ) = ( ( ))
i i
x t f a t [11]
12 Revue dIntelligence Artificielle. Volume X nX/2002
avec a
i
(t) et x
i
(t) reprsentant respectivement l'activation du neurone i et sa sortie
l'instant t. f est la fonction d'activation ayant l'expression de la sigmode :

1 exp( )
( )
1 exp( )
kx
f x
kx

=
+

[12]

et w
ii
reprsente le poids de l'auto-connexion du neurone i.

Pour mettre en vidence l'influence de cette auto-connexion, on considre que
l'entre I
i
(t
0
) = 0 et que x
i
(t
0
) = 1 et on laisse voluer le neurone sans l'influence de
l'entre extrieure (Frasconi et al., 1995) - (Bernauer, 1996). La sortie du neurone a
donc l'expression suivante :

1 exp( ( 1))
( )
1 exp( ( 1))
ii
ii
kw x t
x t
kw x t

=
+

[13]

La figure 3 montre lvolution de la sortie du neurone chaque instant.


xi
ai
f(ai)
i
ii
a
w
=
t
t+1
t+2
()
a0


xi
ai
f(ai)
i
ii
a
w
=
a
+
a
-
a0


- a - - b -

Figure 3. Points dquilibre du neurone boucl : - a - comportement doubli
( 2
ii
kw ). - b - comportement de mmorisation temporaire ( 2
ii
kw > ).


Cette volution dpend de la pente de la droite (Fig. 3), cest dire du poids
de la connexion (w
ii
) et aussi de la valeur du paramtre k de la fonction dactivation.
Les points d'quilibre du neurone boucl satisfont l'quation suivante :

( ) ( ( 1))
ii
a t w f a t = [14]

Le point
0
0 a a = = est une premire solution vidente de cette quation. Les
autres solutions s'obtiennent par l'tude des variations de la fonction :

( ) ( )
ii
g a w f a a = [15]
Rseaux de neurones RFR rcurrents 13


En fonction de
ii
kw , le neurone boucl possde un ou plusieurs points
d'quilibre (Fig.3) :
Si 2
ii
kw , le neurone possde un seul point d'quilibre
0
0 a =
Si 2
ii
kw > , le neurone possde trois points d'quilibres :
0
0, 0, 0.
+
= > < a a a
Pour tudier la stabilit de ces points, on tudie les variations de la fonction de
Lyapunov (Frasconi et al., 1995) - (Bernauer, 1996).
Dans le cas o 2
ii
kw , cette fonction est dfinie par
2
( ) V a a = . On obtient :

2 2
( ( )) ( )( ( ) ) = = +
ii ii
V w f a a g a w f a a [16]

Si a>0, alors f(a)>0 et g(a)<0. Si 0
ii
w > alors on a bien 0 V < . Inversement, si
a<0, alors f(a)<0 et g(a)>0. Si 0
ii
w > alors on a bien 0 V < . Le point
0
0 a = est
donc un point d'quilibre stable si 2
ii
kw , avec 0
ii
w > .
Dans le cas o 2
ii
kw > , le neurone boucl possde trois points d'quilibre
+ -
0
0, a 0 et a 0 a = > < . Pour tudier la stabilit du point a
+
, on dfinit la fonction
de Lyapunov par
2
( ) ( ) V a a a
+
= (Frasconi et al., 1995) - (Bernauer, 1996). On
obtient ainsi :

2 2
( ( ) ) ( ) ( )[ ( ) 2( )]
+ + +
= = +
ii
V w f a a a a g a g a a a [17]

Si a>a
+
, g(a)<0 et [ ( ) 2( )] 0 g a a a
+
+ > . On a donc 0 V < . Le raisonnement est le
mme dans le cas o a<a
+
. Le point a
+
est donc un point d'quilibre stable. De faon
similaire, on prouve que le point a
-
est galement un point d'quilibre stable. Ainsi,
lorsqu'on s'carte de a
0
= 0, c'est pour atteindre l'un des deux points d'quilibre
stables a
+
ou a
-
. Le point a
0
est donc un point d'quilibre instable.
Le neurone boucl peut ainsi exhiber deux comportements en fonction
ii
kw :
comportement d'oubli ( 2
ii
kw ), et comportement de mmorisation temporaire
( 2
ii
kw > ). La figure 4 montre l'influence du produit
ii
kw sur le comportement du
neurone boucl. Dans tous les cas, l'auto-connexion permet au neurone de
mmoriser un certain pass des donnes d'entre. Cette auto-connexion peut tre
obtenue par apprentissage, mais le plus ais serait de la fixer a priori. Nous verrons
par la suite, comment ce neurone boucl peut permettre au rseau RRFR de traiter
des donnes dynamiques alors que les RFR classiques ne traitent que des donnes
statiques.

14 Revue dIntelligence Artificielle. Volume X nX/2002

0 20 40 60 80 100 120 140 160 180 200
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Temps
S
o
r
t
i
e

d
u

n
e
u
r
o
n
e

b
o
u
c
l

1.5
ii
kw =
1.95
ii
kw =
2
ii
kw =
2.05
ii
kw =


Figure 4. Influence du produit k
ii
w sur le comportement du neurone boucl. Le
neurone boucl stimul t=0, volue diffremment en fonction de la valeur de k
ii
w .


4.2. Etude de la sensibilit du neurone boucl
Nous allons tudier la sensibilit du neurone boucl par rapport aux variations du
signal dentre. Cette tude correspond lanalyse de la sensibilit du RRFR
(neurone dentre boucl) face au RFR (neurone dentre linaire non boucl). Nous
verrons que cette sensibilit dpend essentiellement du produit
ii
kw . Pour des
raisons de simplicits de calcul, nous avons tudi le rapport inverse dS/dx.
Toutefois, nous revenons lexpression classique de la sensibilit dx/dS lors de
linterprtation de nos rsultats.
Dfinition du palier de dgradation
On dfinit un palier de dgradation entre
~
S et
*
S dun signal capteur ( ) S t par
l'existence d'au moins une valeur intermdiaire S

telle que :

~
*
S S S

< <
[18]

En dautres termes :

~
*
0 /
S S
t

> =

[19]
Proprit 1
1
S
+
tel que :
si
2
1
ii
w
k
> alors le neurone boucl est plus robuste quun neurone linaire
Rseaux de neurones RFR rcurrents 15


si
2
1
ii
w
k
alors ;
- ] ] [ [
1 1
, , S S S + + le neurone boucl plus robuste quun neurone linaire
- [ ]
1 1
, S S S + le neurone boucl est plus sensible quun neurone linaire
Dmonstration
Pour tudier la sensibilit du neurone boucl, on considre lexpression du
rgime permanent de sa sortie :

1 exp( ( ))
1 exp( ( ))
ii
ii
k w x S
x
k w x S
+
=
+ +

[20]

En crivant lexpression de S en fonction de x, nous avons par consquent :

1 1
ln( )
1
ii
x
S w x
k x

=
+
[21]

Pour avoir un rapport entre les variations de S et celle de x, on calcule la drive
de S par rapport x :

2
2 1
1
ii
dS
w
dx k x
=

[22]

On peut dfinir la sensibilit du neurone boucl par ltude de sa valeur par
rapport 1 :

2
2 2
2 1 1 (1 ) 2
1 1 (1 ) 0
1 1 2 (1 )
ii
ii
ii
dS k w
w x
dx k x x k w
+
= = = =
+

[23]

si
2 2
1 0 1
(1 )
ii
ii
w
k w k
< >
+

[24]

lquation [23] nadmet pas de solution,

si
2 2
1 0 1
(1 )
ii
ii
w
k w k

+

[25]

lquation [23] admet deux solutions :

16 Revue dIntelligence Artificielle. Volume X nX/2002
1
1
2
1
(1 )
ii
x
k w
= +
+
,
1
2
2
1
(1 )
ii
x
k w
=
+
[26]

Le tableau des variations de lquation [23] est dfini en fonction de k et w
ii
:


x -1 +1 0
+ +
2
ii
w
k

dS
dx

] [ 1, 1 / 1
dS
x
dx
+ >
+1


x -1 +1 0
+ +
2
ii
w
k

dS
dx

1
dS
dx
>
+1
1
2
x
1
1
x
1
dS
dx
> 1
dS
dx
<


Tableau 1. Sensibilit du neurone boucl en fonction du paramtre k de la sigmode
et du poids de lauto-connexion w
ii



Nous obtenons donc les rsultats suivants :
si
2
1
ii
w
k
> alors ] [ 1, 1 / 1 1
dS dx
x
dx dS
+ > < , neurone boucl est plus
robuste quun neurone linaire
si
2
1
ii
w
k
alors ;
-
1 1
2 1
1, , 1 / 1 1
dS dx
x x x
dx dS
( ( +

neurone boucl est plus
robuste quun neurone linaire
-
1 1
2 1
, / 1 1
dS dx
x x x
dx dS
(

neurone boucl plus sensible quun
neurone linaire
La valeur de S
1
de la proprit 1 se dduit de lexpression [26] en utilisant la relation
[21].
Proprit 2
Le rseau RRFR prsente une structure insensible aux fausses alarmes.

Dmonstration

Soit

x le rgime permanent de la sortie du neurone boucl correspondant au


rgime permanent du signal d'entre

S . On dfinit un changement brusque du signal


d'entre par un passage de

S
*
S en un laps de temps relativement nul. On peut
formaliser ce changement par l'expression suivante :

Rseaux de neurones RFR rcurrents 17

*
S S
t

[27]

Soit la rponse du neurone boucl pour un pic de changement brusque
*
S ([27]) :

*
*
*
1 exp( ( ))
1 exp( ( ))
ii
ii
k w x S
x
k w x S
+
=
+ +
[28]

Pour tudier la sortie du neurone boucl face un pic de fausse alarme [27] et un
palier de dgradation [19], on compare lexpression [28] et la sortie
**
x pour
*
S de
la relation [18] (Fig. 5).

S S
*
S

x x
**
x
*
x
< <
w
ii
Signal dentre
S(t)
x(t)


Figure 5. Comparaison des sorties du neurone boucl face un pic de fausse
alarme et un palier de dgradation.


La sortie du neurone boucl pour la valeur intermdiaire S

prsente la forme
suivante :

1 exp( ( ))
1 exp( ( ))
ii
ii
k w x S
x
k w x S

+
=
+ +
[29]

Comme la fonction sigmode est strictement croissante et que 0
ii
w > , on obtient la
relation suivante :

x x

>
[30]

la sortie du neurone boucl pour la valeur
*
S devient :

*
**
*
1 exp( ( ))
1 exp( ( ))
ii
ii
k w x S
x
k w x S

+
=
+ +
[31]

Si l'on considre que 0
ii
w > , on obtient par consquent :

* *
ii ii
w x S w x S

+ > + [32]
18 Revue dIntelligence Artificielle. Volume X nX/2002
et par la suite :

** *
x x > [33]

La sortie du neurone boucl de fonction dactivation sigmode est donc diffrente
dans le cas o on aurait un changement brusque du signal d'entre et dans le cas o il
sagirait dun palier de dgradation. La rponse du neurone boucl est plus
importante dans le deuxime cas. La sortie du neurone radial, correspondant au
mode de bon fonctionnement, sera donc diffrente pour les deux situations :


* **
( ) ( )
bf bf
x x x x > [34]

La figure 6 rsume les deux cas tudis prcdemment. La sortie X(t) du neurone
boucl et bien diffrente pour le cas dun palier de dgradation et le cas dune fausse
alarme. Les neurones de fonction dactivation radiale auront par consquent des
rponses dfrentes (Zemouri et al., 2002 - a- ).


0
0
10
20
30
40
50
60
70
80
90
100
temps
S(t) X(t)
t
S(t) S(t)
X(t)
Palier de
dgradation
Fausse alarme
X(t)


Figure 6. Rponse du rseau de neurone pour une fausse alarme et un palier de
dgradation


5. Apprentissage du RRFR
Lapprentissage permet de dterminer les paramtres du rseau RRFR en deux
phases : une phase initialisation des paramtres du neurone boucl et une deuxime
phase de calcul des centres et rayons dinfluence des neurones gaussiens ainsi que
les poids des connexions de sortie (uniquement entre les neurones gaussiens et les
neurones de sortie).
5.1. Initialisation du neurone boucl
La phase dinitialisation du neurone boucl dpend du comportement dynamique
recherch par lutilisateur et du type de la variable en entre. Pour des applications
Rseaux de neurones RFR rcurrents 19


dapprentissage de squences dvnements discrets, chaque neurone boucl
reprsente un vnement de la squence. Celui-si reoit une excitation externe au
moment de loccurrence de lvnement associ. A la fin de la squence, chaque
neurone boucl exhibe une sortie x
i
(t) qui dpend du moment doccurrence de
lvnement E
i
associ. Les variables dentre sont dans ce cas de type
binaire (Bernauer et al., 1993), (Zemouri et al., 2001) : 1 dans le cas o lvnement
associ lentre du neurone boucl se produirait et 0 dans le cas contraire. On
impose alors un aspect binaire la fonction dactivation du neurone boucl travers
le paramtre k de lexpression [12] (gnralement k avoisinant la valeur de 1 ou
plus). On ajuste ensuite la valeur de lauto-connexion en fonction de laspect
dynamique souhait pour le neurone boucl. Si linformation recherche est linstant
dapparition dun vnement E
i
dune squence, on impose au neurone un
comportement doubli 2
ii
kw . La plus longue mmoire est obtenue pour 2
ii
kw = .
Le neurone boucl est capable de garder en mmoire une trace dune occurrence
dun vnement pendent plus de 200 pas de simulation (Fig. 4). Pour avoir les
mmes performances avec dautres architectures neuronales utilisant la
reprsentation spatiale (le TDRBF par exemple), il faudrait une fentre temporelle
de plus de 200 retards, ce qui alourdi normment larchitecture du rseau de
neurone. Dans le cas o linformation recherche serait uniquement loccurrence
dun vnement E
i
et non le moment de son apparition, on impose au neurone un
comportement de mmorisation temporaire 2
ii
kw > .
Pour des applications o lon cherche surveiller lvolution dun signal capteur,
la variable dentre est dans ce cas de type rel (signal de sortie dun capteur). Les
paramtres k et w
ii
sont calculs de telle sorte avoir un comportement pseudo-
linaire du signal dentre autour du point dorigine (zro). Soit S lamplitude du
signal dentre, et x la sortie correspondante du neurone boucl. Daprs lquation
[21], on obtient :

max
max max
max
1 1
ln( )
1
ii
x
S w x
k x

=
+

[35]

La valeur maximale que peut prendre le poids de lauto-connexion w
ii
du
neurone boucl pour un comportement robuste est (voir proprit 1) :

max
2
w
k
= [36]

En remplaant
max
w dans lexpression de
max
S ([35]) on obtient lexpression
suivante :

max
max
max max
1 1
ln( ) 2
1
x
k x
S x
| |
= +
|
+
\
[37]
20 Revue dIntelligence Artificielle. Volume X nX/2002
Lquation [37] permet ainsi de calculer la valeur du paramtre k de la fonction
dactivation du neurone boucl en fonction de
max
S (connu par lutilisateur) et
max
x (valeur dfinir par lutilisateur). Le poids de lauto-connexion se dduit alors
de lquation [36]. Cette valeur maximale
max
w correspond ltat o la mmoire
du neurone est la plus longue possible (Fig. 4). Plus cette valeur du poids diminue,
plus le neurone perd de ces capacits dynamiques.
Nous montrons en figure 7 comment une cascade de trois neurones boucls peut
tre initialise afin damplifier la mmoire dynamique du rseau. Nous avons
stimul le premier neurone par un signal dentre S(t) dfinie comme ci-dessous :

( ) 1 si t 10
( ) 0 sinon
=
=
S t
S t
[38]

Nous avons initialis les paramtres des neurones boucls de telle sorte avoir
une rponse qui correspond 80 % (zone de non saturation de la sigmode) dune
demi-amplitude de la sigmode pour le signal dentre. En dautres termes,
max
1 = S
et
max
0,8 = x (voir expression [35]). On obtient alors la valeur de 0.5 k calcul selon
lexpression [37]. La valeur maximale
max
4 w = du poids de lauto-connexion se
dduit alors de lexpression [36]. Le rseau de neurone est ainsi capable de garder
une trace du signale dentre pendent environ au moins 400 pas de simulation.


0 100 200 300 400 500 600
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
x1(t)
x2(t)
x
3
(t)
x1(t) x2(t) x3(t) S


Figure 7. Influence dune cascade de neurones boucls sur la longueur de la
mmoire dynamique.


5.2. Dtermination des paramtres des neurones gaussiens
Cette phase dapprentissage permet de dterminer les autres paramtres du
rseau RRFR en deux tapes (voir paragraphe 3.2) : une tape non supervise pour
Rseaux de neurones RFR rcurrents 21


le calcul des centres et rayons des prototypes, et une tape supervise pour calculer
les poids des connexions de sortie.
Parmi les techniques exposes au paragraphe 3.2, celle qui est la plus utilise est
la technique de segmentation en K-moyenne des centres. Cette technique minimise
la sommes des erreurs quadratiques entre les vecteurs dentre et les centres des
prototypes. Malgr sa facilit de mise en uvre, cet algorithme prsente nanmoins
quelques inconvnients :
Il nexiste aucune mthode formelle pour dterminer le nombre adquat de
centres ou de prototypes ;
Il nexiste aucune mthode formelle pour initialiser ces centres. Gnralement
ceux-ci sont initialiss dune manire alatoire ;
On peut avoir des situations o un nuage de points appartenant un centre
i
c
soit vide. Dans ce cas le rayon dinfluence du centre
i
c ne peut tre calcul.
La rponse du rseau dpend donc fortement du nombre K des centres choisis, de
leur valeur initiale ainsi que du rayon dinfluence des prototypes. Plusieurs itrations
sont ncessaires pour trouver un meilleur rsultat. La figure 8 montre deux rsultats
diffrents obtenus avec lalgorithme des K-moyens sur un problme
dapproximation de fonction :


0 50 100 150 200 250 300
40
50
60
70

0 50 100 150 200 250 300
40
50
60
70


Figure 8. Deux rsultats diffrents obtenus pour deux itrations diffrentes de
lalgorithme des K-moyens. Cette diffrence est due linitialisation alatoire des K
centres.


Ce problme dinitialisation peut tre rsolu par une technique appele
FuzzyMinMax (Simpson, 1993). Cette technique permet de dterminer le nombre K
des centres et leur valeur initiale dune manire itrative. Lalgorithme des K-
moyens peut tre ainsi doper pour converger vers le minimum de la somme des
erreurs quadratiques entre les vecteurs dentre et les centres
i
c . Durant cette phase
dinitialisation, des hyper-cube n dimensions sont cres. Les limites dun hyper-
cube sont dfinies par les coordonnes maximale et minimale de chaque dimension
des points appartenant cet hyper-cube. Un degr dappartenance dun point
chaque hyper-cube est dtermin par la fonction dappartenance ci-dessous :

1
1
1
=
( =

n
j j j i ji ji i
i
H ( x,v ,u ) f ( x u ) f ( v x )
n
[39]
22 Revue dIntelligence Artificielle. Volume X nX/2002
o la fonction f est dfinie par lexpression suivante :

1
0
>1
si 0 1
<0

,
f ( ) ,
,
[40]

Avec :
j
H le degr dappartenance dun point x lhyper-cube j. Ce degr
dappartenance est compris dans lintervalle [0 ; 1] ;
i
x la i
me
dimension du vecteur dentre x ;
ji
u et
ji
v la valeur de la i
me
dimension des points maximums et minimums
respectivement du j
me
hyper-cube.

Lalgorithme FuzzyMinMax possde trois phases : extension de lhyper-cube,
test de recouvrement et phase de re-dimensionnement de lhyper-cube. Pour la phase
dinitialisation des K centres, nous avons utilis uniquement la partie extension pour
former des nuages de points. Les valeurs maximales et minimales du premier hyper-
cube sont initialises par le premier point prsent au rseau. Le degr
dappartenance est ensuite calcul pour chaque point dentre. Lextension de
lhyper-cube ayant la plus grande fonction dappartenance se fait selon la condition
suivante :

1

n
ji i ji i
i
(max( u , x ) min( v , x )) n [41]

o reprsente un paramtre dfini par lutilisateur ( 0 1 ). De petites valeurs
de donnent un nombre important dhyper-cubes. Aprs la phase dextension, les
anciens points minimums et maximums sont remplaces par les nouvelles valeurs
minimales et maximales. Si aucun hyper-cube ne peut tre largi, un nouvel hyper-
cube contenant le nouveau point est cre.
Aprs avoir prsent au rseau lensemble des donnes dapprentissage, les K
centres sont ainsi initialiss. On applique alors lalgorithme des K-moyens pour
trouver le minimum des sommes des erreurs quadratiques.
La deuxime tape du calcul des paramtres des neurones est de dterminer les
rayons dinfluence des centres. En effet, aprs la convergence de lalgorithme des
K-moyens, on applique la mthode RCE (dcrite au paragraphe 3.2.2), qui dtermine
le rayon dinfluence
j
de chaque centre j en fonction de son voisinage (lensemble
i des centres voisins). Ce calcul est formalis par lexpression suivante :
Pour tout centre i j et 1 i K
{ }
max : ( ) = <
j j i
c [42]
Rseaux de neurones RFR rcurrents 23


La figure 9 illustre un exemple de calcul de rayon dinfluence sur un problme
une dimension :

x
b
c a
c


Figure 9. Exemple de calcul des rayons dinfluence avec lalgorithme RCE. Un
seuil permet dajuster ces rayons pour minimiser les conflits entre prototypes.


Une fois que les paramtres des neurones gaussiens ont t dtermins, la
mthode de rgression linaire est applique pour le calcul des poids des connexions
de sortie (voir paragraphe 3.1.1). Le temps dapprentissage dun tel rseau nest pas
trs important compar dautres rseaux trois couches comme le rseau de rtro
propagation du gradient (Rumelhart et al., 1986), (Dubuisson, 2001).
6. Application du RRFR en pronostic
Nous avons appliqu le rseau RRFR sur un problme type didentification de
systme non-linaire : le benchmark dun four gaz (the Box and Jenkins gas
furnace database)
3
. Lintrt de cet exemple est de surveiller la sortie y(t) du four en
concentration de CO
2
. Le fonctionnement du four dpend du dbit de gaz en entre
u(t). Nous avons appliqu le rseau RRFR pour prdire la sortie y(t + 1) partir de
la connaissance du dbit de gaz u(t) et de la concentration de CO
2
y(t). Le schma
de lapplication est illustr par la figure 11.


Four gaz
u(t)
Dbit du gaz
dentre
y(t)
Concentration de sortie en
CO2

y(t+1)
u(t)
y(t)


Figure 11. Surveillance dun four gaz par le rseau de neurones RRFR.

3
. Cette base est disponible sur le serveur du groupe de travail IEEE Working Group on Data
Modeling Benchmarks , http://neural.cs.nthu.edu.tw/jang/benchmark/
24 Revue dIntelligence Artificielle. Volume X nX/2002
Le rseau RRFR utilis contient deux neurones linaires pour chaque signal
dentre. La dynamique des signaux est prise en compte par un neurone boucl pour
chaque signal. Le neurone de sortie nous donne la valeur prdite de y(t + 1). La base
de donnes de lapplication contient 300 valeurs de y(t) et u(t) (Fig. 11). La phase
dapprentissage, durant laquelle le nombre ainsi que les paramtres du rseau sont
dtermins, a t ralise sur les 100 premires valeurs de la base de donnes. Le
rsultat de lapprentissage a t valu sur le reste des donnes (les 200 dernires
valeurs).


0 50 100 150 200 250 300
44
46
48
50
52
54
56
58
60
62 y(t)
t
apprentissage test


0 50 100 150 200 250 300
-3
-2
-1
0
1
2
3
u(t)
t
apprentissage test

- a - - b
Figure 11. a - Concentration du CO
2
en sortie du four gaz, - b Dbit du gaz en
entre dans le four.


Comme nous lavons vu prcdemment, le paramtre de lquation [41]
dfinit le nombre de neurones gaussiens. Des valeurs rduites du paramtre
donnent un nombre important de neurones cachs. Ce nombre diminue avec
laccroissement du seuil . La figure 12 illustre cette relation :


0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
10
20
30
40
50
60
70
80
90
100

K


Figure 12. Nombre de neurones cachs (centres) en fonction du paramtre


La figure 13 montre lerreur moyenne et sa dviation standard du rseau RRFR
sur la population dapprentissage en fonction de . Cette erreur est pratiquement
gale zro pour trs petit. Ceci est du au fait que la majorit des points de
lensemble dapprentissage ont t mmoriss comme prototypes. En contrepartie, le
rseau perd de ses capacits de gnralisation (Fig. 14). Lerreur de prdiction du
Rseaux de neurones RFR rcurrents 25


rseau sur la partie test est alors trs importante. Ce compromis peut tre rsolu pour
des valeurs de comprises dans lintervalle [0,1 ; 0,75].


0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
1 %
2 %
3 %
4 %
5 %
6 %



0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.4 %
1.2 %
2 %
2.8 %
4 %


- a - - b -

Figure 13. -a- Erreur moyenne relative de prdiction pour la population
apprentissage en fonction de (par rapport lamplitude du signal). -b- dviation
standard de lerreur relative pour la population apprentissage en fonction de .



0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
2 %
4 %
6 %
8 %
10 %
12 %
14 %



0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
4 %
8 %
12 %
16 %
20 %
24 %
28 %
32 %
36 %


-a- -b-

Figure 14 -a- Erreur moyenne relative de prdiction pour la population Test en
fonction de (par rapport lamplitude du signal). -b- dviation standard de
lerreur relative pour la population test en fonction de .


Le minimum de 0,9 % derreur (par rapport lamplitude de y(t)) sur les deux
populations (Apprentissage + Test) est obtenu pour la valeur de = 0,38. Le
nombre de centres correspondant est de K = 8. Cette erreur se dcompose en une
erreur moyenne sur la population dapprentissage gale 0,7 %, avec une dviation
standard de 0,6 %, et une erreur moyenne sur population Test gale 1 %, avec une
dviation standard de 0,8 %. La convergence de lalgorithme est assez rapide. Le
temps dapprentissage sur un PC de 700 Mhz de frquence dhorloge est de 0,78
secondes. La figure 15 montre la rponse du RRFR sur la prdiction de sortie en
concentration de CO
2
y(t + 1).

26 Revue dIntelligence Artificielle. Volume X nX/2002

0 50 100 150 200 250 300
40
50
60
70
Sortie prdite
Sortie relle


Figure 15. Rponse du rseau de neurone sur la prdiction de la concentration de
sortie en CO
2
.


Linitialisation des centres avec la mthode FuzzyMinMax procure lalgorithme
des K-moyens une plus grande stabilit. Une seule itration de lalgorithme suffit
pour converger le rseau vers le mme minimum. Le problme li linitialisation
alatoire des centres napparat plus. Le second problme de lalgorithme des K-
moyens (voir paragraphe 6.2) est celui du nombre K des centres pour optimiser
lapprentissage. Ce nombre de centres mmoriser est dtermin implicitement par
le seuil . La figure 14 montre que les meilleurs rsultats sont obtenus pour
[ ] 0 1 0 75 , , ; . Ceci correspond un nombre K de centres compris dans lintervalle
[6 ; 40] (Fig. 12). Pour des valeurs de infrieur 0,1 , le nombre important de
centres provoque un phnomne de sur-apprentissage (over-fitting). Par contre, pour
> 0,75, le rseau de neurone ne mmorise pas assez de centres pour pouvoir
apprendre la dynamique du signal. Ce compromis pour obtenir le nombre de centres
ncessaires pour lapprentissage est illustr par la figure 16. On remarque que plus
on augmente le nombre de centres mmoriser, plus le rseau tend vers une
situation de sur-apprentissage.


0 10 20 30 40 50 60 70 80 90 100
0
0.1 %
0.2 %
0.3 %
0.4 %
0.5 %
0.6 %
0.7 %
0.8 %
0.9 %
1 %
K


0 10 20 30 40 50 60 70 80 90 100
0
20 %
40 %
60 %
40 %
100 %
120 %
K


-a- -b-

Figure 16. -a- Erreur moyenne de prdiction relative sur la partie apprentissage en
fonction du nombre de neurones cachs. -b- Erreur moyenne relative sur la partie
Test en fonction du nombre de neurones cachs.


Le second avantage du rseau prsent dans cet article rside au niveau de la
topologie du rseau de neurone pour la prise en compte de laspect temporel. En
Rseaux de neurones RFR rcurrents 27


effet, la dynamique des donnes est considre dune manire implicite par une
auto-connexion au niveau des neurones dentres. Contrairement aux autres
architectures neuronales qui intgrent le temps via une fentre temporelle (Waibel et
al., 1989), (Berthold, 1994), la mmoire dynamique du rseau na pas recours un
mcanisme externe pour mmoriser les donnes en entre et de ce fait, nest pas
limite par la taille de la fentre.
Le tableau suivant prsente une comparaison des performances du RRFR avec
ceux du TDRBF sur lapplication prsent prcdemment, savoir le problme de
prdiction de la sortie en CO
2
du four gaz. Nous mettons en vidence lapport de la
cascade dauto-connexions sur la longueur de la mmoire du RRFR. En effet, nous
avons compar les rsultats de la prdiction dun RRFR ayant un et deux neurones
boucls par rapport respectivement un et deux retards pour le TDRBF, et ceci pour
plusieurs horizons temporels (t+h), avec [ ] 110 h , .

RRBF TDRBF
Un neurone
boucl
Deux neurones
boucls
Un retard Deux retards
MET StdT Ttime MET StdT Ttime MET StdT Ttime MET StdT Ttime
h=1 0,51 0,41 0,78 0,51 0,42 1,07 0,31 0,31 1,27 0,33 0,34 1,60
h=2 0,81 0,68 0,78 0,82 0,68 1,01 0,5 0,54 1,27 0,57 0,61 1,60
h=3 0,85 0,80 0,80 0,86 0,80 1,05 0,7 0,77 1,27 0,71 0,79 1,60
h=4 0,68 0,80 0,77 0,68 0,79 1,05 0,86 0,98 1,31 0,74 0,88 1,53
h=5 0,61 0,78 0,80 0,61 0,76 1,01 1,19 1,54 1,26 0,78 0,90 1,60
h=6 0,92 0,93 0,80 0,91 0,90 1,05 1,79 2,39 1,26 1,10 0,96 1,61
h=7 1,38 1,18 0,80 1,37 1,14 1,05 2,48 3,24 1,27 1,58 1,44 1,60
h=8 1,79 1,41 0,78 1,77 1,38 1,06 3,25 4,18 1,26 2,18 1,94 1,61
h=9 2,10 1,57 0,81 2,04 1,55 1,03 4,05 5,15 1,27 2,69 2,34 1,59
h=10 2,33 1,66 0,80 2,20 1,63 1,02 4,67 5,93 1,26 3,09 2,81 1,61

Tableau 2. Comparaison des rsultats de prdiction de la sortie en concentration de
CO
2
du four gaz. Les colonnes MET prsentent les erreurs moyenne (absolues) de
prdiction avec leurs dviations standards (colonnes StdT). Les colonnes Ttime
donnent le temps de convergence de lalgorithme dapprentissage en secondes.


La figure 17 montre lerreur moyenne relative de prdiction obtenue sur la partie
test pour les deux types de rseau temporel. Le chiffre entre parenthse reprsente la
dimension du retard pour le TDRBF et celle du nombre de neurones boucls pour le
RRFR. On peut voir sur cette figure que les quatre rseaux de neurones ont
relativement la mme erreur de prdiction pour h < 4. Cette erreur augmente
considrablement pour les deux types de TDRBF. Le rseau RFR rcurrent possde
de meilleures performances de prdiction pour des horizons lointains, avec un temps
dapprentissage plus court par rapport au TDRBF (Tableau 2).

28 Revue dIntelligence Artificielle. Volume X nX/2002

1 2 3 4 5 6 7 8 9 10
0
1 %
2 %
3 %
4 %
5 %
6 %
7 %
8 %
9 %
10 %
TDRBF (1)
TDRBF (2)
RRBF (1)
RRBF (2)
h
E
r
r
e
u
r

r
e
l
a
t
i
v
e

d
e

p
r

d
i
c
t
i
o
n

p
a
r

r
a
p
p
o
r
t

a
m
p
l
i
t
u
d
e

d
u


s
i
g
n
a
l

y
(
t
)

(
s
o
r
t
i
e

d
u

f
o
u
r
)



Figure 17. Comparaison de lerreur de prdiction du RRFR (avec un et deux
neurones boucls) avec le TDRBF (avec un et deux retards).


7. Conclusion
Le rseau RRBF prsent dans cet article a t test avec succs sur le problme
de prdiction dun systme non linaire. Ce traitement dynamique est pris en compte
grce une cascade de neurones boucls jouant le rle dune mmoire dynamique.
Les centres des neurones gaussiens ont t dtermins par une mthode des
K-moyens modifie. Lintrt de notre application rside dans deux aspects : un
apport au niveau de la topologie du RFR pour prendre en compte laspect
dynamique des donnes. Cette dynamique est prise en compte par une rcurrence
des connexions au niveau des neurones dentre. La mmoire dynamique ainsi
obtenue permet au rseau RFR de mmoriser un pass plus important par rapport au
TDRBF. Le deuxime apport concerne lamlioration de lalgorithme
dapprentissage. Les paramtres des neurones cachs ont t dtermins par une
technique amliore de lalgorithme non supervis K-moyens. En effet, lalgorithme
K-moyens possde quelques carences au niveau de la convergence de
lapprentissage et du choix du nombre des centres. Une technique FuzzyMinMax a
t utilise pour dterminer le nombre ainsi que ltat initial des centres. Lavantage
dutiliser une telle technique est que les centres sont choisis dune manire
dynamique en fonction dun paramtre . Lalgorithme K-moyens est plus stable vu
que les centres ne sont plus initialiss alatoirement. Une seule itration de
lalgorithme K-moyens suffit pour converger le rseau de neurone vers un minimum
local. Les rayons dinfluence des centres sont alors dtermins par la technique du
RCE. Durant la partie de lapprentissage supervis, une technique de rgression
linaire est utilise pour calculer les poids des connexions de sortie.


Rseaux de neurones RFR rcurrents 29


8. Rfrences
Basseville M., Cordier M.O., Surveillance et diagnostic des systmes dynamiques: approche
complmentaire du traitement du signal et de l'intelligence artificielle, rapport de
recherche n 2861, 1996, INRIA.
Bernauer E., Demmou H., Temporal sequence learning with neural networks for process
fault dtection , IEEE International Conference on Systems, Man, and Cybernetics,
IEEE-SMC 93, vol. 2, Le Touquet France 1993, p. 375-380.
Bernauer E., Les rseaux de neurones et l'aide au diagnostic: un modle de neurones boucls
pour l'apprentissage de squences temporelles, thse de doctorat, LAAS 1996.
Berthold M. R., A Time Delay Radial Basis Function Network for Phoneme Recognition ,
Proceedings of International Conference on Neural Networks, Orlando 1994
Berthold M. R., Diamond J., Boosting the Performance of RBF Networks with Dynamic
Decay Adjustment Advances in Neural Information Processing Systems, Gerald
Tesauro, David S. Touretzky, and Todd K. Leen editors, vol. 7, p. 521-528, MIT Press,
Cambridge, MA, 1995
Chappelier J.C., RST : une architecture connexionniste pour la prise en compte de relations
spatiales et temporelles. Thse de doctorat, Ecole Nationale Suprieure des
Tlcommunications, janvier 1996.
Chappelier J.C., Grumbach A., A Kohonen Map for Temporal Sequences , Proceeding of
neural Networks and Their Application, NEURAP'96, IUSPIM, Marseille, mars 1996, p.
104-110.
Combacau M., Commande et surveillance des systmes vnements discrets complexes :
application aux ateliers flexibles, thse de Doctorat, Universit P.Sabatier de Toulouse
1991.
Dash S., Venkatasubramanian V., Challenges in the industrial applications of fault
diagnostic systems , Proceedings of the conference on Process Systems Engineering
Comput. & Chem. Engng24 (2-7), Keystone, Colorado, July 2000, p. 785-791.
Dempster A.P., Laird N.M., Rubin D.B., Maximum likelihood from incomplete data via the
EM algorithm , Journal of the royal statistic society, series B, vol. 39, 1977, p.1-38.
Dubuisson B., Diagnostic et reconnaissance des formes, Paris, Edition Herms, 1990.
Dubuisson B., Diagnostic, intelligence artificielle et reconnaissance des formes, Paris,
Edition Herms, 2001.
Elman J.L., Finding Structure in Time , Cognitive Science, vol. 14, juin 1990, p. 179-211.
Frasconi P., Gori M., Maggini M., Soda G., Unified Integration of Explicit Knowledge and
Learning by Example in Recurrent Networks , IEEE Transactions on Knowledge and
Data Engineering, vol. 7, n 2, 1995, p. 340-346.
Freitas N., I.M. Macleod and J.S. Maltz,, Neural networks for pneumatic actuator fault
dtection , Transactions of the SAIEE, vol. 90, n 1, 1999, p. 28-34.

30 Revue dIntelligence Artificielle. Volume X nX/2002
Ghosh J., Beck S., Deuser L., A Neural Network Based Hybrid System for Detection,
Characterization and Classification of Short-Duration Oceanic Signals , IEEE Jl. of
Ocean Engineering, vol. 17, n 4, October 1992, p. 351-363.
Ghosh J., Nag A., Radial Basis Function Neural Network Theory and Applications, Edition R.
J. Howlett and L. C. Jain, Physica-Verlag., 2000.
Hernandez N.G., Systme de diagnostic par Rseaux de Neurones et Statistiques : application
la dtection d'hypovigilance d'un conducteur automobile, thse de doctorat,
LAAS/Toulouse, 1999.
Hopfield J.J., Neural networks and physical Sytems with emergent collective computational
abilities , Proceeding Nat. Acad. Sci. USA, Biophysics, vol. 79, 1982, p. 2554-2558.
Hudak M.J., RCE Classifiers: Theory and Practice in Cybernetics and systems, vol. 23 ,
1992, p.483-515.
Hutchinson J.M., A Radial Basis Function Approach to Financial Time Series Analysis,
Thse de doctorat, Massachusetts Institute of Technology (MIT), 1994.
Hwang Y.S., Bang S.Y., An efficient method to construct a Radial Basis Function Neural
Network classifier , Neural Networks, vol. 10, n 08, 1997, p. 1495-1503.
Jordan M.I., Serial order: a parallel distributed processing approach , University of
California, Institute for cognitive science, 1986.
Keller P., Kouzes R.T., Kangas L.J., Three Neural Network Based Sensor System for
Environemental Monitoring , Proceedings IEEE Electro94 Conference, Boston, MA,
USA, May 1994
Koivo H.N, artificial neural networks in fault diagnosis and control , control in
engineering practice, vol.2, n1, 1994, p. 89-101.
Lefebvre D., Contribution la modlisation des systmes dynamiques vnements discrets
pour la commande et la surveillance, Habilitation Diriger des Recherches, Universit de
Franche Comt/ IUT Belfort Montbliard, 2000.
MacQueen J., Some methods for classification and analysis of multivariate observations ,
Fifth Berkeley Symposium on Mathematical statistics and probability, vol. 1, Berkeley,
1967, University of California Press, p. 281-297
Mak M.W., Kung S.Y., Estimation of Elliptical Basis Function Parameters by the EM
Algorithms with Application to Speaker Verification , IEEE Trans. on Neural Networks,
vol. 11, n 4, July 2000, p. 961-969.
Michelli C.A., Interpolation of scattered data: distance matrices and conditionally positive
definite functions. Contsructive Approximation, 1986.
Moody J., Darken J., Fast Learning in networks of locally tuned processing units , Neural
Computation, 1989, p. 281-194.
Mustawi M.T., Ahmed W., Chan K.H., Faris K.B., Hummels D.M., on the training of
Radial Basis Function Classifiers , Neural Networks, vol. 5, 1992, p. 595-603.
Petsche T.A., Marcontonio A., Darken C., Hanson S.J., M.kuh G., Santoso I., A Neural
Network autoassociator for induction motor failure prediction, Cambridge, MIT Press,
Rseaux de neurones RFR rcurrents 31


Edition D.S. Touretzky, M.C. Mozer, and M.E. Hasselmo, Advances in Neural
Information Prodessing Systems 8, 1996, p. 924-930.
Poulard H., statistiques et rseaux de neurones pour un systme de diagnostic. Application au
diagnostic de pannes automobiles, Thse de Doctorat, LAAS/France, 1996.
Poggio T., Girosi F., A Theory of Networks for Approximation and Learning, AI Memo
1140, July 1989
Rengaswamy R., Venkatasubramanian V., A Syntactic Pattern Recognition Approach for
Process Monitoring and Fault Diagnosis , Engineering Applications of Artificial
Intelligence Journal, 8(1), 1995, p. 35-51.
Rohwer R., Forrest B., Training Time-Dependence in Neural Network , in IEEE First
International Conference on Neural Networks, M. Caudill et C.Butler, vol. 2, San Diego,
California, juin 1987, p. 701-708.
Rumelhart D.E, Hinton G.E., Williams R.J., Learning Internal Representation by Error
Propagation , in Parallel Distributed Processing Explorations in the Microstructure of
Cognition, vol. 1, The MIT Press/Bradford Books, D.E. Rumelhart and J.L.McClelland,
1986, p. 318-362.
Simpson P.K., Fuzzy min-max neural networks Part II : Clustering IEEE Transaction on
Fuzzy Systems, Vol.1, 1993, p. 32-45.
Sejnowski T.J., Rosenberg C.R., NetTalk: a parallel network that learns to read aloud,
electrical engineering and computer science technical report, the johns hopkins university,
1986.
Smyth P., detecting novel fault conditions with hidden Markov models and neural
netwoks , Pattern Recognition in Practice IV, 1994, p. 525-536.
Vemuri A., Polycarpou M., Neural Network Based Robust Fault Diagnosis in Robotic
Systems , IEEE Transactions on Neural Networks, vol. 8, n. 6, novembre 1997, p.
1410-1420,.
Vemuri A., Polycarpou M., Diakourtis S., Neural Network Based Fault Detection and
Accommodation in Robotic Manipulators , IEEE Transactions on Robotics and
Automation, vol. 14, n 2, avril 1998, p. 342-348.
Waibel A., Hanazawa T., Hinton G., Shikano K., Lang K., Phoneme recognition using time
delay neural network IEEE Trans. in Acoustics, Speech and Signal Processing, vol. 37,
n 3, 1989.
Werbos P.J., Beyond regression: New tools for prediction and analisys in the behavioral
science, Thse de doctorat, Harvard University, 1974.
Williams R.J., Zipser D., A Learning Algorithm for Continually Running Fully Recurrent
Neural Networks , Neural Computation, vol.1, juin 1989, p. 270-280.
Xu L., RBF nets, mixture experts, and Bayesian Ying-Yang learning , Neurocomputing,
1998, p. 223-257.
32 Revue dIntelligence Artificielle. Volume X nX/2002
Zemouri M.R., Racoceanu D., Zerhouni N., The RRBF - Dynamic Representation of time
in Radial Basis Function Network , IEEE International Conference on Emerging
Technologies and Factory Automation, ETFA' 01, Juan-Les-Pins, France, octobre 2001.
Zemouri R., Racoceanu D., Zerhouni N.,( a ) Application of the dynamic RBF network
in a monitoring problem of the production systems , 15
e
IFAC World Congress on
Automatic Control, Barcelone, Espagne, juillet 2002.
Zemouri R., Racoceanu D., Zerhouni N.,( b ) From the spherical to an elliptic form of
the dynamic RBF neural network influence field , IEEE World Congress on
Computational Intelligence, International Joint Conference on Neural Networks (IJCNN),
Honolulu, Hawaii, USA, May 12-17, 2002
Zwingelstein G., Diagnostic des dfaillances, Thorie et pratique pour les systmes
industriels, Paris, Edition Herms 1995.