Vous êtes sur la page 1sur 18

Chapitre 4

Rseaux fonctions de base radiales


4.1. Prsentation
Les rseaux fonctions de base radiales (RBF) sont des modles connexionnistes
simples mettre et uvre et assez intelligibles, et sont trs utiliss pour la rgression
et la discrimination. Leur proprits thoriques et pratiques ont t tudies en dtail
depuis la n des annes 80 ; il sagit certainement, avec le Perceptron multicouche, du
modle connexionniste le mieux connu.
Une fonction de base radiale (RBF) est une fonction symtrique autour dun
centre
j
:
j
(x) = (|x
j
|), o |.| est une norme [BUH 03]. Par exemple, la
fonction gaussienne est une RBF avec la norme euclidienne et (r) = e
r
2
/2
2
. En
gnral, les RBF sont paramtres par qui correspond la largeur de la fonction :

j
(x) = ([[x
j
|,
j
)
Un modle ou rseau RBF calcule une combinaison linaire de fonctions radiales
de centres
j
:
y(x) =
N

j=1
w
j
([[x
j
|,
j
) [4.1]
Chapitre rdig par Emmanuel VIENNET.
106 Apprentissage connexionniste
Figure 4.1. Reprsentation connexionniste dun rseau RBF. A gauche la couche dentre x,
au centre les centres RBF, droite la sortie y. Pour traiter les problmes de discrimination C
classes, on pourra utiliser C sorties y
1
, . . . , y
C
On distingue trois couches (gure 4.1) : entre x, fonctions radiales, sortie, et trois
jeux de paramtres : les centres
j
, les largeurs
j
et les poids w
j
.
Les combinaisons linaires de gaussiennes sont utilises depuis les annes 60 pour
construire des interpolations ou approximations de fonctions [POW 87]. A la n des
annes 80, la prsentation de ces modles comme des rseaux connexionnistes a sus-
cit un regain dintrt [BRO 88, MOO 89] motiv en grande partie par la possibilit
dutiliser un algorithme dapprentissage trs rapide (sans recourir des techniques
doptimisation non linaire comme dans le cas du Perceptron multicouche), donnant
en gnral des rsultats voisins des meilleurs modles connexionnistes.
Lapprentissage des modles RBF est supervis : il faut disposer dun chantillon
de l exemples (x
i
, y
i
). Comme les Perceptrons multicouches (MLP
1
), les RBF sont
utiliss pour rsoudre tant des tches de discrimination (en gnral en choisissant y
i

1, 1
C
) que des tches de rgression ou prvision de signal (monovari y
i
R ou
multivari y
i
R
C
).
Les modles RBF sont lis de nombreuses autres approches utilises en recon-
naissance des formes ; les relations avec ltude de lapproximation de fonctions (par
exemple les splines [BIS 95]) sont videntes. Mentionnons aussi les liens avec la tho-
rie de la rgularisation, linterpolation, lestimation de densit.
1. PMC pour les francophones, mais nous utiliserons labbrviation anglophone plus rpandue
dans la littrature.
Rseaux fonctions de base radiales 107
4.2. Le problme dapproximation
Le problme gnral de de lapproximation [POG 90] dune fonction multivarie
se pose de la faon suivante : soit f(x) une fonction continue de R
d
R, et F(w, x)
une fonction approximation dpendant continment de w R
p
et x. On cherche le
jeu de paramtres w

tel que :
w, d( F(w

, .), f (.) ) d( F(w, .), f (.) )


o d est une distance dans lespace des fonctions.
Dans ce contexte, le problme de lapprentissage consiste dterminer les pa-
ramtres dune fonction dapproximation tant donn un ensemble ni de l points
(x
i
, f (x
i
)), ce qui revient dterminer une hyper-surface passant le plus prs possible
des points donns (exemples dapprentissage). Mais dans le mme temps, on cherche
obtenir une solution permettant une bonne gnralisation, cest--dire une estima-
tion correcte de la fonction dans les zones o lon ne dispose pas dexemple. Pour
cela, lhyper-surface doit tre la plus rgulire possible. Durant lapprentissage, on va
donc minimiser un cot form de deux termes [TIK 77] ; le premier exprime la qualit
de linterpolation (mesure sur les exemples), tandis que le second pnalise les sur-
faces irrgulires. Ce terme sexprime en gnral par lintermdiaire de la norme dun
oprateur diffrentiel P :
cot =

i
(y
i
F(w, x
i
))
2
+ | PF|
2
[4.2]
o est un paramtre de rgularisation, souvent nomm hyperparamtre de rgu-
larisation. Typiquement, on cherche minimiser la courbure de la solution en utili-
sant un oprateur laplacien [BIS 90]. Lexistence et la qualit de la solution au pro-
blme dapproximation dpendent de la classe de fonctions laquelle F(w, x) appar-
tient [RIC 64]. Il existe de nombreuses classes de fonctions approximantes, comme
par exemple les fonctions linaires F(w, x) = w.x et les Perceptrons multicouches :
F(w, x) =

n
w
n

i
w
i

j
w
j
x
j

[4.3]
o est la fonction sigmode (voir chapitre 3).
Un autre type dapproximation trs utilis repose sur lemploi dune base de fonc-
tions
i
:
F(w, x) =

i
w
i

i
(x) [4.4]
108 Apprentissage connexionniste
Les interpolations par splines, les expansions en sries de polynmes orthogonaux
et modles additifs gnraliss [HAS 90] entrent, parmi dautres, dans ce cadre. Un
grand intrt de cette reprsentation est que lon dispose dun approximant non li-
naire en ayant rsoudre un problme linaire (choix de w
i
, les fonctions
i
tant
dtermines). On peut facilement montrer [POG 90] que si loprateur de rgulari-
sation est invariant par translation et par rotation (hypothses en gnral trs raison-
nables), la solution du problme de minimisation du cot 4.2 est ncessairement de
la forme 4.4,
i
(x) tant une fonction radiale, ne dpendant que de la distance de x
un centre
i
(quation 4.1). Cest pourquoi les rseaux RBF sont parfois appels
rseaux rgularisants (regularization networks).
On peut tablir pour ce type dapproximant le mme type de rsultats que pour les
Perceptrons multicouches (voir chapitre 3) : toute fonction continue peut tre appro-
che avec une prcision arbitraire [PAR 91, POG 90].
Notons enn que lquation 4.1 est de la mme forme quun estimateur noyau
comme celui de Parzen.
4.3. Apprentissage des modles RBF
Lapprentissage dun modle RBF consiste dterminer son architecture (le nombre
N de fonctions radiales) et xer les valeurs des paramtres. La plupart des utilisa-
teurs dterminent empiriquement la valeur de N en recourant des techniques de
validation croise (voir chapitre 12).
Lapprentissage dun rseau RBF est de type supervis : on dispose dun ensemble
dapprentissage constitu de l couples (vecteur dentre, valeur cible) :
(x
1
, y
1
), . . . , (x
m
, y
m
), x
i
R
d
, y
i
R
et du cot associ chaque exemple :
E
i
=
1
2
(y
i
F(x
i
))
2
(auquel on ajoute ventuellement un terme de rgularisation).
Une caractristique intressante des modles RBF est que lon peut diviser les
paramtres en trois groupes : les centres , les largeurs et les poids w. Linterprta-
tion de chaque groupe permet de proposer un algorithme dapprentissage squentiel,
simple et performant [MOO 89].
Rseaux fonctions de base radiales 109
4.3.1. Approche squentielle
Cette technique dapprentissage propose ds la n des annes 1980 [MOO 89]
est trs couramment utilise. Elle consiste optimiser successivement les trois jeux de
paramtres (
j
,
j
, w
j
). Cette technique a lavantage dtre simple mettre en uvre,
de demander peu de calculs et de donner des rsultats acceptables. La solution obtenue
nest cependant pas optimale.
Dans un premier temps, on estime les positions des centres
j
et des largeurs
j
laide dun algorithme non supervis de type k-moyennes. Une fois ces paramtres
xs, il est possible de calculer les poids w
j
optimaux par une mthode de rgression
linaire. Cest certainement la simplicit et lefcacit de cette mthode qui a fait le
succs des RBF.
4.3.1.1. Calcul des poids
Si lon suppose les centres et largeurs connus, les poids w optimaux se calculent
aisment :
y(x) =
N

j=1
w
j
([[x
j
|,
j
) =
N

j=1
w
j
h
j
(x)
On cherche la solution w qui minimise la diffrence e entre la sortie estime et la
sortie dsire. On a donc un systme dquations linaires qui scrit :
y = Hw+e
La matrice H, de taille l N, donne les rponses des N centres RBF sur les l
exemples, y est un vecteur regroupant les l sorties y
i
sur lensemble dapprentissage,
et e est le vecteur derreur. Le critre optimiser est :
E = e
T
e
Si lon ajoute un terme de rgularisation de type ridge regression [HOE 62], qui
pnalise les solutions avec de grandes valeurs des poids, on crit :
E = e
T
e +w
T
w
La solution sobtient par un calcul classique de pseudo-inverse, et scrit :
w = (H
T
H + I)
1
H
T
y
o I est la matrice identit de taille l.
110 Apprentissage connexionniste
La rgression de type ridge est trs utilise en apprentissage statistique. Dans le
contexte des rseaux connexionnistes (par exemple les Perceptrons multicouches), on
lappelle souvent weight decay. Le paramtre est libre et doit tre dtermin par
validation croise ou, de manire plus sophistique, en employant des mthodes bay-
siennes de restimation, voir [ORR 95]).
En pratique, il est recommand de rsoudre le systme dquation en utilisant une
dcomposition en valeurs singulires (SVD), qui rsiste bien aux problmes de mau-
vais conditionnement numrique.
4.3.1.2. Estimation non supervise des centres et des largeurs
An de dterminer les positions et largeurs des centres gaussiens, on les interprte
comme reprsentant la densit de probabilit des donnes et on cherche une solution
locale (chaque fonction va sactiver dans une petite rgion de lespace dentre).
On dsire quau moins un centre soit activ, cest--dire que la valeur de la fonction
radiale soit non ngligeable, dans toutes les rgions o lon a des donnes. La dimen-
sion de lensemble des points associs un centre va permettre destimer la largeur de
ce centre.
Ce point de vue suggre dutiliser une approche non supervise, qui estime la den-
sit de probabilit des donnes. Dans ce cadre, les valeurs cibles y
i
ne vont pas tre
utilises pour lestimation des centres
j
et des largeurs
j
. Notons que cela peut dans
certains cas tre un avantage : il est courant que les donnes non tiquetes soit beau-
coup plus faciles obtenir en grande quantit que les donnes tiquetes. Par exemple,
en reconnaissance dimages de visages, il est facile de collecter des images de visages
quelconques, mais plus coteux de runir un ensemble de visages didentit connue.
Dans ces situations, les approches bases sur lestimation directe de la densit de pro-
babilit des exemples sont toujours intressantes (apprentissage semi-supervis).
Le problme principal que rencontrent les modles RBF est li leur compor-
tement lorsque la dimension de lespace dentre augmente ( maldiction de la di-
mension ). Si lon veut couvrir lespace dentre avec des sphres places sur les
centres RBF, le nombre de sphres ncessaires augmente exponentiellement avec la
dimension d des entres, affectant non seulement les temps de calcul mais aussi aug-
mentant proportionnellement le nombre dexemples requis pour lestimation correcte
des paramtres.
Un autre problme, li au prcdent, est la sensibilit au bruit : puisque lestimation
des centres et largeurs est faite de manire non supervise, il nest pas possible de
distinguer les variables corrles la valeur cible de celles qui napportent que du
bruit.
Pour ces raisons, on observe facilement en pratique que les performances des mo-
dles RBF se dgradent rapidement lorsque la dimension des entres augmente. Il
Rseaux fonctions de base radiales 111
est alors ncessaire de faire prcder le systme RBF par une phase de rduction de
dimension (slection de variables supervise ou non).
Avant de dtailler plus la procdure dapprentissage squentielle, insistons sur son
caractre sous-optimal : mme si les rsultats observs en pratique sont gnralement
corrects, il est facile dimaginer des situations dans lesquelles la densit de probabilit
des donnes diffre beaucoup de la valeur cible estimer. La gure 4.2, emprunte
[BIS 95] illustre parfaitement ce cas.
b a
x
p(x)
y(x)
Figure 4.2. Exemple simple dun cas dans lequel la densit de probabilit p(x) des donnes
(reprsentes par les ronds sur laxe horizontal) ne concide pas avec la fonction cible y(x).
Lapprentissage squentiel va centrer la fonction au point a, alors que la valeur optimale est b
Utilisation de tous les exemples
Lapproche la plus simple pour choisir les centres RBF
i
est de retenir tous les
exemples disponibles. Cette approche, qui rappelle celle employe pour le systme
de discrimination plus proche voisin , est rarement utilise car elle possde deux
dsavantages majeurs : lenteur dexcution ds que lon dispose dun nombre signi-
catif dexemples, et surtout nombre beaucoup trop important de paramtres estimer,
donc sur-apprentissage garanti. Elle peut cependant constituer la premire tape pour
des approches base dlagage, consistant supprimer progressivement les centres
les moins utiles.
Utilisation dune mthode de clustering
La slection des centres la plus utilise fait appel un algorithme de clustering,
type k-moyennes, permettant de calculer rapidement k vecteurs minimisant lerreur
de quantication (ou erreur empirique) sur lensemble dapprentissage :
E() =
1
2

i
min
k
(x
i

k
)
2
112 Apprentissage connexionniste
Le nombre k de centres rechercher doit tre spci a priori, cest le principal
inconvnient de cette mthode en pratique (en gnral, on utilise l aussi des mthodes
de validation croise pour dterminer le nombre optimal). Notons quici les centres ne
concident plus ncessairement avec des exemples de lensemble dapprentissage. La
mthode des k-moyennes est ancienne [MAC 67] mais a fait lobjet de nombreuses
tudes et rafnements (voir par exemple [BOT 95]).
Une autre approche [ORR 95] consiste rechercher incrmentalement les centres
RBF parmi les exemples, en recherchant chaque tape le centre susceptible dappor-
ter la plus grande diminution de lerreur. Cette approche peut tre combine avec une
rgularisation de type ridge.
Dtermination des largeurs
Une fois les centres RBF placs, reste dterminer les valeurs de largeurs (para-
mtres ). On utilise en gnral une heuristique, base soit sur la distance de chaque
centre son voisin, soit sur le calcul de la variance de lensemble dexemples rattachs
un centre (ceux pour lesquels ce centre est le plus proche).
4.3.2. Apprentissage par descente de gradient
Une alternative lapprentissage squentiel dcrit dans la section prcdente con-
siste optimiser les paramtres du modles RBF par descente de gradient, comme on
le fait pour dautres modles connexionnistes. Il faut pour cela calculer les drives
du cot (ventuellement rgularis) par rapport aux diffrents paramtres.
Pour une fonction gaussienne :

ij
= exp(
|x
i

j
|
2
2
2
j
)
et un cot E
i
=
1
2
(y
i
y(x
i
))
2
, les drives partielles scrivent :
E
i
w
j
= w
j
(y
i

j
w
j

ij
)
ij
E
i

j
= w
j
|x
j
|
2

3
j
(y
i

j
w
j

ij
)
ij
E
i

k
j
= w
j
x
k
i

k
j

2
j
(y
i

j
w
j

ij
)
ij
Rseaux fonctions de base radiales 113
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
1 2 3 4 5 6 7 8
2 centres
echantillon
y(x)
RBF
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
1 2 3 4 5 6 7 8
5 centres
echantillon
y(x)
RBF
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
1 2 3 4 5 6 7 8
10 centres
echantillon
y(x)
RBF
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
1 2 3 4 5 6 7 8
20 centres
echantillon
y(x)
RBF
Figure 4.3. Approximation dune fonction avec un modle RBF. Les 50 points de lchantillon
dapprentissage, reprsents sur les 4 courbes, sont gnrs comme suit : x = N(3.2, 1.6), y =
sin(x) + N(0, 0.3). La courbe y(x) est la vraie fonction (sinus), et la courbe RBF est
la sortie du modle. Avec 5 centres, lapproximation est correcte (sauf dans la partie droite o
lon a trs peu de points). Avec seulement deux centres, lerreur est suprieure, tandis quavec
10 voire 20 centres on note un overtting important : la solution oscille et est trs sensible au
bruit.
A partir de ces quations, on peut mettre en uvre un algorithme dapprentissage
standard de minimisation de lerreur, en version batch (calcul de lerreur sur len-
semble des exemple avant mise jour des paramtres) ou en ligne (mises jour aprs
chaque exemple, approche qui en gnral offre de meilleures performances). Il sagit
cependant dun problme non linaire, et lalgorithme doptimisation a de grandes
chances de rester bloqu dans un minimum local de la fonction de cot. La russite
de loptimisation dpend donc beaucoup des conditions initiales. Il est donc recom-
mand de nutiliser loptimisation globale des paramtres par descente de gradient
quaprs un apprentissage squentiel classique (voir section prcdente). La descente
de gradient permet alors deffectuer un rglage n des paramtres qui amliore les
performances [FOG 93].
Notons que les solutions RBF obtenues avec un apprentissage par descente de
gradient sont souvent assez diffrentes de celles obtenues par apprentissage squentiel.
114 Apprentissage connexionniste
En particulier, rien ne garantit plus la localit de chaque fonction de base (autrement
dit, les largeurs peuvent prendre des valeurs leves).
4.3.3. Modles hybrides MLP-RBF
Nous avons vu plus haut que les modles RBF taient peu appropris au traitement
de donnes de grande dimension (augmentation rapide du nombre de paramtres, sen-
sibilit au bruit). Il est donc naturel de faire prcder ces modles dune phase de
rduction de dimension, soit par slection de variables, soit par une technique linaire
de type Analyse en composantes principales (ACP), soit encore en utilisant un rseau
de neurones de type Perceptron multicouches (MLP, voir quation 4.3). Cette dernire
solution [FOG 93] offre la possibilit dutiliser des traitements non linaires et permet
un apprentissage conjoint des deux modules (MLP et RBF) par descente de gradient,
an dassurer loptimalit de la solution.
Les rseaux MLP peuvent tre utiliss pour la compression de donnes (rseaux
auto-associatifs) ou pour la discrimination. Parmi leurs avantages bien connus gure
la possibilit deffectuer des traitements calculs de type ltrage non linaire trs utiles
pour le traitement des images et des signaux temporels (emploi de masque de poids
partags selon la technique nomme Time delay Neural Networks), et la bonne r-
sistance au bruit. Leur apprentissage est toutefois nettement plus long que celui des
rseaux RBF.
La motivation de lassociation MLP/RBF est de proter des capacits des rseaux
MLP pour lextraction de caractristiques, qui seront traites par le rseau RBF.
Lapprentissage dun systme hybride MLP/RBF se fait en plusieurs temps (-
gure 4.4) :
initialiser les paramtres du rseau MLP par descente de gradient ; il sagit dun
apprentissage supervis ou auto-associatif ;
remplacer la dernire couche du rseau MLP par un rseau RBF et effectuer un
apprentissage squentiel rapide (voir section 4.3.1) ;
optimiser conjointement tous les paramtres du systme MLP/RBF par descente
de gradient. Cette dernire phase permet en gnral damliorer lgrement les per-
formances du systme.
4.3.4. Autres approches
Dautres approches ont t proposes pour lapprentissage des modles RBF, mais
sont moins utilises que la mthode squentielle expose plus haut car plus lourdes
mettre en uvre. Elles sont toutefois intressantes car elles permettent de situer les
Rseaux fonctions de base radiales 115
de type
"perceptron"
Couches
de type
"perceptron"
Couches
Dernire couche MLP,
utilise seulement pour linitialisation
Entres
Sorties
Sorties
Entres
Copie effectue aprs initialisation
Rseau RBF
Figure 4.4. Apprentissage dun systme hybride MLP/RBF. An dviter les minimums locaux
et dacclrer lapprentissage, on commence par initialiser les couches MLP seules ; aprs
convergence, on remplace la dernire couche du rseau MLP par un rseau RBF
modles RBF dans le contexte plus large de lapprentissage statistique. Nous dcrirons
brivement les techniques bases sur lalgorithme Expectation Minimization (EM) et
les machines vecteurs de support (SVM).
4.3.4.1. Mthode EM
La mthode EM [DEM 77] est un algorithme gnral qui peut sutiliser pour calcu-
ler une estimation de type Maximum de vraisemblance des paramtres dun modle.
Cet algorithme a t utilis pour lapprentissage de nombreux systmes connexion-
nistes, dans un cadre supervis ou non supervis, pour la discrimination, la classica-
tion ou lapproximation de fonctions.
Lide est de considrer le modle RBF comme un modle de mixture, la densit
de probabilit des donnes tant de la forme :
p(x) =

i
P(i)
i
(x)
o les paramtres P(i) sont les coefcients de la mixture, ici interprts comme les
probabilits a priori que les donnes aient t gnres par la composante i de la
mixture. La fonction de vraisemblance est :
L =

n
p(x
n
)
116 Apprentissage connexionniste
Lalgorithme EM a t appliqu lapprentissage des RBF par plusieurs auteurs
([BIS 95, ORR 98], et plus rcemment [LZ 03] qui proposent une formulation per-
mettant un apprentissage EM rapide).
4.3.4.2. Machines vecteurs support (SVM)
Les SVM, proposes par Vapnik au dbut des annes 90 [BOS 92, VAP 95], sont
bases sur le principe de minimisation structurelle du risque (MSR). Nous rappelons
brivement ci-aprs les principes de base de ces approches. Le lecteur intress pourra
consulter [BUR 98] pour une excellente introduction aux SVM et [VAP 98, SCH 98]
pour des tudes dtailles.
Modle statistique de lapprentissage
Nous prsentons ici trs brivement la formulation statistique de lapprentissage
propose par Vapnik [VAP 95] et qui dbouche sur les SVM. Le chapitre 10 discute
ces thmes de faon plus appronfondie.
Nous nous plaons ici dans le cas de la discrimination 2 classes. On dispose
dun chantillon de m exemples, x
i
R
n
, la classe de x
i
tant donne par y
i
= 1.
On suppose quil existe une distribution de probabilit P(x, y), inconnue, de laquelle
est issu notre chantillon. Le but de lapprentissage est ici destimer lapplication
associant y x. Le systme discriminant est dni par lensemble des applications
x f(x; ) = 1, la fonction f tant choisie dans un espace . Par exemple, si
dsigne lensemble des polynmes de degr n (seuills vers 1, 1), dnotera le
vecteur des coefcients du polynme. De faon gnrale, indice les fonctions dans
lespace de recherche , et nest pas ncessairement un paramtre dans R
k
. Lappren-
tissage consiste dterminer la valeur optimale de , qui minimise le taux derreur
moyen sur toutes les formes possibles, que lon appelle le risque :
R() =

1
2
[y f(x; )[dP(x, y)
P tant inconnu, le risque lest aussi ; par contre, on peut mesurer le risque empi-
rique sur lchantillon :
R
m
() =
1
2l
m

i=1
[y
i
f(x
i
; )[
La restriction de la recherche aux fonctions de lespace est trs importante. Si on
lve cette restriction, il est trs facile de construire un systme discriminant donnant un
risque empirique nul (nimporte quelle fonction f telle que f(x
i
) = y
i
), mais une telle
fonction ne minimisera pas forcment le risque R (sur-apprentissage, ou overtting).
Rseaux fonctions de base radiales 117
A loppos, si lon choisit une classe trop petite, il peut tre impossible dy trouver
une bonne solution. La dimension VC, note h, permet de caractriser de ce point de
vue la richesse dune classe de fonctions
2
.
Vapnik propose des bornes reliant le risque vrai R au risque empirique mesur
sur lensemble dapprentissage. Avec la probabilit 1 , lingalit suivante est
vraie [VAP 95] :
R() R
m
() +

1
m
(h(log(2m/h) + 1) log(/4)) [4.5]
Lapproche minimisation structurelle du risque (MSR) consiste minimiser
cette borne (en choisissant la bonne classe de fonctions) au lieu de minimiser simple-
ment le risque empirique.
Machines vecteurs de vSupport (SVM)
Les SVM sont inspires de la mthode MSR. Lide de base est de minimiser la
borne sur R en xant (lorsque cest possible) le risque empirique R
m
0 puis en mi-
nimisant le deuxime terme pour trouver la meilleure valeur de h. Dans le cas gnral,
il nest pas possible de xer le risque empirique : on recherche alors un compromis
entre la minimisation de lerreur sur lensemble dapprentissage et la capacit de g-
nralisation (minimisation du membre droit de lquation 4.5).
Supposons dans un premier temps que lchantillon (x
i
, y
i
), i = 1, ..., m(o y
1
=
1 donne la classe de chaque exemple) soit linairement sparable ; il existe alors un
hyperplan w.x +b tel que :
w
i
.x
i
+b 1 si y
i
= 1 [4.6]
w
i
.x
i
+b 1 si y
i
= 1 [4.7]
Dans ce cas, on peut montrer [VAP 95] que la dimension VC h de la famille des
classieurs bass sur les fonctions f(x; ) = w.x +b avec |w| < A est borne par :
h min(r
2
A
2
, n) + 1
2. On utilise la dimension VC de la classe de fonctions de perte associes aux modles, voir
chapitre 10.
118 Apprentissage connexionniste
o n est la dimension des entres x, r le rayon de la plus petite sphre entourant tous
les points x
i
.
Ainsi, si lon minimise |w|, on minimise le deuxime terme de lingalit (4.5).
On peut trs facilement constater que lhyperplan qui minimise |w| tout en respec-
tant (4.6) et (4.7) est tel quil maximise la marge, cest--dire la distance au point x
i
le plus proche. Il est assez naturel que le systme gnralisant le mieux soit celui qui
passe le plus loin de tous les exemples.
Pour trouver cet hyperplan, on peut minimiser =
1
2
w.w sous les contraintes
y
i
.f(x
i
, w, b) 1, i = 1...m, qui rsument les ingalits (4.6) et (4.7). Nous ne
dtaillons pas ici lobtention de la solution (voir [BUR 98] ou [VAP 95]) ; en crivant
le lagrangien, on montre que la solution f scrit sous la forme :
f(x) = w
0
.x +b =

i
x
i
.x +b [4.8]
o
i
est le multiplicateur de Lagrange associ chaque exemple. Les exemples x
i
qui interviennent dans la solution (
i
,= 0) sont nomms vecteurs de support. Ils
correspondent aux exemples proches de la frontire de dcision, et sont situs sur la
marge (voir gure 4.5).
Marge
Frontiere de decision
Figure 4.5. Sparation linaire optimale. Les trois vecteurs de support
sont cercls
Cette approche stend au cas o les donnes ne sont pas sparables par f en rel-
chant les contraintes (4.6) et (4.7) grce des variables dcart
i
0 qui permettent
Rseaux fonctions de base radiales 119
certains points de se situer du mauvais ct de la frontire :
w
i
.x
i
+b 1
i
si y
i
= 1 [4.9]
w
i
.x
i
+b 1 +
i
si y
i
= 1 [4.10]
Il faut alors minimiser

i
, et on montre [VAP 95] que lon obtient alors la mme
solution que prcdemment, avec une contrainte supplmentaire :
i
C, o C est
une constante positive qui permet de doser limportance que lon accorde a priori aux
carts. Lintroduction de cet hyperparamtre, dont la dtermination est le plus souvent
effectue par validation croise, est li au fait que lapproche SVM ne permet pas une
optimisation directe de lquation 4.5 (voir aussi sur ce thme le chapitre 10).
Les SVM stendent trs lgamment pour construire des modles non linaires
en remarquant que dans la solution (4.8), seul intervient le produit scalaire entre deux
points, et que nous navons aucun moment utilis de proprits spciales de ce pro-
duit scalaire. On peut utiliser comme produit scalaire toute fonction noyau symtrique
K(x, y) respectant certaines conditions (conditions de Mercer [VAP 95, BUR 98]), et
obtenir un comportement non linaire :
f(x) =
m

i=1
y
i

i
K(x
i
, x) +b
(notons que les coefcients
i
sont nuls pour tous les points qui ne sont pas vecteurs
de support.)
Par exemple, on construit des machines polynmiales de degr p avec K(x, y) =
(x.y + 1)
p
, et les machines radiales avec :
K(x, x
i
) = exp

(x x
i
)
2
2
2

o xe le caractre local de lestimation.


Dans ce dernier cas, la fonction calcule la mme forme quun systme RBF :
f(x) =
m

i=1
y
i

i
exp

(x x
i
)
2
2
2

+b
Lapprentissage SVM dtermine automatiquement les centres (un sous-ensemble
des exemples) et les poids. Le paramtre est global, il concerne tous les centres,
contrairement aux modles dcrits dans les sections prcdentes.
120 Apprentissage connexionniste
Figure 4.6. Solution SVM avec noyau RBF sur un problme de dimension 2. Il sagit de distin-
guer les croix droites des croix obliques. La solution utilise 8 vecteurs supports (points cercls)
On trouvera une comparaison exprimentale dtaille des SVM RBF et des RBF
traditionnelles sur des tches de discrimination dans [SCH 97]. Les principales
conclusions de cette tude sont :
les centres choisis par la mthode SVM ne sont pas situs prs des centres de
gravit des exemples, mais au contraire prs des frontires entre les classes (voir -
gure 4.6). Cela permet en gnral dannuler lerreur de classement sur lensemble
dapprentissage ;
dans tous les cas tests, lerreur de gnralisation obtenue par les SVM est plus
faible.
Les approches SVM prsentent cependant quelques inconvnients, en particulier
lis la difcult de traiter de grands ensembles de donnes (plus de 10
4
exemples
environ) et la difcult du choix des paramtres (C et ) qui oblige recourir de
laborieuses procdures de validation croise.
4.4. Conclusion
Les modles RBF ont t trs utiliss depuis la n des annes 80, et il serait im-
possible den dresser la liste des applications. On trouve de nombreuses utilisations en
prvision des sries temporelles (voir par exemple [YEE 01]). Dans le domaine de la
reconnaissance dimage ou de signal, il est dusage de faire prcder le modle RBF
dune extraction de caractristiques (ltrage, contours, textures...) an de rduire la
dimension des entres.
Rseaux fonctions de base radiales 121
Il est facile de tester les divers modles RBF grce aux nombreuses implmenta-
tions libres disponibles (citons Torch en C++ [COL 02] ou les codes Matlab de Mark
Orr
3
[ORR 00]).
Ltude des publications scientiques sur le domaine montre quaprs une certaine
effervescence au dbut des annes 90, les recherches sur ce thme se sont stabilises
depuis quelques annes, au prot en particulier des mthodes base de noyaux (vo-
lutions des machines vecteur de support mentionnes dans ce chapitre).
4.5. Bibliographie
[BIS 90] BISHOP C., Curvature-driven smoothing in backpropagation neural networks ,
Proceedings of INNC Paris, vol. 2, page749, 1990.
[BIS 95] BISHOP C. M., Neural networks for pattern recognition, Oxford University Press,
Oxford, UK, UK, 1995.
[BOS 92] BOSER B. E., GUYON I. M., VAPNIK V. N., A Training Algorithm for Optimal
Margin Classiers , HAUSSLER D., Ed., 5th Annual ACM Workshop on COLT, Pittsburgh,
PA, ACM Press, p. 144-152, 1992.
[BOT 95] BOTTOU L., BENGIO Y., Convergence Properties of the K-Means Algorithm ,
Advances in Neural Information Processing Systems, vol. 7, Denver, MIT Press, 1995.
[BRO 88] BROOMHEAD D., LOWE D., Multivariate functional interpolation and adaptative
networks , Complex Systems, vol. 2, 1988.
[BUH 03] BUHMANN M. D., Radial Basis Functions, Cambridge University Press, Cam-
bridge, 2003.
[BUR 98] BURGES C. J. C., A Tutorial on Support Vector Machines for Pattern Recogni-
tion , Data Mining and Knowledge Discovery, vol. 2, n 2, p. 1-47, 1998.
[COL 02] COLLOBERT R., BENGIO S., MARITHOZ J., Torch : a modular machine learning
software library, Rapport n 02-46, IDIAP, 2002.
[DEM 77] DEMPSTER A. P., LAIRD N., RUBIN D. B., Maximum likelihood from incom-
plete data via the EM algorithm (with discussion) , Journals of Royal Statistics Society B,
vol. 39, p. 1-38, 1977.
[FOG 93] FOGELMAN SOULI F., LAMY B., VIENNET E., Multi-Modular Neural Networks
Architectures for Pattern Recognition : Applications in Optical Characters Recognition and
Human Face Recognition , Int. J. Pattern Recognition and Articial Intelligence, vol. 7,
n 4, p. 721-755, 1993, Extended version as Tech. Report 827, LRI 1993.
[HAS 90] HASTIE T. J., TIBSHIRANI R. J., Generalized additive models, London : Chapman
& Hall, 1990.
3. disponibles sur http ://www.anc.ed.ac.uk/ mjo/rbf.html
122 Apprentissage connexionniste
[HOE 62] HOERL A., Application of ridge analysis to regression problems , Chemical
Engineering Progress, vol. 58, p. 54-59, 1962.
[LZ 03] LZARO M., SANTAMARA I., PANTALEN C., A new EM-based training algo-
rithm for RBF networks , Neural Networks, vol. 16, p. 69-77, janvier 2003.
[MAC 67] MACQUEEN J., Some Methods for Classication and Analysis of Multivariate
Observations , Proc. of the fth Berkeley Symposium on Mathematics, Statistics and Pro-
babilities, vol. 1, p. 281-297, 1967.
[MOO 89] MOODY J., DARKEN C., Fast Learning in Networks of Locally-tuned Processing
Units , Neural Computation, vol. 1, p. 281-294, 1989.
[ORR 95] ORR M. J. L., Regularization in the Selection of Radial Basis Function Centers ,
Neural Computation, vol. 7, p. 606-623, 1995.
[ORR 98] ORR M., An EM Algorithm for Regularised RBF Networks , International
Conference on Neural Networks and Brain, 1998.
[ORR 00] ORR M., HALLAM J., MURRAY A., LEONARD T., Assessing RBF networks
using DELVE , International Journal of Neural Systems, vol. 10, p. 397-415, 2000.
[PAR 91] PARK J., SANDBERG I. W., Universal Approximation Using Radial-Basis-
Function Networks , Neural Computation, vol. 3, p. 246-257, 1991.
[POG 90] POGGIO T., GIROSI F., Networks for Approximation and Learning , Proceedings
of the IEEE, vol. 78, n 9, p. 1481-1497, septembre 1990.
[POW 87] POWELL M. J. D., Radial basis functions for multivariable interpolation : a re-
view , Algorithms for approximation, New York, NY, USA, Clarendon Press, p. 143-167,
1987.
[RIC 64] RICE J., The Approximation of Functions, vol. 1, Addison-Wesley, Reading, MA,
1964.
[SCH 97] SCHLKOPF B., SUNG K., BURGES C., GIROSI F., NIYOGI P., POGGIO T., VAP-
NIK V., Comparing support vector machines with Gaussian kernels to radial basis function
classiers , IEEE Trans. Sign. Processing, vol. 45, p. 2758-2765, 1997, AI Memo n 1599,
MIT, Cambridge.
[SCH 98] SCHLKOPF B., BURGES C., SMOLA A., Eds., Advances in Kernel Methods - Sup-
port Vector Learning, MIT Press, Cambridge, USA, 1998.
[TIK 77] TIKHONOV A., ARSENIN V., Solutions of Ill-posed Problems, W.H. Winston, Wa-
shington, D.C., 1977.
[VAP 95] VAPNIK V., The Nature of Statistical Learning Theory, Springer, New York, NY,
USA, 1995.
[VAP 98] VAPNIK V., Statistical Learning Theory, Wiley, New York, NY, USA, 1998.
[YEE 01] YEE P. V., HAYKIN S., Regularized Radial Basis Function Networks : Theory and
Applications, Wiley, New York, NY, USA, 2001.

Vous aimerez peut-être aussi