Vous êtes sur la page 1sur 19

R

eseaux `
a fonctions de base radiales
Emmanuel Viennet

To cite this version:


Emmanuel Viennet. Reseaux a` fonctions de base radiales. Youn`es Bennani. Apprentissage
connexionniste, Lavoisier, pp.105, 2006, I2C Herm`es. <hal-00085092>

HAL Id: hal-00085092


https://hal.archives-ouvertes.fr/hal-00085092
Submitted on 11 Jul 2006

HAL is a multi-disciplinary open access


archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.

Larchive ouverte pluridisciplinaire HAL, est


destinee au depot et `a la diffusion de documents
scientifiques de niveau recherche, publies ou non,
emanant des etablissements denseignement et de
recherche francais ou etrangers, des laboratoires
publics ou prives.

Chapitre 4

Rseaux fonctions de base radiales

4.1. Prsentation
Les rseaux fonctions de base radiales (RBF) sont des modles connexionnistes
simples mettre et uvre et assez intelligibles, et sont trs utiliss pour la rgression
et la discrimination. Leur proprits thoriques et pratiques ont t tudies en dtail
depuis la fin des annes 80 ; il sagit certainement, avec le Perceptron multicouche, du
modle connexionniste le mieux connu.
Une fonction de base radiale (RBF) est une fonction symtrique autour dun
centre j : j (x) = (kx j k), o k.k est une norme [BUH 03]. Par exemple, la
2
2
fonction gaussienne est une RBF avec la norme euclidienne et (r) = er /2 . En
gnral, les RBF sont paramtres par qui correspond la largeur de la fonction :
j (x) = (||x j k, j )
Un modle ou rseau RBF calcule une combinaison linaire de fonctions radiales
de centres j :

y(x) =

N
X

wj (||x j k, j )

j=1

Chapitre rdig par Emmanuel V IENNET.

[4.1]

106

Apprentissage connexionniste

Figure 4.1. Reprsentation connexionniste dun rseau RBF. A gauche la couche dentre x,
au centre les centres RBF, droite la sortie y. Pour traiter les problmes de discrimination C
classes, on pourra utiliser C sorties y1 , . . . , yC

On distingue trois couches (figure 4.1) : entre x, fonctions radiales, sortie, et trois
jeux de paramtres : les centres j , les largeurs j et les poids wj .
Les combinaisons linaires de gaussiennes sont utilises depuis les annes 60 pour
construire des interpolations ou approximations de fonctions [POW 87]. A la fin des
annes 80, la prsentation de ces modles comme des rseaux connexionnistes a suscit un regain dintrt [BRO 88, MOO 89] motiv en grande partie par la possibilit
dutiliser un algorithme dapprentissage trs rapide (sans recourir des techniques
doptimisation non linaire comme dans le cas du Perceptron multicouche), donnant
en gnral des rsultats voisins des meilleurs modles connexionnistes.
Lapprentissage des modles RBF est supervis : il faut disposer dun chantillon
de l exemples (xi , yi ). Comme les Perceptrons multicouches (MLP 1), les RBF sont
utiliss pour rsoudre tant des tches de discrimination (en gnral en choisissant yi
{1, 1}C ) que des tches de rgression ou prvision de signal (monovari yi R ou
multivari yi RC ).
Les modles RBF sont lis de nombreuses autres approches utilises en reconnaissance des formes ; les relations avec ltude de lapproximation de fonctions (par
exemple les splines [BIS 95]) sont videntes. Mentionnons aussi les liens avec la thorie de la rgularisation, linterpolation, lestimation de densit.

1. PMC pour les francophones, mais nous utiliserons labbrviation anglophone plus rpandue
dans la littrature.

Rseaux fonctions de base radiales

107

4.2. Le problme dapproximation


Le problme gnral de de lapproximation [POG 90] dune fonction multivarie
se pose de la faon suivante : soit f (x) une fonction continue de Rd R, et F (w, x)
une fonction approximation dpendant continment de w Rp et x. On cherche le
jeu de paramtres w tel que :
w, d ( F(w , .), f (.) ) d ( F(w, .), f (.) )
o d est une distance dans lespace des fonctions.
Dans ce contexte, le problme de lapprentissage consiste dterminer les paramtres dune fonction dapproximation tant donn un ensemble fini de l points
(xi , f (xi )), ce qui revient dterminer une hyper-surface passant le plus prs possible
des points donns (exemples dapprentissage). Mais dans le mme temps, on cherche
obtenir une solution permettant une bonne gnralisation, cest--dire une estimation correcte de la fonction dans les zones o lon ne dispose pas dexemple. Pour
cela, lhyper-surface doit tre la plus rgulire possible. Durant lapprentissage, on va
donc minimiser un cot form de deux termes [TIK 77] ; le premier exprime la qualit
de linterpolation (mesure sur les exemples), tandis que le second pnalise les surfaces irrgulires. Ce terme sexprime en gnral par lintermdiaire de la norme dun
oprateur diffrentiel P :
cot =

(yi F (w, xi ))2 + k PF k2

[4.2]

o est un paramtre de rgularisation, souvent nomm hyperparamtre de rgularisation. Typiquement, on cherche minimiser la courbure de la solution en utilisant un oprateur laplacien [BIS 90]. Lexistence et la qualit de la solution au problme dapproximation dpendent de la classe de fonctions laquelle F (w, x) appartient [RIC 64]. Il existe de nombreuses classes de fonctions approximantes, comme
par exemple les fonctions linaires F (w, x) = w.x et les Perceptrons multicouches :

X
X
X
wj xj [4.3]
wi
wn
F (w, x) =
n

o est la fonction sigmode (voir chapitre 3).


Un autre type dapproximation trs utilis repose sur lemploi dune base de fonctions i :
F (w, x) =

X
i

wi i (x)

[4.4]

108

Apprentissage connexionniste

Les interpolations par splines, les expansions en sries de polynmes orthogonaux


et modles additifs gnraliss [HAS 90] entrent, parmi dautres, dans ce cadre. Un
grand intrt de cette reprsentation est que lon dispose dun approximant non linaire en ayant rsoudre un problme linaire (choix de wi , les fonctions i tant
dtermines). On peut facilement montrer [POG 90] que si loprateur de rgularisation est invariant par translation et par rotation (hypothses en gnral trs raisonnables), la solution du problme de minimisation du cot 4.2 est ncessairement de
la forme 4.4, i (x) tant une fonction radiale, ne dpendant que de la distance de x
un centre i (quation 4.1). Cest pourquoi les rseaux RBF sont parfois appels
rseaux rgularisants (regularization networks).
On peut tablir pour ce type dapproximant le mme type de rsultats que pour les
Perceptrons multicouches (voir chapitre 3) : toute fonction continue peut tre approche avec une prcision arbitraire [PAR 91, POG 90].
Notons enfin que lquation 4.1 est de la mme forme quun estimateur noyau
comme celui de Parzen.

4.3. Apprentissage des modles RBF


Lapprentissage dun modle RBF consiste dterminer son architecture (le nombre
N de fonctions radiales) et fixer les valeurs des paramtres. La plupart des utilisateurs dterminent empiriquement la valeur de N en recourant des techniques de
validation croise (voir chapitre 12).
Lapprentissage dun rseau RBF est de type supervis : on dispose dun ensemble
dapprentissage constitu de l couples (vecteur dentre, valeur cible) :
(x1 , y1 ), . . . , (xm , ym ), xi Rd , yi R
et du cot associ chaque exemple :
Ei =

1
(yi F (xi ))2
2

(auquel on ajoute ventuellement un terme de rgularisation).


Une caractristique intressante des modles RBF est que lon peut diviser les
paramtres en trois groupes : les centres , les largeurs et les poids w. Linterprtation de chaque groupe permet de proposer un algorithme dapprentissage squentiel,
simple et performant [MOO 89].

Rseaux fonctions de base radiales

109

4.3.1. Approche squentielle


Cette technique dapprentissage propose ds la fin des annes 1980 [MOO 89]
est trs couramment utilise. Elle consiste optimiser successivement les trois jeux de
paramtres (j , j , wj ). Cette technique a lavantage dtre simple mettre en uvre,
de demander peu de calculs et de donner des rsultats acceptables. La solution obtenue
nest cependant pas optimale.
Dans un premier temps, on estime les positions des centres j et des largeurs j
laide dun algorithme non supervis de type k-moyennes. Une fois ces paramtres
fixs, il est possible de calculer les poids wj optimaux par une mthode de rgression
linaire. Cest certainement la simplicit et lefficacit de cette mthode qui a fait le
succs des RBF.
4.3.1.1. Calcul des poids
Si lon suppose les centres et largeurs connus, les poids w optimaux se calculent
aisment :
N
N
X
X
wj hj (x)
wj (||x j k, j ) =
y(x) =
j=1

j=1

On cherche la solution w qui minimise la diffrence e entre la sortie estime et la


sortie dsire. On a donc un systme dquations linaires qui scrit :
y = Hw + e
La matrice H, de taille l N , donne les rponses des N centres RBF sur les l
exemples, y est un vecteur regroupant les l sorties yi sur lensemble dapprentissage,
et e est le vecteur derreur. Le critre optimiser est :
E = eT e
Si lon ajoute un terme de rgularisation de type ridge regression [HOE 62], qui
pnalise les solutions avec de grandes valeurs des poids, on crit :
E = eT e + w T w
La solution sobtient par un calcul classique de pseudo-inverse, et scrit :
w = (HT H + I)1 HT y
o I est la matrice identit de taille l.

110

Apprentissage connexionniste

La rgression de type ridge est trs utilise en apprentissage statistique. Dans le


contexte des rseaux connexionnistes (par exemple les Perceptrons multicouches), on
lappelle souvent weight decay. Le paramtre est libre et doit tre dtermin par
validation croise ou, de manire plus sophistique, en employant des mthodes baysiennes de restimation, voir [ORR 95]).
En pratique, il est recommand de rsoudre le systme dquation en utilisant une
dcomposition en valeurs singulires (SVD), qui rsiste bien aux problmes de mauvais conditionnement numrique.
4.3.1.2. Estimation non supervise des centres et des largeurs
Afin de dterminer les positions et largeurs des centres gaussiens, on les interprte
comme reprsentant la densit de probabilit des donnes et on cherche une solution
locale (chaque fonction va sactiver dans une petite rgion de lespace dentre).
On dsire quau moins un centre soit activ, cest--dire que la valeur de la fonction
radiale soit non ngligeable, dans toutes les rgions o lon a des donnes. La dimension de lensemble des points associs un centre va permettre destimer la largeur de
ce centre.
Ce point de vue suggre dutiliser une approche non supervise, qui estime la densit de probabilit des donnes. Dans ce cadre, les valeurs cibles yi ne vont pas tre
utilises pour lestimation des centres j et des largeurs j . Notons que cela peut dans
certains cas tre un avantage : il est courant que les donnes non tiquetes soit beaucoup plus faciles obtenir en grande quantit que les donnes tiquetes. Par exemple,
en reconnaissance dimages de visages, il est facile de collecter des images de visages
quelconques, mais plus coteux de runir un ensemble de visages didentit connue.
Dans ces situations, les approches bases sur lestimation directe de la densit de probabilit des exemples sont toujours intressantes (apprentissage semi-supervis).
Le problme principal que rencontrent les modles RBF est li leur comportement lorsque la dimension de lespace dentre augmente ( maldiction de la dimension ). Si lon veut couvrir lespace dentre avec des sphres places sur les
centres RBF, le nombre de sphres ncessaires augmente exponentiellement avec la
dimension d des entres, affectant non seulement les temps de calcul mais aussi augmentant proportionnellement le nombre dexemples requis pour lestimation correcte
des paramtres.
Un autre problme, li au prcdent, est la sensibilit au bruit : puisque lestimation
des centres et largeurs est faite de manire non supervise, il nest pas possible de
distinguer les variables corrles la valeur cible de celles qui napportent que du
bruit.
Pour ces raisons, on observe facilement en pratique que les performances des modles RBF se dgradent rapidement lorsque la dimension des entres augmente. Il

Rseaux fonctions de base radiales

111

est alors ncessaire de faire prcder le systme RBF par une phase de rduction de
dimension (slection de variables supervise ou non).
Avant de dtailler plus la procdure dapprentissage squentielle, insistons sur son
caractre sous-optimal : mme si les rsultats observs en pratique sont gnralement
corrects, il est facile dimaginer des situations dans lesquelles la densit de probabilit
des donnes diffre beaucoup de la valeur cible estimer. La figure 4.2, emprunte
[BIS 95] illustre parfaitement ce cas.

y(x)

p(x)

Figure 4.2. Exemple simple dun cas dans lequel la densit de probabilit p(x) des donnes
(reprsentes par les ronds sur laxe horizontal) ne concide pas avec la fonction cible y(x).
Lapprentissage squentiel va centrer la fonction au point a, alors que la valeur optimale est b

Utilisation de tous les exemples


Lapproche la plus simple pour choisir les centres RBF i est de retenir tous les
exemples disponibles. Cette approche, qui rappelle celle employe pour le systme
de discrimination plus proche voisin , est rarement utilise car elle possde deux
dsavantages majeurs : lenteur dexcution ds que lon dispose dun nombre significatif dexemples, et surtout nombre beaucoup trop important de paramtres estimer,
donc sur-apprentissage garanti. Elle peut cependant constituer la premire tape pour
des approches base dlagage, consistant supprimer progressivement les centres
les moins utiles.
Utilisation dune mthode de clustering
La slection des centres la plus utilise fait appel un algorithme de clustering,
type k-moyennes, permettant de calculer rapidement k vecteurs minimisant lerreur
de quantification (ou erreur empirique) sur lensemble dapprentissage :
E() =

1X
min(xi k )2
2 i k

112

Apprentissage connexionniste

Le nombre k de centres rechercher doit tre spcifi a priori, cest le principal


inconvnient de cette mthode en pratique (en gnral, on utilise l aussi des mthodes
de validation croise pour dterminer le nombre optimal). Notons quici les centres ne
concident plus ncessairement avec des exemples de lensemble dapprentissage. La
mthode des k-moyennes est ancienne [MAC 67] mais a fait lobjet de nombreuses
tudes et raffinements (voir par exemple [BOT 95]).
Une autre approche [ORR 95] consiste rechercher incrmentalement les centres
RBF parmi les exemples, en recherchant chaque tape le centre susceptible dapporter la plus grande diminution de lerreur. Cette approche peut tre combine avec une
rgularisation de type ridge.
Dtermination des largeurs
Une fois les centres RBF placs, reste dterminer les valeurs de largeurs (paramtres ). On utilise en gnral une heuristique, base soit sur la distance de chaque
centre son voisin, soit sur le calcul de la variance de lensemble dexemples rattachs
un centre (ceux pour lesquels ce centre est le plus proche).

4.3.2. Apprentissage par descente de gradient


Une alternative lapprentissage squentiel dcrit dans la section prcdente consiste optimiser les paramtres du modles RBF par descente de gradient, comme on
le fait pour dautres modles connexionnistes. Il faut pour cela calculer les drives
du cot (ventuellement rgularis) par rapport aux diffrents paramtres.
Pour une fonction gaussienne :
ij = exp(

kxi j k2
)
2j2

et un cot Ei = 21 (yi y(xi ))2 , les drives partielles scrivent :


X
Ei
= wj (yi
wj ij )ij
wj
j
X
kx j k2
Ei
wj ij )ij
(yi
= wj
3
j
j
j
X
xki kj
Ei
=
w
(yi
wj ij )ij
j
2
k
j
j
j

Rseaux fonctions de base radiales


2 centres

113

5 centres

2
echantillon
y(x)
RBF

1.5

echantillon
y(x)
RBF

1.5

0.5

0.5

-0.5

-0.5

-1

-1

-1.5

-1.5

-2

-2
1

10 centres

20 centres

2
echantillon
y(x)
RBF

1.5

echantillon
y(x)
RBF

1.5

0.5

0.5

-0.5

-0.5

-1

-1

-1.5

-1.5

-2

-2
1

Figure 4.3. Approximation dune fonction avec un modle RBF. Les 50 points de lchantillon
dapprentissage, reprsents sur les 4 courbes, sont gnrs comme suit : x = N (3.2, 1.6), y =
sin(x) + N (0, 0.3). La courbe y(x) est la vraie fonction (sinus), et la courbe RBF est
la sortie du modle. Avec 5 centres, lapproximation est correcte (sauf dans la partie droite o
lon a trs peu de points). Avec seulement deux centres, lerreur est suprieure, tandis quavec
10 voire 20 centres on note un overfitting important : la solution oscille et est trs sensible au
bruit.

A partir de ces quations, on peut mettre en uvre un algorithme dapprentissage


standard de minimisation de lerreur, en version batch (calcul de lerreur sur lensemble des exemple avant mise jour des paramtres) ou en ligne (mises jour aprs
chaque exemple, approche qui en gnral offre de meilleures performances). Il sagit
cependant dun problme non linaire, et lalgorithme doptimisation a de grandes
chances de rester bloqu dans un minimum local de la fonction de cot. La russite
de loptimisation dpend donc beaucoup des conditions initiales. Il est donc recommand de nutiliser loptimisation globale des paramtres par descente de gradient
quaprs un apprentissage squentiel classique (voir section prcdente). La descente
de gradient permet alors deffectuer un rglage fin des paramtres qui amliore les
performances [FOG 93].

Notons que les solutions RBF obtenues avec un apprentissage par descente de
gradient sont souvent assez diffrentes de celles obtenues par apprentissage squentiel.

114

Apprentissage connexionniste

En particulier, rien ne garantit plus la localit de chaque fonction de base (autrement


dit, les largeurs peuvent prendre des valeurs leves).

4.3.3. Modles hybrides MLP-RBF


Nous avons vu plus haut que les modles RBF taient peu appropris au traitement
de donnes de grande dimension (augmentation rapide du nombre de paramtres, sensibilit au bruit). Il est donc naturel de faire prcder ces modles dune phase de
rduction de dimension, soit par slection de variables, soit par une technique linaire
de type Analyse en composantes principales (ACP), soit encore en utilisant un rseau
de neurones de type Perceptron multicouches (MLP, voir quation 4.3). Cette dernire
solution [FOG 93] offre la possibilit dutiliser des traitements non linaires et permet
un apprentissage conjoint des deux modules (MLP et RBF) par descente de gradient,
afin dassurer loptimalit de la solution.
Les rseaux MLP peuvent tre utiliss pour la compression de donnes (rseaux
auto-associatifs) ou pour la discrimination. Parmi leurs avantages bien connus figure
la possibilit deffectuer des traitements calculs de type filtrage non linaire trs utiles
pour le traitement des images et des signaux temporels (emploi de masque de poids
partags selon la technique nomme Time delay Neural Networks), et la bonne rsistance au bruit. Leur apprentissage est toutefois nettement plus long que celui des
rseaux RBF.
La motivation de lassociation MLP/RBF est de profiter des capacits des rseaux
MLP pour lextraction de caractristiques, qui seront traites par le rseau RBF.
Lapprentissage dun systme hybride MLP/RBF se fait en plusieurs temps (figure 4.4) :
initialiser les paramtres du rseau MLP par descente de gradient ; il sagit dun
apprentissage supervis ou auto-associatif ;
remplacer la dernire couche du rseau MLP par un rseau RBF et effectuer un
apprentissage squentiel rapide (voir section 4.3.1) ;
optimiser conjointement tous les paramtres du systme MLP/RBF par descente
de gradient. Cette dernire phase permet en gnral damliorer lgrement les performances du systme.

4.3.4. Autres approches


Dautres approches ont t proposes pour lapprentissage des modles RBF, mais
sont moins utilises que la mthode squentielle expose plus haut car plus lourdes
mettre en uvre. Elles sont toutefois intressantes car elles permettent de situer les

Rseaux fonctions de base radiales

115

Couches

Entres

de type
"perceptron"

Sorties
Dernire couche MLP,
utilise seulement pour linitialisation

Copie effectue aprs initialisation

Couches

Entres

de type
"perceptron"

Sorties

Rseau RBF

Figure 4.4. Apprentissage dun systme hybride MLP/RBF. Afin dviter les minimums locaux
et dacclrer lapprentissage, on commence par initialiser les couches MLP seules ; aprs
convergence, on remplace la dernire couche du rseau MLP par un rseau RBF

modles RBF dans le contexte plus large de lapprentissage statistique. Nous dcrirons
brivement les techniques bases sur lalgorithme Expectation Minimization (EM) et
les machines vecteurs de support (SVM).
4.3.4.1. Mthode EM
La mthode EM [DEM 77] est un algorithme gnral qui peut sutiliser pour calculer une estimation de type Maximum de vraisemblance des paramtres dun modle.
Cet algorithme a t utilis pour lapprentissage de nombreux systmes connexionnistes, dans un cadre supervis ou non supervis, pour la discrimination, la classification ou lapproximation de fonctions.
Lide est de considrer le modle RBF comme un modle de mixture, la densit
de probabilit des donnes tant de la forme :
X
p(x) =
P(i)i (x)
i

o les paramtres P (i) sont les coefficients de la mixture, ici interprts comme les
probabilits a priori que les donnes aient t gnres par la composante i de la
mixture. La fonction de vraisemblance est :
Y
p(xn )
L=
n

116

Apprentissage connexionniste

Lalgorithme EM a t appliqu lapprentissage des RBF par plusieurs auteurs


([BIS 95, ORR 98], et plus rcemment [LZ 03] qui proposent une formulation permettant un apprentissage EM rapide).
4.3.4.2. Machines vecteurs support (SVM)
Les SVM, proposes par Vapnik au dbut des annes 90 [BOS 92, VAP 95], sont
bases sur le principe de minimisation structurelle du risque (MSR). Nous rappelons
brivement ci-aprs les principes de base de ces approches. Le lecteur intress pourra
consulter [BUR 98] pour une excellente introduction aux SVM et [VAP 98, SCH 98]
pour des tudes dtailles.
Modle statistique de lapprentissage
Nous prsentons ici trs brivement la formulation statistique de lapprentissage
propose par Vapnik [VAP 95] et qui dbouche sur les SVM. Le chapitre 10 discute
ces thmes de faon plus appronfondie.
Nous nous plaons ici dans le cas de la discrimination 2 classes. On dispose
dun chantillon de m exemples, xi Rn , la classe de xi tant donne par yi = 1.
On suppose quil existe une distribution de probabilit P (x, y), inconnue, de laquelle
est issu notre chantillon. Le but de lapprentissage est ici destimer lapplication
associant y x. Le systme discriminant est dfini par lensemble des applications
x 7 f (x; ) = 1, la fonction f tant choisie dans un espace . Par exemple, si
dsigne lensemble des polynmes de degr n (seuills vers 1, 1), dnotera le
vecteur des coefficients du polynme. De faon gnrale, indice les fonctions dans
lespace de recherche , et nest pas ncessairement un paramtre dans Rk . Lapprentissage consiste dterminer la valeur optimale de , qui minimise le taux derreur
moyen sur toutes les formes possibles, que lon appelle le risque :
Z
1
R() =
|y f (x; )|dP (x, y)
2
P tant inconnu, le risque lest aussi ; par contre, on peut mesurer le risque empirique sur lchantillon :
Rm () =

m
1 X
|yi f (xi ; )|
2l i=1

La restriction de la recherche aux fonctions de lespace est trs importante. Si on


lve cette restriction, il est trs facile de construire un systme discriminant donnant un
risque empirique nul (nimporte quelle fonction f telle que f (xi ) = yi ), mais une telle
fonction ne minimisera pas forcment le risque R (sur-apprentissage, ou overfitting).

Rseaux fonctions de base radiales

117

A loppos, si lon choisit une classe trop petite, il peut tre impossible dy trouver
une bonne solution. La dimension VC, note h, permet de caractriser de ce point de
vue la richesse dune classe de fonctions2.
Vapnik propose des bornes reliant le risque vrai R au risque empirique mesur
sur lensemble dapprentissage. Avec la probabilit 1 , lingalit suivante est
vraie [VAP 95] :

R() Rm () +

1
(h(log(2m/h) + 1) log(/4))
m

[4.5]

Lapproche minimisation structurelle du risque (MSR) consiste minimiser


cette borne (en choisissant la bonne classe de fonctions) au lieu de minimiser simplement le risque empirique.
Machines vecteurs de vSupport (SVM)
Les SVM sont inspires de la mthode MSR. Lide de base est de minimiser la
borne sur R en fixant (lorsque cest possible) le risque empirique Rm 0 puis en minimisant le deuxime terme pour trouver la meilleure valeur de h. Dans le cas gnral,
il nest pas possible de fixer le risque empirique : on recherche alors un compromis
entre la minimisation de lerreur sur lensemble dapprentissage et la capacit de gnralisation (minimisation du membre droit de lquation 4.5).
Supposons dans un premier temps que lchantillon (xi , yi ), i = 1, ..., m (o y1 =
1 donne la classe de chaque exemple) soit linairement sparable ; il existe alors un
hyperplan w.x + b tel que :
wi .xi + b 1
wi .xi + b 1

si yi = 1

[4.6]

si yi = 1

[4.7]

Dans ce cas, on peut montrer [VAP 95] que la dimension VC h de la famille des
classifieurs bass sur les fonctions f (x; ) = w.x + b avec kwk < A est borne par :
h min(r2 A2 , n) + 1

2. On utilise la dimension VC de la classe de fonctions de perte associes aux modles, voir


chapitre 10.

118

Apprentissage connexionniste

o n est la dimension des entres x, r le rayon de la plus petite sphre entourant tous
les points xi .
Ainsi, si lon minimise kwk, on minimise le deuxime terme de lingalit (4.5).
On peut trs facilement constater que lhyperplan qui minimise kwk tout en respectant (4.6) et (4.7) est tel quil maximise la marge, cest--dire la distance au point xi
le plus proche. Il est assez naturel que le systme gnralisant le mieux soit celui qui
passe le plus loin de tous les exemples.
Pour trouver cet hyperplan, on peut minimiser = 21 w.w sous les contraintes
yi .f (xi , w, b) 1, i = 1...m, qui rsument les ingalits (4.6) et (4.7). Nous ne
dtaillons pas ici lobtention de la solution (voir [BUR 98] ou [VAP 95]) ; en crivant
le lagrangien, on montre que la solution f scrit sous la forme :

f (x) = w0 .x + b =

[4.8]

i xi .x + b

o i est le multiplicateur de Lagrange associ chaque exemple. Les exemples xi


qui interviennent dans la solution (i 6= 0) sont nomms vecteurs de support. Ils
correspondent aux exemples proches de la frontire de dcision, et sont situs sur la
marge (voir figure 4.5).
Frontiere de decision

Marge

Figure 4.5. Sparation linaire optimale. Les trois vecteurs de support


sont cercls

Cette approche stend au cas o les donnes ne sont pas sparables par f en relchant les contraintes (4.6) et (4.7) grce des variables dcart i 0 qui permettent

Rseaux fonctions de base radiales

119

certains points de se situer du mauvais ct de la frontire :


wi .xi + b 1 i

si

yi = 1

wi .xi + b 1 + i

si

yi = 1

[4.9]
[4.10]

P
Il faut alors minimiser i i , et on montre [VAP 95] que lon obtient alors la mme
solution que prcdemment, avec une contrainte supplmentaire : i C, o C est
une constante positive qui permet de doser limportance que lon accorde a priori aux
carts. Lintroduction de cet hyperparamtre, dont la dtermination est le plus souvent
effectue par validation croise, est li au fait que lapproche SVM ne permet pas une
optimisation directe de lquation 4.5 (voir aussi sur ce thme le chapitre 10).
Les SVM stendent trs lgamment pour construire des modles non linaires
en remarquant que dans la solution (4.8), seul intervient le produit scalaire entre deux
points, et que nous navons aucun moment utilis de proprits spciales de ce produit scalaire. On peut utiliser comme produit scalaire toute fonction noyau symtrique
K(x, y) respectant certaines conditions (conditions de Mercer [VAP 95, BUR 98]), et
obtenir un comportement non linaire :
f (x) =

m
X

yi i K(xi , x) + b

i=1

(notons que les coefficients i sont nuls pour tous les points qui ne sont pas vecteurs
de support.)
Par exemple, on construit des machines polynmiales de degr p avec K(x, y) =
(x.y + 1)p , et les machines radiales avec :

(x xi )2
K(x, xi ) = exp
2 2
o fixe le caractre local de lestimation.
Dans ce dernier cas, la fonction calcule la mme forme quun systme RBF :

m
X
(x xi )2
f (x) =
yi i exp
+b
2 2
i=1
Lapprentissage SVM dtermine automatiquement les centres (un sous-ensemble
des exemples) et les poids. Le paramtre est global, il concerne tous les centres,
contrairement aux modles dcrits dans les sections prcdentes.

120

Apprentissage connexionniste

Figure 4.6. Solution SVM avec noyau RBF sur un problme de dimension 2. Il sagit de distinguer les croix droites des croix obliques. La solution utilise 8 vecteurs supports (points cercls)

On trouvera une comparaison exprimentale dtaille des SVM RBF et des RBF
traditionnelles sur des tches de discrimination dans [SCH 97]. Les principales
conclusions de cette tude sont :
les centres choisis par la mthode SVM ne sont pas situs prs des centres de
gravit des exemples, mais au contraire prs des frontires entre les classes (voir figure 4.6). Cela permet en gnral dannuler lerreur de classement sur lensemble
dapprentissage ;
dans tous les cas tests, lerreur de gnralisation obtenue par les SVM est plus
faible.
Les approches SVM prsentent cependant quelques inconvnients, en particulier
lis la difficult de traiter de grands ensembles de donnes (plus de 104 exemples
environ) et la difficult du choix des paramtres (C et ) qui oblige recourir de
laborieuses procdures de validation croise.

4.4. Conclusion
Les modles RBF ont t trs utiliss depuis la fin des annes 80, et il serait impossible den dresser la liste des applications. On trouve de nombreuses utilisations en
prvision des sries temporelles (voir par exemple [YEE 01]). Dans le domaine de la
reconnaissance dimage ou de signal, il est dusage de faire prcder le modle RBF
dune extraction de caractristiques (filtrage, contours, textures...) afin de rduire la
dimension des entres.

Rseaux fonctions de base radiales

121

Il est facile de tester les divers modles RBF grce aux nombreuses implmentations libres disponibles (citons Torch en C++ [COL 02] ou les codes Matlab de Mark
Orr3 [ORR 00]).
Ltude des publications scientifiques sur le domaine montre quaprs une certaine
effervescence au dbut des annes 90, les recherches sur ce thme se sont stabilises
depuis quelques annes, au profit en particulier des mthodes base de noyaux (volutions des machines vecteur de support mentionnes dans ce chapitre).

4.5. Bibliographie
[BIS 90] B ISHOP C., Curvature-driven smoothing in backpropagation neural networks ,
Proceedings of INNC Paris, vol. 2, page749, 1990.
[BIS 95] B ISHOP C. M., Neural networks for pattern recognition, Oxford University Press,
Oxford, UK, UK, 1995.
[BOS 92] B OSER B. E., G UYON I. M., VAPNIK V. N., A Training Algorithm for Optimal
Margin Classifiers , H AUSSLER D., Ed., 5th Annual ACM Workshop on COLT, Pittsburgh,
PA, ACM Press, p. 144-152, 1992.
[BOT 95] B OTTOU L., B ENGIO Y., Convergence Properties of the K-Means Algorithm ,
Advances in Neural Information Processing Systems, vol. 7, Denver, MIT Press, 1995.
[BRO 88] B ROOMHEAD D., L OWE D., Multivariate functional interpolation and adaptative
networks , Complex Systems, vol. 2, 1988.
[BUH 03] B UHMANN M. D., Radial Basis Functions, Cambridge University Press, Cambridge, 2003.
[BUR 98] B URGES C. J. C., A Tutorial on Support Vector Machines for Pattern Recognition , Data Mining and Knowledge Discovery, vol. 2, n 2, p. 1-47, 1998.
[COL 02] C OLLOBERT R., B ENGIO S., M ARITHOZ J., Torch : a modular machine learning
software library, Rapport n 02-46, IDIAP, 2002.
[DEM 77] D EMPSTER A. P., L AIRD N., RUBIN D. B., Maximum likelihood from incomplete data via the EM algorithm (with discussion) , Journals of Royal Statistics Society B,
vol. 39, p. 1-38, 1977.
[FOG 93] F OGELMAN S OULI F., L AMY B., V IENNET E., Multi-Modular Neural Networks
Architectures for Pattern Recognition : Applications in Optical Characters Recognition and
Human Face Recognition , Int. J. Pattern Recognition and Artificial Intelligence, vol. 7,
n 4, p. 721-755, 1993, Extended version as Tech. Report 827, LRI 1993.
[HAS 90] H ASTIE T. J., T IBSHIRANI R. J., Generalized additive models, London : Chapman
& Hall, 1990.
3. disponibles sur http ://www.anc.ed.ac.uk/ mjo/rbf.html

122

Apprentissage connexionniste

[HOE 62] H OERL A., Application of ridge analysis to regression problems , Chemical
Engineering Progress, vol. 58, p. 54-59, 1962.
[LZ 03] L ZARO M., S ANTAMARA I., PANTALEN C., A new EM-based training algorithm for RBF networks , Neural Networks, vol. 16, p. 69-77, janvier 2003.
[MAC 67] M AC Q UEEN J., Some Methods for Classification and Analysis of Multivariate
Observations , Proc. of the fifth Berkeley Symposium on Mathematics, Statistics and Probabilities, vol. 1, p. 281-297, 1967.
[MOO 89] M OODY J., DARKEN C., Fast Learning in Networks of Locally-tuned Processing
Units , Neural Computation, vol. 1, p. 281-294, 1989.
[ORR 95] O RR M. J. L., Regularization in the Selection of Radial Basis Function Centers ,
Neural Computation, vol. 7, p. 606-623, 1995.
[ORR 98] O RR M., An EM Algorithm for Regularised RBF Networks , International
Conference on Neural Networks and Brain, 1998.
[ORR 00] O RR M., H ALLAM J., M URRAY A., L EONARD T., Assessing RBF networks
using DELVE , International Journal of Neural Systems, vol. 10, p. 397-415, 2000.
[PAR 91] PARK J., S ANDBERG I. W., Universal Approximation Using Radial-BasisFunction Networks , Neural Computation, vol. 3, p. 246-257, 1991.
[POG 90] P OGGIO T., G IROSI F., Networks for Approximation and Learning , Proceedings
of the IEEE, vol. 78, n 9, p. 1481-1497, septembre 1990.
[POW 87] P OWELL M. J. D., Radial basis functions for multivariable interpolation : a review , Algorithms for approximation, New York, NY, USA, Clarendon Press, p. 143-167,
1987.
[RIC 64] R ICE J., The Approximation of Functions, vol. 1, Addison-Wesley, Reading, MA,
1964.
[SCH 97] S CHLKOPF B., S UNG K., B URGES C., G IROSI F., N IYOGI P., P OGGIO T., VAP NIK V., Comparing support vector machines with Gaussian kernels to radial basis function
classifiers , IEEE Trans. Sign. Processing, vol. 45, p. 2758-2765, 1997, AI Memo n 1599,
MIT, Cambridge.
[SCH 98] S CHLKOPF B., B URGES C., S MOLA A., Eds., Advances in Kernel Methods - Support Vector Learning, MIT Press, Cambridge, USA, 1998.
[TIK 77] T IKHONOV A., A RSENIN V., Solutions of Ill-posed Problems, W.H. Winston, Washington, D.C., 1977.
[VAP 95] VAPNIK V., The Nature of Statistical Learning Theory, Springer, New York, NY,
USA, 1995.
[VAP 98] VAPNIK V., Statistical Learning Theory, Wiley, New York, NY, USA, 1998.
[YEE 01] Y EE P. V., H AYKIN S., Regularized Radial Basis Function Networks : Theory and
Applications, Wiley, New York, NY, USA, 2001.