Vous êtes sur la page 1sur 10

Sparatrices Vastes Marges Cette technique dapprentissage a t cre par Vladimir Vapnik au dbut des annes 80.

. Ce dernier travaille actuellement AT&T Bells Laboratory. Cette technique ne connat l essor et le succs que depuis quelques annes. Lide principale de cette technique rside en la sparation des classes par un hyperplan qui maximise la marge entre elles. Nous allons expliquer cette mthode. Pour cela nous allons nous placer dans le cas o les donnes sont linairement sparables. Nous traiterons en dtails le cas linaire et nous verrons assez succinctement le cas non linaire. Avant de rentrer dans le vif du sujet, nous allons dabord prsenter quelques notions ncessaires la comprhension de ce sujet. Avant de rentrer dans les dtails, nous allons poser quelques notions qui permettront de mieux comprendre la suite.

I-Quelques notions
1- quation dun hyperplan ou de frontire de dcision : F ( x ) ! w t .x  b 2- Distance dun point x par rapport lhyperplan :
F (X ) w O || w || est la norme euclidienne. D (x) !

3- Hyperplan optimal : Cest un hyperplan qui classifie correctement les donnes lorsque cela est possible et qui se trouve le plus loin possible de tous les exemples. Supposons que nous avons le cas illustr par la figure ci-dessous. Nous pouvons trouver plusieurs hyperplans. Cependant, parmi tous ces hyperplans seuls quelques un sont des hyperplans optimaux. Les hyperplans qui sont en pointills sont valides. En effet, ils sparent bien les exemples. Mais ils ne sont pas optimaux. Ils sont trop proches de lespace de reprsentation. Dans notre exemple, lhyperplan en trait plein est optimal. Il se trouve en effet le plus loin possible de tous les exemples. On peut mme dire quil se trouve au milieu des espaces de reprsentation.

4- Marge

Cette notion de marge est trs importante pour bien comprendre la suite. La marge est la distance le plus proche entre les exemples dapprentissage et la surface de dcision. Les exemples d'apprentissage sont supposs tre tous correctement classifis par cette surface de dcision).

Marge

Aprs avoir prsent les notions, nous allons maintenant entrer dans le vif du sujet. Nous allons, tout dabord, voir en dtail le cas sparable linaire.

II- Cas sparable linaire


Supposons un espace dapprentissage {(x1,y1 ),(x2,y2),,(xn,yn)}. Avec xi Rn et yi {1,+1}. On suppose quil existe une sparatrice linaire permettant de distinguer les exemples positifs et les exemples ngatifs. Notre objectif est de trouver cette sparatrice qui soit en plus optimale. Cela revient chercher lquation f(x)= wT . x + b. Pour cela deux points sont ncessaires.  Le premier : 0 erreur dapprentissage Cela revient dire quil faut vrifier : (yi = -1) => wT . x + b < 0 (yi = 1 ) => wT . x + b > 0 Ce qui est quivalent vrifier yi [wT . x + b] > 0  Le second : maximiser la marge Lorsquil existe une sparation linaire entre le point dapprentissage, il en existe une infinit. Parmi cette infinit de sparations linaires, nous pouvons chercher celle qui est au milieu des deux classes. Cependant, il faut que la marge entre cette sparatrice et les points dexemples puissent bien gnraliser le cas. La marge doit tre la plus grande possible. Mathmatiquement :

Pour obtenir une marge importante il faut minimiser || w || ou de manire quivalente 1 . || w || 2

wx+ b=1
Marges

wx+b=0
Marges

wx+ b=-1

+ + + + + + + + + + + + +

Trouver lhyperplan optimal qui spare les donnes consiste rsoudre le problme qui porte sur les paramtres w et b. Minimiser
1 w 2
2

Avec les contraintes

y i ( w t .x  b) u 1 yi ( w t .x  b ) u 0

Nous pouvons dmontrer ce rsultat : Nous savons que pour avoir zro erreurs nous devons avoir :

Et que la marge vaut

d!

1 ( w t .x  b ) . w yi ( 1 ( wt .x  b)) u d . w 1 1 ( w t .x  b)) u w w

On peut fusionner ces deux rsultats :

d! En posant

1 w

nous obtenons

yi (

Soit encore :

y i ( wt .x  b ) u 1 .

Nous allons maintenant compliquer les choses pour les rendre plus simples.

III-Reparamtrisation astucieuse
On va utiliser le fait que la plupart des exemples ne sont pas des points de support, et que dans le cas de la fonction de dcision linaire la solution a forcment la forme d'une combinaison linaire des exemples.

w ! E i .xi
i

O les

i sont

des scalaires et

i>

0. Ce qui fait que nous pouvons rcrire la formule ()

( x ) ! E i .( xi x)
i

On utilise ensuite une fonction que lon appelle Lagrangien qui se prsente sous la forme suivante :
l l 1 2 t Lp ! w  E i yi ( w xi  b)  E i 2 i !1 i !1

Cette fonction incorpore des informations sur la fonction objectifs et sur les contraintes et dont la stationnarit peut tre utilise pour dtecter les solutions. Le problme est ramen minimiser Lp par rapport w et b sous les contraintes que la driv par rapport aux i soient nulles et en ayant i > 0. Daprs la thorie de loptimisation, un problme doptimisation possde une forme duale dans le cas o la fonctions objectif et les contraintes sont strictement convexes. Dans ce cas, la rsolution de lexpression duale du problme est quivalente la solution du problme original. Dans notre cas, en passant la formulation duale, le problme revient, non plus minimiser, mais maximiser Lp sous les contraintes

xLp xLp !0 , !0 xw xb

et

i>

0.

Lannulation des drives partielles donne :

w ! E i yi xi
i

et

E y
i i

! 0.
4

En rinjectant dans le lagrangien nous obtenons le lagrangien dual suivant :

Lp ! E i 
i

1 E iE j yi y j xi .x j 2 i, j

quil faut maximiser.

Pourquoi cest astucieux ? On peut montrer, daprs Karush-Khun-Tucker, que seule les points qui sont sur lhyperplan frontire cest dire ( w .x  b ) ! s 1 jouent un rle. De plus, la plupart des multiplicateur Langrangien i sont nuls, et les xi associs des i non nuls sont appels vecteur support par Vapnik. Et ce sont eux qui dterminent lhyperplan optimal. Cest un tour de force qui est remarquable. En effet, parmi un amas dexemples, seuls quelques uns seront utiles pour dterminer lhyperplan optimal.
t
Vecteur Support

Marges

Marges

+ +

+ +

+ +

+ +

+ +

Donc, pour trouver lhyperplan optimal, il faut dabord chercher les multiplicateurs Lagrangien. Ds que nous avons les solutions i . Nous pouvons trouver la solution w=y ixi. Puis w0 est obtenu en utilisant nimporte quel vecteur support dans lquation. Dans ce cas, trouver lhyperplan optimal consiste rsoudre le problme qui ne se porte, maintenant, que sur les i .

1 l L( ) = E i  E iE j y i y j ( x i x j ) 2 i !1 i !1
l l

E i yi ! 0
5

i!1

Lquation (1) et lquation (2) ont la mme solution.


E i 0

Ds que nous avons la solution i, nous pouvons trouver la solution w= obtenu en utilisant nimporte vecteur support dans lquation.

i yi xi

. Puis b est

b !

O x-1 est un point support de la classe ngatif, et x1 celui de la classe positif Cette reparamtrisation permet dobtenir des proprits intressante qui sont indiqu ci dessous :  Une solution unique ( i.e <w,b>)  Dpend uniquement du calcul interne (xi,xj).  Si i > 0 le point dexemple est un vecteur de support. Le calcul de lhyperplan requiert un produit interne x i.xj. Cela va avoir une rpercussion trs importante. Cest ce que nous allons tudier maintenant en examinant le cas non linaire sparable.

1 ( w . x  1  w . x1 ) 2

IV- Cas non linaire


Cest un dveloppement assez rcent (93) qui rend la thorie des Sparatrices Vastes Marges beaucoup plus intressante. Nous allons seulement voir le principe. Maintenant, nous avons un problme non linaire traiter mais toujours sparable. Les hyperplans ne suffissent plus traiter ce genre de cas. Nous allons voir comment les SVM rsolvent ce type de problme.

Pour cela, Vapnik introduit deux trucs :  1er truc : On projette les x sur un espace plus grande dimension avec une fonction vectorielle N. Cette espace peut tre infinie. F(x) = w . N(x) F(x) = i N(xi) N(x)

Espace dentre
N

Espace de reprsentation

Illustrons cela par un exemple. Soit un espace dentre x1 et x.

x1

x2

x1 x2 2x 1 2x2 2x1 x2 1

x2

x2

x1 x1 Maintenant, nous pouvons sparer cela en appliquant la mthode vue dans le paragraphe II.  2me truc : Cest de choisir la fonction N tel que le produit scalaire des N ne soit pas coteux raliser. De plus, il nest pas ncessaire de connatre explicitement N, puisque seule K intervient dans les calculs. On crit donc : F(x) = i K(xi,x) i o K(u,v) doit tre une fonction symtrique (c'est un noyau) qui satisfait certaines proprits mathmatiques (pour reprsenter un produit scalaire ). Les fonctions habituellement utilis sont : Des polynmes : K(u,v) = (u.v +1)d Des gaussiennes : K(u,v) =

 x  y / 2W

Nous allons rsoudre, pour terminer notre prsentation des SVM ,le problme du ou exclusif qui est un cas non linaire. Exemple de rsolution : Table 1. Le problme du XOR
Vecteur dentr, x (-1,-1) (-1,+1) (+1,-1) (+1,+1)

Rponse dsir, d
-1 +1 +1 -1

Nous allons prendre une fonction polynomial :

K ( x, x i ) ! (1  x T x i ) 2
nous obtenons 9 1 ( x, x i ) ! 1 1 1 1 1 9 1 1 1 9 1 1 1 9

o x=[x1,x2]T , xi=[xi1,xi2]T.

Utilisons la fonction de lagrange Q(a ) !

a
i !1

= a1+a2+a3+a4-

1 (9a12-2a1a2-2a1a3+2a1a4+9a22+2a2a3-2a2a4+9a32-2a3a4+9a42) 2

Optimisation de Q(a) : 9 a 1  a 2  a 3  a 4 ! 1   a1 9 a 2  a 3  a 4 ! 1  a1  a 2  9 a 3  a 4 ! 1 1  a 2  a 3  9a 4 ! 1 a Aprs rsolution nous obtenons: a1=a2=a3=a4=1/8, et la valeur optimal de Q(a) est . A cause du produit interne du noyau K(x,xi) et en prenant ( x, x i ) ! N ( x)N ( x i ) nous avons N ( x i ) ! [1, x i1 , 2 x i1 x i 2 , x i 2 , 2 x i1 , 2 x i 2 ]T Nous obtenons alors : w0 ! a i d i N ( xi )
i !1 N 2 2

1 = [ N ( x1 )  N ( x 2 )  N ( x 3 )  N ( x 4 )] 8 1 1 1 1 1 1 1 1 2  2  2 1    =  8 1 1 1 1  2  2 2  2 2  2 2 2 2

1 N N ai a j d i d j ( xi , x j ) 2 i !1 j !1

0 0  1 / 2 = 0 0 0 (Remarque : le premier lment de w0 indique que b vaut zro.) Lhyperplan optimal est dfinie par w0 N ( x) ! 0 , ce qui correspond ,
T

1 2 x1 2 x1 x 2 1 0,0, ,0,0,0 2 !0 2 x2 2 x1 2x2 qui est rduit : -x1x2=0 Cest lhyperplan optimal.

Bibliographie slective : C .J.C.Burges A tutorial on support vector machines for pattern recognition.

10