Vous êtes sur la page 1sur 16

Apprentissage de Mlanges de Gaussiens par Maximisation de la marge avec SMO

Trinh Minh Tri DO1 , Thierry Artires


LIP6, Universit Pierre et Marie Curie Paris, France
Rsum : Les modles de Mlange de lois Gaussiennes (MG) ont ts utiliss dans de nombreux domaines, par exemple pour le traitement et la reconnaissance des images ou de la parole, o ils sont traditionnellement appris de faon non discriminante. Rcemment des travaux ont port sur lapprentissage discriminants de tels modles, travers notamment la maximisation de la marge. Lide de ces travaux consiste formuler lapprentissage discriminant de ces modles comme un problme de maximisation de la marge et de le mettre sous la forme dun problme doptimisation convexe, pour lequel des techniques doptimisation de type descente de gradient projet peuvent tre employes. Nous nous inspirons ici de ces travaux et proposons une nouvelle formulation du problme permettant lemploi dun algorithme de type SMO, popularis pour les Machines Vecteurs de Support, plus performant et plus rapide que la descente de gradient. Mots-cls : apprentissage discriminant, maximisation de la marge, mlange Gaussien, SMO

Introduction

Les modles de Mlange de lois Gaussiennes (MG) ont ts utiliss dans de nombreux domaines, par exemple pour le traitement et la reconnaissance des images ou de la parole, an de construire des classieurs via lapprentissage de modles gnratifs. On apprend alors un MG par classe pour modliser la densit de probabilit conditionnelle, tant donne la classe y , p(x|y ) puis on implmente la rgle de dcision Baysienne en supposant, par exemple, que les classes sont a priori quiprobables, donc en identiant argmaxy p(x|y ) p(y ). Un modle de mlange Gaussien correspond une densit de la forme :
K

p(x|y ) =
k=1

p(k ) N (x; yk , yk )

(1)

o N (x; yk , yk ) reprsente la loi gaussienne de moyenne yk et de matrice de covariance yk value en x, et p(k ) reprsente la probabilit a priori que x soit produite par la k ieme composante du mlange. Les modles de mlanges Gaussiens doivent une partie de leur popularit dune part au thorme central limite qui confre la loi Gaussienne un statut particulier parmi les lois de probabilits paramtriques et dautre part

CAp 2007

leur gnricit. Les mlanges de lois Gaussiennes permettent en effet dapproximer toute densit de probabilit, pourvu quelle prsente certains caractres de rgularit. Egalement, ces modles se sont avrs plutt robustes et relativement faciles employer. Enn, les lois gaussiennes et les mlanges de lois gaussiennes ont prot de la popularit des modles Markoviens cachs (MMC), auxquels ils sont traditionnellement attachs, et qui ont t intensivement utiliss depuis une vingtaine dannes dans le cadre du traitement, de la reconnaissance et de la segmentation de squences, par exemple en reconnaissance de la parole ou de lcriture manuscrite etc. Les MG (de mme que les MMC) sont traditionnellement appris indpendamment, classe par classe, laide dun critre de Maximum de Vraisemblance (Dempster et al., 1977; Neal & Hinton, 1998; Afy, 2005). Loptimisation est alors ralise laide dun algorithme EM (Expectation - Maximization) qui repose sur une optimisation itrative des paramtres du modle (moyennes, matrices de covariances, et probabilits a priori des composantes du mlange). Lapproche gnrative consiste apprendre de faon non discriminante un modle de densit pour chaque classe, elle est en rgle gnrale moins efcace (du point de vue du taux de classication) quune approche purement discriminante. Lapproche gnrative a pourtant t privilgie depuis longtemps dans le cas de problmes ouverts ou de donnes complexes, telles que des donnes squentielles, pour lesquelles il est plus dlicat de mettre en oeuvre des techniques discriminantes. Ainsi bon nombre de systmes de reconnaissance de la parole ou du locuteur ont t construits sur des modles acoustiques appris en modlisation plutt quen discrimination. Nous nous intressons ici lapprentissage discriminants de mlanges Gaussiens, notre but tant dtendre par la suite ces travaux lapprentissage de modles de squences de type Markovien. Divers travaux ont port sur lapprentissage discriminant de systmes qui taient jusque l appris de faon non discriminante. Ainsi quelques approches discriminantes ont t proposes pour la classication de squences (plus rarement pour la segmentation). Les premires approches ont consist exploiter des critres discriminants tels que le Maximum de Vraisemblance Conditionnelle (Nadas, 1983), le Maximum dInformation Mutuelle (L.R. et al., 1986; Normandin, 1991; Dahmen et al., 1999; Valtchev et al., 1997) ou le Minimum dErreur de Classication (Juang & Katagiri, 1992) pour apprendre des modles gnratifs tels que les MG et les MMC. (LeCun et al., 1998) dresse un panorama dun certain nombre de ces mthodes. (Tong & Koller, 2000) proposent dapprendre un classieur discriminant, qui minimise la probabilit derreur calcule laide de modles gnratifs. Plus rcemment dautres techniques ont consist construire des fonctions discriminantes partir de modles gnratifs, comme lutilisation des scores de Fisher (Jaakkola et al., 1999), ou lexploitation de noyaux entre modles dans (Moreno et al., 2004). Enn, ces dernires annes, plusieurs approches ont t proposes pour combiner les modles Markoviens, exploitant des densits de probabilits de type mlanges de Gaussiennes, et les algorithmes discriminants des machines vecteurs de supports (Vapnik, 1999; Kruger et al., 2006; Li et al., 2005; Sha & Saul, 2006, 2007). Par exemple, la technique propose dans (Sha & Saul, 2006, 2007) vise apprendre des MG (puis des MMC Gaussiens) par maximisation de la marge. Ces travaux sur lapprentissage de modles MG par maximisation de la marge sont trs prometteurs. Leur application est pourtant

SMO pour MG

limite, soit par la nature des modles appris (e.g. seules les vecteurs moyennes sont appris dans (Li et al., 2005)), soit dans leur efcacit, la convergence de lalgorithme propos dans (Sha & Saul, 2006, 2007) est par exemple assez lente et sensible linitialisation. Le travail dcrit ici est inspir des travaux de (Sha & Saul, 2006, 2007) et vise le mme objectif, lapprentissage de modles gnratifs bass sur des MG par maximisation de la marge. Nous nous concentrons ici sur lapprentissage de MG et proposons un algorithme qui diffre en plusieurs points de celui propos par (Sha & Saul, 2006, 2007). Le coeur de notre travail tient dans la faon dont nous avons trait les contraintes convexes (caractre semi-dni positif des matrices de covariance) et dans la formulation particulire du problme doptimisation qui rend possible lutilisation dun algorithme doptimisation du type SMO (Squential Minimal Optimization) (Platt, 1998; Crammer & Singer, 2002; Aiolli & Sperduti, 2003), rput nettement plus performant et plus rapide que les algorithmes de descente de gradient. Notre algorithme prsente des avantages sur lalgorithme de gradient projet (Bertsekas, 1999) utilis dans (Sha & Saul, 2006, 2007). Tout dabord, par notre prise en compte des contraintes, nous vitons ltape de projection de la solution dans lespace des contraintes. Cette tape est dune part assez lourde dans le cas de contraintes sur les matrices de covariance, et est dautre part source derreurs numriques lorsque la dimension des donnes est importante. Notre approche, base sur lalgorithme SMO, converge bien plus rapidement et mieux si bien que notre approche est exprimentalement plus performante et moins sensible linitialisation que lalgorithme original propos par les auteurs. Dans la suite, nous prsentons lalgorithme de dpart, propos dans (Sha & Saul, 2006, 2007) en Section 2. Puis en Section 3, nous dtaillons notre approche en reformulant le problme sous sa forme duale et nous explicitons lalgorithme SMO dans notre cas. Enn, nous fournissons en Section 4 des rsultats exprimentaux permettant dvaluer lapport de notre algorithme en termes de vitesse de convergence et de performance pour le problme de classication de chifres manuscrits, et sur deux bases de donnes internationales de rfrence.

Classication avec des MG

Nous nous focalisons ici sur un problme de discrimination pour des donnes vectorielles en dimension d, le but est de dterminer le label y correspondant une donne x = [x1 , x2 , .., xd ]. Nous dcrivons ici brivement lapproche classiquement employe pour classier des donnes avec des modles Gaussiens, puis nous prsentons les travaux proposs dans (Sha & Saul, 2006, 2007).

2.1

Approche non discriminante

En supposant une loi de probabilit sur lensemble des vecteurs et les classes, lapproche probabiliste consiste estimer cette loi de probabilit et classier en dterminant la classe y de probabilit a posteriori maximale, ou de faon quivalente la classe

CAp 2007

maximisant la probabilit jointe P (x, y ), cest cette dernire stratgie qui est implmente en pratique. La fonction de dcision est dnie par : y = argmax p(x|y ) p(y )
y

(2)

o p(x|y ) est la densit de probabilit de la classe y donne par lquation (1), et p(y ) est la probabilit a priori de la classe y . Les lois composantes des densits sont des lois normales du type : p(x|Ny,k ) = 1 1 1 exp (x y,k ) y,k (x y,k ) d 2 (2 ) |y,k | (3)

o Ny,k reprsente la k ieme loi gaussienne de la densit de la classe y , y,k et y,k reprsentent respectivement la moyenne et la matrice de covariance de la k ieme loi gaussienne de la densit de la classe y . Lapprentissage consiste rechercher les paramtres des modles des densits maximisant la vraisemblance (MV) de lensemble des donnes dapprentissage (x1 , y 1), .., (xN , yN ). Loptimisation est ralise par un algorithme EM qui consiste itrer deux tapes jusqu convergence : une tape destimation des variables caches (quelle composante a produit quelles donnes dapprentissage) et une tape de maximisation. Ces deux tapes sont itres jusqu la convergence. Dans la pratique des problmes apparaissent souvent dans lapprentissage de tels modles de mlange, notamment pour des donnes en " grande " dimension. Les matrices de covariance obtenues ne sont pas toujours bien conditionnes et leur inversion pose problme. Une technique rpandue consiste rgulariser les solutions. Dans notre implmentation, chaque tape de EM, aprs ltape de r-estimation, on rgularise les matrices de covariances en ajoutant celles-ci une faible valeur sur la diagonale : y,k = y,k + Id (4)

o est en gnral choisi en fonction des valeurs sur la diagonale de la matrice. Nous nommons dans la suite cette approche, lapproche MV rgularise. Notons quune rgle de dcision alternative consiste affecter un exemple la classe dont une des lois composantes est a priori la plus probable. y = argmax max p(x|Ny,k ) p(k |y ) p(y )
y k

(5)

2.2

Approche par maximisation de la marge

Nous dcrivons ci-dessous une approche propose dans (Sha & Saul, 2006, 2007) pour apprendre des mlanges Gaussiennes en maximisant la marge. Nous prsentons le principe puis lalgorithme dapprentissage propos par les auteurs.

SMO pour MG

2.2.1

Principe

Considrons tout dabord le cas dune loi Gaussienne par classe. (Sha & Saul, 2006, 2007) ont propos de mettre la fonction de dcision sous la forme dune fonction discriminante exploitant une distance de type Mahalanobis. Considrons la matrice y dnie partir des paramtres de la loi Gaussienne de la classe y , la moyenne y et la 1 matrice de covariance inverse y = y : y = y y y y y y y y + y (6)

o y est un paramtre rel qui reprsente le logarithme de la probabilit a priori de la classe y. Notons que y est une matrice semi dnie positive car elle est linverse dune matrice de covariance, qui est elle-mme semi dnie positive. En notant z = [x, 1] = [x1 , x2 , .., xd , 1] une forme tendue, la fonction de dcision prend la forme : y = argminy z y z (7)

Lintrt de la formulation prcdente est que la fonction score, que lon souhaite optimiser, devient linaire en la matrice y . On peut donc exploiter lensemble des techniques doptimisation dveloppes notamment pour lapprentissage de Machines Vecteurs de Supports. (Sha & Saul, 2006, 2007) ont propos dapprendre les paramtres y de faon discriminante en minimisant le risque empirique par maximisation de la marge. Un exemple zi de la classe yi est bien classi si zi yi zi < zi y zi y = yi . Comme on le fait classiquement, on peut galement introduire des variables ressort pour traiter le cas de donnes non linairement sparables. Le problme doptimisation, pour une base de donnes dapprentissage (x1 , y1 ), .., (xN , yN ), scrit donc : min, sous les contraintes y + C i i zi yi zi zi y zi 1 + i i 0 y 0
y 1 2 2

iy = yi i y

(8)

o y 0 signie que la matrice y est semi-dnie positive. Notons que le premier facteur du critre ne rgularise que partiellement les matrices y , car il ne parat pas justi de rgulariser les lments de ces matrices lis la moyenne de la loi Gaussienne. Cette formulation est trs intressante dans la mesure o la fonction de cot obtenue est quadratique et o les contraintes sont soit linaires soit convexes. Notons que les contraintes de symtrie ne posant pas de problme particulier, nous les ignorons an de simplier la prsentation. An dtendre cette formulation au cas de mlanges de K gaussiennes par classe, on note yi la classe dun exemple xi , ki la composante qui la produit et ri = (ki , yi ) lidentiant de la gaussienne qui a produit xi . Pour un exemple x quelconque, on notera r = (k, y ) lidentiant correspondant. Aussi, on notera R(y ) lensemble des gaussiennes de la classe y . Dans le cas o les ri sont connus cest--dire que lon sait quelle composante a produit quelle donne (nous revenons sur le cas o cela est inconnu plus loin), le problme devient :

CAp 2007

min, s.c

2 1 +C r r 2 z i r i zi zi r zi

i i 1 + i

i 0 r 0 2.2.2 Optimisation

ir / R(yi ) i r

(9)

(Sha & Saul, 2006, 2007) proposent dliminer les variable ressort dans lquation (9) en introduisant la fonction hinge, o hinge(z ) = max(0, z ). Le problme peut alors tre transform en : min s.c
1 2

r 0 r

+C

i=1:N

r / R (yi )

hinge(1 + zi ri zi zi r zi )

(10)

Cest un problme doptimisation dont la fonction objectif est convexe et dont les contraintes sont galement convexes. On peut le rsoudre avec une technique de descente de gradient projet (Bertsekas, 1999; Ratliff et al., 2007). A chaque mise jour des paramtres, on vrie si les contraintes sont satisfaites, si ce nest pas le cas on cherche la projection de lensemble des paramtres dans lespace des paramtres satisfaisant les contraintes. Ici, on vrie que les matrices r , cest--dire les matrices inverses des matrices de covariance, sont semi-dnies positives, et si ce nest pas le cas on les projette dans lespace des matrices semi-dnies positives. Le but est de trouver la matrice qui est le plus proche de la matrice projeter mais cette solution nest pas aise trouver. Ltape de projection propose dans (Sha & Saul, 2006, 2007) est moins couteuse et consiste annuler les valeurs propres ngatives, sil en existe, de la matrice r . Comme dcrit par les auteurs, cette mthode doptimisation converge trs lentement, si bien que linitialisation doit tre la meilleure possible. En pratique, ces auteurs utilisent comme initialisation (moyennes, matrices de covariance etc) lensemble des solutions trouves par apprentissage dun mlange de Gaussiennes pour chaque classe par maximum de vraisemblance. Egalement, ils xent les variables caches ri partir de la solution MV. Aprs apprentissage, les exemples dune classe sont affects la composante de la classe de probabilit a postriori maximale. Enn, an dacclrer la convergence, ils proposent doptimiser les matrices racines carres y o r = r r . Cela rend loptimisation non convexe mais permet dviter les contraintes de semi-dnition positive et donc les tapes de projections de matrices.

Optimisation du dual pour lapprentissage de Mlanges Gaussiens par maximisation de la marge

Dans la section prcdente, nous avons dcrit le problme doptimisation obtenu dans (Sha & Saul, 2006, 2007), incluant des contraintes de semi-dnition positive (not SDP dans la suite) des matricesr . Il apparat que la prsence de ces contraintes, non linaires, interdit le passage la formulation duale du problme doptimisation, qui a t

SMO pour MG

dmontre exprimentalement comme tant plus efcace et plus able que la descente de gradient pour (Platt, 1998; Crammer & Singer, 2002; Aiolli & Sperduti, 2003). Dans la suite, nous proposons une autre formulation du problme conduisant une autre technique doptimisation, plus proche de techniques doptimisation utilises pour les machines vecteurs de support.

3.1

Mise sous forme duale

Tout dabord nous remarquons que M 0 x, xM x 0 et nous proposons de remplacer les contraintes de SDP des matrices r par un ensemble de contraintes de type xM x 0. En ne considrant cette contrainte que pour les points de la base dapprentissage, loptimisation dans lquation (9) devient une instance de programmation quadratique : min,, s.c r + C i i zi ri zi zi r zi 1 + i ir / R(yi ) i 0 i (xi t )r (xi t ) 0 i, r
r 1 2 2

(11)

o t est la moyenne totale des exemples et nest pas considre comme une variables dans la suite. Bien entendu la satisfaction des contraintes (x t )r (x t ) 0 sur lensemble des points dapprentissage ne garantit pas que r soit SPD, mais en pratique nous navons pas rencontr de cas dans nos exprimentations o la matrice ne le soit pas. Pour rendre la prsentation plus claire, nous introduisons les variables temporaires i (Aiolli & Sperduti, 2003), ce qui ne change pas la solution globale du problme. Nous obtenons le problme primal suivant : min,, s.c + C i i i 1 + i i ir / R(yi ) i zi r zi i 0 i (xi t )r (xi t ) 0 i, r
1 2 r r zi r i zi 2

(12)

La solution de ce problme doptimisation est dtermine partir du Lagrangien : L =


1 2 r

+ +

r + C i i ri i i [zi ri zi i + 1 i ] r i,r / R(yi ) i [i zi r zi ] i i i r i,r i (xi t )r (xi t )

(13)

o , , sont des multiplicateurs de Lagrange. La solution est donne par un point selle du Lagrangien, qui doit tre minimis par rapport aux paramtres , , et maximis par r r rapport aux multiplicateurs , ,, ceci sous les contraintes i 0,i 0,i 0. Au point scelle, la drivation du Lagrangien par rapport aux variables , , doit tre nulle, ce qui conduit :

CAp 2007

L ri i = 0 = 0 C i i L ri + = 0 i i
r i = 0 r / R (yi ) r r r yi i = 0

(14) (15)

r = ri +1 si r 1 si r / R(yi ) o yi = 0 sinon L =0 q q q q y i i i xi q q i yi i = = 0 = 0
q i (xi t ) (xi t ) q q yi ai xi xi

(16)

(17)

En remplaant dans lexpression du Lagrangien les expressions obtenues dans les quations (14), (15), et (17), et en liminant les termes de valeur nulle, on obtient le problme dual 1 : max, s.c
ri 1 + i i r r 2 ri r r i > 0, i > 0, i < C r r r yi i = 0 r r i yi i = 0 r r i yi i xi = 0 2

ir i r

(18)

3.2

Optimisation par SMO

Le problme dual de lquation (18) est une instance de programmation quadratique mais dont les contraintes sont plus simples manipuler que celles du problme primal de lquation (11), comme nous allons le voir. An doptimiser efcacement ce problme, nous avons cherch comment le dcomposer en plus petits problmes que lon peut rsoudre analytiquement. Cette stratgie est utilise dans les algorithmes de type SMO (Optimisation Squentielle Minimale) pour rsoudre un problme donn en un temps linaire dans le nombre dexemples dapprentissage. 3.2.1 Principe

Lide de lalgorithme SMO, utilis dans les machines vecteurs de support, consiste slectionner itrativement des exemples de lensemble dapprentissage et optimiser le plus possible la fonction objective par rapport aux variables associes lexemple slectionn (Platt, 1998; Crammer & Singer, 2002; Aiolli & Sperduti, 2003). Cette
1 Notons que les variables ont dsormais disparu dans la fonction objectif. Pour les liminer compltei r ment nous avons utilis lquation (11) pour remplacer les contraintes i 0 par les contraintes i i C .

SMO pour MG

dernire optimisation est ralise par itration dune tape doptimisation minimale, pour une paire de variables qui sont lies par une contrainte. Lide est que cette tape minimale doptimisation puisse tre ralise analytiquement. Voici le pseudo code de cet algorithme : Fonction Optimisation_globale repeat Slectionner un exemple dapprentissage x Gainx = Optimisation(x) until Gainx < epsilon Fin Fonction Gain=Optimisation(x) Gain = 0; repeat Slectionner deux variables ra, rb gain = Optimiser(x, ra, rb) Gain = Gain + gain until gain < epsilon return Gain Fin Diverses tapes de cet algorithme reposent, au moins partiellement, sur des heuristiques, cest le cas du choix de lexemple pour lequel optimiser les variables dans la boucle de la fonction Optimisation_Globale et du choix de la paire de variables dans la boucle de la fonction Optimisation. Dans notre implmentation, la slection de lexemple est ralise en valuant effectivement pour chaque exemple le gain escompt, celui-ci ntant calcul que pour une paire de variables bien choisie. Dans la fonction Optimisation la slection de la paire de variables est une tape plutt couteuse mais on peut sappuyer sur les conditions KKT pour dterminer efcacement la paire de variables optimale (Aiolli & Sperduti, 2003). 3.2.2 Application de SMO pour lapprentissage maximisation de la marge de MG

Lapplication de lalgorithme SMO dans notre cas nest pas immdiate. En effet, la r r i xi = 0 dans lquation (18) pose problme. Cette contrainte consticontrainte i yi tue en ralit un systme dquations liant des variables associes tous les exemples dapprentissage (les sommes portent sur les indices i des exemples dapprentissage). De ce fait il existe (ou il peut exister) des paires de variables que lon ne peut modier dans une tape de SMO, cest--dire telles que leurs valeurs ne peuvent tre modies tout en continuant satisfaire le systme dquations ci-dessus. En dautres termes, modier certaines variables tout en satisfaisant le systme dquations peut requrir la modication de plus de deux variables. Notons que la contrainte concerne provient des quantits dans la dernire colonne et dans la dernire ligne des matrices r , ce sont les quantits r r et r r mur + r . Nous considrerons dans la suite que ces quantits sont des variables et nous les

CAp 2007

noterons r . Cela fait sens car, pourvu que la matrice r soit inversible (en fait strictement dnie positive puisquelle est dj SDP) les quantits r = r r et r = r r mur + r peuvent tre vues comme des variables indpendantes de r . En pratique, les matrices r ne sont pas toujours inversibles mais cette stratgie conduit de bons comportements en termes de convergence. En nous appuyant sur ces lments nous proposons pour contourner le problme pos par la contrainte voque plus haut, de sparer lensemble de variables estimer en deux sous-ensembles, les matrices r dune part et le reste des paramtres r dautre part, et doptimiser alternativement lun puis lautre de ces ensembles de paramtres. Le fait que la fonction objective soit convexe et que les contraintes soient convexes en r garantit la convergence vers une solution globale. Le cas de loptimisation par rapport r est simple car linaire, nous ne le dtaillons pas ici. En revanche, nous revenons maintenant sur loptimisation par rapport aux r et dtaillons lalgorithme SMO. Nous reprenons tout dabord le problme primal de lquation (11), en considrant que loptimisation concerne les r seules : min,,, s.c r + C i i xi ri xi 2xi ri + ri i 1 + i i xi r xi 2xi r + r i 0 (xi t )r (xi t ) 0
r 1 2 2

i ir / R(yi ) i ir

(19)

Ici, les quantits r sont considres constantes 2 . Le problme de lquation (16) est toujours une instance de programme quadratique, et lon peut obtenir le dual de la mme faon que prcdemment, mais ici on nobtient queune seule quation pour L r = 0, ce qui donne : r =
i r i (xi t ) (xi t ) i r r yi ai xi xi

(20)

Nous obtenons ainsi le problme dual : max, s.c


ri 1 + i i + 2 r r ri r r i > 0, i > 0, i < C r r r yi i = 0 r r i yi i = 0 i 2 i,r r r yi (2xi r + r ) i

ir i r

(21)

o r = 3.2.3

r i (xi ) (xi )

r r yi ai xi xi

Etape lmentaire

Le problme de (21) est prt tre dcompos. Nous prsentons maintenant ltape doptimisation lmentaire correspondant un exemple xi . Les variables associes
2 Dans nos expriences, nous avons galement envisag une implmentation alternative qui consiste considrer que les paramtres r et r sont des constantes et laisser les r varier (car dni partir de r et r et r ) pendant la phase doptimisation des r .

SMO pour MG

ri r r r et i , et les contraintes sur ces variables sont i > 0,i un exemple xi sont i ri r r C ,i > 0 , et i = r . / R (yi ) i r Loptimisation des i , comme nous lavons mentionn plus haut, consiste dans un premier temps slectionner une paire de variables ra et rb (correspondant deux ra rb composantes gaussiennes), et chercher les nouvelles valeurs de i ,i maximisant ri r le dual, tout en respectant la contrainte qui lie ces variables i = r / R(yi ) i . On distingue deux cas. Dans le premier cas, une des gaussiennes est la gaussienne associe lexemple considr, xi . Sans perdre en gnralit supposons que ra = ri . rb ra Alors si on ajoute un valeur v i , on doit ajouter une valeur v i qui nappartient pas R(xi ). Loptimisation consiste alors dterminer la valeur v qui maximise le dual. Celui-ci tant une fonction quadratique de v , toutes les autres variables tant ges, on dtermine la valeur optimale de v analytiquement. Dans le second cas, les deux variables correspondent deux gaussiennes nappartenant pas R(yi ). Alors pour que ra r r / R(yi ) i ne change pas, si on ajoute une valeur v i , on doit retrancher cette rb valeur i . Le dual sexprime ici encore comme une fonction quadratique de v et on dtermine la valeur optimale de v analytiquement. Notons que si la valeur v trouve v provoque la violation dune contrainte de type ri r (i 0 ,i C ) alors on choisit la valeur v la plus proche de v mais satisfaisant r la contrainte. Par exemple : si i + v C alors on choisit v = v et sinon on choisit ri v = C i . r ne pose aucune difcult car il ny a Pour terminer, loptimisation des variables i r r pas de contraintes liant les i . i nintervient que dans lexpression de r (Cf. Eq. (21)) si bien que lon peut l encore sans difcult dterminer analytiquement le changement r optimal v de la variable i .

Expriences

Nous dcrivons ici des rsultats exprimentaux obtenus en reconnaissance de chiffres manuscrits sur deux bases de donnes internationales de rfrence, la base USPS (LeCun et al., 1989) et la base MNIST3 . La base USPS contient 7291 exemples dapprentissage et 2007 exemples de test, chaque chiffre est reprsent par une image de dimension 16x16. La base MNIST contient 60000 exemples dapprentissage et 10000 exemples de test, les images sont en dimension 28x28. Pour ces deux bases, nous avons prtrait les donnes via une analyse en composantes principales (ACP) an de rduire la dimension des donnes 50 dimensions pour les deux bases (on ne garde que les 50 composantes des images sur les 50 axes principaux dinertie). Il sagit dun prtraitement standard sur ces donnes, dcrit par exemple dans (LeCun et al., 1998). Nos expriences visent notamment comparer les rsultats obtenus par les deux mthodes doptimisations : Le gradient projet utilis avec la fonction hinge dans (Sha & Saul, 2006, 2007) et lalgorithme SMO dans notre cas. A ce titre, nous nous intressons tout dabord comparer les vitesses de convergence entre les deux mthodes. Puis nous nous intressons galement la performance pure obtenue avec chacune des deux mthodes, ainsi qu la sensibilit linitialisation. Dans toutes les expriences dcrites ici
3 http

://yann.lecun.com/exdb/mnist/index.html

CAp 2007

F IG . 1 Comparaison de la vitesse de convergence pour lalgorithme de (Sha & Saul, 2006) utilisant un gradient projet et notre algorithme utilisant SMO. Lapprentissage est ici ralis sur les donnes USPS. lapprentissage des modles par lune ou lautre des deux techniques est initialis par le rsultat dun apprentissage non discriminant. On ralise une tape dinitialisation en apprenant des modles MMG indpendamment pour chaque classe avec un algorithme EM et un critre de Maximum de Vraisemblance (MV). Cela permet dobtenir laffectation des exemples aux composantes des mlanges (i.e. les ri ) et des quantits initiales pour les moyennes de toutes les lois gaussiennes r . Nous commenons par comparer la vitesse de convergence des deux techniques. Les deux algorithmes de maximisation de la marge sont lancs partir de linitialisation MV en utilisant le mme hyper paramtre C. La gure 1 montre lvolution du critre doptimisation (le primal) en fonction du temps pour la mthode de gradient (Grad) et pour notre algorithme (SMO). La valeur absolue du temps importe peu ici, le point qui nous intresse rellement est la diffrence de convergence entre les deux mthodes. Notons ici que la mthode Grad optimise directement ce critre primal, tandis que notre mthode SMO loptimise indirectement travers la maximisation du dual. On voit bien sur ces courbes que lapproche SMO converge beaucoup plus vite que lapproche de gradient projet. Dans cette exprience, aprs 300 secondes, SMO arrive dj un point trs proche de la convergence alors quil faut 3000 secondes lalgorithme Grad pour arriver au mme point. En thorie, le problme doptimisation dans lquation (10) est convexe et on peut trouver la solution optimale par une descente de gradient projet. Mais en pratique la convergence est trs lente et lalgorithme ncessite une bonne initialisation. On observe exprimentalement que la solution trouve par lalgorithme de gradient est trs dpendante de linitialisation, car des problmes numriques em-

SMO pour MG

pchent souvent de converger jusqu la solution optimale. De ce point de vue, notre mthode apparat plus robuste et moins sensible linitialisation. Les gures suivantes (Figures (2) et (3) illustrent la sensibilit linitialisation des deux approches. Elles comparent les performances de lapproche non discriminante rgularise (EM) et des deux approches discriminantes pour diffrentes valeurs du paramtre de rgularisation (Cf Eq.(4)). Comme prcdemment le rsultat de lapprentissage MV est pris comme initialisation des approches discriminantes. La Figure 2 montre les rsultats obtenus avec deux gaussiennes par modle de mlange (i.e. K = 2 dans lEq.(1)), alors que la Figure (3) montre ces rsultats avec K = 4. On voit ici que quelle que soit linitialisation EM, et pour ces deux types de modles (K = 2 et K = 4), notre approche obtient de meilleurs rsultats que lapproche de rfrence (Sha & Saul, 2006). On voit aussi que les rsultats obtenus par notre algorithme sont moins sensibles linitialisation, ce qui est cohrent avec les rsultats obtenus prcdemment sur la convergence. Ce point est en pratique trs intressant car une bonne initialisation par EM, si elle est simple du point de vue thorique, pose le plus souvent problme et requiert une rgularisation. Or il nest pas facile de dterminer le paramtre de rgularisation "optimal" automatiquement. De ce point de vue, notre approche tant assez peu sensible linitialisation, on peut se permettre dutiliser une valeur non optimale du paramtre de rgularisation obtenue automatiquement puis dafner le modle par maximisation de la marge.

F IG . 2 Performance, sur la base USPS, de lapprentissage MV rgularis (EM), de lapproche de (Sha & Saul, 2006) (Grad) et de notre algorithme (SMO) en fonction du paramtre de rgularisation de lapprentissage MV ( dans lquation (4)). Les modles de classe sont des mlanges de deux Gaussiennes.

CAp 2007

F IG . 3 Performance, sur la base USPS, de lapprentissage MV rgularis (EM), de lapproche de (Sha & Saul, 2006) (Grad) et de notre algorithme (SMO) en fonction du paramtre de rgularisation de lapprentissage MV ( dans lquation (4)). Les modles de classe sont des mlanges de quatre Gaussiennes. TAB . 1 Taux derreur en classication sur la base USPS, pour la mthode de MV rgularise, lapproche de (Sha & Saul, 2006) (Grad) et notre approche (SMO), dans le cas o la solution MV est dtermine avec un paramtre de rgulation lev (a) et faible (b). K EM Grad SMO K EM Grad SMO 1 7.22 5.23 4.88 1 5.83 5.13 4.88 2 6.61 5.23 4.68 2 5.30 4.68 4.61 4 5.86 4.88 4.48 4 4.92 4.43 4.33 6 5.46 4.73 4.43 6 4.90 4.43 4.33 (a) (b)

Nous fournissons pour terminer des tableaux rcapitulatifs des performances des trois mthodes sur les bases USPS et MNIST, pour diffrentes valeurs de K (nombre de composantes par modle) et pour deux cas de rgularisation, une valeur faible et une valeur forte. Peu importe les valeurs exactes ici, nous voulons ici montrer les diffrences de comportement pour deux cas trs diffrents de rgularisation. Les tableaux 1a et 1b comparent les diffrentes mthodes pour une forte valeur de rgularisation (Tableau 1a) et une faible valeur de rgularisation (Tableau 1b). Tout dabord, on voit bien ici que notre algorithme permet systmatiquement dobtenir des

SMO pour MG

TAB . 2 Taux derreur en classication sur la base MNIST, pour la mthode de MV rgularise, lapproche de (Sha & Saul, 2006) (Grad) et notre approche (SMO), dans le cas o la solution MV est dtermine avec un paramtre de rgulation lev (a) et faible (b). K EM Grad SMO K EM Grad SMO 1 5.72 2.31 2.03 1 3.93 2.10 2.03 2 5.01 2.24 1.91 2 3.48 2.05 1.90 4 3.72 2.02 1.79 4 2.65 1.99 1.79 8 3.00 1.91 1.69 8 2.07 1.78 1.69 (a) (b)

performances similaires ou meilleures que lalgorithme de Gradient, ce qui correspond ce qui a t observ dans les Figures prcdentes. On note galement que notre approche est moins sensible linitialisation. Enn, on remarque que la diffrence entre les deux algorithmes est moins nette lorsque la rgularisation est plutt faible. Les tableaux 2a et 2b fournissent le mme type de rsultats pour la base MNIST. Les mmes commentaires peuvent tre tirs de ces rsultats.

Conclusion

Nous avons propos un nouvel algorithme dapprentissage de mlanges de Gaussiennes par maximisation de la marge. Pour cela, nous avons repris un formalisme propos prcdemment et qui reposait sur un algorithme de gradient projet. Nous avons revu la formulation du problme et la prise en compte de contraintes sur la semidnition positive des matrices de covariance, ce qui nous a permis de driver un nouvel algorithme dapprentissage de type SMO. Notre approche sest montre exprimentalement plus rapide en convergence, ce qui explique en partie ses meilleures performances testes en reconnaissance de chiffres manuscrits sur deux bases de donnes relles de rfrence. Nous travaillons maintenant lextension de ce type dalgorithmes au traitement de squences par lapprentissage de modles Markoviens.

Rfrences
A FIFY M. (2005). Extended baum-welch reestimation of gaussian mixture models based on reverse jensen inequality. In INTERSPEECH, p. 11131116. A IOLLI F. & S PERDUTI A. (2003). Multi-prototype support vector machine. In IJCAI, p. 541. B ERTSEKAS D. (1999). Nonlinear programming. Athena Scientic, 2nd edition. C RAMMER K. & S INGER Y. (2002). On the learnability and design of output codes for multiclass problems. Machine Learning, 47, 201. DAHMEN J., S CHLUTER R. & N EY H. (1999). Discriminative training of gaussian mixtures for image object recognition. In DAGM-Symposium, p. 205212.

CAp 2007

D EMPSTER A. P., L AIRD N. M. & RUBIN D. B. (1977). Maximum likelihood from incomplete data via the em algorithm. In Journal of the Royal Statistical Society (Series B), 39 :1-38. JAAKKOLA T., D IEKHANS M. & H AUSSLER D. (1999). Using the sher kernel method to detect remote protein homologies. In International Conference on Intelligent Systems for Molecular Biology. J UANG B.-H. & K ATAGIRI S. (1992). Discriminative learning for minimum error classication. In IEEE Trans. Acoustics, Speech, and Signal Processing. K RUGER S. E., S CHAFFONER M., K ATZ M., A NDELIC E. & W ENDEMUTH A. (2006). Mixture of support vector machines for hmm based speech recognition. In Proceedings of the 18th International Conference on Pattern Recognition. L E C UN Y., B OSER B., D ENKER J. S., S OLLA S. A., H OWARD R. E. & JACKEL L. D. (1989). Back-propagation applied to handwritten zip code recognition. Neural Computation, 1, 541551. L E C UN Y., B OTTOU L., B ENGIO Y. & H AFFNER P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 22782324. L I X., J IANG H. & L IU C. (2005). Large margin hmms for speech recognition. In Proc. of ICASSP 2005. L.R. B., P.F. B., DE S OUZA P.V. & M ERCER R. (1986). Maximum mutual information estimation of hidden markov model parameters for speech recognition. In ICASSP, p. 4952. M ORENO P. J., H O P. P. & VASCONCELOS N. (2004). A kullback-leibler divergence based kernel for svm classication in multimedia applications. In S. T HRUN , L. S AUL & B. S CHLKOPF, Eds., Advances in Neural Information Processing Systems 16, Cambridge, MA : MIT Press. NADAS A. (1983). A decision-theoretic formulation of a training problem in speech recognition and a comparison of training by unconditional versus conditional maximum likelihood. In IEEE Transactions on Acoustics, Speech and Signal Processing, p. 31(4) :814 ?817. N EAL R. & H INTON G. (1998). A view of the em algorithm that justies incremental, sparse, and other variants. In M. I. J ORDAN, Ed., Learning in Graphical Models : Kluwer. N ORMANDIN Y. (1991). Hidden markov models, maximum mutual information estimation, and the speech recognition problem. In PhD dissertation, Dept. of Electrical Eng., McGill Univ., Montreal, Canada. P LATT J. C. (1998). Sequential Minimal Optimization : A Fast Algorithm for Training Support Vector Machines. Rapport interne, Microsoft Research. 1998 John Platt. R ATLIFF N., BAGNELL J. A. & Z INKEVICH M. (2007). Subgradient methods for maximum margin structured learning. In AISTATS 2007. S HA F. & S AUL L. K. (2006). Large margin gaussian mixture modeling for phonetic classication and recognition. In Proc. of ICASSP 2006. S HA F. & S AUL L. K. (2007). Large margin hidden markov models for automatic speech recognition. In Advances in Neural Information Processing Systems 19. T ONG S. & KOLLER D. (2000). Restricted bayes optimal classiers. In AAAI/IAAI, p. 658. VALTCHEV V., O DELL J., W OODLAND P. & YOUNG . S. (1997). Mmie training of large vocabulary recognition systems. In Speech Communication, p. 22 :303 ?314. VAPNIK V. N. (1999). The Nature of Statistical Learning Theory. Springer, 2 edition.