Vous êtes sur la page 1sur 4

Cours Apprentissage - ENS Math/Info

Analyse Convexe

Francis Bach

8 mars 2012

Ce cours sappuie sur le livre Convex Optimization de Stephen Boyd et Lieven Vandenberghe
(disponible gratuitement : http://www.stanford.edu/~boyd/cvxbook/).

La convexite intervient dans de nombreuses branches des mathematiques et de linformatique. Deux


aspects seront vus dans le cours dapprentissage : lanalyse convexe (proprietes des fonctions et
probl`emes doptimisation convexes) et loptimisation convexe (algorithmes de resolution).

Exemple classique en apprentissage : minimisation du risque empirique regularise


n
1X
min (yi , f (xi )) + (f ),
f F n i=1

avec
(xi , yi ) X Y, i = 1, . . . , n donnees dapprentissage
F : ensemble convexe de predicteurs f : X R
u 7 (y, u) perte convexe pour tout y Y
penalite convexe.

1 Ensembles convexes

On ne consid`ere dans ce cours que la convexite dans un espace Euclidien de dimension finie (le plus
generalement Rn ).

Definition : K Rn est convexe si et seulement si, pour tout x, y K, le segment [x, y] est
inclus dans K, i.e., [0, 1], x + (1 )y K.
Exemples classiques : hyperplan a x = b (a Rn , a 6= 0, b R), demi-espace a x > b,
sous-espace affine Ax = b, boules {kxk 6 1} Rn , cone {kxk 6 t} Rn+1 .
Proprietes : lintersection dune famille (non necessairement denombrables) de convexes est
convexe ; la convexite est preservee par les applications affines (image et image inverse).
Enveloppe convexe : Etant donne un ensemble A, lenveloppe convexe est le plus petit ensemble
convexe contenant A. Elle est egale `a lintersection de tous les convexes contenant A. Elle est egale
`aPlensemble des barycentres ` a coefficients positifs ou nuls de familles finies de points de A (i.e.,
p Pp
i=1 i xi , pour xi A, i > 0 et i=1 i = 1).

1
S eparation des convexes : Si C et D sont deux ensemble convexes disjoints (CD = ), il existe
un hyperplan separant C et D, i.e., a 6= 0 et b R tels que C {a x > b} et D {a x 6 b}
(forme geometrique du theor`eme de Hahn-Banach). Si C et D sont compacts, alors il existe une
separation stricte, i.e., C {a x > b} et D {a x < b}.

Exercice : Montrer le theor`eme de separation stricte quand C et D sont compacts (indication : on


utilisera la paire (x, y) minimisant kx yk2 pour (x, y) C D et la mediatrice des points x et y).

2 Fonctions convexes
Definition : Une fonction f definie sur D Rn est convexe ssi (a) D est convexe et (b) pour
tout x, y D, et [0, 1], alors f (x + (1 )y) 6 f (x) + (1 )f (y).
Convexit
e stricte : meme definition sauf : si (0, 1), f (x + (1 )y) < f (x) + (1 )f (y)
e forte : meme definition sauf : f (x+(1)y) 6 f (x)+(1)f (y) 2 (1)kxyk2
Convexit
Exemples classiques en une dimension : x, x2 , log x, ex , log(1 + ex ), |x|p pour p > 1, xp
pour p < 1 et x > 0.
Exemples classiques en dimension sup erieure : fonctions lineaires a x, fonctions quadra-
1
tiques 2 x Qx pour Q symmetrique semidefinie positive, normes.
Caract erivable : x, y D, f (x) > f (y) + f (y) (x y).
erisation pour f d
Caract erivable : x D, f (x) semidefinie positive.
erisation pour f deux fois d
Operations pr eservant la convexit e : supremum dune famille de fonctions convexes supiI fi (x),
combinaison lineaires positives, minimisation partielle inf xC f (x, y) (si f est convexe sur C D).
Propriet
es : f est continue sur linterieur de D.
Pn Pn
In
egalit
e de Jensen : f ( i=1 i xi ) 6 i=1 i f (xi ) et f (EX) 6 Ef (X).
Fonctions convexes etendues (`a valeurs dans R {+}) : f : Rn 7 R finie sur son domaine,
infinie sur son complement. Permet de gerer simplement les fonctions `a domaine D 6= Rn .

3 Probl`
emes doptimisation non-contraints

On suppose f convexe et finie sur Rn . Alors, les trois cas exclusifs suivants sont possibles :
inf xRn f (x) = : pas de minimum (exemple f lineaire)
inf xRn f (x) > non atteint (exemple log(1 + ex ))
inf xRn f (x) > atteint (exemple le plus classique) : f est dite coercive (limkxk+ f (x) =
+)

Minimas locaux vs. minimas globaux : x est minimum local ssi il existe un voisinage V de x
tel que x est le minimum de f sur V . Lorsque f est convexe, tout minimum local est global.

Stricte convexit
e et minimum unique : si f est strictement convexe, alors il y a au plus un
minimum.

2
Condition n ecessaire et suffisante doptimalite (cas d erivable) : Si f est convexe et derivable,
x est un minimum de f sur Rn si et seulement si f (x) = 0.

4 Probl`
emes doptimisation contraints

On suppose f convexe et finie sur D Rn . On cherche `a minimiser f sur un convexe C D.

Lensemble de contraintes C peut etre specifie par une intersection densembles hi (x) = 0 et gj (x) 6 0
(voir section suivante).

Minimisation dune fonction lin


eaire sur une enveloppe convexe : Soit A un compact de
Rn et a Rn , a 6= 0. Alors
min a x = min a x
xA x Enveloppe convexe(A)

Exemple classique du probl`eme daffectation : on a p employes et p t aches, et `a chaque paire em-


ploye/t
ache
Pp (i, j), on a un co
u t c ij , le but est
Pp de trouver une permutation : {1, . . . , p} 7 {1, . . . , p}
telle que i=1 ci(i) est minimum. On a i=1 ci(i) = hc, M i o` u M est la matrice de permutation
associee. Lenveloppe convexe des matrices de permutations est lensemble des matrices double-
ment stochastiques (theor`eme de Birkhoff), qui correspond `a un probl`eme doptimisation comvexe
contraint.

5 Dualit
e Lagrangienne

On sinteresse au probl`eme doptimisation suivant (dit probl`eme primal ) :


min f (x) tel que i {1, . . . , m}, hi (x) = 0 et j {1, . . . , r}, gj (x) 6 0.
xD

On note D lensemble des x D verifiant les contraintes.

efinition du Lagrangien : on appelle Lagrangien la fonction L : Rm Rr+ definie par


D

L(x, , ) = f (x) + h(x) + g(x).


et sont appeles multiplicateurs de Lagrange (ou variables duales).
Probl`eme primal comme supremum du Lagrangien par rapport aux variables duales :
pour tout x D,
f (x) si x D

sup L(x, , ) =
(,)Rm Rr + sinon
+

Le probl`eme primal est donc equivalent `a


p = inf sup L(x, , ).
xD (,)Rm Rr
+

Fonction duale : q : Rm Rr+ R definie par q(, ) = inf xD L(x, , ). Le probl`eme dual est
la minimisation de q sur Rm Rr+ , equivalent `a
d = sup inf L(x, , ).
(,)Rm Rr+ xD

3
Concavite du probl`
eme dual : sans aucune hypoth`eses sur D, f, g, h, la fonction duale q est
concave.
e faible : sans aucune hypoth`eses sur D, f, g, h, pour tout (, ) Rm Rr+ , et x D ,
Dualit

inf L(x , , ) 6 L(x, , ) 6 sup L(x, , )


x D ( , )Rm Rr+

ce qui implique q(, ) 6 f (x). Ceci implique d 6 p .


Probl`
emes non faisables, non-born
es

Interpretation geometrique : probl`eme `a une contrainte dinegalite

Conditions de Slater : si f et D sont convexes, hi affines et gj convexes et il existe un point


x D tel que j, gj (
strictement faisable ( x) < 0), alors d = p (dualite forte).
Conditions de Karush-K uhn-Tucker (KKT) : Si il y a dualite forte, alors x est une variable
primale optimale et ( , ) une paire duale optimale si et seulement si
stationarite primale : x minimise x 7 L(x, , ).
faisabilite : x et ( , ) sont faisables
conditions de complementarite : j, j gj (x ) = 0
Preuve pour les conditions de KKT : soit x D faisable (i.e., x D ) et ( , ) Rm Rr+ .
Alors

q( , ) = inf f (x) + h(x) + g(x)


xD

6 f (x ) + ( ) h(x ) + ( ) g(x )

6 f (x ).

La paire (x , , ) est alors optimale si et seulement si il y a egalite dans les deux inegalites
precedentes, ce qui aboutit aux conditions de KKT.
Remarques : (a) le dual du dual est le dual, (b) plusieurs probl`emes duaux, dualite forte pas
toujours vraie.
eaire) : minAx=b,x>0 c x = maxA y6c b y
Exemple (Programmation lin
Exemple (Probl`
eme quadratique avec contrainte d e) : mina x=b 12 x Qx q x
egalit
eme combinatoire - Max Cut) : minx{1,1}n x W x
Exemple (Relaxation Lagrangienne de probl`
Exemple (Dualit eme non convexe) : minx x61 12 x Qx q x
e forte pour probl`
Exemple (Fenchel) : maxAx=b f (x) = miny b y + f (A y) avec f (x) = 1p ni=1 xpi , f (x) =
P
Pn xi Pn xi 
i=1 e , f (x) = log i=1 e .

Vous aimerez peut-être aussi