Vous êtes sur la page 1sur 7

Master MF - CSMI

Convexité en optimisation, convexité forte

Dans ce qui suit, on se place dans un espace de Hilbert V muni d’un produit scalaire h·, ·i.
Dans ce qui suit, on suppose que f : K ⊂ V −→ R est continue, K désignant une partie
quelconque de V . On considère le problème d’optimisation

inf f (x) (1)


x∈K

Définition 1 : Ensembles et fonctions convexes

1. On dit qu’un ensemble K ⊂ V est convexe si, et seulement si pour tous (x1 , x2 ) ∈
K 2 et t ∈ [0, 1], tx1 + (1 − t)x2 ∈ K.
2. Soit K, un convexe inclus dans V . La fonction f : K −→ R est dite convexe si,
et seulement si

∀(x1 , x2 ) ∈ K 2 , ∀t ∈ [0, 1], f (tx1 + (1 − t)x2 ) ≤ tf (x1 ) + (1 − t)f (x2 ).

On dit que f est strictement convexe si l’inégalité ci-dessus est stricte pour
x 6= y, t ∈]0, 1[.

Rappelons que toute fonction convexe possède une régularité minimale en dimension finie.
• Si f est une fonction convexe définie sur un ouvert convexe Ω de V , alors f est continue
sur Ω et lipschitzienne sur tout compact de Ω. (voir par exemple [2] pour la preuve dans
V et [3] pour le cas n = 1)
• De la propriété de Lipschitz découle, en utilisant le théorème de Rademacher, que toute
fonction convexe définie sur Ω ⊂ V est différentiable presque partout (au sens de la mesure
de Lebesgue) sur son domaine.

À présent, nous allons rappeler un fait bien connu mais néanmoins fort utile en pratique. On
peut caractériser assez facilement une fonction convexe dans le cas où celle-ci est régulière (dif-
férentiable partout ou deux fois différentiable partout).
Rappelons en préliminaire que si f est différentiable sur V , alors sa différentielle V 3 h 7→
Df (x) · h est linéaire continue. De plus, en vertu du théorème de Riesz, il existe un unique
élément de V appelé gradient de f en x et noté ∇f (x) tel que

∀h ∈ V, dfx (h) = h∇f (x), hi.

Dire que f est deux fois différentiable signifie qu’il existe une application linéaire L(x0 ) : V −→ V 0
telle que
dfx0 +ξ = dfx0 + L(x0 )ξ + o (kξkV ) ∈ V 0 .
ξ→0

La différentielle seconde de f , notée d2 fx0 est alors l’application L(x0 ) : V −→ V 0 . Elle est
difficile à évaluer en pratique car L(x0 )ξ est un élément de V 0 . En la faisant agir sur un élément

1
h ∈ V , on obtient une forme bilinéaire continue sur V × V , que l’on notera hd2 fx0 ξ, hi. Il est
alors aisé de montrer que
1
f (x0 + h) − f (x0 ) = dfx0 (h) + hd2 fx0 h, hi + o (khk2 ).
2 h→0

Si de plus, l’application x0 7→ d2 fx0 est continue en x0 , on dira que f est de classe C 2 en x0 .


Dans le cas de la dimension finie (V = Rn ), ces formules revêtent un aspect particulièrement
sympathique puisque la différentielle seconde s’identifie à la matrice hessienne lorsque f est deux
fois différentiable.

Théorème 2 : Caractérisation des fonctions convexes dans le cas régulier

1. Si f : V → R est différentiable, on a les équivalences entre


(i) f est convexe ;
(ii) f (y) ≥ f (x) + h∇f (x), y − xi, ∀(x, y) ∈ V 2 ;
(iii) h∇f (y) − ∇f (x), y − xi ≥ 0, ∀(x, y) ∈ V 2 .
2. On a équivalence entre convexité stricte et les inégalités (ii) et (iii) précédentes
rendues strictes, pour x 6= y.
3. Si f : V −→ R est deux fois différentiable, on a les équivalences entre
(i) f est convexe ;
(ii) pour tout h ∈ V , hd2 fx0 h, hi ≥ 0.

Démonstration. 1. • (i) =⇒ (ii). Soit t ∈ [0, 1], (x, y) ∈ V 2 . Alors, par convexité de f , f (tx + (1 −
t)y) ≤ (1 − t)f (x) + tf (y), d’où f (x + t(y − x)) ≤ t[f (y) − f (x)], puis on divise par t et on
fait tendre t vers 0.
• (ii) =⇒ (iii). On écrit (ii) avec (x, y), puis (y, x) et on somme.
• (iii) =⇒ (ii). On utilise la formule de Taylor Mac-Laurin à l’ordre 1 1 , appliquée à la fonction
t ∈ [0, 1] 7→ f (x + t(y − x)). Il existe t ∈ [0, 1] tel que

f (y) = f (x) + h∇f (x + t(y − x)), y − xi


= f (x) + h∇f (x), y − xi + h∇f (x + t(y − x)) − ∇f (x), y − xi,

et ce dernier terme est positif par (iii), donc on a (ii).


• (ii) =⇒ (i). On pose xt = (1 − t)x + ty = x + t(y − x) et on écrit (ii) avec x = xt , y = x ou
y. On a :

f (x) ≥ f (xt ) + h∇f (xt ), x − xt i


f (y) ≥ f (xt ) + h∇f (xt ), y − xt i,

sachant que x − xt = −t(y − x), y − xt = (1 − t)(y − x). On multiplie alors les deux inégalités
respectivement par 1 − t et t, puis on les somme :

(1 − t)f (x) + tf (y) ≥ (1 − t + t)f (xt ) = f (xt ).


1. Rappelons la formule de Taylor Mac-Laurin : soit f : [α, β] −→ R une fonction N + 1 fois dérivable. Alors,
il existe γ ∈]α, β[ tel que
N
X (β − α)k (k) (β − α)N +1 (N +1)
f (β) = f (α) + f (α) + f (γ).
k! (N + 1)!
k=1

Remarquons que lorsque N = 1, la formule de Taylor Mac-Laurin coïncide avec la formule des accroissements
finis.

2
2. Il s’agit d’adapter avec beaucoup de précaution la démonstration précédente. Cet exercice est laissé
au lecteur. Attention cependant à être prudent lors des passages à la limite afin de conserver des
inégalités strictes.
3. • (i) =⇒ (ii). On applique la propriété (iii) précédente avec x et y = x + th. On obtient
h∇f (x + th) − ∇f (x), thi ≥ 0. On divise alors cette inégalité par t2 puis on fait tendre t vers
0, ce qui fournit : hd2 fx h, hi ≥ 0, ∀(x, h) ∈ V 2 .
• (ii) =⇒ (i). On applique la formule de Taylor-Mac Laurin à l’ordre deux :
1
f (y) = f (x) + h∇f (x), y − xi + hd2 fx+t(y−x) (y − x), y − xi
2
≥ f (x) + h∇f (x), y − xi, ∀(x, y) ∈ V 2 ,

qui est une condition équivalente à la convexité d’après la première partie du théorème.

Exemple 3 Convexité d’une fonction quadratique


On considère la fonction

f : Rn −→ R
x 7−→ f (x) = 12 hAx, xi − hb, xi + c,

avec A une matrice réelle symétrique, b un vecteur de Rn et c une constante donnée. On peut montrer
que pour tout x ∈ Rn , ∇f (x) = Ax − b et Hess f (x) = A. En particulier, on déduit immédiatement
de ce calcul et du théorème que f est convexe si, et seulement si A est semi-définie positive, et
strictement convexe si, et seulement si A est définie positive.

La convexité est en général un outil précieux en optimisation.

Théorème 4 :

Soit le problème (1) avec f convexe et K convexe (éventuellement de dimension infinie).


Alors,
1. tout minimum local est un minimum global.
2. si f est strictement convexe, il y a au plus un minimum.

Démonstration. 1. Soit x∗ , un minimum local pour le problème (1). Par l’absurde, supposons qu’il
existe y ∈ K tel que f (y) < f (x∗ ). Soit yt = ty + (1 − t)x∗ , avec t ∈]0, 1[. Alors, f (yt ) ≥ f (x∗ ) si
t est suffisamment petit (en effet, si t est petit, kyt − x∗ k = tky − x∗ k l’est aussi. . . ). La convexité
de f implique que f (x∗ ) ≤ f (yt ) ≤ tf (y) + (1 − t)f (x∗ ), ce qui montre que f (y) < f (x∗ ) ≤ f (y).
C’est absurde et il s’ensuit que x∗ minimise f sur K.
2. Si x1 et x2 sont deux solutions globales de (1), alors si x1 6= x2 ,
 
x1 + x2 1 1
f < f (x1 ) + f (x2 ) = f (x1 ),
2 2 2

ce qui est absurde. Cela implique donc l’unicité.

3
Définition 5 : Fonction α-elliptique

Soit K ⊂ V , un convexe. Une fonction f : K −→ R est dite fortement convexe ou


uniformément convexe ou α-convexe ou α-elliptique s’il existe α > 0 tel que, pour
tous (x, y) ∈ K 2 , t ∈ [0, 1],
α
f (tx + (1 − t)y) ≤ tf (x) + (1 − t)f (y) − t(1 − t)kx − yk2 .
2
Il est tout à fait clair que l’ellipticité implique la stricte convexité qui implique elle-même la
convexité. On notera que la convexité correspond formellement au cas α = 0. Bien sûr, les réci-
proques sont fausses.

Exemple 6 Liens entre les différentes notions de convexité


Nous donnons ici quelques exemples et contre-exemples élémentaires, qui seront complétés par la suite
(en particulier, on étudiera de près la convexité des fonctionnelles quadratiques en dimension finie).
1. Toute fonction affine de R dans R est convexe mais non strictement convexe.
2. D’après la définition, il est clair qu’une fonction α-elliptique est strictement convexe, et donc
convexe.
3. La fonction x 7→ − ln x est strictement convexe sur ]0, +∞[, mais non elliptique. Prouvons-le !
Cette fonction est strictement convexe (on peut utiliser le critère sur les dérivées secondes par
exemple, que nous rappellerons ultérieurement). Reste à montrer que cette fonction n’est pas
elliptique. Raisonnons par l’absurde, en supposant l’existence de α > 0 tel que, pour tous
(x, y) ∈]0, +∞[2 , x 6= y, et t ∈ [0, 1],
α
− ln(tx + (1 − t)y) < −t ln x − (1 − t) ln y − (x − y)2 .
2
Fixons y ∈]0, +∞[, t ∈ [0, 1], divisons cette inégalité par (x − y)2 et faisons tendre x vers
+∞. On obtient alors immédiatement α ≤ 0, ce qui est absurde.
4. Il est aisé de montrer que la fonction x 7→ x2 est 4-elliptique sur R. En effet, soit (x, y) ∈ R2 ,
x 6= y et t ∈ [0, 1]. Alors, on vérifie que
(tx + (1 − t)y)2 = tx2 + (1 − t)y 2 − 2t(1 − t)(x − y)2 .

La proposition ci-dessous examine plus précisément le lien entre “convexité” et “uniforme convexi-
té”. Elle fournit également un critère permettant de vérifier l’uniforme convexité d’une fonction.

Propriété 7 :

Comme précédemment, f désigne une fonction de V dans R.


1. La fonction f est α-elliptique si et seulement si la fonction f − α2 k · k2 est convexe.
2. On suppose que f est continue. Alors, la fonction f est α-elliptique si, et seulement
si il existe α > 0 tel que, pour tout (x, y) ∈ V 2 ,
 
x+y f (x) + f (y) α
f ≤ − kx − yk2 .
2 2 8

Démonstration. 1. Posons g(x) = f (x) − α2 kxk2 . En développant ktx + (1 − t)yk2 et en regroupant


les termes correctement, on trouve
α
tg(x) + (1 − t)g(y) − g(tx + (1 − t)y) = tf (x) + (1 − t)f (y) − f (tx + (1 − t)y) − t(1 − t)kx − yk2 ,
2
ce qui prouve l’équivalence annoncée.

4
2. Le sens direct est immédiat et s’obtient en choisissant t = 12 .
Le sens réciproque est un peu plus délicat. Nous allons procéder par récurrence. Pour tout n ∈ N,
on note Kn = {ξ ∈ [0, 1], 2n ξ ∈ N}. Fixons x et y dans V . On appelle Pn la propriété : “Pour
tout t ∈ Kn , l’inégalité
α
f (tx + (1 − t)y) ≤ tf (x) + (1 − t)f (y) − t(1 − t)kx − yk2 ,
2
est vérifiée”. L’initialisation de cette propriété est immédiate. Montrons son hérédité.
Soit t ∈ Kn+1 \Kn , alors 2t ∈ Kn . Il existe (t1 , t2 ) ∈ Kn2 tels que t1 < t2 et t = t1 +t 2 . Puisque f
2

vérifie l’inégalité particulière de α-convexité énoncée dans la proposition,


 
(t1 x + (1 − t1 )y) + (t2 x + (1 − t2 )y)
f (tx + (1 − t)y) = f
2
1
≤ (f (t1 x + (1 − t1 )y) + f (t2 x + (1 − t2 )y))
2
α
− (t2 − t1 )2 kx − yk2 .
8
Or, puisque l’inégalité de “α-ellipticité” a été supposée vraie sur Kn , on en déduit
t1 f (x) + (1 − t1 )f (y) + t2 f (x) + (1 − t2 )f (y)
f (tx + (1 − t)y) ≤
2
α α
− (t1 (1 − t1 ) + t2 (1 − t2 ))kx − yk2 − (t2 − t1 )2 kx − yk2
4 8
α
= tf (x) + (1 − t)f (y) − (t1 (1 − t1 ) + t2 (1 − t2 )
4
1 2 2
+ (t2 − t1 ) )kx − yk
2
α
= tf (x) + (1 − t)f (y) − t(1 − t)kx − yk2 ,
2
ce qui prouve que l’inégalité de “α-ellipticité” est alors valableSpour tout élément de Kn+1 . On
en déduit par récurrence que l’inégalité est valable pour t ∈ n∈N Kn . Comme f est continue,
l’inégalité reste valable sur l’adhérence de l’union des Kn , c’est-à-dire sur [0, 1].

Dans le cas où la fonction f est régulière, comme pour la convexité, il existe des caractérisations
de la convexité uniforme. On peut voir ces caractérisations comme des corollaires du théorème .

Corollaire 8 : Caractérisation des fonctions uniformément convexes dans


le cas régulier

1. Si f : V −→ R est différentiable, on a les équivalences


(i) f est α-elliptique ;
(ii) f (y) ≥ f (x) + h∇f (x), y − xi + α2 ky − xk2 , ∀(x, y) ∈ V 2 ;
(iii) h∇f (y) − ∇f (x), y − xi ≥ αky − xk2 , ∀(x, y) ∈ V 2 .
2. Si f : V −→ R est deux fois différentiable, on a les équivalences
(i) f est α-elliptique ;
(ii) hHess f (x)h, hi ≥ αkhk2 , ∀x ∈ V , ∀h ∈ V .

Démonstration. 1. Grâce à la proposition , (i) équivaut à dire que g(x) = f (x) − α2 kxk2 est
convexe. or, ∇g(x) = ∇f (x) − αx. En écrivant alors les conditions (i), (ii) et (iii) du
théorème , on obtient exactement les conditions (ii) et (iii) du corollaire pour f .
2. La preuve découle immédiatement du théorème , en posant comme précédemment g(x) =
f (x) − α2 kxk2 et en remarquant que Hess g(x) = Hess f (x) − αI.

5
Exemple 9 α-convexité d’une fonction quadratique
Revenons sur l’exemple de la fonction f définie par
f : V −→ R
x 7−→ f (x) = 12 hAx, xi − hb, xi + c,
avec A une matrice réelle symétrique, b un vecteur de V et c une constante donnée. On a déjà prouvé
dans l’exemple 3 que f est strictement convexe sur V si, et seulement si A est définie positive, et
que de plus Hess f (x) = A pour tout x ∈ V . Étant donné que A est symétrique réelle, on peut la
diagonaliser dans une base orthonormée réelle de vecteurs propres notée {ei }1≤i≤n . Le spectre de A
rangé par ordre croissant est :
λ1 ≤ · · · ≤ λn .
On peut alors écrire que A = P > DP , avec P ∈ On (R), la matrice telle que P > = P −1 = [e1 · · · en ],
où les vecteurs e1 , · · · , en , sont écrits en colonne, et D = diag (λ1 , · · · , λn ). Posons u = P h. Alors,
n
X n
X
hAh, hi = λi u2i ≥ λ1 u2i = λ1 |uk2 = λ1 khk2 .
i=1 i=1

On en déduit que f est λ1 -elliptique. On peut d’ailleurs montrer facilement que λ1 est la meilleure
constante d’ellipticité de f en remarquant que l’inégalité ci-dessus est une égalité lorsque h est un
vecteur propre associé à λ1 .

Remarque 10 uniformément convexe implique coercif


Si f est α-elliptique et différentiable, en utilisant la caractérisation précédente, on obtient aisément
que
α
f (x) ≥ f (0) + h∇f (0), xi + kxk2 ,
2
ce qui implique que f est coercive.

Nous sommes à présent en mesure d’établir le résultat d’existence annoncé en dimension finie.

Théorème 11 :

Soit K, un convexe fermé non vide d’un espace de Hilbert V et f , une fonction α-convexe
continue sur K. Alors, il existe un unique minimum x∗ de f sur K et on a :
4
kx∗ − xk2 ≤ [f (x) − f (x∗ )], ∀y ∈ K.
α
En particulier, toute suite minimisante de f sur l’ensemble K converge vers x∗ .

Démonstration. Il existe un point un peu technique dans cette démonstration qui, paradoxalement, dans
beaucoup de problèmes d’optimisation, est vérifié gratuitement. En effet, il s’agit du lemme suivant :

Lemme 12 :
Soit f , une fonction α-convexe sur K. Alors, il existe deux constantes (α1 , α2 ) ∈ R+ × R telles que

f (x) ≥ α1 kxk2 + α2 .

6
Ce lemme est démontré dans [1]. Il utilise dans sa preuve le théorème de séparation d’un point et
d’un convexe. Il assure, puisque f est “infinie à l’infini”, que f est minorée sur le convexe K, donc
que inf{f (x), x ∈ K} est fini. Il arrive assez souvent dans la pratique que l’on minimise des fonctionnelles
naturellement positives ou minorées si bien que cette étape n’apparaît plus essentielle dans ces cas.
Démontrons à présent le théorème en admettant le lemme technique ci-dessus. On désigne par m, b la
quantité inf{f (x), x ∈ K}. Soit (xn )n∈N , une suite minimisante de f sur K. Puisque f est α-elliptique,
on a pour tous (n, m) ∈ N2 ,
 
α 2 xn + xm 1 1
kxn − xm k + f −m b ≤ (f (xn ) − m)
b + (f (xm ) − m).
b
8 2 2 2

b f xn +x

Or, par définition de m, 2
m
≥ m,
b si bien que

α 1 1
0≤ kxn − xm k2 ≤ (f (xn ) − m)
b + (f (xm ) − m).
b
8 2 2
On en déduit que (xn )n∈N est de Cauchy, et donc converge vers une limite x∗ ∈ K (K est fermé), qui est
nécessairement le minimum de f , puisque f est continue. L’unicité découle du théorème .
Enfin, soit x ∈ K. Utilisons encore le caractère α-elliptique de f , on obtient :

f (x∗ ) + f (x)
 ∗
f (x) − f (x∗ )

α ∗ x +x
kx − xk2 ≤ −f ≤ ,
8 2 2 2
 ∗

car f x+x2 ≥ f (x∗ ).

Remarque 13
On peut affaiblir les hypothèses du théorème précédent, en remplaçant l’hypothèse de continuité de
f par une hypothèse de semi-continuité inférieure de f . La démonstration reste alors inchangée, et il
suffit d’écrire que
f (x∗ ) ≤ lim inf f (xn ).
n→+∞

Références
[1] G. Allaire, Analyse numérique et optimisation, éditions de l’école Polytechnique, 2005.
[2] J-B. Hiriart-Urruty, Convex Analysis and Minimization Algorithms I, Springer-Verlag,
1996.
[3] C. Zuily, H Queffélec, Analyse pour l’agrégation, 3ème édition , Dunod, 2007.

Vous aimerez peut-être aussi