Dans ce qui suit, on se place dans un espace de Hilbert V muni d’un produit scalaire h·, ·i.
Dans ce qui suit, on suppose que f : K ⊂ V −→ R est continue, K désignant une partie
quelconque de V . On considère le problème d’optimisation
1. On dit qu’un ensemble K ⊂ V est convexe si, et seulement si pour tous (x1 , x2 ) ∈
K 2 et t ∈ [0, 1], tx1 + (1 − t)x2 ∈ K.
2. Soit K, un convexe inclus dans V . La fonction f : K −→ R est dite convexe si,
et seulement si
On dit que f est strictement convexe si l’inégalité ci-dessus est stricte pour
x 6= y, t ∈]0, 1[.
Rappelons que toute fonction convexe possède une régularité minimale en dimension finie.
• Si f est une fonction convexe définie sur un ouvert convexe Ω de V , alors f est continue
sur Ω et lipschitzienne sur tout compact de Ω. (voir par exemple [2] pour la preuve dans
V et [3] pour le cas n = 1)
• De la propriété de Lipschitz découle, en utilisant le théorème de Rademacher, que toute
fonction convexe définie sur Ω ⊂ V est différentiable presque partout (au sens de la mesure
de Lebesgue) sur son domaine.
À présent, nous allons rappeler un fait bien connu mais néanmoins fort utile en pratique. On
peut caractériser assez facilement une fonction convexe dans le cas où celle-ci est régulière (dif-
férentiable partout ou deux fois différentiable partout).
Rappelons en préliminaire que si f est différentiable sur V , alors sa différentielle V 3 h 7→
Df (x) · h est linéaire continue. De plus, en vertu du théorème de Riesz, il existe un unique
élément de V appelé gradient de f en x et noté ∇f (x) tel que
Dire que f est deux fois différentiable signifie qu’il existe une application linéaire L(x0 ) : V −→ V 0
telle que
dfx0 +ξ = dfx0 + L(x0 )ξ + o (kξkV ) ∈ V 0 .
ξ→0
La différentielle seconde de f , notée d2 fx0 est alors l’application L(x0 ) : V −→ V 0 . Elle est
difficile à évaluer en pratique car L(x0 )ξ est un élément de V 0 . En la faisant agir sur un élément
1
h ∈ V , on obtient une forme bilinéaire continue sur V × V , que l’on notera hd2 fx0 ξ, hi. Il est
alors aisé de montrer que
1
f (x0 + h) − f (x0 ) = dfx0 (h) + hd2 fx0 h, hi + o (khk2 ).
2 h→0
Démonstration. 1. • (i) =⇒ (ii). Soit t ∈ [0, 1], (x, y) ∈ V 2 . Alors, par convexité de f , f (tx + (1 −
t)y) ≤ (1 − t)f (x) + tf (y), d’où f (x + t(y − x)) ≤ t[f (y) − f (x)], puis on divise par t et on
fait tendre t vers 0.
• (ii) =⇒ (iii). On écrit (ii) avec (x, y), puis (y, x) et on somme.
• (iii) =⇒ (ii). On utilise la formule de Taylor Mac-Laurin à l’ordre 1 1 , appliquée à la fonction
t ∈ [0, 1] 7→ f (x + t(y − x)). Il existe t ∈ [0, 1] tel que
sachant que x − xt = −t(y − x), y − xt = (1 − t)(y − x). On multiplie alors les deux inégalités
respectivement par 1 − t et t, puis on les somme :
Remarquons que lorsque N = 1, la formule de Taylor Mac-Laurin coïncide avec la formule des accroissements
finis.
2
2. Il s’agit d’adapter avec beaucoup de précaution la démonstration précédente. Cet exercice est laissé
au lecteur. Attention cependant à être prudent lors des passages à la limite afin de conserver des
inégalités strictes.
3. • (i) =⇒ (ii). On applique la propriété (iii) précédente avec x et y = x + th. On obtient
h∇f (x + th) − ∇f (x), thi ≥ 0. On divise alors cette inégalité par t2 puis on fait tendre t vers
0, ce qui fournit : hd2 fx h, hi ≥ 0, ∀(x, h) ∈ V 2 .
• (ii) =⇒ (i). On applique la formule de Taylor-Mac Laurin à l’ordre deux :
1
f (y) = f (x) + h∇f (x), y − xi + hd2 fx+t(y−x) (y − x), y − xi
2
≥ f (x) + h∇f (x), y − xi, ∀(x, y) ∈ V 2 ,
qui est une condition équivalente à la convexité d’après la première partie du théorème.
f : Rn −→ R
x 7−→ f (x) = 12 hAx, xi − hb, xi + c,
avec A une matrice réelle symétrique, b un vecteur de Rn et c une constante donnée. On peut montrer
que pour tout x ∈ Rn , ∇f (x) = Ax − b et Hess f (x) = A. En particulier, on déduit immédiatement
de ce calcul et du théorème que f est convexe si, et seulement si A est semi-définie positive, et
strictement convexe si, et seulement si A est définie positive.
Théorème 4 :
Démonstration. 1. Soit x∗ , un minimum local pour le problème (1). Par l’absurde, supposons qu’il
existe y ∈ K tel que f (y) < f (x∗ ). Soit yt = ty + (1 − t)x∗ , avec t ∈]0, 1[. Alors, f (yt ) ≥ f (x∗ ) si
t est suffisamment petit (en effet, si t est petit, kyt − x∗ k = tky − x∗ k l’est aussi. . . ). La convexité
de f implique que f (x∗ ) ≤ f (yt ) ≤ tf (y) + (1 − t)f (x∗ ), ce qui montre que f (y) < f (x∗ ) ≤ f (y).
C’est absurde et il s’ensuit que x∗ minimise f sur K.
2. Si x1 et x2 sont deux solutions globales de (1), alors si x1 6= x2 ,
x1 + x2 1 1
f < f (x1 ) + f (x2 ) = f (x1 ),
2 2 2
3
Définition 5 : Fonction α-elliptique
La proposition ci-dessous examine plus précisément le lien entre “convexité” et “uniforme convexi-
té”. Elle fournit également un critère permettant de vérifier l’uniforme convexité d’une fonction.
Propriété 7 :
4
2. Le sens direct est immédiat et s’obtient en choisissant t = 12 .
Le sens réciproque est un peu plus délicat. Nous allons procéder par récurrence. Pour tout n ∈ N,
on note Kn = {ξ ∈ [0, 1], 2n ξ ∈ N}. Fixons x et y dans V . On appelle Pn la propriété : “Pour
tout t ∈ Kn , l’inégalité
α
f (tx + (1 − t)y) ≤ tf (x) + (1 − t)f (y) − t(1 − t)kx − yk2 ,
2
est vérifiée”. L’initialisation de cette propriété est immédiate. Montrons son hérédité.
Soit t ∈ Kn+1 \Kn , alors 2t ∈ Kn . Il existe (t1 , t2 ) ∈ Kn2 tels que t1 < t2 et t = t1 +t 2 . Puisque f
2
Dans le cas où la fonction f est régulière, comme pour la convexité, il existe des caractérisations
de la convexité uniforme. On peut voir ces caractérisations comme des corollaires du théorème .
Démonstration. 1. Grâce à la proposition , (i) équivaut à dire que g(x) = f (x) − α2 kxk2 est
convexe. or, ∇g(x) = ∇f (x) − αx. En écrivant alors les conditions (i), (ii) et (iii) du
théorème , on obtient exactement les conditions (ii) et (iii) du corollaire pour f .
2. La preuve découle immédiatement du théorème , en posant comme précédemment g(x) =
f (x) − α2 kxk2 et en remarquant que Hess g(x) = Hess f (x) − αI.
5
Exemple 9 α-convexité d’une fonction quadratique
Revenons sur l’exemple de la fonction f définie par
f : V −→ R
x 7−→ f (x) = 12 hAx, xi − hb, xi + c,
avec A une matrice réelle symétrique, b un vecteur de V et c une constante donnée. On a déjà prouvé
dans l’exemple 3 que f est strictement convexe sur V si, et seulement si A est définie positive, et
que de plus Hess f (x) = A pour tout x ∈ V . Étant donné que A est symétrique réelle, on peut la
diagonaliser dans une base orthonormée réelle de vecteurs propres notée {ei }1≤i≤n . Le spectre de A
rangé par ordre croissant est :
λ1 ≤ · · · ≤ λn .
On peut alors écrire que A = P > DP , avec P ∈ On (R), la matrice telle que P > = P −1 = [e1 · · · en ],
où les vecteurs e1 , · · · , en , sont écrits en colonne, et D = diag (λ1 , · · · , λn ). Posons u = P h. Alors,
n
X n
X
hAh, hi = λi u2i ≥ λ1 u2i = λ1 |uk2 = λ1 khk2 .
i=1 i=1
On en déduit que f est λ1 -elliptique. On peut d’ailleurs montrer facilement que λ1 est la meilleure
constante d’ellipticité de f en remarquant que l’inégalité ci-dessus est une égalité lorsque h est un
vecteur propre associé à λ1 .
Nous sommes à présent en mesure d’établir le résultat d’existence annoncé en dimension finie.
Théorème 11 :
Soit K, un convexe fermé non vide d’un espace de Hilbert V et f , une fonction α-convexe
continue sur K. Alors, il existe un unique minimum x∗ de f sur K et on a :
4
kx∗ − xk2 ≤ [f (x) − f (x∗ )], ∀y ∈ K.
α
En particulier, toute suite minimisante de f sur l’ensemble K converge vers x∗ .
Démonstration. Il existe un point un peu technique dans cette démonstration qui, paradoxalement, dans
beaucoup de problèmes d’optimisation, est vérifié gratuitement. En effet, il s’agit du lemme suivant :
Lemme 12 :
Soit f , une fonction α-convexe sur K. Alors, il existe deux constantes (α1 , α2 ) ∈ R+ × R telles que
f (x) ≥ α1 kxk2 + α2 .
6
Ce lemme est démontré dans [1]. Il utilise dans sa preuve le théorème de séparation d’un point et
d’un convexe. Il assure, puisque f est “infinie à l’infini”, que f est minorée sur le convexe K, donc
que inf{f (x), x ∈ K} est fini. Il arrive assez souvent dans la pratique que l’on minimise des fonctionnelles
naturellement positives ou minorées si bien que cette étape n’apparaît plus essentielle dans ces cas.
Démontrons à présent le théorème en admettant le lemme technique ci-dessus. On désigne par m, b la
quantité inf{f (x), x ∈ K}. Soit (xn )n∈N , une suite minimisante de f sur K. Puisque f est α-elliptique,
on a pour tous (n, m) ∈ N2 ,
α 2 xn + xm 1 1
kxn − xm k + f −m b ≤ (f (xn ) − m)
b + (f (xm ) − m).
b
8 2 2 2
b f xn +x
Or, par définition de m, 2
m
≥ m,
b si bien que
α 1 1
0≤ kxn − xm k2 ≤ (f (xn ) − m)
b + (f (xm ) − m).
b
8 2 2
On en déduit que (xn )n∈N est de Cauchy, et donc converge vers une limite x∗ ∈ K (K est fermé), qui est
nécessairement le minimum de f , puisque f est continue. L’unicité découle du théorème .
Enfin, soit x ∈ K. Utilisons encore le caractère α-elliptique de f , on obtient :
f (x∗ ) + f (x)
∗
f (x) − f (x∗ )
α ∗ x +x
kx − xk2 ≤ −f ≤ ,
8 2 2 2
∗
car f x+x2 ≥ f (x∗ ).
Remarque 13
On peut affaiblir les hypothèses du théorème précédent, en remplaçant l’hypothèse de continuité de
f par une hypothèse de semi-continuité inférieure de f . La démonstration reste alors inchangée, et il
suffit d’écrire que
f (x∗ ) ≤ lim inf f (xn ).
n→+∞
Références
[1] G. Allaire, Analyse numérique et optimisation, éditions de l’école Polytechnique, 2005.
[2] J-B. Hiriart-Urruty, Convex Analysis and Minimization Algorithms I, Springer-Verlag,
1996.
[3] C. Zuily, H Queffélec, Analyse pour l’agrégation, 3ème édition , Dunod, 2007.