Vous êtes sur la page 1sur 35

Notes de cours - Préparation à l’agrégation

Introduction à l’optimisation
Première Partie : aspects théoriques
Univ. Rennes 1, E.N.S. Rennes

Yannick Privat ∗

∗ ENS Cachan Bretagne, CNRS, Univ. Rennes 1, IRMAR, av. Robert Schuman, F-35170 Bruz, France;

yannick.privat@bretagne.ens-cachan.fr

1
TABLE DES MATIÈRES 2

Table des matières


1 Introduction 3
1.1 Le programme de l’agrégation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Le vocabulaire de l’optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Quelques rappels de calcul différentiel . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Détour vers la dimension finie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Questions d’existence et unicité des solutions 8


2.1 Existence en dimension finie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Unicité de l’optimum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Existence en dimension infinie ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 Conditions d’optimalité - optimisation sans contrainte 19


3.1 Conditions d’optimalité - optimisation sans contrainte . . . . . . . . . . . . . . . 20
3.2 Minimisation d’une fonctionnelle quadratique sans contrainte . . . . . . . . . . . 22
3.3 La méthode des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4 Conditions d’optimalité - optimisation sous contraintes 25


4.1 Multiplicateurs de Lagrange, le théorème des extrema liés . . . . . . . . . . . . . . 25
4.2 Les théorèmes de F. John et Karush-Kuhn-Tucker . . . . . . . . . . . . . . . . . . . 31
1 INTRODUCTION 3

1 Introduction
1.1 Le programme de l’agrégation
• Optimisation et approximation
• Interpolation de Lagrange.
• Extremums des fonctions rŐelles de n variables réelles : multiplicateurs de Lagrange.
• Mise en œuvre de l’algorithme de gradient à pas constant.
• Méthode des moindres carrés et applications.
L’interpolation de Lagrange et les algorithmes de gradients seront étudiés ultérieurement, au
cours de la préparation.

1.2 Le vocabulaire de l’optimisation


Soit V est un espace vectoriel normé, muni de la norme k · k. Dans ce cours, on s’intéresse
au problème suivant
½
inf f (x)
(1)
x ∈K,
où K ⊂ V et f : K −→ R est une fonction, appelée fonction coût ou critère.
• Si K = V , on dit que (1) est un problème d’optimisation sans contrainte.
• Si K ( V , on dit que (1) est un problème d’optimisation sous contrainte.
• Si dimK < +∞ (resp. dimK = +∞), on dit que (1) est un problème d’optimisation en
dimension finie (resp. infinie).
Remarquons que ce formalisme englobe tous les problèmes d’optimisation, y compris les pro-
blèmes de maximisation puisque maximiser une quantité revient à minimiser son opposé.
Dans le cadre de ce cours, on étudiera essentiellement l’optimisation en dimension finie,
conformément au programme de l’agrégation. Nous adopterons la convention suivante : si l’on
veut indiquer que la valeur du minimum est atteinte, on écrira
½
min f (x)
x ∈K,

tandis que l’on utilisera la notation “inf” quand on ne sait pas a priori si la valeur de la borne
inférieure est, ou non atteinte. Enfin, rappelons que toute partie minorée non vide de R admet
une borne inférieure, caractérisée de la façon suivante :

Proposition 1.1. Suites minimisantes

Soit X , une partie minorée non vide de R.


Alors, les assertions suivantes sont équivalentes :
i m = inf{x, x ∈ X } ;
ii ∀ε > 0, ∃x ∈ X | m É x < m + ε ;
iii m est un minorant de X et il existe (x n )n∈N ∈ X N , appelée “suite minimisante”
convergeant vers m .
1 INTRODUCTION 4

En conséquence, voici les questions qu’il sera naturel de se poser lorsque vous rencontrerez un
problème d’optimisation :
• Ce problème possède t-il une solution ?
• 1er cas de figure.
Si ce problème possède une solution, on cherchera à la caractériser (par exemple, est-elle
unique ?) ou mieux, à la déterminer lorsque ce sera possible. On exploitera pour cela les
conditions nécessaires d’optimalité (aux premier et deuxième ordres).
• 2ème cas de figure.
Si ce problème ne possède pas de solution, on cherchera à exhiber une suite minimisante,
i.e. une suite d’éléments de l’ensemble K convergeant vers inf{ f (x), x ∈ K }.
• Enfin, on se posera la question, lorsque l’on ne sait pas déterminer explicitement les so-
lutions du problème d’optimisation, du choix de méthodes numériques adaptées pour
déterminer le minimum et ses minimiseurs.
Terminons ce paragraphe en présentant quelques problèmes d’optimisation.

• Problème 1. (dimension finie)


,→ Déterminer le parallélépipède rectangle de volume maximal parmi ceux dont la surface
extérieure vaut 6.
En introduisant a, b et c, les longueurs des côtés du parallélépipède, on se ramène à la
résolution du problème

 supV (a, b, c) = abc
ab + ac + bc = 3,

a Ê 0, b Ê 0, c Ê 0.

Il s’agit donc d’un problème d’optimisation dans R3 sous contrainte.

• Problème 2. (dimension infinie)


,→ Problème de la reine Didon.
Le problème consiste à trouver la courbe plane de longueur ℓ fixée qui enclot avec le
segment reliant ses deux extrémités, la portion plane d’aire maximale, autrement dit, on
résout pour b > a Ê 0,
 Zb



 sup y(x)d x
 Z a
bq

 1 + y ′2 (x)d x = ℓ, y(a) = y(b) = 0,

 a

y ∈Y,

où Y est un espace fonctionnel donné (choisi par exemple de sorte que ce problème
possède une solution).

1.3 Quelques rappels de calcul différentiel


Commençons par la notion de différentiabilité. (voir par exemple [1, 6])
1 INTRODUCTION 5

Définition 1.2. Différentiabilité

Soient E et F , deux espaces vectoriels normés réels. Soit U , un ouvert de E et x 0 ∈ U .


On dit qu’une application f : U −→ F est différentiable en x 0 ou admet un déve-
loppement limité au premier ordre en x 0 s’il existe d f x0 ∈ L (E , F ) (continue), telle
que
f (x 0 + h) − f (x 0 ) = d f x0 (h) + o (khkE ).
h→0

Quelques remarques immédiates :


• En dimension infinie, la différentiabilité d’une fonction dépend de la norme dont sont
munis les espaces E et F . Ça n’est bien sûr pas le cas en dimension finie, étant donné que
toutes les normes sont équivalentes.
• Par définition, l’application d f x0 est continue. Il n’en est pas nécessairement de même
de l’application d f : U −→ L(E , F ) . Si c’est le cas, on dira que f est de classe C 1 au
x 0 7−→ d f x0
voisinage de x 0 .
• Comment calculer de façon pratique une différentielle ?
Si l’on a au préalable démontré que f est différentiable en x 0 , alors, on peut écrire pour
tout h ∈ E que
f (x 0 + εh) − f (x 0 )
d f x0 (h) = lim .
ε→0 ε
ε∈R

L’intérêt d’une telle écriture vient du fait que l’on s’est ainsi ramené au calcul d’une li-
mite d’une fonction d’une variable réelle. La limite précédente s’appelle indifféremment
dérivée directionnelle de f en x 0 selon le vecteur h ou différentielle au sens de Gâteaux de
f en x 0 dans la direction h. Notons que si f est différentiable, il est aisé de montrer que f
admet une dérivée directionnelle selon tout vecteur h, mais que la réciproque n’est pas
vraie.

Résumons sous la forme d’un schéma les relations d’implication entre ces différentes proprié-
tés.
f est C 1 en x 0 =⇒ f est différentiable en x 0 =⇒ f est C 0 en x 0

f dérivable en x 0 selon tout vecteur h

Les implications non écrites sont a priori fausses, c’est-à-dire que l’on peut trouver des contre-
exemples.

Exemple 1.3 Quelques contre-exemples

• On peut aisément se convaincre à l’aide de la fonction


(
x3
2 si x 6= −y
(x, y) ∈ R 7→ x+y
0 sinon
1 INTRODUCTION 6

qu’il est possible de trouver une fonction f dérivable selon tout vecteur en x 0 = (0, 0) qui
n’est cependant pas continue en ce point.
• De même, il existe des fonctions continues non différentiables ayant cependant des déri-
vées dans toutes les directions. C’est par exemple le cas de l’application
½
2 x si x = y 2
(x, y) ∈ R 7→
0 sinon.

Cette fonction est bien continue en (0, 0), dérivable dans toutes les directions en (0, 0) (de
dérivées directionnelles nulles), mais pas différentiable en (0, 0).

Remarque 1.4 Différentiabilité d’ordre supérieur

Soit V , un espace de Hilbert et f : V −→ R. Si f est supposée différentiable en x 0 ∈ V , à


partir du développement

f (x 0 + h) − f (x 0 ) = d f x0 (h) + o (khkV ),
h→0

en utilisant le théorème de Riesz, on peut identifier d f x0 (h) à 〈∇ f (x 0 ), h〉, où ∇ f (x 0 ) ∈ V . C’est


ainsi que l’on généralise la notion de gradient que nous détaillerons ci-après, dans le cadre de
la dimension finie. Dire que f est deux fois différentiable signifie qu’il existe une application
linéaire L(x 0 ) : V −→ V ′ telle que

d f x0 +ξ = d f x0 + L(x 0 )ξ + o (kξkV ) ∈ V ′ .
ξ→0

La différentielle seconde de f , notée d 2 f x0 est alors l’application L(x 0 ) : V −→ V ′ . Elle est difficile
à évaluer en pratique car L(x 0 )ξ est un élément de V ′ . Heureusement, en la faisant agir sur un
élément h ∈ V , on obtient une forme bilinéaire continue sur V ×V , que l’on notera 〈d 2 f x0 ξ, h〉.
Il est alors aisé de montrer que
1
f (x 0 + h) − f (x 0 ) = d f x0 (h) + 〈d 2 f x0 h, h〉 + o (khk2 ).
2 h→0

Dans le cas de la dimension finie (V = Rn ), ces formules revêtent un aspect particulièrement


sympathique puisque la différentielle seconde s’identifie à la matrice hessienne lorsque f est
deux fois différentiable (voir paragraphe suivant).

1.4 Détour vers la dimension finie


Le programme de l’agrégation en optimisation s’intéresse essentiellement à la dimension
finie. On va compléter les notions que nous venons d’aborder dans ce cas particulier. Dans ce
qui suit, on note (e 1 , · · · , e n ) la base canonique de Rn et on munit Rn de sa structure euclidienne
usuelle.
1 INTRODUCTION 7

Définition 1.5. Fonctions de classe C k

Soit i ∈ {1, · · · n} et k Ê 2. On dit qu’une fonction f : U ⊂ Rn −→ R


i admet une dérivée partielle d’indice i en x 0 si elle est dérivable en x 0 selon le
vecteur e i ;
ii est de classe C k si toutes ses dérivées partielles jusqu’à l’ordre k existent et
sont continues sur U .

On se placera dorénavant dans le cas particulier d’une fonction f : U ⊂ Rn −→ R, avec U ouvert


de Rn . Soit x 0 ∈ K .
• Supposons que f est différentiable en x 0 . Alors, pour tout h ∈ Rn ,

f (x 0 + h) − f (x 0 ) = 〈∇ f (x 0 ), h〉 + o (khk)
h→0

∂f ∂f
où ∇ f (x 0 ) est le gradient de f en x 0 , i.e. le vecteur ( ∂x1 (x 0 ), · · · , ∂xn (x 0 )).
La notion de gradient n’est bien sûr pas intrinsèque, elle dépend du produit scalaire
choisi : la définition générale de ∇ f (x) résulte du théorème de représentation de Riesz
appliqué à la différentielle de f en x. Toutefois, en dimension finie, on fixe le plus sou-
vent le produit scalaire canonique et les formules ci-dessus définissent le gradient et la
hessienne tout aussi bien.
• Supposons que f est deux fois différentiable en x 0 . Alors, pour tout h ∈ Rn ,

1
f (x 0 + h) − f (x 0 ) = 〈∇ f (x 0 ), h〉 + 〈Hess f (x 0 )h, h〉 + o (khk2 )
2 h→0

où Hess f (x 0 ) est la matrice de taille n × n des dérivées secondes de f évaluées en x 0 , i.e.


µ 2 ¶
∂ f
Hess f (x 0 ) = (x 0 )
∂x i ∂x j 1Éi , j Én

On notera que, si f est deux fois différentiable, en vertu du théorème de Schwarz, Hess f (x 0 )
est symétrique (réelle) (garder également en tête le contre-exemple de Peano lorsque la
fonction n’est pas deux fois différentiable, cf [6])

Pour rappel, refaisons le point sur les différentes formules de Taylor et les hypothèses mi-
nimales de régularité qu’elles nécessitent. Nous les écrivons ici à l’ordre deux seulement, car
cela s’inscrit dans la logique de ce cours, mais ces formules s’étendent bien sûr à tous les ordres
avec des hypothèses ad hoc.
• Formule de Taylor avec reste intégral.
Supposons que f est de classe C 2 dans un ouvert U de Rn dans R. Si le segment [a, a + h]
est contenu dans U , alors
Z
1 1 (1 − t )k
f (x 0 + h) − f (x 0 ) = 〈∇ f (x 0 ), h〉 + 〈Hess f (x 0 + t h)h, h〉d t
2 0 k!
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 8

• Formule de Taylor avec reste de Lagrange.


Supposons que f est deux fois différentiable dans un ouvert U de Rn à valeurs dans R.
Si le segment [a, a + h] est contenu dans U et supposons qu’il existe une constante C > 0
telle que ¯ ¯
∀t ∈ [0, 1], ¯〈Hess f (x 0 + t h)h, h〉¯ É C khk2 .
Alors,
C
| f (x 0 + h) − f (x 0 ) − 〈∇ f (x 0 ), h〉| É khk2.
2

2 Questions d’existence et unicité des solutions d’un problème d’op-


timisation
On peut retenir comme principe général que la compacité fournit des résultats d’existence,
et la convexité un cadre favorable pour l’unicité.
Dans cette section, nous avons fait le choix de présenter la notion de convexité pour des
fonctions définies sur un espace de dimension finie (excepté dans la section 2.3). Néanmoins,
on peut sans difficulté étendre ces notions à un espace de Hilbert V . (voir par exemple [1])

2.1 Existence en dimension finie


Dans cette partie, on suppose que f : K ⊂ Rn −→ R est continue, K désignant une partie
quelconque de Rn . On considère le problème d’optimisation
½
min f (x)
(2)
x ∈K.

Remarquons que l’existence n’est pas toujours assurée, comme le montre l’exemple de la mi-
nimisation de x 7→ e x sur R, mais nécessite en général peu d’hypothèses.

Théorème 2.1. Existence en dimension finie

On suppose qu’il existe x 0 ∈ Rn tel que l’ensemble { f É f (x 0 )} 1 soit borné. Alors, le


problème (2) a au moins une solution globale x ∗ .

Démonstration. Le problème (2) équivaut à minimiser f sur l’ensemble compact K̃ := { f É


f (x 0 )}. Or, une fonction continue sur un compact atteint sa borne inférieure. Redonnons une
démonstration de ce résultat élémentaire en utilisant les suites minimisantes, ce qui est tout
à fait dans l’esprit de ce cours. Posons m = inf{ f (x), x ∈ K̃ } ∈ [−∞, +∞[. Soit (x n )n∈N , une suite
minimisante pour le problème (2), i.e. x n ∈ K pour tout n ∈ N et f (x n ) −−−−−→ m. D’après le
n→+∞
théorème de Bolzano-Weierstrass, quitte à extraire, il existe x ∗ ∈ K̃ (fermé) tel que (x n )n∈N
converge vers x ∗ . Par continuité de f , ( f (x n ))n∈N converge vers f (x ∗ ) ce qui implique que
m = f (x ∗ ) > −∞, autrement dit que x ∗ réalise le minimum de f sur K̃ , puis sur K .
1. On rappelle que {f É f (x0 )} est l’écriture abrégée de {x ∈ Rn , f (x) É f (x0 )}
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 9

Deux remarques très utiles en pratique. . .

Voici comment on utilise en général le théorème précédent. Rappelons cependant qu’il est es-
sentiel que l’on se soit placé en dimension finie pour pouvoir utiliser ce théorème. Dans le cas
contraire, il est aisé de construire des contre-exemples.
• Si K est compact, alors, on obtient immédiatement l’existence en utilisant la continuité
de f .
• Si f est coercive (on dit aussi infinie à l’infini), c’est-à-dire f (x) −−−−−−→ +∞ 1 et K est
kxk→+∞
fermé, alors on est dans les conditions d’utilisation du théorème précédent.

Remarque 2.2 Semi continuité inférieure


Le théorème précédent reste vrai si l’on suppose seulement que f est semi-continue inférieu-
rement, i.e.
∀α ∈ R, { f É α} est fermé dans Rn .
Cela peut également s’écrire “pour tout ε > 0, il existe un voisinage V de x 0 tel que f (x) Ê
f (x 0 ) + ε” ou encore f (x 0 ) É lim inf f (x) = lim inf f (x).
x→x 0 ε→0 x∈[x 0 −ε,x 0 +ε]
Pour se convaincre de la généralisation du théorème précédent aux hypothèses ci-dessus,
il suffit d’adapter sa preuve en écrivant que f (x ∗ ) É lim inf f (x n ) = m pour obtenir le même
n→+∞
résultat.

,→ Par exemple, soit I , un sous-ensemble quelconque de R, ( f j ) j ∈I , une famille de fonctions


linéaires de Rn dans R et
f (x) = sup { f j (x), j ∈ I }
pour tout x dans Rn . Alors f est semi-continue inférieurement. En effet, pour tout réel α,
l’ensemble Uα = {x ∈ Rn , f (x) > α} est la réunion des ensembles Uα, j = {x ∈ Rn , f j (x) > α} : c’est
une réunion d’ouverts, il est donc lui-même ouvert.

F IGURE 1 – Une fonction semi-continue inférieurement en x 0 .

1. Cette condition signifie : ∀A > 0, ∃η > 0, kxk Ê η =⇒ f (x) Ê A ou encore “quelle que soit la suite (xn )n∈N
d’éléments de K telle que lim kxn k = +∞, on a lim f (xn ) = +∞.
n→+∞ n→+∞
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 10

Exemple 2.3
Considérons le problème
½
min f (x, y) = x 4 + y 4 − x 2
(x, y) ∈ K = {(x, y) ∈ R2 , x + y É 4}.
Montrons que f est “infinie à l’infini”. Pour tous (X , Y ) ∈ R2 , on sait que |X Y | É 21 (X 2 +Y 2 ). En
remplaçant X par x 2 et Y par 1, on obtient x 4 Ê 2x 2 − 1 et par conséquent,
f (x, y) Ê x 2 + y 4 − 1 Ê x 2 + 2y 2 − 2 Ê k(x, y)k2 − 2 −−−−−−→ +∞.
kxk→+∞

f est donc “infinie à l’infini” et K est fermé (image réciproque d’un fermé par une application
continue. . . ), et on en déduit que le problème d’optimisation a (au moins) une solution.

Exemple 2.4 Un peu plus difficile. . .


On définit la famille des {u i }i ∈{0,...,N +1} par u i = i h , avec h = N1+1 . On se donne un nuage
de points de R2 (u i , x i )i ∈{0,···,N +1} , avec N ∈ N∗ donné. On suppose par ailleurs que x 0 = 0 et
x N +1 = 1. Posons x = (x 1 , · · · , x N ). On appelle f (x), la longueur de la courbe affine par morceaux
passant par les points (u i , x i ). On montre aisément que
N q
X
f (x) = (u i +1 − u i )2 + (x i +1 − x i )2
i =0
r ³x ´
N
X i +1 − x i 2
= h 1+ .
i =0 h
On considère le problème d’optimisation suivant : “minimiser la somme des longueurs f (x)
parmi tous les x ∈ RN ”, autrement dit
½
inf f (x)
(3)
x ∈ RN .
Il est très aisé de caractériser géométriquement la solution d’un tel problème. En effet, on se
convainc aisément que la meilleure façon de minimiser la longueur f (x) est de choisir tous
les x i sur la droite d’équation x = u , ce qui caractérise de façon unique les points x i . Ainsi,
x i = i h pour tout i ∈ {1, . . . , N }. Cela dit, oublions provisoirement l’interprétation géométrique
et concentrons-nous sur le problème (3). La simple question de l’existence d’un minimiseur (et
à plus forte raison sa caractérisation) ne semblent alors pas triviales. Montrons-là.
On va montrer
p que f est en réalité infinie à l’infini ce qui, en vertu du théorème 2.1, fournira
le résultat. De 1 + x 2 Ê |x| pour tout x ∈ R, on déduit pour k ∈ {1, . . . , N } que
¯ ¯
k−1
X ¯k−1 ¯
¯X ¯
f (x) Ê |x i +1 − x i | Ê ¯ (x i +1 − x i )¯ = |x k |.
i =0
¯ i =0
¯

Par conséquent, f (x) Ê kxk∞ pour tout x ∈ RN et l’existence d’un minimiseur pour le problème
(3) s’ensuit.
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 11

2.2 Unicité de l’optimum


L’unicité repose en général sur des arguments de convexité. Rappelons les notions d’en-
semble convexe et de fonction convexe.

Définition 2.5. Ensembles et fonctions convexes

i On dit qu’un ensemble K ⊂ Rn est convexe si, et seulement si pour tous (x 1 , x 2 ) ∈


K 2 et t ∈ [0, 1], t x 1 + (1 − t )x 2 ∈ K .
ii Soit K , un convexe inclus dans Rn . La fonction f : K −→ R est dite convexe si,
et seulement si

∀(x 1 , x 2 ) ∈ K 2 , ∀t ∈ [0, 1], f (t x 1 + (1 − t )x 2 ) É t f (x 1 ) + (1 − t ) f (x 2 ).

On dit que f est strictement convexe si l’inégalité ci-dessus est stricte pour
x 6= y , t ∈]0, 1[.

Rappelons que toute fonction convexe possède une régularité minimale en dimension finie.
• Si f est une fonction convexe définie sur un ouvert convexe Ω de Rn , alors f est continue
sur Ω et lipschitzienne sur tout compact de Ω. (voir par exemple [7] pour la preuve dans
Rn et [9] pour le cas n = 1)
• De la propriété de Lipschitz découle, en utilisant le théorème de Rademacher, que toute
fonction convexe définie sur Ω ⊂ Rn est différentiable presque partout (au sens de la me-
sure de Lebesgue) sur son domaine.

À présent, nous allons rappeler un fait bien connu mais néanmoins fort utile en pratique.
On peut caractériser assez facilement une fonction convexe dans le cas où celle-ci est régulière
(différentiable partout ou deux fois différentiable partout) .

Théorème 2.6. Caractérisation des fonctions convexes dans le cas


régulier

i Si f : Rn −→ R est différentiable, on a les équivalences entre


(i ) f est convexe sur Rn ;
(i i ) f (y) Ê f (x) + 〈∇ f (x), y − x〉, ∀(x, y) ∈ [Rn ]2 ;
(i i i ) 〈∇ f (y) − ∇ f (x), y − x〉 Ê 0, ∀(x, y) ∈ [Rn ]2 .
ii On a équivalence entre convexité stricte et les inégalités (i i ) et (i i i ) précédentes
rendues strictes, pour x 6= y .
iii Si f : Rn −→ R est deux fois différentiable, on a les équivalences entre
(i ) f est convexe ;
(i i ) pour tout x ∈ Rn , Hess f (x) est semi-définie positive.

Démonstration. i • (i ) =⇒ (i i ). Soit t ∈ [0, 1], (x, y) ∈ [Rn ]2 . Alors, par convexité de f , f (t x+


2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 12

(1 − t )y) É (1 − t ) f (x) + t f (y), d’où f (x + t (y − x)) É t [ f (y) − f (x)], puis on divise par t
et on fait tendre t vers 0.
• (i i ) =⇒ (i i i ). On écrit (i i ) avec (x, y), puis (y, x) et on somme.
• (i i i ) =⇒ (i i ). On utilise la formule de Taylor Mac-Laurin à l’ordre 1 2 , appliquée à la
fonction t ∈ [0, 1] 7→ f (x + t (y − x)). Il existe t ∈ [0, 1] tel que

f (y) = f (x) + 〈∇ f (x + t (y − x)), y − x〉


= f (x) + 〈∇ f (x), y − x〉 + 〈∇ f (x + t (y − x)) − ∇ f (x), y − x〉,

et ce dernier terme est positif par (i i i ), donc on a (i i ).


• (i i ) =⇒ (i ). On pose x t = (1 − t )x + t y = x + t (y − x) et on écrit (i i ) avec x = x t , y = x ou
y. On a :

f (x) Ê f (x t ) + 〈∇ f (x t ), x − x t 〉
f (y) Ê f (x t ) + 〈∇ f (x t ), y − x t 〉,

sachant que x−x t = −t (y −x), y −x t = (1−t )(y −x). On multiplie alors les deux inégalités
respectivement par 1 − t et t , puis on les somme :

(1 − t ) f (x) + t f (y) Ê (1 − t + t ) f (x t ) = f (x t ).

ii Il s’agit d’adapter avec beaucoup de précaution la démonstration précédente. Cet exer-


cice est laissé au lecteur. Attention cependant à être prudent lors des passages à la limite
afin de conserver des inégalités strictes.
iii • (i ) =⇒ (i i ). On applique la propriété (i i i ) précédente avec x et y = x + t h. On obtient
〈∇ f (x + t h) − ∇ f (x), t h〉 Ê 0. On divise alors cette inégalité par t 2 puis on fait tendre t
vers 0, ce qui fournit : 〈Hess f (x)h, h〉 Ê 0, ∀x ∈ Rn , ∀h ∈ Rn .
• (i i ) =⇒ (i ). On applique la formule de Taylor-Mac Laurin à l’ordre deux :

1
f (y) = f (x) + 〈∇ f (x), y − x〉 + 〈Hess f (x + t (y − x))(y − x), y − x〉
2
Ê f (x) + 〈∇ f (x), y − x〉, ∀(x, y) ∈ [Rn ]2 ,

qui est une condition équivalente à la convexité d’après la première partie du théo-
rème.

2. Rappelons la formule de Taylor Mac-Laurin : soit f : [α,β] −→ R une fonction N + 1 fois dérivable. Alors, il
existe γ ∈]α,β[ tel que
XN (β − α)k (β − α)N+1 (N+1)
f (β) = f (α) + f (k) (α) + f (γ).
k=1 k! (N + 1)!
Remarquons que lorsque N = 1, la formule de Taylor Mac-Laurin coïncide avec la formule des accroissements finis.
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 13

Exemple 2.7 Convexité d’une fonction quadratique


On considère la fonction

f : Rn −→ R
x 7−→ f (x) = 12 〈Ax, x〉 − 〈b, x〉 + c,

avec A une matrice réelle symétrique, b un vecteur de Rn et c une constante donnée On a tous
calculs faits :
1
f (x + h) − f (x) = 〈Ax − b, h〉 + 〈Ah, h〉,
2
ce qui permet de se convaincre (en identifiant les termes du membre de droite avec ceux du
développement limité de f par exemple) que le gradient de f est

∇ f (x) = Ax − b, ∀x ∈ Rn .

et la hessienne de f est, pour tout x ∈ Rn , Hess f (x) = A .


En particulier, on déduit immédiatement de ce calcul et du théorème 2.6 que f est convexe
si, et seulement si A est semi-définie positive, et strictement convexe si, et seulement si A est
définie positive.

La convexité est en général un outil précieux en optimisation. Nous développerons un peu


les diverses applications à l’optimisation dans le cadre de ce cours.

Théorème 2.8.

Soit le problème (2) avec f convexe et K convexe (éventuellement de dimension


infinie). Alors,
i tout minimum local est un minimum global.
ii si f est strictement convexe, il y a au plus un minimum.

Démonstration. i Soit x ∗ , un minimum local pour le problème (2). Par l’absurde, suppo-
sons qu’il existe y ∈ K tel que f (y) < f (x ∗ ). Soit y t = t y + (1 − t )x ∗ , avec t ∈]0, 1[. Alors,
f (y t ) Ê f (x ∗ ) si t est suffisamment petit (en effet, si t est petit, ky t − x ∗ k = t ky − x ∗ k
l’est aussi. . . ). La convexité de f implique que f (x ∗ ) É f (y t ) É t f (y) + (1 − t ) f (x ∗ ), ce qui
montre que f (y) < f (x ∗ ) É f (y). C’est absurde et il s’ensuit que x ∗ minimise f sur K .
ii Si x 1 et x 2 sont deux solutions globales de (2), alors si x 1 6= x 2 ,
³x +x ´ 1 1
1 2
f < f (x 1 ) + f (x 2 ) = f (x 1 ),
2 2 2
ce qui est absurde. Cela implique donc l’unicité.
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 14

2.3 Existence en dimension infinie ?


Dans ce paragraphe, nous allons énoncer un résultat d’existence en dimension infinie dans
le cas particulier où f satisfait une propriété de convexité forte. En général, et c’est sans grande
surprise, il est bien plus difficile d’obtenir un résultat d’existence en dimension infinie. À titre
d’exemple, considérons l’espace de Hilbert (de dimension infinie) des suites de carré som-
mable dans R, c’est-à dire
½ +∞ ¾
2 N
X 2
ℓ (R) = x = (x n )n∈N ∈ R | x n < +∞ ,
n=0
P+∞
muni du produit scalaire 〈x, y〉 = n=0 x n y n . On considère la fonctionnelle f définie par

f : ℓ2 (R) −→ R+
¡ X x n2
¢2 +∞
x 7−→ kxk2 − 1 +
n=0 n + 1

On s’intéresse au problème d’optimisation


½
inf f (x)
x ∈ ℓ2 (R).
Remarquons que f est une fonctionnelle coercive (infinie à l’infini). En effet, pour tout x ∈
ℓ2 (R),
¡ ¢2
f (x) Ê kxk2 − 1 −−−−−−→ +∞.
kxk→+∞

Cependant, le problème d’optimisation ci-dessus n’a pas de solution. Pour le vérifier, il suffit de
remarquer que inf{ f (x), x ∈ ℓ2 (R)} = 0. L’existence d’un minimiseur x tel que f (x) = 0 étant clai-
rement impossible, cela garantit que ce problème n’a pas de solution. Démontrons à présent
que inf{ f (x), x ∈ ℓ2 (R)} = 0. On considère la suite (minimisante) (x n )n∈N ∈ ℓ2 (R)N définie pour
1
n ∈ N fixé par : x kn = δk,n , ∀k ∈ N. On vérifie alors aisément que pour tout n ∈ N, f (x n ) = n+1 et
la conclusion s’ensuit.
La moralité de cet exemple est (ça n’est pas une grande surprise !) que la compacité s’ob-
tient bien plus difficilement en dimension infinie qu’en dimension finie. Bien que la suite mi-
nimisante (x n )n∈N soit bornée, il n’est pas possible d’en extraire une sous-suite convergente
dans ℓ2 (R).
Dans ce qui suit, on présente un cas favorable assurant l’existence en dimension infinie.
Gardons tout de même à l’esprit que l’essentiel du programme d’optimisation pour la prépa-
ration à l’agrégation porte sur des notions de dimension finie.
Dans ce qui suit, on se place dans un espace de Hilbert V muni d’un produit scalaire 〈·, ·〉.

Définition 2.9. Fonction α-elliptique

Soit K ⊂ V , un convexe. Une fonction f : K −→ R est dite fortement convexe ou


uniformément convexe ou α-convexe ou α-elliptique s’il existe α > 0 tel que, pour
tous (x, y) ∈ K 2 , t ∈ [0, 1],
α
f (t x + (1 − t )y) É t f (x) + (1 − t ) f (y) − t (1 − t )kx − yk2 .
2
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 15

Il est tout à fait clair que l’ellipticité implique la stricte convexité qui implique elle-même la
convexité. On notera que la convexité correspond formellement au cas α = 0. Bien sûr, les réci-
proques sont fausses.

Exemple 2.10 Liens entre les différentes notions de convexité


Nous donnons ici quelques exemples et contre-exemples élémentaires, qui seront complétés par
la suite (en particulier, on étudiera de près la convexité des fonctionnelles quadratiques en
dimension finie).
i Toute fonction affine de R dans R est convexe mais non strictement convexe.
ii D’après la définition, il est clair qu’une fonction α-elliptique est strictement convexe, et
donc convexe.
iii La fonction x 7→ − ln x est strictement convexe sur ]0, +∞[, mais non elliptique. Prouvons-
le ! Cette fonction est strictement convexe (on peut utiliser le critère sur les dérivées
secondes par exemple, que nous rappellerons ultérieurement). Reste à montrer que cette
fonction n’est pas elliptique. Raisonnons par l’absurde, en supposant l’existence de α > 0
tel que, pour tous (x, y) ∈]0, +∞[2 , x 6= y , et t ∈ [0, 1],
α
− ln(t x + (1 − t )y) < −t ln x − (1 − t ) ln y − (x − y)2 .
2

Fixons y ∈]0, +∞[, t ∈ [0, 1], divisons cette inégalité par (x − y)2 et faisons tendre x vers
+∞. On obtient alors immédiatement α É 0, ce qui est absurde.
iv Il est aisé de montrer que la fonction x 7→ x 2 est 4-elliptique sur R. En effet, soit (x, y) ∈ R2 ,
x 6= y et t ∈ [0, 1]. Alors, on vérifie que

(t x + (1 − t )y)2 = t x 2 + (1 − t )y 2 − 2t (1 − t )(x − y)2 .

La proposition ci-dessous examine plus précisément le lien entre “convexité” et “uniforme


convexité”. Elle fournit également un critère permettant de vérifier l’uniforme convexité d’une
fonction.

Proposition 2.11.

Comme précédemment, f désigne une fonction de V dans R.


i La fonction f est α-elliptique si et seulement si la fonction f − α2 k·k2 est convexe.
ii On suppose que f est continue. Alors, la fonction f est α-elliptique si, et
seulement si il existe α > 0 tel que, pour tout (x, y) ∈ V 2 ,
³x +y ´ f (x) + f (y) α
f É − kx − yk2 .
2 2 8
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 16

Démonstration. i Posons g (x) = f (x)− α2 kxk2 . En développant kt x +(1−t )yk2 et en regrou-


pant les termes correctement, on trouve
α
t g (x)+(1−t )g (y)−g (t x +(1−t )y) = t f (x)+(1−t ) f (y)− f (t x +(1−t )y)− t (1−t )kx − yk2,
2
ce qui prouve l’équivalence annoncée.
ii Le sens direct est immédiat et s’obtient en choisissant t = 12 .
Le sens réciproque est un peu plus délicat. Nous allons procéder par récurrence. Pour
tout n ∈ N, on note K n = {ξ ∈ [0, 1], 2n ξ ∈ N}. Fixons x et y dans V . On appelle P n la
propriété : “Pour tout t ∈ K n , l’inégalité
α
f (t x + (1 − t )y) É t f (x) + (1 − t ) f (y) − t (1 − t )kx − yk2,
2
est vérifiée”. L’initialisation de cette propriété est immédiate. Montrons son hérédité.
Soit t ∈ K n+1 \K n , alors 2t ∈ K n . Il existe (t 1 , t 2 ) ∈ K n2 tels que t 1 < t 2 et t = t1 +t
2 . Puisque f
2

vérifie l’inégalité particulière de α-convexité énoncée dans la proposition,


µ ¶
(t 1 x + (1 − t 1 )y) + (t 2 x + (1 − t 2 )y)
f (t x + (1 − t )y) = f
2
1 ¡ ¢
É f (t 1 x + (1 − t 1 )y) + f (t 2 x + (1 − t 2 )y)
2
α
− (t 2 − t 1 )2 kx − yk2 .
8
Or, puisque l’inégalité de “α-ellipticité” a été supposée vraie sur K n , on en déduit

t 1 f (x) + (1 − t 1 ) f (y) + t 2 f (x) + (1 − t 2 ) f (y)


f (t x + (1 − t )y) É
2
α α
− (t 1 (1 − t 1 ) + t 2 (1 − t 2 ))kx − yk2 − (t 2 − t 1 )2 kx − yk2
4 8
α
= t f (x) + (1 − t ) f (y) − (t 1 (1 − t 1 ) + t 2 (1 − t 2 )
4
1 2 2
+ (t 2 − t 1 ) )kx − yk
2
α
= t f (x) + (1 − t ) f (y) − t (1 − t )kx − yk2,
2
ce qui prouve que l’inégalité de “α-ellipticité” est alors valable pour tout élément de
S
K n+1 . On en déduit par récurrence que l’inégalité est valable pour t ∈ n∈N K n . Comme
f est continue, l’inégalité reste valable sur l’adhérence de l’union des K n , c’est-à-dire sur
[0, 1].

Dans le cas où la fonction f est régulière, comme pour la convexité, il existe des caractérisations
de la convexité uniforme. On peut voir ces caractérisations comme des corollaires du théorème
2.6.
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 17

Corollaire 2.12. Caractérisation des fonctions uniformément


convexes dans le cas régulier

i Si f : V −→ R est différentiable, on a les équivalences


(i ) f est α-elliptique ;
(i i ) f (y) Ê f (x) + 〈∇ f (x), y − x〉 + α2 ky − xk2 , ∀(x, y) ∈ V 2 ;
(i i i ) 〈∇ f (y) − ∇ f (x), y − x〉 Ê αky − xk2 , ∀(x, y) ∈ V 2 .
ii Si f : V −→ R est deux fois différentiable, on a les équivalences
(i ) f est α-elliptique ;
(i i ) 〈Hess f (x)h, h〉 Ê αkhk2 , ∀x ∈ V , ∀h ∈ V .

Démonstration. i Grâce à la proposition 2.11, (i ) équivaut à dire que g (x) = f (x) − α2 kxk2
est convexe. or, ∇g (x) = ∇ f (x) − αx. En écrivant alors les conditions (i ), (i i ) et (i i i ) du
théorème 2.6, on obtient exactement les conditions (i i ) et (i i i ) du corollaire pour f .
ii La preuve découle immédiatement du théorème 2.6, en posant comme précédemment
g (x) = f (x) − α2 kxk2 et en remarquant que Hess g (x) = Hess f (x) − αI .

Exemple 2.13 α-convexité d’une fonction quadratique


Revenons sur l’exemple de la fonction f définie par

f : Rn −→ R
x 7−→ f (x) = 12 〈Ax, x〉 − 〈b, x〉 + c,

avec A une matrice réelle symétrique, b un vecteur de Rn et c une constante donnée. On a


déjà prouvé dans l’exemple 2.7 que f est strictement convexe sur Rn si, et seulement si A
est définie positive, et que de plus Hess f (x) = A pour tout x ∈ Rn . Étant donné que A est
symétrique réelle, on peut la diagonaliser dans une base orthonormée réelle de vecteurs propres
notée {e i }1Éi Én . Le spectre de A rangé par ordre croissant est :

λ1 É · · · É λn .

On peut alors écrire que A = P ⊤ DP , avec P ∈ On (R), la matrice telle que P ⊤ = P −1 = [e 1 · · · e n ],


où les vecteurs e 1 , · · · , e n , sont écrits en colonne, et D = diag (λ1 , · · · , λn ). Posons u = Ph . Alors,
n
X n
X
〈Ah, h〉 = λi u i2 Ê λ1 u i2 = λ1 |uk2 = λ1 khk2 .
i =1 i =1

On en déduit que f est λ1 -elliptique. On peut d’ailleurs montrer facilement que λ1 est la
meilleure constante d’ellipticité de f en remarquant que l’inégalité ci-dessus est une égalité
lorsque h est un vecteur propre associé à λ1 .
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 18

Remarque 2.14 uniformément convexe implique coercif


Si f est α-elliptique et différentiable, en utilisant la caractérisation précédente, on obtient
aisément que
α
f (x) Ê f (0) + 〈∇ f (0), x〉 + kxk2 ,
2
ce qui implique que f est coercive.

Nous sommes à présent en mesure d’établir le résultat d’existence annoncé en dimension


finie.

Théorème 2.15.

Soit K , un convexe fermé non vide d’un espace de Hilbert V et f , une fonction α-
convexe continue sur K . Alors, il existe un unique minimum x ∗ de f sur K et on
a:
4
kx ∗ − xk2 É [ f (x) − f (x ∗ )], ∀y ∈ K .
α
En particulier, toute suite minimisante de f sur l’ensemble K converge vers x ∗ .

Démonstration. Il existe un point un peu technique dans cette démonstration qui, paradoxa-
lement, dans beaucoup de problèmes d’optimisation, est vérifié gratuitement. En effet, il s’agit
du lemme suivant :

Lemme 2.16.
Soit f , une fonction α-convexe sur K . Alors, il existe deux constantes (α1 , α2 ) ∈ R+ × R
telles que
f (x) Ê α1 kxk2 + α2 .
Ce lemme est démontré dans [1]. Il utilise dans sa preuve le théorème de séparation d’un point
et d’un convexe. Il assure, puisque f est “infinie à l’infini”, que f est minorée sur le convexe
K , donc que inf{ f (x), x ∈ K } est fini. Il arrive assez souvent dans la pratique que l’on minimise
des fonctionnelles naturellement positives ou minorées si bien que cette étape n’apparaît plus
essentielle dans ces cas.
Démontrons à présent le théorème en admettant le lemme technique ci-dessus. On désigne
par m,
b la quantité inf{ f (x), x ∈ K }. Soit (x n )n∈N , une suite minimisante de f sur K . Puisque f
est α-elliptique, on a pour tous (n, m) ∈ N2 ,

α ³x +x ´ 1 1
n m
kx n − x m k2 + f −m b É ( f (x n ) − m)
b + ( f (x m ) − m).
b
8 2 2 2
¡ x +x ¢
Or, par définition de m,b f n 2 m Ê m, b si bien que

α 1 1
0É kx n − x m k2 É ( f (x n ) − m)
b + ( f (x m ) − m).
b
8 2 2
3 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 19

On en déduit que (x n )n∈N est de Cauchy, et donc converge vers une limite x ∗ ∈ K (K est fermé),
qui est nécessairement le minimum de f , puisque f est continue. L’unicité découle du théo-
rème 2.8.
Enfin, soit x ∈ K . Utilisons encore le caractère α-elliptique de f , on obtient :
µ ∗ ¶
α ∗ 2 f (x ∗ ) + f (x) x +x f (x) − f (x ∗ )
kx − xk É −f É ,
8 2 2 2
³ ∗
´
car f x+x
2 Ê f (x ∗ ).

Remarque 2.17
On peut affaiblir les hypothèses du théorème précédent, en remplaçant l’hypothèse de conti-
nuité de f par une hypothèse de semi-continuité inférieure de f . La démonstration reste alors
inchangée, et il suffit d’écrire que

f (x ∗ ) É lim inf f (x n ).
n→+∞

3 Conditions d’optimalité - optimisation sans contrainte


Dans le cadre du programme de l’agrégation, nous nous concentrons essentiellement sur
l’étude des conditions d’optimalité en dimension finie. Nous donnons tout de même quelques
pistes en dimension infinie.

Théorème 3.1. Inéquation d’Euler

Soit f : K ⊂ V −→ R, où K est un convexe inclus dans V , un espace de Hilbert. On


suppose que f est différentiable en x ∈ K . Si x est un minimum local de f sur K , alors
x vérifie l’inéquation d’Euler :

d f x (y − x) Ê 0, ∀y ∈ K .

Si de plus, f est convexe, alors x est un minimum global de f sur K .


f (x+t (y−x))− f (x)
Démonstration. Pour y ∈ K et t ∈]0, 1], x + t (y − x) ∈ K et donc t
Ê 0. On en déduit
l’inéquation d’Euler en faisant tendre t vers 0. La deuxième assertion de ce théorème a déjà été
montrée dans le théorème 2.6.
3 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 20

3.1 Conditions d’optimalité - optimisation sans contrainte


On s’intéresse dans cette section au problème
½
min f (x)
(4)
x ∈ Rn .

où f : Rn −→ R. Souvenons-nous qu’en dimension 1, si un point maximise ou minimise lo-


calement une fonction dérivable, alors, sa dérivée s’annule nécessairement en ce point. Nous
allons préciser cette propriété et la généraliser aux dimensions supérieures.

Théorème 3.2. Conditions nécessaires

Soit x ∗ , un minimum local pour le problème (4).


i si f est différentiable en x ∗ , alors ∇ f (x ∗ ) = 0. On dit que x ∗ est un point
stationnaire ou critique.
ii si f est deux fois différentiable en x ∗ , alors Hess f (x ∗ ) est semi-définie positive.

Remarque 3.3
L’exemple f (x) = x 4 montre que l’on n’a pas mieux que le caractère semi-défini positif de la
hessienne, même si x ∗ est un minimum global. L’exemple f (x) = x 3 montre que ce théorème
donne une condition nécessaire mais pas suffisante.

Démonstration. i On écrit f (x ∗ ) É f (x ∗ +εh) = f (x ∗ )+〈∇ f (x ∗ ), εh〉+|εh|ϕ(εh), avec ϕ(εh) −−−→


ε→0
0. On divise alors par ε > 0 puis on fait tendre ε vers 0+ . Enfin, en choisissant dans le dé-
veloppement précédent ±h pour tout h ∈ Rn , la conclusion s’ensuit.
ii On utilise un développement de Taylor-Young à l’ordre 2 et on utilise les mêmes nota-
tions que précédemment. On a :

1
f (x ∗ + h) = f (x ∗ ) + 〈∇ f (x ∗ ), h〉 + 〈Hess f (x ∗ )h, h〉 + khk2ϕ(h)
2
1
= f (x ∗ ) + 〈Hess f (x ∗ )h, h〉 + khk2ϕ(h)
2

Comme précédemment, on remplace h par εh, h quelconque, ε petit, puis on divise par
ε2 et on fait tendre ε vers 0.
3 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 21

Théorème 3.4. Conditions suffisantes

Soit f , deux fois différentiable en x ∗ ∈ Rn , tel que ∇ f (x ∗ ) = 0 et de plus :


• soit Hess f (x ∗ ) est définie positive,
• soit f est deux fois différentiable dans un voisinage de x ∗ et Hess f (x) est semi-
définie positive dans ce voisinage.
Alors, x ∗ est un minimum local pour f .

Remarque 3.5
Le caractère “semi-défini positif” de la hessienne en x ∗ ne suffit pas pour conclure, comme en
atteste l’exemple f (x) = x 3 . En revanche, le caractère “défini-positif” de la hessienne n’est pas
nécessaire, comme en témoigne l’exemple f (x) = x 4 .
On rappelle qu’un point critique qui n’est pas un extremum local porte le nom de point selle.

Démonstration. • Hess f (x ∗ ) est définie positive, par conséquent, il existe α > 0 tel que
〈Hess f (x ∗ )h, h〉 Ê αkhk2 pour tout h ∈ Rn (rappelons que α peut être choisi égal à la plus
petite valeur propre de la matrice hessienne de f en x ∗ ). On écrit alors la formule de
Taylor-Young à l’ordre deux en x ∗ :
1
f (x ∗ + h) = f (x ∗ ) + 〈Hess f (x ∗ )h, h〉 + khk2ϕ(h)
h2α i
Ê ∗
f (x ) + + ϕ(h) khk2 > f (x ∗ ),
2
pourvu que h soit choisi assez petit, puisque ϕ(h) −−−→ 0.
h→0
• f étant supposée deux fois différentiable au voisinage de x ∗, on écrit la formule de Taylor-
Mac Laurin. Ainsi, il existe t ∈ [0, 1] tel que
1
f (x ∗ + h) = f (x ∗ ) + 〈Hess f (x t )h, h〉 Ê f (x ∗ ),
2
où x t = x ∗ + t h est proche de x ∗ si h est petit.

On vient donc d’établir une condition nécessaire, des conditions suffisantes, mais a priori pas
de conditions à la fois nécessaires et suffisantes. Comme précédemment, il est possible de pré-
ciser cette étude dans le cadre “convexe”.

Théorème 3.6. Condition nécessaire et suffisante, cas convexe

Soit f convexe et différentiable sur Rn . Une C.N.S. pour que x ∗ soit un minimum
local (donc global) de f est que x ∗ soit un point critique de f , autrement dit, que

∇ f (x ∗ ) = 0.
3 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 22

Démonstration. La condition nécessaire résulte immédiatement du théorème 3.2, tandis que


l’équivalence local-global résulte du théorème 2.8. Quant à la condition suffisante, elle résulte
de l’application du théorème 2.6. En effet, pour tout x ∈ Rn ,

f (x) Ê f (x ∗ ) + 〈∇ f (x ∗ ), x − x ∗ 〉 = f (x ∗ ).

On en déduit que x ∗ est bien un minimum.

Dans la suite, nous allons nous intéresser à deux exemples fondamentaux dans le domaine
des mathématiques appliquées : la minimisation d’une fonctionnelle quadratique et la mé-
thode des moindres carrés.

3.2 Minimisation d’une fonctionnelle quadratique sans contrainte


On considère la fonctionnelle quadratique 3

f : Rn −→ R
x 7−→ f (x) = 21 〈Ax, x〉 − 〈b, x〉 + c,

où A désigne une matrice réelle symétrique, b est un vecteur de Rn et c est une constante don-
née. On considère le problème
½
min f (x)
(5)
x ∈ Rn .
Nous avons montré dans l’exemple 2.7 que le gradient de f est ∇ f (x) = Ax−b et que Hess f (x) =
A, pour tout x ∈ Rn . En particulier, nous avons montré que f est convexe si, et seulement si A
est semi-définie positive.
Dans ce cas, f admet un minimum (global) si, et seulement si il existe x ∗ ∈ Rn tel que Ax ∗ =
b ou encore si, et seulement si b ∈ Im A. Notons, puisque nous sommes en dimension finie et
que A est symétrique, que Im A = (ker A ⊤ )⊥ = (ker A)⊥ .
Étant donné que A est symétrique réelle, on peut la diagonaliser dans une base orthonor-
mée réelle de vecteurs propres notée {e i }1Éi Én . Le spectre de A rangé par ordre croissant est :

λ1 É · · · É λn .

On distingue alors plusieurs cas selon le signe de la plus petite valeur propre λ1 :
• si λ1 < 0, alors f n’est pas bornée inférieurement. En effet,
λ1 2
∀z ∈ R, f (ze 1 ) = z − z〈b, e 1〉 + c −−−−−→ −∞.
2 z→+∞

Le problème (5) n’a donc pas de solution dans ce cas.


• si λ1 = 0 et si b ∉ (ker A)⊥ , alors l’équation ∇ f (x) = 0 n’a pas de solution, ce qui implique
que le problème (5) n’a donc pas de solution. Plus précisément, f est convexe, mais pas
bornée inférieurement et il existe e 1 ∈ ker A tel que 〈b, e 1〉 6= 0. On en déduit :

∀z ∈ R, f (ze 1 ) = −z〈b, e 1 〉 + c −−−−−−−−−−−→ −∞.


z→ sgn(〈b,e 1 〉)∞

3. On dit que cette fonctionnelle est quadratique par abus de langage bien qu’elle soit en réalité la somme d’une
fonction quadratique et d’une fonction affine.
3 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 23

• si λ1 = 0 et si b ∈ (ker A)⊥ , alors l’équation ∇ f (x) = 0 possède une infinité de solutions, ce


qui implique que le problème (5) a une infinité de solutions. Puisque A est semi définie
positive, f est convexe et tout minimum local est un minimum global. Plus précisément,
si x 0 désigne une solution particulière de l’équation ∇ f (x) = 0, il est aisé de vérifier que
l’ensemble des solutions est l’espace affine x 0 + ker A et
1
minn f (x) = − 〈b, x 0 〉 + c.
x∈R 2
• si λ1 > 0, la matrice A est inversible et l’équation ∇ f (x) = 0 admet une solution unique
qui est A −1 b. On notera que, en vertu de l’exemple 2.13, f est λ1 -elliptique, donc stricte-
ment convexe en particulier. De plus, la valeur du minimum est

1
minn f (x) = − 〈b, A −1 b〉 + c.
x∈R 2

3.3 La méthode des moindres carrés


On pourra se référer par exemple à [2]. Soit A, une matrice réelle de taille m×n (en pratique,
m est souvent bien plus grand que n). On suppose donc que m > n. On cherche à résoudre
Ax = b “au mieux”, i.e. on cherche x ∗ minimisant

f : Rn −→ R
x 7−→ f (x) = kAx − bk2 ,

la notation k · k désignant bien sûr la norme euclidienne de Rn . Pour montrer que le problème
consistant à minimiser f sur Rn possède une solution, on peut le réexprimer sous la forme : “re-
chercher l’existence d’un projeté de b sur le sous espace vectoriel Im A”. Puisque nous sommes
en dimension finie, on sait qu’il existe un unique projeté b sur le sous espace vectoriel Im A,
car celui-ci est de dimension finie donc fermé (voir par exemple [6]).
On peut réexprimer f (x) sous une forme mieux adaptée à la procédure de minimisation
que l’on souhaite mettre en œuvre. En effet,

1 1 1
∀x ∈ Rn , f (x) = kAx − bk2 = 〈Ax, Ax〉 − 〈Ax, b〉 + kbk2
2 2 2
1 ⊤ 1
= 〈A Ax, x〉 − 〈A ⊤ b, x〉 + kbk2 .
2 2

La fonction f est bien évidemment convexe. Remarquons que la matrice A ⊤ A est de taille n×n,
symétrique et semi-définie positive (immédiat). On peut alors réutiliser l’étude faite dans la
section 3.2. On distingue deux cas :
• Si A est de plein rang n. Alors, d’après le théorème du rang, la matrice A est injective,
ce qui garantit que A ⊤ A est également injective donc inversible. En conséquence, le pro-
blème des moindres carrés (ou de projection orthogonale) possède une solution unique
x ∗ . On peut obtenir explicitement x ∗ en résolvant le système d’équations normales issu
de la fonctionnelle quadratique f (i.e. ∇ f (x) = 0) :

A ⊤ Ax = A ⊤ b.
3 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 24

• Si rgA < n. Alors, la plus petite valeur propre de A ⊤ A est nulle, puisque A ⊤ A n’est pas
injective. On a vu que le problème des moindres carrés se ramène à un problème de pro-
jection orthogonale et que ce problème possède (au moins) une solution. D’après l’étude
faite dans la section 3.2, dans le cas où la plus petite valeur propre de A ⊤ A est nulle, ce
qui est le cas ici, le problème de minimisation de la fonctionnelle quadratique associée
a soit une infinité de solutions, soit pas de solution. On en déduit que le problème des
moindres carrés possède dans ce cas une infinité de solutions. On peut également s’en
convaincre de la façon suivante : l’équation A ⊤ Ax = A ⊤ b possède au moins une solution
si, et seulement si A ⊤ b ∈ Im A ⊤ A, i.e. A ⊤ b ∈ [ker A ⊤ A]⊥ = [ker A]⊥ (car ker A ⊤ A = ker A),
ce qui est vrai puisque ker A = [Im A ⊤ ]⊥ 4 .

Remarque 3.7 Pseudo-inverse


Dans le cas où A ⊤ A est inversible, la matrice
A † = (A ⊤ A)−1 A ⊤
s’appelle pseudo-inverse ou inverse généralisé de A . Le pseudo-inverse se calcule à l’aide d’une
généralisation du théorème spectral aux matrices non carrées. L’opération de pseudo-inversion
est très utile en analyse numérique. Elle est en particulier involutive et commute avec la trans-
position et la conjugaison.

Exemple 3.8 La régression linéaire


On pourra par exemple se référer à [3, Chapitre 2] pour la régression linéaire sans contrainte et
à [3, Chapitre 3] pour la régression linéaire avec contraintes.
On considère un nuage de m points de R2 : M i = (t i , x i ), pour i ∈ {1, · · · , m}. Ces données
sont souvent le résultat de mesures et on cherche à décrire le comportement global de ce
nuage. En général, ces points ne sont pas alignés, mais si on a de bonnes raisons de penser
qu’ils devraient l’être (un modèle physique, biologiste, etc. peut guider l’intuition), on peut se
demander quelle est la droite approchant au mieux ces points.
La méthode des moindres carrés consiste alors à rechercher la droite telle que la somme des
carrés des distances des points du nuage à cette droite soit minimale.
Autrement dit, on cherche à résoudre
 n
 min f (α, β) = X (x − αt − β)2 ,
i i
 i =1
(α, β) ∈ R2 .
Posons X = (α, β)⊤ . Alors, on peut écrire que
   
t1 1 x1
 . ..  , b =  .. 
f (α, β) = kAX − bk2 , avec A =  .. .   . 
tm 1 xm
4. En effet, rappelons que, puisque nous sommes en dimension finie, tout espace vectoriel est fermé et
[Im A ⊤ ]⊥⊥ = Im A ⊤ = Im A ⊤
4 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 25

On a vu que ce problème possède une solution unique si A est de rang plein, i.e. 2. On en
déduit que ce problème possède une solution unique sauf si t 1 = · · · = t m .
De plus, µ P P ¶ µ P ¶
m
t i2 m
i =1 t i
m
xi ti
A⊤ A = Pim=1 et A ⊤ b = Pi =1
m .
i =1 t i m i =1 x i
On en déduit que l’équation normale associée est
½
S t 2 α + S t β = S xt
S t α + mβ = S x
P Pm Pm Pm 2
où l’on a posé S t = mi =1 t i , S x = i =1 x i , S xt = i =1 x i t i et S t = i =1 t i . Sous réserve que l’on
2

ne soit pas dans la situation “ t 1 = · · · = t m ” (ce qui se retrouve en calculant le déterminant du


système et en retrouvant un cas d’égalité de Cauchy-Schwarz), ce système a pour solution
S x S t − mS xt S xt S t − S x S t 2
α= 2
et β = .
(S t ) − mS t 2 (S t )2 − mS t 2

4 Conditions d’optimalité - optimisation sous contraintes


Dans cette section, on cherche à énoncer des conditions d’optimalité au premier ordre pour
des problèmes d’optimisation avec contraintes, du type

 inf f (x)
h(x) = 0

g (x) É 0,
où f : Rn −→ R, h : Rn −→ Rp et g : Rn −→ Rq , p et q désignant deux entiers naturels non nuls.
Dans l’énoncé du problème ci-dessus, la contrainte inégalité doit être interprétée composante
par composante.
L’énoncé des conditions d’optimalité nécessite l’introduction de multiplicateurs de La-
grange. Dans un premier temps, on va s’intéresser à un problème sous contrainte simplifié,
dans lequel ne figurent que des contraintes égalité.

4.1 Multiplicateurs de Lagrange, le théorème des extrema liés


Dans un premier temps et pour comprendre de façon intuitive les résultats qui vont suivre,
considérons le cas où l’ensemble des contraintes est une intersection finie d’hyperplans. On
cherche donc à résoudre ½
inf f (x)
h(x) = 0
avec f : Rn −→ R, une fonction diférentiable sur Rn et
 
〈a 1 , x〉
 .. 
h(x) =  . 
〈a p , x〉
4 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 26

On pose K = {x ∈ Rn , h(x) = 0}. Puisque K est un espace vectoriel, il est aisé de voir que si x ∗
est un minimum local de f sur K , alors

〈∇ f (x ∗ ), δx〉 = 0, ∀δx ∈ K .

Autrement dit, ∇ f (x ∗ ) est un élément de K ⊥ . Or, on peut aisément se convaincre que

K ⊥ = vect{a i , 1 É i É p}.

Par conséquent,
p
X
∃(λ1 , · · · , λp ) ∈ Rp | ∇ f (x ∗ ) + λi a i = 0.
i =1
Chaque réel λi s’appelle un multiplicateur de Lagrange.
On va généraliser cette notion au cas où h est quelconque. Soit h 1 , · · · , h p , p fonctions de
Rn dans Rp . On appelle K , l’ensemble des contraintes

K = {x ∈ Rn , h 1 (x) = · · · = h p (x) = 0}. (6)

Le théorème qui suit généralise le résultat établi dans l’exemple introductif.

Théorème 4.1. Extrema liés

Soit f : Rn −→ R, une fonction différentiable et h : Rn −→ Rp , de classe C 1 . On suppose


que f admet un minimum local sur l’ensemble K et que

la famille ∇h 1 (x ∗ ), · · · , ∇h p (x ∗ ) est libre. (7)

Alors, il existe un p -uplet (λ1 , · · · , λp ) ∈ Rp tel que


p
X
∇ f (x ∗ ) + λk ∇h k (x ∗ ) = 0. (8)
k=1

Remarque 4.2 Qualification des contraintes


La condition (7) est appelée condition de qualification des contraintes. Remarquons que si cette
condition n’est pas satisfaite, alors la conclusion du théorème 4.1 tombe en défaut. En effet,
pour s’en convaincre, considérons l’exemple suivant :
½
inf f (x) = x
x ∈ R et h(x) = 0,

où h : x ∈ R 7→ x 2 . Alors, le minimum de f sur K est atteint en x ∗ = 0 et l’équation (8) n’a pas


lieu puisque h ′ (x ∗ ) = 0 et f ′ (x ∗ ) = 1.
Pour remédier à ce problème, on peut remplacer la condition (8) par la condition
p
X
∃(λ0 , λ1 , · · · , λp ) ∈ Rp | λ0 ∇ f (x ∗ ) + λk ∇h k (x ∗ ) = 0.
k=1
4 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 27

On peut cependant démontrer (voir par exemple [3, 7]) que la condition de qualification des
contraintes (7) assure que λ0 6= 0 et on retrouve alors les conclusions du théorème 4.1.

Démonstration. Dans le but d’éviter un formalisme pénible, on présente une preuve du théo-
rème 4.1 dans le cas n = 2 et p = 1. Cependant, aucune difficulté conceptuelle supplémentaire
n’apparaît dans le cas général. On note donc

K = {x ∈ Rn , h(x) = 0}.

L’idée de la preuve consiste à se ramener à la recherche de minima locaux d’une fonction d’une
variable. Notons que, quitte à effectuer un changement de coordonnées, la condition (7) se
réécrit sous la forme
∂h ∗
(x ) 6= 0,
∂x 2
ce qui nous incite à utiliser le théorème des fonctions implicites. En effet, on peut érire K
comme un graphe dans une petite boule centrée en x ∗ :

∃ε > 0, ∃ϕ ∈ C 1 (R, R), K ∩ B (x ∗ , ε) = {x = (x 1 , x 2 ) ∈ B (x ∗ , ε), x 2 = ϕ(x 1 )}.

Par conséquent, la fonction fe : x 1 7→ f (x 1 , ϕ(x 1 )) admet un minimum local en x 1∗ . Écrivons alors


les conditions d’optimalité au premier ordre pour une telle fonction.

∂f ∗ ∂f ∗
fe′ (x 1∗ ) = 0 ⇐⇒ (x 1 , ϕ(x 1∗ )) + ϕ′ (x 1∗ ) (x , ϕ(x 1∗ )) = 0.
∂x 1 ∂x 2 1

Par ailleurs, de h(x 1 , ϕ(x 1 )) = 0 dans un voisinage de x 1∗ , on déduit

∂h ∗ ∂h ∗
(x 1 , ϕ(x 1∗ )) + ϕ′ (x 1∗ ) (x , ϕ(x 1∗ )) = 0
∂x 1 ∂x 2 1

La conclusion s’ensuit en remarquant que x 2∗ = ϕ(x 1∗ ) et en posant

∂f
∂x 2
(x ∗ )
λ=− ∂h
.
∂x 2 (x )

Remarque 4.3 Interprétation géométrique


Pour donner une interprétation géométrique au théorème précédent, on va décomposer les
gradients de h et f dans une base adaptée. En effet, plutôt que de décomposer le gradient de
h dans la base canonique (→−
e1, →
− ∂h
e 2 ) (i.e. ∇h(x ∗ ) = ∂x 1
(x ∗ )→
− ∂h
e 1 + ∂x 2
(x ∗ )→

e 2 ), on peut le décomposer

− ∗ →
− ∗
suivant n (x ) (vecteur normal à la variété “ h(x) = 0”) et τ (x ) (vecteur tangentiel à la variété
4 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 28

“ h(x) = 0”) en x ∗ (le fait que h soit une fonction de classe C 1 et que ∇h(x ∗ ) 6= 0 garantit
l’existence de tels vecteurs), autrement dit
∂h ∗ → − ∂h ∗ → −
∇h(x ∗ ) = (x ) n (x ∗ ) + (x ) τ (x ∗ ),
∂n ∂τ

(x ) = ∇h(x ∗ ) · →
∂h ∗
avec ∂n −
n (x ∗ ) et ∂h
∂τ
(x ∗ ) = ∇h(x ∗ ) · →

τ (x ∗ ).

Or, puisque K ∩ B (x , ε) est le graphe d’une fonction ϕ, on en déduit que
µ ¶ µ ¶

− ∗ 1 1 →
− 1 −ϕ′ (x 1∗ )
τ (x ) = q et n (x ∗ ) = q
ϕ′ (x 1∗ ) 1
1 + ϕ′2 (x 1∗ ) 1 + ϕ′2 (x 1∗ )

À présent, remarquons que la composante tangentielle du gradient de h s’écrit


µ ¶
∂h ∗ 1 ∂h ∗ ∂h ∗
(x ) = q (x ) + ϕ′ (x 1∗ ) (x ) .
∂τ 1 + ϕ′2 (x 1∗ ) ∂x 1 ∂x 2

À un facteur multiplicatif près, on reconnaît la dérivée de x 1 7→ h(x 1 , ϕ(x 1 )) en x 1∗ , qui est par
conséquent nulle. On en déduit :
∂h ∗ → −
∇h(x ∗ ) = (x ) n (x ∗ ).
∂n
De la même façon, le fait que la dérivée de x 1 7→ f (x 1 , ϕ(x 1 )) s’annule en x 1∗ (condition
d’optimalité au premier ordre) s’interprète géométriquement comme :
∂f ∗
(x ) = 0.
∂τ

Il s’ensuit que le gradient de f en x ∗ est dirigé suivant le vecteur normal →



n (x ∗ ), ce qu’exprime
exactement la relation (8). (voir Figure 2)

Exemple 4.4 Un premier exemple très simple


Pour comprendre comment utiliser le théorème des extrema liés, considérons l’exemple suivant :
½
inf f (x, y) = x 4 + y 4
(x, y) ∈ R2 tel que x 2 + y 2 = 1.

Remarquons que l’existence est immédiate. En effet, on minimise une fonction continue de deux
variables sur un compact de R2 . On peut d’ailleurs mener un calcul direct en se ramenant à
la minimisation d’une fonction d’une variable réelle. Ainsi, posons x = cos θ et y = sin θ, avec
θ ∈ [0, 2π[. On trouve alors que

f (cos θ, sin θ) = (cos2 θ + sin2 θ)2 − 2 cos2 θ sin2 θ


1
= 1 − sin2 (2θ).
2
4 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 29

µ ¶
−ϕ′ (x 1 )
∇ f = cste.→

n=p cste
1+ϕ′2 (x 1 ) 1

x 2 = ϕ(x 1 )

F IGURE 2 – Représentation de la fonction ϕ

2
On en déduit que θ 7→ f (cos θ, sin θ) est minimale lorsque ³ sin
p
(2θ)
p ´
= 1, c’est-à-dire pour θ ∈
© π 3π 5π 7π ª 2 2
4, 4 , 4 , 4 ou encore que f est minimale pour (x, y) = ± 2 , ± 2 . On retrouve immédiate-
ment ce résultat en appliquant le théorème des extrema liés. En effet, il existe λ ∈ R tel que,
au point (x, y) minimisant f sur le cercle unité, ∇ f (x, y) = λ∇h(x, y), avec h(x, y) = x 2 + y 2 − 1,
autrement dit ½
x(x 2 − λ) = 0
y(y 2 − λ) = 0.
p p p
Ainsi x = 0 et y = ± λ ou y = 0 et x = ± λ ou x = y = ± λ. Dans chacun des cas, la
valeur de λ s’obtient en tenant compte de la contrainte égalité. Ainsi, λ = 1 pour les deux
premiers cas et λ = 21 pour le dernier cas. À ce stade, il est nécessaire de faire le tri parmi les
points critiques, entre maxima locaux, minima locaux et points selle. La meilleure solution est
d’évaluer f aux points obtenus. On montre alors aisément que f est maximale dans les deux
premiers cas, et minimale dans le dernier. On retrouve ainsi le résultat obtenu par un calcul
direct précédemment.

Exemple 4.5 Une démonstration du théorème spectral grâce au théorème des extrema liés
On considère le problème de minimisation sous contrainte
½
inf〈Ax, x〉
kxk = 1,
4 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 30

avec A ∈ Rn×n , une matrice symétrique. L’existence d’une solution est triviale (fonction continue
sur un compact) En posant f (x) = 〈Ax, x〉 et h(x) = kxk2 −1, on peut appliquer le théorème des
extrema liés. On en déduit qu’il existe un (x ∗ , λ∗ ) ∈ Rn × R tel que

2Ax ∗ + 2λ∗ x ∗ = 0,

autrement dit, il existe un couple propre pour toute matrice symétrique. On peut en déduire le
théorème spectral :

Théorème 4.6. Théorème spectral

Soit A , une matrice symétrique à coefficients réels.


Alors, A est diagonalisable sur R dans une base orthonormée de vecteurs propres.

Pour s’en convaincre, raisonnons par récurrence sur la dimension n . Pour n = 1, le théorème
spectral est une trivialité. L’hérédité se prouve de la façon suivante : considérons le sous-espace
vectoriel H = [vect (x ∗ )]⊥ . Cet espace est stable par A . en effet, soit y ∈ H . Alors,

〈x ∗ , y〉 = 0 et 〈x ∗ , Ay〉 = 〈Ax ∗ , y〉 = λ∗ 〈x ∗ , y〉 = 0.

La restriction de A à H étant encore symétrique, l’hypothèse de récurrence assure l’existence


d’une base orthonormée de H qui diagonalise la restriction de A à H .

Exemple 4.7 L’inégalité arithmético-géométrique


On cherche à (re)démontrer l’inégalité arithmético-géométrique à l’aide du théorème des ex-
trema liés. On rappelle cette inégalité :
s
n
Y 1X n
∀(x 1 , . . . , x n ) ∈ Rn+ , n
xi É xi .
i =1 n i =1

Pour ce faire, considérons la fonction

J: Rn+ −→ R
qQ
n n
i =1 x i
x = (x 1 , . . . , x n ) 7−→ Pn
i =1 x i

Remarquons que la fonction J ainsi définie est positivement homogène de degré 1, c’est-à-dire
que J (λx) = λJ (x) pour tout x ∈ Rn+ et t > 0. Il s’ensuit que le problème consistant à minimiser
J sur Rn+ est équivalent au problème d’optimisation
( qQ
inf f (x) = n ni=1 x i
© P ª
x ∈ X = x ∈ Rn+ | n1 ni=1 x i = 1 .

En remarquant que X est un compact et que f est continue, on peut affirmer que ce problème
possède (au moins) une solution. Par ailleurs, notons que, en un point x où le maximum de f sur
4 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 31

X est atteint, nécessairement x i > 0 pour tout i ∈ {1, . . . , n}. On peut donc appliquer le théorème
des extrema liés sans se préoccuper des contraintes inégalité x i Ê 0. On obtient alors l’existence
P ∂f f (x)
de λ ∈ R tel que ∇ f (x) = λ∇h(x), où l’on a posé h(x) = n1 ni=1 x i − 1. Or, ∂xi (x) = n1 xi et
∂h
∂x i (x) = n1 . On en déduit que, à l’optimum

f (x) = λx 1 = · · · = λx n ,

puis que tous les x i sont égaux. Compte tenu de la contrainte égalité, x i = 1 pour tout i ∈
{1, . . . , n}. Ainsi, pour tout x ∈ X , f (x) É 1 ce qui montre que

maxn J (x) = 1.
x∈R+

On retrouve l’inégalité arithmético-géométrique.

4.2 Les théorèmes de F. John et Karush-Kuhn-Tucker


Le théorème que nous allons énoncer à présent est plus général que le théorème des ex-
trema liés, puisqu’il permet de traiter des contraintes de type “inégalité”. En revanche, la preuve
d’un tel théorème est plus ardue et peut être trouvée dans [1, 3, 4, 7].
On introduit l’ensemble des contraintes

K = {x ∈ Rn , h(x) = 0 et g (x) É 0},

où h : Rn −→ Rp et g : Rn −→ Rq sont de classe C 1 . Pour mieux comprendre le théorème qui va


suivre, on introduit la notion de direction admissible.

Définition 4.8. Direction admissible

En tout point x ∈ K , l’ensemble


( )
h ∈ Rn , ∃(x n )n∈N ∈ K N , ∃(εn )n∈N ∈ (R∗+ )N
K (x) = xn − x
lim (x n ) = x, lim εn = 0, lim =h
n→+∞ n→+∞ n→+∞ εn

est appelé le cône des directions admissibles au point x .

On peut dire que K (x) est l’ensemble de tous les vecteurs qui sont tangents en x à une courbe
contenue dans K et passant par x. Remarquons que si K est une variété régulière, K (x) est
simplement l’espace tangent à K en x.
Considérons le problème d’optimisation
½
inf f (x)
(9)
x ∈K,

où f : Rn −→ R est supposée différentiable. Si l’on cherche à écrire les conditions d’optimalité


pour ce problème, on peut utiliser le même raisonnement que dans la preuve du théorème 3.1.
4 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 32

Ainsi, les conditions d’optimalité au premier ordre pour ce problème s’écrivent : si x ∗ est un
minimum local de f sur K , alors

〈∇ f (x ∗ ), d 〉 = 0, ∀d ∈ K (x ∗ ).

Cependant, cette écriture n’est guère utile en pratique, étant donné qu’il est difficile de déter-
miner de façon explicite le cône des directions admissibles K (x ∗ ). Le théorème que l’on pré-
sente maintenant traduit l’appartenance des directions admissibles à un tel cône.

Théorème 4.9. F. John

Soit x ∗ , un minimum local du problème (9).


q+1
Alors, il existe (λ1 , · · · , λp ) ∈ Rp et (µ0 , µ1 , · · · , µq ) ∈ R+ tels que
p
X q
X
µ0 ∇ f (x ∗ ) + λi ∇h i (x ∗ ) + µ j ∇g j (x ∗ ) = 0,
i =1 j =1

et
• h(x ∗ ) = 0 et g (x ∗ ) É 0,
• µ j g j (x ∗ ) = 0, ∀ j ∈ {1, · · · , q} (condition de complémentarité).

Enfin, comme pour le théorème 4.1, on peut obtenir la non nullité du multiplicateur appa-
raissant devant le gradient de la fonctionnelle à optimiser si les contraintes vérifient des condi-
tions de qualification.

Définition 4.10. Contrainte active, qualification des contraintes

Soit x ∈ K .
• L’ensemble I (x) = {i ∈ {1, · · · , q}, g i (x) = 0} est appelé ensemble des contraintes
actives en x .
• On dit que les contraintes sont qualifiées en x ∈ K si, et seulement si il existe une
direction d ∈ Rn telle que l’on ait pour tout i ∈ {1, · · · , p} et j ∈ I (x),

〈∇h i (x), d 〉 = 0 et 〈∇g j (x), d 〉 < 0, (10)

et si les vecteurs ∇h 1 (x), · · · , ∇h p (x) sont linéairement indépendants.

La direction h ainsi définie est alors une sorte de direction rentrante (il est aisé de voir que
x + t d ∈ K si t est assez petit).

Remarque 4.11 Une autre condition de qualification des contraintes


Il est intéressant de constater qu’une condition suffisante pour que (10) ait lieu est

les vecteurs ∇g 1 (x), · · · , ∇g q (x) sont linéairement indépendants.


4 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 33

En effet, pour s’en convaincre, il suffit de démontrer que l’on peut trouver d ∈ Rn \{0} tel que

〈∇h i (x), d 〉 = 0, i ∈ {1, · · · , p} et 〈∇g j (x), d 〉 < 0, j ∈ I (x).


Pp P
Cherchons d sous la forme d = i =1
d i ∇h i (x) + j ∈I (x) δ j ∇g j (x) et imposons

〈∇h i (x), d 〉 = 0, i ∈ {1, · · · , p} et 〈∇g j (x), d 〉 = −1, j ∈ I (x).

On est alors conduit au système linéaire


½ Pp P
d 〈∇h i (x), ∇h k (x)〉 + j ∈I (x) δ j 〈g j (x), ∇h k (x)〉 = 0, k ∈ {1, · · · , p}
Pip=1 i P
d 〈∇h i (x), ∇g k (x)〉 + j ∈I (x) δ j 〈g j (x), ∇g k (x)〉 = 0,
i =1 i
k ∈ I (x).

La matrice associée à ce système est une matrice de Gram, de la forme (〈e j , e k 〉) j ,k où la famille
(e i )i associée est une base. Elle est donc inversible et le système ci-dessus est de Cramer.

Énonçons à présent le théorème principal de cette section.

Théorème 4.12. (Karush-Kuhn-Tucker)

Soit x ∗ , un minimum local du problème (9). On suppose que les contraintes sont
qualifiées en x .
q
Alors, il existe (λ1 , · · · , λp ) ∈ Rp et (µ1 , · · · , µq ) ∈ R+ tels que
p
X q
X
∇ f (x ∗ ) + λi ∇h i (x ∗ ) + µ j ∇g j (x ∗ ) = 0,
i =1 j =1

et
• h(x ∗ ) = 0 et g (x ∗ ) É 0,
• µ j g j (x ∗ ) = 0, ∀ j ∈ {1, · · · , q} (condition de complémentarité).
Notons que la condition de complémentarité se comprend aisément. En effet, si une contrainte
inégalité est inactive, alors elle ne joue aucun rôle et on peut considérer que le multiplicateur
de Lagrange associé est nul.
Enfin, notons que, comme dans le cas “sans contrainte”, sous hypothèse de convexité, le
théorème de Karush-Kuhn-Tucker devient une condition nécessaire et suffisante d’optimalité.

Exemple 4.13 Une application du théorème de Karush-Kuhn-Tucker


On considère le problème de minimisation sous contrainte
½
inf f (x, y) = x 4 + 3y 4
x 2 + y 2 Ê 1.

Réglons au préalable la question de l’existence. On sait que pour tous (x, y) ∈ R2 ,

f (x, y) Ê 2x 2 + 6y 2 − 4 Ê 2k(x, y)k2 − 4 −−−−−−−−−→ +∞.


k(x,y)k→+∞
RÉFÉRENCES 34

On en déduit que f est infinie à l’infini, et l’ensemble des contraintes K = {(x, y) ∈ R2 , g (x, y) É 0},
avec g (x, y) = 1 − x 2 − y 2 est fermé, ce qui garantit l’existence de solution(s) pour le problème
d’optimisation ci-dessus. On cherche à présent à écrire les conditions d’optimalité au premier
ordre pour un tel problème. Soit (x, y) un minimiseur (global). Le théorème de Kuhn-Tucker
assure l’existence 5 de µ Ê 0 tel que ∇ f (x, y) + µ∇g (x, y) = 0, plus précisément :


 4x 3 − 2µx = 0


12y 3 − 2µy = 0
 x2 + y 2 Ê 1


 µ(x 2 + y 2 − 1) = 0.

• Supposons que l’on ait µ = 0. Alors, les deux premières équations du système ci-dessus
fournissent immédiatement x = y = 0. Mais c’est impossible car (0, 0) n’appartient pas à
l’ensemble des contraintes. Par conséquent, on a nécessairement µ > 0.
• Des deux premières équations, on tire que les minimiseurs sont à choisir parmi
µ r ¶ µ r ¶ µ r r ¶
µ µ µ µ
X 1 = 0, ± , X2 = ± , 0 et X 3 = ± ,±
6 2 2 6

– Étude de X 1 . Puisque x 2 + y 2 = 1, on obtient µ = 6 dans ce cas, et

X 1 = (0, ±1) et f (X 1 ) = 3.

– Étude de X 2 . Puisque x 2 + y 2 = 1, on obtient µ = 2 dans ce cas, et

X 2 = (±1, 0) et f (X 2 ) = 1.

– Étude de X 3 . Puisque x 2 + y 2 = 1, on obtient µ = 32 dans ce cas, et


à p !
3 1 3
X3 = ± ,± et f (X 3 ) = .
2 2 4

On en déduit que
3
min f (x) = f (X 3 ) = .
x∈K 4

Références
[1] G. A LLAIRE, Analyse numérique et optimisation, éditions de l’école Polytechnique, 2005.
[2] G. A LLAIRE , S.M. K ABER, Numerical Linear Algebra, Texts in Applied Mathematics, Vol. 55,
Springer, 2008.
[3] M. B ERGOUNIOUX, Optimisation et contrôle des systèmes linéaires, Dunod, 2001.
5. La qualification des contraintes est aisée à constater. Ce petit exercice est laissé au lecteur.
RÉFÉRENCES 35

[4] J.F. B ONNANS , J.C. G ILBERT, C. L EMARÉCHAL , C. S AGASTIZABAL, Optimisation numérique,


coll. SMAI Mathématiques et Applications no 27, Springer, 1997.
[5] P. C IARLET, Introduction à l’analyse numérique matricielle et à l’optimisation, Masson,
1988.
[6] X. G OURDON, Analyse et Algèbre, Ellipse, 1994.
[7] J-B. H IRIART-U RRUTY, Convex Analysis and Minimization Algorithms I, Springer-Verlag,
1996.
[8] J-B. H IRIART-U RRUTY, L’optimisation, Que sais-je ?, Presses Universitaires de France,
1996.
[9] C. Z UILY, H QUEFFÉLEC, Analyse pour l’agrégation, 3ème édition , Dunod, 2007.

Vous aimerez peut-être aussi