Académique Documents
Professionnel Documents
Culture Documents
Introduction à l’optimisation
Première Partie : aspects théoriques
Univ. Rennes 1, E.N.S. Rennes
Yannick Privat ∗
∗ ENS Cachan Bretagne, CNRS, Univ. Rennes 1, IRMAR, av. Robert Schuman, F-35170 Bruz, France;
yannick.privat@bretagne.ens-cachan.fr
1
TABLE DES MATIÈRES 2
1 Introduction
1.1 Le programme de l’agrégation
• Optimisation et approximation
• Interpolation de Lagrange.
• Extremums des fonctions rŐelles de n variables réelles : multiplicateurs de Lagrange.
• Mise en œuvre de l’algorithme de gradient à pas constant.
• Méthode des moindres carrés et applications.
L’interpolation de Lagrange et les algorithmes de gradients seront étudiés ultérieurement, au
cours de la préparation.
tandis que l’on utilisera la notation “inf” quand on ne sait pas a priori si la valeur de la borne
inférieure est, ou non atteinte. Enfin, rappelons que toute partie minorée non vide de R admet
une borne inférieure, caractérisée de la façon suivante :
En conséquence, voici les questions qu’il sera naturel de se poser lorsque vous rencontrerez un
problème d’optimisation :
• Ce problème possède t-il une solution ?
• 1er cas de figure.
Si ce problème possède une solution, on cherchera à la caractériser (par exemple, est-elle
unique ?) ou mieux, à la déterminer lorsque ce sera possible. On exploitera pour cela les
conditions nécessaires d’optimalité (aux premier et deuxième ordres).
• 2ème cas de figure.
Si ce problème ne possède pas de solution, on cherchera à exhiber une suite minimisante,
i.e. une suite d’éléments de l’ensemble K convergeant vers inf{ f (x), x ∈ K }.
• Enfin, on se posera la question, lorsque l’on ne sait pas déterminer explicitement les so-
lutions du problème d’optimisation, du choix de méthodes numériques adaptées pour
déterminer le minimum et ses minimiseurs.
Terminons ce paragraphe en présentant quelques problèmes d’optimisation.
où Y est un espace fonctionnel donné (choisi par exemple de sorte que ce problème
possède une solution).
L’intérêt d’une telle écriture vient du fait que l’on s’est ainsi ramené au calcul d’une li-
mite d’une fonction d’une variable réelle. La limite précédente s’appelle indifféremment
dérivée directionnelle de f en x 0 selon le vecteur h ou différentielle au sens de Gâteaux de
f en x 0 dans la direction h. Notons que si f est différentiable, il est aisé de montrer que f
admet une dérivée directionnelle selon tout vecteur h, mais que la réciproque n’est pas
vraie.
Résumons sous la forme d’un schéma les relations d’implication entre ces différentes proprié-
tés.
f est C 1 en x 0 =⇒ f est différentiable en x 0 =⇒ f est C 0 en x 0
⇓
f dérivable en x 0 selon tout vecteur h
Les implications non écrites sont a priori fausses, c’est-à-dire que l’on peut trouver des contre-
exemples.
qu’il est possible de trouver une fonction f dérivable selon tout vecteur en x 0 = (0, 0) qui
n’est cependant pas continue en ce point.
• De même, il existe des fonctions continues non différentiables ayant cependant des déri-
vées dans toutes les directions. C’est par exemple le cas de l’application
½
2 x si x = y 2
(x, y) ∈ R 7→
0 sinon.
Cette fonction est bien continue en (0, 0), dérivable dans toutes les directions en (0, 0) (de
dérivées directionnelles nulles), mais pas différentiable en (0, 0).
f (x 0 + h) − f (x 0 ) = d f x0 (h) + o (khkV ),
h→0
d f x0 +ξ = d f x0 + L(x 0 )ξ + o (kξkV ) ∈ V ′ .
ξ→0
La différentielle seconde de f , notée d 2 f x0 est alors l’application L(x 0 ) : V −→ V ′ . Elle est difficile
à évaluer en pratique car L(x 0 )ξ est un élément de V ′ . Heureusement, en la faisant agir sur un
élément h ∈ V , on obtient une forme bilinéaire continue sur V ×V , que l’on notera 〈d 2 f x0 ξ, h〉.
Il est alors aisé de montrer que
1
f (x 0 + h) − f (x 0 ) = d f x0 (h) + 〈d 2 f x0 h, h〉 + o (khk2 ).
2 h→0
f (x 0 + h) − f (x 0 ) = 〈∇ f (x 0 ), h〉 + o (khk)
h→0
∂f ∂f
où ∇ f (x 0 ) est le gradient de f en x 0 , i.e. le vecteur ( ∂x1 (x 0 ), · · · , ∂xn (x 0 )).
La notion de gradient n’est bien sûr pas intrinsèque, elle dépend du produit scalaire
choisi : la définition générale de ∇ f (x) résulte du théorème de représentation de Riesz
appliqué à la différentielle de f en x. Toutefois, en dimension finie, on fixe le plus sou-
vent le produit scalaire canonique et les formules ci-dessus définissent le gradient et la
hessienne tout aussi bien.
• Supposons que f est deux fois différentiable en x 0 . Alors, pour tout h ∈ Rn ,
1
f (x 0 + h) − f (x 0 ) = 〈∇ f (x 0 ), h〉 + 〈Hess f (x 0 )h, h〉 + o (khk2 )
2 h→0
On notera que, si f est deux fois différentiable, en vertu du théorème de Schwarz, Hess f (x 0 )
est symétrique (réelle) (garder également en tête le contre-exemple de Peano lorsque la
fonction n’est pas deux fois différentiable, cf [6])
Pour rappel, refaisons le point sur les différentes formules de Taylor et les hypothèses mi-
nimales de régularité qu’elles nécessitent. Nous les écrivons ici à l’ordre deux seulement, car
cela s’inscrit dans la logique de ce cours, mais ces formules s’étendent bien sûr à tous les ordres
avec des hypothèses ad hoc.
• Formule de Taylor avec reste intégral.
Supposons que f est de classe C 2 dans un ouvert U de Rn dans R. Si le segment [a, a + h]
est contenu dans U , alors
Z
1 1 (1 − t )k
f (x 0 + h) − f (x 0 ) = 〈∇ f (x 0 ), h〉 + 〈Hess f (x 0 + t h)h, h〉d t
2 0 k!
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 8
Remarquons que l’existence n’est pas toujours assurée, comme le montre l’exemple de la mi-
nimisation de x 7→ e x sur R, mais nécessite en général peu d’hypothèses.
Voici comment on utilise en général le théorème précédent. Rappelons cependant qu’il est es-
sentiel que l’on se soit placé en dimension finie pour pouvoir utiliser ce théorème. Dans le cas
contraire, il est aisé de construire des contre-exemples.
• Si K est compact, alors, on obtient immédiatement l’existence en utilisant la continuité
de f .
• Si f est coercive (on dit aussi infinie à l’infini), c’est-à-dire f (x) −−−−−−→ +∞ 1 et K est
kxk→+∞
fermé, alors on est dans les conditions d’utilisation du théorème précédent.
1. Cette condition signifie : ∀A > 0, ∃η > 0, kxk Ê η =⇒ f (x) Ê A ou encore “quelle que soit la suite (xn )n∈N
d’éléments de K telle que lim kxn k = +∞, on a lim f (xn ) = +∞.
n→+∞ n→+∞
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 10
Exemple 2.3
Considérons le problème
½
min f (x, y) = x 4 + y 4 − x 2
(x, y) ∈ K = {(x, y) ∈ R2 , x + y É 4}.
Montrons que f est “infinie à l’infini”. Pour tous (X , Y ) ∈ R2 , on sait que |X Y | É 21 (X 2 +Y 2 ). En
remplaçant X par x 2 et Y par 1, on obtient x 4 Ê 2x 2 − 1 et par conséquent,
f (x, y) Ê x 2 + y 4 − 1 Ê x 2 + 2y 2 − 2 Ê k(x, y)k2 − 2 −−−−−−→ +∞.
kxk→+∞
f est donc “infinie à l’infini” et K est fermé (image réciproque d’un fermé par une application
continue. . . ), et on en déduit que le problème d’optimisation a (au moins) une solution.
Par conséquent, f (x) Ê kxk∞ pour tout x ∈ RN et l’existence d’un minimiseur pour le problème
(3) s’ensuit.
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 11
On dit que f est strictement convexe si l’inégalité ci-dessus est stricte pour
x 6= y , t ∈]0, 1[.
Rappelons que toute fonction convexe possède une régularité minimale en dimension finie.
• Si f est une fonction convexe définie sur un ouvert convexe Ω de Rn , alors f est continue
sur Ω et lipschitzienne sur tout compact de Ω. (voir par exemple [7] pour la preuve dans
Rn et [9] pour le cas n = 1)
• De la propriété de Lipschitz découle, en utilisant le théorème de Rademacher, que toute
fonction convexe définie sur Ω ⊂ Rn est différentiable presque partout (au sens de la me-
sure de Lebesgue) sur son domaine.
À présent, nous allons rappeler un fait bien connu mais néanmoins fort utile en pratique.
On peut caractériser assez facilement une fonction convexe dans le cas où celle-ci est régulière
(différentiable partout ou deux fois différentiable partout) .
(1 − t )y) É (1 − t ) f (x) + t f (y), d’où f (x + t (y − x)) É t [ f (y) − f (x)], puis on divise par t
et on fait tendre t vers 0.
• (i i ) =⇒ (i i i ). On écrit (i i ) avec (x, y), puis (y, x) et on somme.
• (i i i ) =⇒ (i i ). On utilise la formule de Taylor Mac-Laurin à l’ordre 1 2 , appliquée à la
fonction t ∈ [0, 1] 7→ f (x + t (y − x)). Il existe t ∈ [0, 1] tel que
f (x) Ê f (x t ) + 〈∇ f (x t ), x − x t 〉
f (y) Ê f (x t ) + 〈∇ f (x t ), y − x t 〉,
sachant que x−x t = −t (y −x), y −x t = (1−t )(y −x). On multiplie alors les deux inégalités
respectivement par 1 − t et t , puis on les somme :
(1 − t ) f (x) + t f (y) Ê (1 − t + t ) f (x t ) = f (x t ).
1
f (y) = f (x) + 〈∇ f (x), y − x〉 + 〈Hess f (x + t (y − x))(y − x), y − x〉
2
Ê f (x) + 〈∇ f (x), y − x〉, ∀(x, y) ∈ [Rn ]2 ,
qui est une condition équivalente à la convexité d’après la première partie du théo-
rème.
2. Rappelons la formule de Taylor Mac-Laurin : soit f : [α,β] −→ R une fonction N + 1 fois dérivable. Alors, il
existe γ ∈]α,β[ tel que
XN (β − α)k (β − α)N+1 (N+1)
f (β) = f (α) + f (k) (α) + f (γ).
k=1 k! (N + 1)!
Remarquons que lorsque N = 1, la formule de Taylor Mac-Laurin coïncide avec la formule des accroissements finis.
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 13
f : Rn −→ R
x 7−→ f (x) = 12 〈Ax, x〉 − 〈b, x〉 + c,
avec A une matrice réelle symétrique, b un vecteur de Rn et c une constante donnée On a tous
calculs faits :
1
f (x + h) − f (x) = 〈Ax − b, h〉 + 〈Ah, h〉,
2
ce qui permet de se convaincre (en identifiant les termes du membre de droite avec ceux du
développement limité de f par exemple) que le gradient de f est
∇ f (x) = Ax − b, ∀x ∈ Rn .
Théorème 2.8.
Démonstration. i Soit x ∗ , un minimum local pour le problème (2). Par l’absurde, suppo-
sons qu’il existe y ∈ K tel que f (y) < f (x ∗ ). Soit y t = t y + (1 − t )x ∗ , avec t ∈]0, 1[. Alors,
f (y t ) Ê f (x ∗ ) si t est suffisamment petit (en effet, si t est petit, ky t − x ∗ k = t ky − x ∗ k
l’est aussi. . . ). La convexité de f implique que f (x ∗ ) É f (y t ) É t f (y) + (1 − t ) f (x ∗ ), ce qui
montre que f (y) < f (x ∗ ) É f (y). C’est absurde et il s’ensuit que x ∗ minimise f sur K .
ii Si x 1 et x 2 sont deux solutions globales de (2), alors si x 1 6= x 2 ,
³x +x ´ 1 1
1 2
f < f (x 1 ) + f (x 2 ) = f (x 1 ),
2 2 2
ce qui est absurde. Cela implique donc l’unicité.
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 14
f : ℓ2 (R) −→ R+
¡ X x n2
¢2 +∞
x 7−→ kxk2 − 1 +
n=0 n + 1
Cependant, le problème d’optimisation ci-dessus n’a pas de solution. Pour le vérifier, il suffit de
remarquer que inf{ f (x), x ∈ ℓ2 (R)} = 0. L’existence d’un minimiseur x tel que f (x) = 0 étant clai-
rement impossible, cela garantit que ce problème n’a pas de solution. Démontrons à présent
que inf{ f (x), x ∈ ℓ2 (R)} = 0. On considère la suite (minimisante) (x n )n∈N ∈ ℓ2 (R)N définie pour
1
n ∈ N fixé par : x kn = δk,n , ∀k ∈ N. On vérifie alors aisément que pour tout n ∈ N, f (x n ) = n+1 et
la conclusion s’ensuit.
La moralité de cet exemple est (ça n’est pas une grande surprise !) que la compacité s’ob-
tient bien plus difficilement en dimension infinie qu’en dimension finie. Bien que la suite mi-
nimisante (x n )n∈N soit bornée, il n’est pas possible d’en extraire une sous-suite convergente
dans ℓ2 (R).
Dans ce qui suit, on présente un cas favorable assurant l’existence en dimension infinie.
Gardons tout de même à l’esprit que l’essentiel du programme d’optimisation pour la prépa-
ration à l’agrégation porte sur des notions de dimension finie.
Dans ce qui suit, on se place dans un espace de Hilbert V muni d’un produit scalaire 〈·, ·〉.
Il est tout à fait clair que l’ellipticité implique la stricte convexité qui implique elle-même la
convexité. On notera que la convexité correspond formellement au cas α = 0. Bien sûr, les réci-
proques sont fausses.
Fixons y ∈]0, +∞[, t ∈ [0, 1], divisons cette inégalité par (x − y)2 et faisons tendre x vers
+∞. On obtient alors immédiatement α É 0, ce qui est absurde.
iv Il est aisé de montrer que la fonction x 7→ x 2 est 4-elliptique sur R. En effet, soit (x, y) ∈ R2 ,
x 6= y et t ∈ [0, 1]. Alors, on vérifie que
Proposition 2.11.
Dans le cas où la fonction f est régulière, comme pour la convexité, il existe des caractérisations
de la convexité uniforme. On peut voir ces caractérisations comme des corollaires du théorème
2.6.
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 17
Démonstration. i Grâce à la proposition 2.11, (i ) équivaut à dire que g (x) = f (x) − α2 kxk2
est convexe. or, ∇g (x) = ∇ f (x) − αx. En écrivant alors les conditions (i ), (i i ) et (i i i ) du
théorème 2.6, on obtient exactement les conditions (i i ) et (i i i ) du corollaire pour f .
ii La preuve découle immédiatement du théorème 2.6, en posant comme précédemment
g (x) = f (x) − α2 kxk2 et en remarquant que Hess g (x) = Hess f (x) − αI .
f : Rn −→ R
x 7−→ f (x) = 12 〈Ax, x〉 − 〈b, x〉 + c,
λ1 É · · · É λn .
On en déduit que f est λ1 -elliptique. On peut d’ailleurs montrer facilement que λ1 est la
meilleure constante d’ellipticité de f en remarquant que l’inégalité ci-dessus est une égalité
lorsque h est un vecteur propre associé à λ1 .
2 QUESTIONS D’EXISTENCE ET UNICITÉ DES SOLUTIONS 18
Théorème 2.15.
Soit K , un convexe fermé non vide d’un espace de Hilbert V et f , une fonction α-
convexe continue sur K . Alors, il existe un unique minimum x ∗ de f sur K et on
a:
4
kx ∗ − xk2 É [ f (x) − f (x ∗ )], ∀y ∈ K .
α
En particulier, toute suite minimisante de f sur l’ensemble K converge vers x ∗ .
Démonstration. Il existe un point un peu technique dans cette démonstration qui, paradoxa-
lement, dans beaucoup de problèmes d’optimisation, est vérifié gratuitement. En effet, il s’agit
du lemme suivant :
Lemme 2.16.
Soit f , une fonction α-convexe sur K . Alors, il existe deux constantes (α1 , α2 ) ∈ R+ × R
telles que
f (x) Ê α1 kxk2 + α2 .
Ce lemme est démontré dans [1]. Il utilise dans sa preuve le théorème de séparation d’un point
et d’un convexe. Il assure, puisque f est “infinie à l’infini”, que f est minorée sur le convexe
K , donc que inf{ f (x), x ∈ K } est fini. Il arrive assez souvent dans la pratique que l’on minimise
des fonctionnelles naturellement positives ou minorées si bien que cette étape n’apparaît plus
essentielle dans ces cas.
Démontrons à présent le théorème en admettant le lemme technique ci-dessus. On désigne
par m,
b la quantité inf{ f (x), x ∈ K }. Soit (x n )n∈N , une suite minimisante de f sur K . Puisque f
est α-elliptique, on a pour tous (n, m) ∈ N2 ,
α ³x +x ´ 1 1
n m
kx n − x m k2 + f −m b É ( f (x n ) − m)
b + ( f (x m ) − m).
b
8 2 2 2
¡ x +x ¢
Or, par définition de m,b f n 2 m Ê m, b si bien que
α 1 1
0É kx n − x m k2 É ( f (x n ) − m)
b + ( f (x m ) − m).
b
8 2 2
3 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 19
On en déduit que (x n )n∈N est de Cauchy, et donc converge vers une limite x ∗ ∈ K (K est fermé),
qui est nécessairement le minimum de f , puisque f est continue. L’unicité découle du théo-
rème 2.8.
Enfin, soit x ∈ K . Utilisons encore le caractère α-elliptique de f , on obtient :
µ ∗ ¶
α ∗ 2 f (x ∗ ) + f (x) x +x f (x) − f (x ∗ )
kx − xk É −f É ,
8 2 2 2
³ ∗
´
car f x+x
2 Ê f (x ∗ ).
Remarque 2.17
On peut affaiblir les hypothèses du théorème précédent, en remplaçant l’hypothèse de conti-
nuité de f par une hypothèse de semi-continuité inférieure de f . La démonstration reste alors
inchangée, et il suffit d’écrire que
f (x ∗ ) É lim inf f (x n ).
n→+∞
d f x (y − x) Ê 0, ∀y ∈ K .
Remarque 3.3
L’exemple f (x) = x 4 montre que l’on n’a pas mieux que le caractère semi-défini positif de la
hessienne, même si x ∗ est un minimum global. L’exemple f (x) = x 3 montre que ce théorème
donne une condition nécessaire mais pas suffisante.
1
f (x ∗ + h) = f (x ∗ ) + 〈∇ f (x ∗ ), h〉 + 〈Hess f (x ∗ )h, h〉 + khk2ϕ(h)
2
1
= f (x ∗ ) + 〈Hess f (x ∗ )h, h〉 + khk2ϕ(h)
2
Comme précédemment, on remplace h par εh, h quelconque, ε petit, puis on divise par
ε2 et on fait tendre ε vers 0.
3 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 21
Remarque 3.5
Le caractère “semi-défini positif” de la hessienne en x ∗ ne suffit pas pour conclure, comme en
atteste l’exemple f (x) = x 3 . En revanche, le caractère “défini-positif” de la hessienne n’est pas
nécessaire, comme en témoigne l’exemple f (x) = x 4 .
On rappelle qu’un point critique qui n’est pas un extremum local porte le nom de point selle.
Démonstration. • Hess f (x ∗ ) est définie positive, par conséquent, il existe α > 0 tel que
〈Hess f (x ∗ )h, h〉 Ê αkhk2 pour tout h ∈ Rn (rappelons que α peut être choisi égal à la plus
petite valeur propre de la matrice hessienne de f en x ∗ ). On écrit alors la formule de
Taylor-Young à l’ordre deux en x ∗ :
1
f (x ∗ + h) = f (x ∗ ) + 〈Hess f (x ∗ )h, h〉 + khk2ϕ(h)
h2α i
Ê ∗
f (x ) + + ϕ(h) khk2 > f (x ∗ ),
2
pourvu que h soit choisi assez petit, puisque ϕ(h) −−−→ 0.
h→0
• f étant supposée deux fois différentiable au voisinage de x ∗, on écrit la formule de Taylor-
Mac Laurin. Ainsi, il existe t ∈ [0, 1] tel que
1
f (x ∗ + h) = f (x ∗ ) + 〈Hess f (x t )h, h〉 Ê f (x ∗ ),
2
où x t = x ∗ + t h est proche de x ∗ si h est petit.
On vient donc d’établir une condition nécessaire, des conditions suffisantes, mais a priori pas
de conditions à la fois nécessaires et suffisantes. Comme précédemment, il est possible de pré-
ciser cette étude dans le cadre “convexe”.
Soit f convexe et différentiable sur Rn . Une C.N.S. pour que x ∗ soit un minimum
local (donc global) de f est que x ∗ soit un point critique de f , autrement dit, que
∇ f (x ∗ ) = 0.
3 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 22
f (x) Ê f (x ∗ ) + 〈∇ f (x ∗ ), x − x ∗ 〉 = f (x ∗ ).
Dans la suite, nous allons nous intéresser à deux exemples fondamentaux dans le domaine
des mathématiques appliquées : la minimisation d’une fonctionnelle quadratique et la mé-
thode des moindres carrés.
f : Rn −→ R
x 7−→ f (x) = 21 〈Ax, x〉 − 〈b, x〉 + c,
où A désigne une matrice réelle symétrique, b est un vecteur de Rn et c est une constante don-
née. On considère le problème
½
min f (x)
(5)
x ∈ Rn .
Nous avons montré dans l’exemple 2.7 que le gradient de f est ∇ f (x) = Ax−b et que Hess f (x) =
A, pour tout x ∈ Rn . En particulier, nous avons montré que f est convexe si, et seulement si A
est semi-définie positive.
Dans ce cas, f admet un minimum (global) si, et seulement si il existe x ∗ ∈ Rn tel que Ax ∗ =
b ou encore si, et seulement si b ∈ Im A. Notons, puisque nous sommes en dimension finie et
que A est symétrique, que Im A = (ker A ⊤ )⊥ = (ker A)⊥ .
Étant donné que A est symétrique réelle, on peut la diagonaliser dans une base orthonor-
mée réelle de vecteurs propres notée {e i }1Éi Én . Le spectre de A rangé par ordre croissant est :
λ1 É · · · É λn .
On distingue alors plusieurs cas selon le signe de la plus petite valeur propre λ1 :
• si λ1 < 0, alors f n’est pas bornée inférieurement. En effet,
λ1 2
∀z ∈ R, f (ze 1 ) = z − z〈b, e 1〉 + c −−−−−→ −∞.
2 z→+∞
3. On dit que cette fonctionnelle est quadratique par abus de langage bien qu’elle soit en réalité la somme d’une
fonction quadratique et d’une fonction affine.
3 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 23
1
minn f (x) = − 〈b, A −1 b〉 + c.
x∈R 2
f : Rn −→ R
x 7−→ f (x) = kAx − bk2 ,
la notation k · k désignant bien sûr la norme euclidienne de Rn . Pour montrer que le problème
consistant à minimiser f sur Rn possède une solution, on peut le réexprimer sous la forme : “re-
chercher l’existence d’un projeté de b sur le sous espace vectoriel Im A”. Puisque nous sommes
en dimension finie, on sait qu’il existe un unique projeté b sur le sous espace vectoriel Im A,
car celui-ci est de dimension finie donc fermé (voir par exemple [6]).
On peut réexprimer f (x) sous une forme mieux adaptée à la procédure de minimisation
que l’on souhaite mettre en œuvre. En effet,
1 1 1
∀x ∈ Rn , f (x) = kAx − bk2 = 〈Ax, Ax〉 − 〈Ax, b〉 + kbk2
2 2 2
1 ⊤ 1
= 〈A Ax, x〉 − 〈A ⊤ b, x〉 + kbk2 .
2 2
La fonction f est bien évidemment convexe. Remarquons que la matrice A ⊤ A est de taille n×n,
symétrique et semi-définie positive (immédiat). On peut alors réutiliser l’étude faite dans la
section 3.2. On distingue deux cas :
• Si A est de plein rang n. Alors, d’après le théorème du rang, la matrice A est injective,
ce qui garantit que A ⊤ A est également injective donc inversible. En conséquence, le pro-
blème des moindres carrés (ou de projection orthogonale) possède une solution unique
x ∗ . On peut obtenir explicitement x ∗ en résolvant le système d’équations normales issu
de la fonctionnelle quadratique f (i.e. ∇ f (x) = 0) :
A ⊤ Ax = A ⊤ b.
3 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SANS CONTRAINTE 24
• Si rgA < n. Alors, la plus petite valeur propre de A ⊤ A est nulle, puisque A ⊤ A n’est pas
injective. On a vu que le problème des moindres carrés se ramène à un problème de pro-
jection orthogonale et que ce problème possède (au moins) une solution. D’après l’étude
faite dans la section 3.2, dans le cas où la plus petite valeur propre de A ⊤ A est nulle, ce
qui est le cas ici, le problème de minimisation de la fonctionnelle quadratique associée
a soit une infinité de solutions, soit pas de solution. On en déduit que le problème des
moindres carrés possède dans ce cas une infinité de solutions. On peut également s’en
convaincre de la façon suivante : l’équation A ⊤ Ax = A ⊤ b possède au moins une solution
si, et seulement si A ⊤ b ∈ Im A ⊤ A, i.e. A ⊤ b ∈ [ker A ⊤ A]⊥ = [ker A]⊥ (car ker A ⊤ A = ker A),
ce qui est vrai puisque ker A = [Im A ⊤ ]⊥ 4 .
On a vu que ce problème possède une solution unique si A est de rang plein, i.e. 2. On en
déduit que ce problème possède une solution unique sauf si t 1 = · · · = t m .
De plus, µ P P ¶ µ P ¶
m
t i2 m
i =1 t i
m
xi ti
A⊤ A = Pim=1 et A ⊤ b = Pi =1
m .
i =1 t i m i =1 x i
On en déduit que l’équation normale associée est
½
S t 2 α + S t β = S xt
S t α + mβ = S x
P Pm Pm Pm 2
où l’on a posé S t = mi =1 t i , S x = i =1 x i , S xt = i =1 x i t i et S t = i =1 t i . Sous réserve que l’on
2
On pose K = {x ∈ Rn , h(x) = 0}. Puisque K est un espace vectoriel, il est aisé de voir que si x ∗
est un minimum local de f sur K , alors
〈∇ f (x ∗ ), δx〉 = 0, ∀δx ∈ K .
K ⊥ = vect{a i , 1 É i É p}.
Par conséquent,
p
X
∃(λ1 , · · · , λp ) ∈ Rp | ∇ f (x ∗ ) + λi a i = 0.
i =1
Chaque réel λi s’appelle un multiplicateur de Lagrange.
On va généraliser cette notion au cas où h est quelconque. Soit h 1 , · · · , h p , p fonctions de
Rn dans Rp . On appelle K , l’ensemble des contraintes
On peut cependant démontrer (voir par exemple [3, 7]) que la condition de qualification des
contraintes (7) assure que λ0 6= 0 et on retrouve alors les conclusions du théorème 4.1.
Démonstration. Dans le but d’éviter un formalisme pénible, on présente une preuve du théo-
rème 4.1 dans le cas n = 2 et p = 1. Cependant, aucune difficulté conceptuelle supplémentaire
n’apparaît dans le cas général. On note donc
K = {x ∈ Rn , h(x) = 0}.
L’idée de la preuve consiste à se ramener à la recherche de minima locaux d’une fonction d’une
variable. Notons que, quitte à effectuer un changement de coordonnées, la condition (7) se
réécrit sous la forme
∂h ∗
(x ) 6= 0,
∂x 2
ce qui nous incite à utiliser le théorème des fonctions implicites. En effet, on peut érire K
comme un graphe dans une petite boule centrée en x ∗ :
∂f ∗ ∂f ∗
fe′ (x 1∗ ) = 0 ⇐⇒ (x 1 , ϕ(x 1∗ )) + ϕ′ (x 1∗ ) (x , ϕ(x 1∗ )) = 0.
∂x 1 ∂x 2 1
∂h ∗ ∂h ∗
(x 1 , ϕ(x 1∗ )) + ϕ′ (x 1∗ ) (x , ϕ(x 1∗ )) = 0
∂x 1 ∂x 2 1
∂f
∂x 2
(x ∗ )
λ=− ∂h
.
∂x 2 (x )
∗
“ h(x) = 0”) en x ∗ (le fait que h soit une fonction de classe C 1 et que ∇h(x ∗ ) 6= 0 garantit
l’existence de tels vecteurs), autrement dit
∂h ∗ → − ∂h ∗ → −
∇h(x ∗ ) = (x ) n (x ∗ ) + (x ) τ (x ∗ ),
∂n ∂τ
(x ) = ∇h(x ∗ ) · →
∂h ∗
avec ∂n −
n (x ∗ ) et ∂h
∂τ
(x ∗ ) = ∇h(x ∗ ) · →
−
τ (x ∗ ).
∗
Or, puisque K ∩ B (x , ε) est le graphe d’une fonction ϕ, on en déduit que
µ ¶ µ ¶
→
− ∗ 1 1 →
− 1 −ϕ′ (x 1∗ )
τ (x ) = q et n (x ∗ ) = q
ϕ′ (x 1∗ ) 1
1 + ϕ′2 (x 1∗ ) 1 + ϕ′2 (x 1∗ )
À un facteur multiplicatif près, on reconnaît la dérivée de x 1 7→ h(x 1 , ϕ(x 1 )) en x 1∗ , qui est par
conséquent nulle. On en déduit :
∂h ∗ → −
∇h(x ∗ ) = (x ) n (x ∗ ).
∂n
De la même façon, le fait que la dérivée de x 1 7→ f (x 1 , ϕ(x 1 )) s’annule en x 1∗ (condition
d’optimalité au premier ordre) s’interprète géométriquement comme :
∂f ∗
(x ) = 0.
∂τ
Remarquons que l’existence est immédiate. En effet, on minimise une fonction continue de deux
variables sur un compact de R2 . On peut d’ailleurs mener un calcul direct en se ramenant à
la minimisation d’une fonction d’une variable réelle. Ainsi, posons x = cos θ et y = sin θ, avec
θ ∈ [0, 2π[. On trouve alors que
µ ¶
−ϕ′ (x 1 )
∇ f = cste.→
−
n=p cste
1+ϕ′2 (x 1 ) 1
x 2 = ϕ(x 1 )
2
On en déduit que θ 7→ f (cos θ, sin θ) est minimale lorsque ³ sin
p
(2θ)
p ´
= 1, c’est-à-dire pour θ ∈
© π 3π 5π 7π ª 2 2
4, 4 , 4 , 4 ou encore que f est minimale pour (x, y) = ± 2 , ± 2 . On retrouve immédiate-
ment ce résultat en appliquant le théorème des extrema liés. En effet, il existe λ ∈ R tel que,
au point (x, y) minimisant f sur le cercle unité, ∇ f (x, y) = λ∇h(x, y), avec h(x, y) = x 2 + y 2 − 1,
autrement dit ½
x(x 2 − λ) = 0
y(y 2 − λ) = 0.
p p p
Ainsi x = 0 et y = ± λ ou y = 0 et x = ± λ ou x = y = ± λ. Dans chacun des cas, la
valeur de λ s’obtient en tenant compte de la contrainte égalité. Ainsi, λ = 1 pour les deux
premiers cas et λ = 21 pour le dernier cas. À ce stade, il est nécessaire de faire le tri parmi les
points critiques, entre maxima locaux, minima locaux et points selle. La meilleure solution est
d’évaluer f aux points obtenus. On montre alors aisément que f est maximale dans les deux
premiers cas, et minimale dans le dernier. On retrouve ainsi le résultat obtenu par un calcul
direct précédemment.
Exemple 4.5 Une démonstration du théorème spectral grâce au théorème des extrema liés
On considère le problème de minimisation sous contrainte
½
inf〈Ax, x〉
kxk = 1,
4 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 30
avec A ∈ Rn×n , une matrice symétrique. L’existence d’une solution est triviale (fonction continue
sur un compact) En posant f (x) = 〈Ax, x〉 et h(x) = kxk2 −1, on peut appliquer le théorème des
extrema liés. On en déduit qu’il existe un (x ∗ , λ∗ ) ∈ Rn × R tel que
2Ax ∗ + 2λ∗ x ∗ = 0,
autrement dit, il existe un couple propre pour toute matrice symétrique. On peut en déduire le
théorème spectral :
Pour s’en convaincre, raisonnons par récurrence sur la dimension n . Pour n = 1, le théorème
spectral est une trivialité. L’hérédité se prouve de la façon suivante : considérons le sous-espace
vectoriel H = [vect (x ∗ )]⊥ . Cet espace est stable par A . en effet, soit y ∈ H . Alors,
〈x ∗ , y〉 = 0 et 〈x ∗ , Ay〉 = 〈Ax ∗ , y〉 = λ∗ 〈x ∗ , y〉 = 0.
J: Rn+ −→ R
qQ
n n
i =1 x i
x = (x 1 , . . . , x n ) 7−→ Pn
i =1 x i
Remarquons que la fonction J ainsi définie est positivement homogène de degré 1, c’est-à-dire
que J (λx) = λJ (x) pour tout x ∈ Rn+ et t > 0. Il s’ensuit que le problème consistant à minimiser
J sur Rn+ est équivalent au problème d’optimisation
( qQ
inf f (x) = n ni=1 x i
© P ª
x ∈ X = x ∈ Rn+ | n1 ni=1 x i = 1 .
En remarquant que X est un compact et que f est continue, on peut affirmer que ce problème
possède (au moins) une solution. Par ailleurs, notons que, en un point x où le maximum de f sur
4 CONDITIONS D’OPTIMALITÉ - OPTIMISATION SOUS CONTRAINTES 31
X est atteint, nécessairement x i > 0 pour tout i ∈ {1, . . . , n}. On peut donc appliquer le théorème
des extrema liés sans se préoccuper des contraintes inégalité x i Ê 0. On obtient alors l’existence
P ∂f f (x)
de λ ∈ R tel que ∇ f (x) = λ∇h(x), où l’on a posé h(x) = n1 ni=1 x i − 1. Or, ∂xi (x) = n1 xi et
∂h
∂x i (x) = n1 . On en déduit que, à l’optimum
f (x) = λx 1 = · · · = λx n ,
puis que tous les x i sont égaux. Compte tenu de la contrainte égalité, x i = 1 pour tout i ∈
{1, . . . , n}. Ainsi, pour tout x ∈ X , f (x) É 1 ce qui montre que
maxn J (x) = 1.
x∈R+
On peut dire que K (x) est l’ensemble de tous les vecteurs qui sont tangents en x à une courbe
contenue dans K et passant par x. Remarquons que si K est une variété régulière, K (x) est
simplement l’espace tangent à K en x.
Considérons le problème d’optimisation
½
inf f (x)
(9)
x ∈K,
Ainsi, les conditions d’optimalité au premier ordre pour ce problème s’écrivent : si x ∗ est un
minimum local de f sur K , alors
〈∇ f (x ∗ ), d 〉 = 0, ∀d ∈ K (x ∗ ).
Cependant, cette écriture n’est guère utile en pratique, étant donné qu’il est difficile de déter-
miner de façon explicite le cône des directions admissibles K (x ∗ ). Le théorème que l’on pré-
sente maintenant traduit l’appartenance des directions admissibles à un tel cône.
et
• h(x ∗ ) = 0 et g (x ∗ ) É 0,
• µ j g j (x ∗ ) = 0, ∀ j ∈ {1, · · · , q} (condition de complémentarité).
Enfin, comme pour le théorème 4.1, on peut obtenir la non nullité du multiplicateur appa-
raissant devant le gradient de la fonctionnelle à optimiser si les contraintes vérifient des condi-
tions de qualification.
Soit x ∈ K .
• L’ensemble I (x) = {i ∈ {1, · · · , q}, g i (x) = 0} est appelé ensemble des contraintes
actives en x .
• On dit que les contraintes sont qualifiées en x ∈ K si, et seulement si il existe une
direction d ∈ Rn telle que l’on ait pour tout i ∈ {1, · · · , p} et j ∈ I (x),
La direction h ainsi définie est alors une sorte de direction rentrante (il est aisé de voir que
x + t d ∈ K si t est assez petit).
En effet, pour s’en convaincre, il suffit de démontrer que l’on peut trouver d ∈ Rn \{0} tel que
La matrice associée à ce système est une matrice de Gram, de la forme (〈e j , e k 〉) j ,k où la famille
(e i )i associée est une base. Elle est donc inversible et le système ci-dessus est de Cramer.
Soit x ∗ , un minimum local du problème (9). On suppose que les contraintes sont
qualifiées en x .
q
Alors, il existe (λ1 , · · · , λp ) ∈ Rp et (µ1 , · · · , µq ) ∈ R+ tels que
p
X q
X
∇ f (x ∗ ) + λi ∇h i (x ∗ ) + µ j ∇g j (x ∗ ) = 0,
i =1 j =1
et
• h(x ∗ ) = 0 et g (x ∗ ) É 0,
• µ j g j (x ∗ ) = 0, ∀ j ∈ {1, · · · , q} (condition de complémentarité).
Notons que la condition de complémentarité se comprend aisément. En effet, si une contrainte
inégalité est inactive, alors elle ne joue aucun rôle et on peut considérer que le multiplicateur
de Lagrange associé est nul.
Enfin, notons que, comme dans le cas “sans contrainte”, sous hypothèse de convexité, le
théorème de Karush-Kuhn-Tucker devient une condition nécessaire et suffisante d’optimalité.
On en déduit que f est infinie à l’infini, et l’ensemble des contraintes K = {(x, y) ∈ R2 , g (x, y) É 0},
avec g (x, y) = 1 − x 2 − y 2 est fermé, ce qui garantit l’existence de solution(s) pour le problème
d’optimisation ci-dessus. On cherche à présent à écrire les conditions d’optimalité au premier
ordre pour un tel problème. Soit (x, y) un minimiseur (global). Le théorème de Kuhn-Tucker
assure l’existence 5 de µ Ê 0 tel que ∇ f (x, y) + µ∇g (x, y) = 0, plus précisément :
4x 3 − 2µx = 0
12y 3 − 2µy = 0
x2 + y 2 Ê 1
µ(x 2 + y 2 − 1) = 0.
• Supposons que l’on ait µ = 0. Alors, les deux premières équations du système ci-dessus
fournissent immédiatement x = y = 0. Mais c’est impossible car (0, 0) n’appartient pas à
l’ensemble des contraintes. Par conséquent, on a nécessairement µ > 0.
• Des deux premières équations, on tire que les minimiseurs sont à choisir parmi
µ r ¶ µ r ¶ µ r r ¶
µ µ µ µ
X 1 = 0, ± , X2 = ± , 0 et X 3 = ± ,±
6 2 2 6
X 1 = (0, ±1) et f (X 1 ) = 3.
X 2 = (±1, 0) et f (X 2 ) = 1.
On en déduit que
3
min f (x) = f (X 3 ) = .
x∈K 4
Références
[1] G. A LLAIRE, Analyse numérique et optimisation, éditions de l’école Polytechnique, 2005.
[2] G. A LLAIRE , S.M. K ABER, Numerical Linear Algebra, Texts in Applied Mathematics, Vol. 55,
Springer, 2008.
[3] M. B ERGOUNIOUX, Optimisation et contrôle des systèmes linéaires, Dunod, 2001.
5. La qualification des contraintes est aisée à constater. Ce petit exercice est laissé au lecteur.
RÉFÉRENCES 35