Optimisation Sous Contrainte

NOTES DU COURS DE MATHS3
CHRISTIAN LÉONARD
1. Optimisation sous contrainte

Nous allons maintenant chercher à optimiser une fonction de plusieurs variables
f (x1 , . . . , xn ) sous des contraintes. Optimiser, c'est minimiser ou bien maximiser.
Un exemple d'un tel problème est celui de trouver dans le plan R2 le point M de la
droite (D) d'équation y = 2x − 1 qui est le plus proche du point Mo de coordonnées
(3, −1). Ce point M s'appelle la projection orthogonale de Mo sur (D). Soient (x, y)
les coordonnées de M, elles sont solution du problème de minimisation suivant
½
minimiser f (x, y) = (x − 3)2 + (y + 1)2
sous la contrainte h(x, y) = 2x − y − 1 = 0
°µ ¶ µ ¶°2
° x 3 °
En eet, f (x, y) = (x − 3)2 + (y + 1)2 = ° ° y − ° est le carré de la
−1 °
distance entre M et Mo . Or un point minimise le carré de la distance si et seulement
si il minimise la distance. Nous avons déjà vu en première année qu'une méthode de
substitution permet d'obtenir la réponse. En eet, en injectant la contrainte y = 2x−1
M
dans f (x, y) il nous reste à minimiser x 7→ g(x) = f (x, 2x − 1) = (x − 3)2 + (2x −
1 + 1) = 5x − 6x + 9 sans contrainte. En annulant la dérivée : g 0 (x) = 0, on obtient
2 2
10x − 6 = 0, d'où x = 3/5 et y = 2x − 1 = 6/5 − 1 = 1/5. Soit M = (3/5, 1/5).

Les choses se compliquent si on cherche maintenant à trouver le point M = (x, y) du
cercle (C) de centre (1, 5) et de rayon 2 qui est le plus proche de Mo . Cette fois la
contrainte M ∈ (C) s'écrit (x − 1)2 + (y − 5)2 = 4 et nous devons résoudre le problème
de minimisation suivant
½
minimiser f (x, y) = (x − 3)2 + (y + 1)2
sous la contrainte h(x, y) = (x − 1)2 + (y − 5)2 − 4 = 0
On peut envisager une méthode de substitution, mais elle est moins directe que dans
le cas précédent. Mieux vaudrait avoir à notre disposition une méthode générale qui
Date : 2004.
1
2 CHRISTIAN LÉONARD
pourrait nous permettre de résoudre des problèmes comme celui-ci :


 minimiser f½(x, y, z) = x2 + y 2 + (z − 1)2
h1 (x, y, z) = (x − 1)2 + (y − 2)2 + (z + 1)2 − 25 = 0
 sous les contraintes
h2 (x, y, z) = x + y + z − 1 = 0
(1.1)
où aucune méthode de substitution simple n'est plus envisageable. Il s'agit ici de
trouver les points les plus proches du point de coordonnées (0, 0, 1) qui appartiennent
au cercle de R3 intersection de la sphère d'équation h1 = 0 : de centre (1, 2, −1) et de
rayon 5, avec le plan d'équation h2 = 0.
Cette méthode existe et est connue sous le nom de méthode des multiplicateurs de
Lagrange. Avant de l'étudier, nous aurons besoin de faire quelques rappels sur les
fonctions de plusieurs variables (comme les fonctions f et h que nous venons de
croiser) et d'introduire quelques notions élémentaires de géométrie dans l'espace.
1.1. Rappels sur les fonctions de plusieurs variables. Une fonction de n va-
riables est de la forme
(x1 , . . . , xn ) 7→ f (x1 , x2 , . . . , xn ) ∈ R
Pour rendre les choses plus lisibles, nous consirérerons avant tout des fonctions de
deux ou trois variables f (x, y) ou f (x, y, z). La formule de Taylor à l'ordre 2 pour les
fonctions habituelles d'une seule variable f (x) est
1
f (x + h) = f (x) + f 0 (x)h + f 00 (x)h2 + ²(h)h2 , x, h ∈ R
2
avec limh→0 ²(h) = 0. Elle se généralise aux fonctions de trois variables sous la forme
f (x + u,y + v, z + w) = (1.2)
f (x, y, z)
∂f ∂f ∂f
+ (x, y, z)u + (x, y, z)v + (x, y, z)w
∂x ∂y ∂z
· 2
∂ f ∂2f ∂2f
+1/2 2 (x, y, z)u2 + 2 (x, y, z)v 2 + 2 (x, y, z)w2
∂ x ∂ x ∂ x
2 2
¸
∂ f ∂ f ∂2f
+2 (x, y, z)uv + 2 (x, y, z)uw + 2 (x, y, z)vw
∂x∂y ∂x∂z ∂y∂z
+²(u, v, w)[u2 + v 2 + w2 ]
pour (x, y, z) ∈ R3 , (u, v, w) ∈ R3 avec lim(u,v,w)→0 ²(u, v, w) = 0.
NOTES DU COURS DE MATHS3 3
∂f ∂2f
Nous venons d'utiliser les dérivées partielles ∂x , ∂y∂z , . . . On rappelle qu'on note
∂f
∂x (xo , yo , zo ) la dérivée en x = xo de la fonction x 7→ f (x, yo , zo ). Puisque (x, y, z) 7→
∂f
∂x (x, y, z) est aussi une fonction de plusieurs
h i variables on peut à nouveau considérer
ses dérivées partielles. Par exemple ∂z ∂f ∂
∂x (xo , yo , zo ) est la dérivée en z = zo de
∂f ∂2f
z 7→ ∂x (xo , yo , z). On la note ∂z∂x (xo , yo , z).
Exemple. Avec f (x, y, z) = 2xy + x2 z 3 − y 2 z, nous avons ∂f 3
∂x (x, y, z) = 2y + 2xz ,
2 2
∂f 2 2 2 ∂ f 2 ∂ f 2
∂z (x, y, z) = 3x z − y et ∂z∂x (x, y, z) = 6xz , ∂x∂z (x, y, z) = 6xz . On remarque
∂2f ∂2f
que ∂z∂x = ∂x∂z . En fait, ceci est un phénomène général et on peut démontrer que
pour une grande classe de fonctions f (x1 , . . . , xn ), on a
∂2f ∂2f
= , 1 ≤ i, j ≤ n. (1.3)
∂xi ∂xj ∂xj ∂xi
Un autre exemple. On considère la fonction f (x, y) = xy + x3 y 2 en (xo , yo ) =
∂f ∂f ∂2f ∂2f
(1, −2). Alors, ∂x (x, y) = y+3x2 y 2 , ∂y (x, y) = x+2x3 y, ∂ 2 x (x, y) = 6xy 2 , ∂ 2 y (x, y) =
∂2f
3
2x et ∂x∂y (x, y) = 1 + 6x2 y. En (xo , yo ) = (1, −2), on obtient ∂f ∂x (1, −2) = 10,
∂f ∂2f ∂2f ∂2f
∂y (1, −2) = −3, ∂ 2 x (1, −2) = 24, ∂ 2 y (1, −2) = 2 et ∂x∂y (1, −2) = −11. La formule
de Taylor à l'ordre 2 en (1, −2) s'écrit donc
1
f (1 + u, −2 + v) = 2 + 10u − 3v + [24u2 + 2v 2 − 22uv] + ²(u, v)(u2 + v 2 ).
2
Il est pratique d'introduire l'écriture matricielle suivante
µ ¶
u
f ((1, −2) + (u, v)) =2 + (10, −3)
v
µ ¶µ ¶ °µ ¶°
1 24 −11 u ° u °2
+ (u, v) °
+ ²(u, v) ° ° .
2 −11 2 v v °
De même, la formule de Taylor (1.2) en dimension 3, s'écrit
   
u u
1
f (x + u, y + v, z + w) = f (x, y, z) + Df (x, y, z)  v  + (u, v, w)D2 f (x, y, z)  v 
2
w w
(1.4)
° °
° u °2
° °
+ ²(u, v, w) ° 
° v
°
°
° w °
avec µ ¶
∂f ∂f ∂f
Df (x, y, z) = , , (x, y, z)
∂x ∂y ∂z
et
 ∂2f ∂2f ∂2f

∂2x ∂x∂y ∂x∂z
 ∂2f ∂2f ∂2f 
D2 f (x, y, z) =  ∂x∂y ∂2y ∂y∂z  (x, y, z)
∂2f ∂2f ∂2f
∂x∂z ∂y∂z ∂2z
où nous avons utilisé l'identité (1.3) pour rendre la matrice D2 f symétrique.

Cette formule reste vraie en dimension n et devient
 
u1
f (x1 + u1 , . . . , xn + un ) = f (x1 , . . . , xn ) + Df (x1 , . . . , xn )  ... 
 
(1.5)
un
 
u1
1
+ (u1 , . . . , un )D2 f (x1 , . . . , xn )  ... 
 
2
un
° °2
° u1 °
° °
+ ²(u1 , . . . , un ) ° ... °
° °
° °
° un °
avec µ ¶
∂f ∂f
Df (x1 , . . . , xn ) = ,..., (x1 , . . . , xn )
∂x1 ∂xn
et µ ¶
∂2f
D2 f (x1 , . . . , xn ) = (x1 , . . . , xn )
∂xi ∂xj 1≤i,j≤n
Dénition 1.6. On appelle gradient de f en (x1 , . . . , xn ) la matrice ligne Df (x1 , . . . , xn )

ci-dessus.
On appelle hessien ou matrice hessienne de f en (x1 , . . . , xn ) la matrice carrée D2 f (x1 , . . . , xn )
ci-dessus.
On peut réécrire la formule de Taylor (1.5) de façon plus compacte, sous la forme
1
f (x + u) = f (x) + Df (x)u + uT D2 f (x)u + ²(u)kuk2 (1.7)
2
 
u1
 .. 
où u =  .  est une matrice colonne et uT est sa matrice transposée : uT =
un
(u1 · · · un ). On note en passant que
u ∈ Rn 7→ uT D2 f (x)u ∈ R
est l'expression d'une forme quadratique.
La formule de Taylor à l'ordre 1 est bien sûr
f (x + u) = f (x) + Df (x)u + ²(u)kuk (1.8)
où comme d'habitude ²(u) est une fonction telle que limu→0 ²(u) = 0. Remarquons
que les fonctions ²(u) dans (1.7) et (1.8) ne sont pas les mêmes.
Nous aurons besoin de la formuledérivation
 d'une fonction composée de la forme t ∈
x1 (t)
R 7→ f (x(t)) où t ∈ R 7→ x(t) =  ...  ∈ Rn est formée des fonctions coordonnées
 
xn (t)
x1 (t), . . . , xn (t) que nous supposerons
 0  dérivables en t. On note x01 (t), . . . , x0n (t) leurs
x1 (t)
dérivées ainsi que x0 (t) =  ...  ∈ Rn considére comme une matrice colonne.
 
x0n (t)
Considérons l'accroissement f (x(t + s)) − f (x(t)) lorsque s ∈ R est "petit". En notant
u = x(t + s) − x(t) ∈ Rn , la formule de Taylor à l'ordre 1 appliquée à toutes les
coordonnées de u nous donne u = sx0 (t) + ²(s)s et la formule de Taylor à l'ordre 1
(1.8) nous permet d'écrire
f ((x(t + s)) = f (x(t) + u)
= f (x(t)) + Df (x(t))u + ²(u)kuk
= f (x(t)) + sDf (x(t))x0 (t) + ²(s)s.
d
On en déduit que la dérivée dt f (x(t)) de t 7→ f (x(t)) satisfait l'identité suivante
d
f (x(t)) = Df (x(t))x0 (t). (1.9)
dt
1.2. Un peu de géométrie dans l'espace : espaces tangents et normaux. De
façon à pouvoir travailler avec des contraintes comme celles dénies par h1 = h2 = 0
dans (1.1), nous aurons besoin de rudiments de géométrie dans l'espace.
Une surface de R3 est dénie en général par une équation du type
h(x, y, z) = 0.
Par exemple x − 2y + 6z = 0 est l'équation d'un plan vectoriel (qui passe par l'origine
(0,0,0)). C'est le plan orthogonal au vecteur  6) puisque son équation exprime
(1, −2,
x
précisément que le produit scalaire (1, −2, 6)  y  est nul. L'équation x − 2y + 6z =
z
0 = 33, 2 est celle d'un plan ane (qui ne passe pas l'origine) parallèle au précédent.
L'équation x2 + y 2 + z 2 − 1 = 0 est celle de la sphère centrée en l'origine de rayon
un ; x2 + y 2 + z 2 − 9 = 0 est celle de la sphère centrée en l'origine de rayon 3 ;
x2 +y 2 +z 2 +9 = 0 est l'équation d'un ensemble vide (pourquoi ?). Plus généralement,
((x − xo )/a)2 + ((y − yo )/b)2 + ((z − zo )/c)2 − d2 = 0 est l'équation d'un ellipsoïde.
Attention, une sphère est une surface, il ne faut pas la confondre avec la boule qu'elle
délimite, qui est un volume.
Dans R2 , x2 + y 2 − 1 = 0 est l'équation du cercle unité. Alors que dans R3 , la même
équation x2 + y 2 − 1 = 0 ne faisant pas apparaître la variable z, est celle du cylindre
"vertical" passant par le cercle unité du plan "horizontal" Oxy.
De manière générale on peut dire qu'une contrainte du type h(x1 , . . . , xn ) = 0 fait
passer de la dimension n à la dimension n − 1. Ainsi x1 + · · · + xn = 0 est l'équation
du sous-espace vectoriel de Rn orthogonal au vecteur (1, . . . , 1). C'est donc un espace
° °
° x1 °2
° °
vectoriel de dimension n−1. L'équation x21 +· · ·+x2n −1 = 0 s'écrit aussi ° ... ° =
° °
° °
° xn °
1. Il s'agit donc de celle de la sphère de Rn de rayon 1 ; elle est bien de dimension
n − 1. De tels ensembles de dimension n − 1 dans Rn sont appelés des hypersurfaces.
Revenons dans R3 et considérons un ensemble déni par deux contraintes du style
½
h1 (x, y, z) = 0
h2 (x, y, z) = 0
Puisque les deux contraintes doivent être satisfaites simultanément, cet ensemble est
l'intersection des deux surfaces d'équations h1 (x, y, z) = 0 et h2 (x, y, z) = 0. Par
exemple, les contraintes du problème de minimisation (1.1) se représentent géométri-
quement comme l'intersection en 3D d'une sphère et d'un plan. En général, l'inter-
section d'un plan et d'une sphère est soit vide, soit un cercle dans l'espace. De façon
exceptionnelle, si le plan est tangent à la sphère, l'intersection n'est pas vide et se
réduit au point de contact. Donc il semble que l'intersection de deux surfaces lors-
qu'elle n'est pas vide, soit une courbe de l'espace. C'est eectivement le cas en général.
L'intersection de deux plans est soit vide (si les plans sont distincts et parallèles) soit
une droite de l'espace. L'intersection d'un plan et d'un cylindre, ou de deux sphères,
si elles ne sont pas vides sont des ellipses dans l'espace. Les droites et les ellipses de
l'espace sont des ensembles géométriques de dimension 1. Deux contraintes font donc
perdre en général deux dimensions. On passe de 3 à 3 − 2 = 1.
De manière générale on peut dire que 2 contraintes simultanées du type h1 (x1 , . . . , xn ) =
0 et h2 (x1 , . . . , xn ) = 0 font passer de la dimension n à la dimension n − 2. Couper par
une hypersurface (de dimension n − 1) fait perdre en général une dimension. Donc,
m contraintes simultanées du type

 h1 (x1 , . . . , xn ) = 0

.. (1.10)
 .

hm (x1 , . . . , xn ) = 0
dénissent en général un ensemble de dimension n − m. Nous avons déjà remarqué
cela dans le cas des systèmes linéaires. On appellera tout ensemble de Rn déni par
une famille d'équations (1.10) une surface de Rn .
Dénition 1.11. Une courbe paramétrée C sur une surface S est un ensemble de
points (xt ∈ S; t ∈]a, b[) paramétré régulièrement par t ∈]a, b[. Le lieu géométrique de
la courbe C est l'ensemble des points {xt ∈ S; t ∈]a, b[}.
Illustration graphique
En fait, une courbe paramétrée C est une fonction t ∈]a, b[7→ xt ∈ S.

Dénition 1.12. La vitesse de C à l'instant t = t∗ en x = x∗ est
 dx1 ∗

dt (t )
dx ∗  .. 
ẋ(t∗ ) = (t ) =  . ∈R
n
dt dxn ∗
dt (t )
Attention, la vitesse dépend du paramètrage. Deux paramétrages diérents du même

lieu géométrique {xt ∈ S; t ∈]a, b[} donnent en général des vitesses diérentes. Ainsi
(x(t) ∈ S; t ∈]0, 1[) et (y(t) := x(1 − t) ∈ S; t ∈]0, 1[) correspondent au même lieu
géométrique mais ẏ(1 −t) = −ẋt : les vitesses sont opposées puisque x et y parcourent
le même lieu "à l'envers".
Considérons le sous-ensemble S de Rn déni par les m contraintes (1.10) que nous
écrirons rapidement h(x) = 0, en notant  f (x)= f (x1 , . . . , xn ) pour toute fonction
h1 (x)
 .. 
f de (x1 , . . . , xn ) ainsi que h(x) =  .  ∈ Rm avec les fonctions contraintes
hm (x)
hi : Rn → R, 1 ≤ i ≤ m.
Soit 
(xt ∈ S; t ∈]a, b[) une courbe C paramétrée sur S. Puisque pour tout t, h(xt ) =
 h1 (xt ) = 0

0⇔ .. , en dérivant par rapport à t on obtient
 .

hm (xt ) = 0

 Dh1 (xt )ẋt = 0

.. ⇔ Dh(xt )ẋt = 0 ∈ Rm
 .

Dhm (xt )ẋt = 0
où l'on a posé
   ∂h1 ∂h1 
Dh1 (x) ∂x1 (x) ··· ∂xn (x)

Dh(x) =  ..   .. .. 
. = . . 
∂hm ∂hm
Dhm (x) ∂x1 (x) ··· ∂xn (x)
qui est une matrice m × n et ẋt est une matrice colonne.

Dans ce qui précède, nous avons utilisé la formule de composition des dérivées (1.9) :
d
dt hi (xt ) = Dhi (xt )ẋt pour tout 1 ≤ i ≤ n.
En t = t∗ en notant x∗ = x(t∗ ), la vitesse v ∗ = ẋ(t∗ ) satisfait
Dh(x∗ )v ∗ = 0 ∈ Rm
où v ∗ ∈ Rn est un vecteur colonne. Soit : Dhi (x∗ )v ∗ = 0 pour tout 1 ≤ i ≤
m. Ce qui signie que la vitesse v ∗ est orthogonale simultanément aux vecteurs
Dh1 (x∗ ), . . . , Dhm (x∗ ).
Dénition 1.13. L'ensemble de toutes les vitesses possibles en x∗ ∈ S (en considé-
rant tous les paramétrages C ⊂ S passant en x∗ ) est appelé l' espace tangent à S en
x∗ . On le note T (x∗ ) et on a
T (x∗ ) = {v ∈ Rn ; Dh(x∗ )v = 0}.
Avec les considérations que nous avons menées plus haut au sujet de la dimension
de S, on remarque que si S est de dimension n − m, il en est de même de T (x∗ )
en général. En fait, en mathématiques on dit que, par dénition, la surface S est de
dimension n − m si la dimension de tous les espaces tangents T (x), x ∈ S est la même
et vaut n − m. Puisque les T (x) sont des espaces vectoriels, leurs dimensions est celle
que nous connaissons : c'est le nombre de vecteurs des bases vectorielles.
Exemple. L'ensemble S = {(x, y, z) ∈ R3 ; h1 (x, y, z) = x = 0, h2 (x, y, z) = x −
y = 0}} est clairement l'axe des z puisque x = y = 0. Son espace tangent en
tout
µ point est donc ¶ µ lui-même puisque
¶ c'est un espace vectoriel. On a Dh(x, y, z) =
Dh1 (x, y, z) 1 0 0
= . Donc pour tout x∗ ∈ S, T (x∗ ) = {v; Dh(x∗ )v =
Dh2 (x, y, z) 1 −1 0 ½
a=0
0} est l'ensemble des v = (a, b, c) tels que c'est-à-dire a = b = 0. On
a−b=0
retrouve l'axe des z.
Dénition 1.14. L' espace normal en x∗ à S est l'espace vectoriel orthogonal à T (x∗ ).
On le note N (x∗ ). C'est le sous-espace vectoriel de Rn engendré par Dh1 (x∗ ), . . . , Dhm (x∗ ) :
N (x∗ ) = vect{Dh1 (x∗ ), . . . , Dhm (x∗ )}
En eet, nous avons vu par construction que T (x∗ ) est orthogonal à tous les vecteurs
Dh1 (x∗ ), . . . , Dhm (x∗ ).
Si les vecteurs Dh1 (x∗ ), . . . , Dhm (x∗ ) forment une partie libre, alors la dimension
N (x∗ ) est m et celle de T (x∗ ) est n − m.
Dénition 1.15. On dit que la contrainte h est régulière en x∗ ∈ S si les vecteurs

Dh1 (x∗ ), . . . , Dhm (x∗ ) forment une partie libre.
Si h n'est pas régulière en x∗ des tas d'ennuis peuvent arriver lors de la résolution du
problème d'optimisation. Nous éviterons cette situation dans ce cours d'introduction.
Il conviendra donc avant tout de s'assurer de la régularité de la contrainte aux points
"sensibles" (voir les Théorèmes 1.17 et 1.24 plus bas).
1.3. Les multiplicateurs de Lagrange. Nous considérons le problème d'optimisa-

tion suivant
optimiser localement f (x) (1.16)


 h1 (x) = 0,

sous les contraintes .. , x = (x1 , . . . , xn ) ∈ Rn
 .

hm (x) = 0
c'est-à-dire qu'il y a m contraintes unidimensionnelles dans un espace à n dimensions.
Ce que nous entendons par optimiser localement, c'est chercher les points x∗ de Rn qui
minimisent localement ou maximisent localement f tout en satisfaisant la contrainte
h(x∗ ) = 0.  
h1
 .. 
On note h =  .  et S la surface des contraintes, d'équation h = 0 :
hm
M
S = {x ∈ Rn ; h(x) = 0}.
Soient x∗ un point de S, c'est-à-dire tel que h(x∗ ) = 0, et C : (t 7→ xt ) une courbe
paramétrée sur S qui passe par x∗ à l'instant t = t∗ , c'est-à-dire telle que : h(xt ) = 0
pour tout t et xt∗ = x∗ .
On introduit la fonction t 7→ Φ(t) = f (xt ). C'est une fonction habituelle de R dans
R. Si x∗ optimise f sur la surface S, alors il optimise a fortiori f sur la courbe C,
puisque C est située sur S. On en déduit que t∗ optimise Φ, c'est-à-dire que Φ atteint
un minimum ou un maximum en t∗ . Or Φ est une fonction habituelle, on doit donc
avoir annulation de sa dérivée en t∗ : Φ0 (t∗ ) = 0.
Compte tenu de formule de dérivation d'une fonction composée (1.9), nous avons
Φ0 (t) = Df (xt )ẋt . par conséquent
Df (x∗ )v ∗ = 0 avec v ∗ = ẋ(t∗ ).
Ce raisonnement étant valable pour toute courbe C sur S passant pas x∗ en t = t∗ ,
on a
Df (x∗ )v = 0, pour tout v ∈ T (x∗ )
∗
C'est-à-dire que tout x optimisant f sous la contrainte h = 0 est tel que
Df (x∗ ) ∈ N (x∗ )
où N (x∗ ) est l'espace normal à S = {x; h(x) = 0} en x∗ . Puisque N (x∗ ) est l'espace
vectoriel engendré par les vecteurs Dh1 (x∗ ), . . . , Dhm (x∗ ), il existe des coecients
réels α1 , . . . αm tels que
Df (x∗ ) = α1 Dh1 (x∗ ) + · · · + αm Dhm (x∗ ).
En posant α1 = −λ∗1 , . . . αm = −λ∗m , on a montré le résultat important suivant.

Théoreme 1.17 (des multiplicateurs de Lagrange). Soit x∗ un minimiseur local ou
un maximiseur local de f Rn → R sous la contrainte h(x) = 0, c'est-à-dire une solution
de (1.16). On suppose de plus que la contrainte h est régulière en x∗ (voir la Dénition
1.15).
Alors il existe des réels λ∗1 , . . . λ∗m tels que
Df (x∗ ) + λ∗1 Dh1 (x∗ ) + · · · + λ∗m Dhm (x∗ ) = 0. (1.18)
Dénitions 1.19. Un peu de vocabulaire pour être plus ecace.
• Les points x∗ pour lesquels il existe des coecients λ∗1 , . . . λ∗m satisfaisant l'identité
ci-dessus sont appelés des points stationnaires du problème d'optimisation (1.16).
• Les coecients λ∗1 , . . . λ∗m satisfaisant l'identité ci-dessus sont appelés les multipli-
cateurs de Lagrange en x∗ . On note λ∗ = (λ∗1 , . . . λ∗m ) le vecteur multiplicateur de
Lagrange.
• On introduit la fonction suivante
M
L(x, λ) = f (x) + λ1 h1 (x) + · · · + λm hm (x), (x, λ) ∈ Rn × Rm (1.20)
On l'appelle le lagrangien du problème d'optimisation (1.16).
L'intérêt du lagrangien L est le résultat suivant.
Proposition 1.21. Le point x∗ satisfait h(x∗ ) = 0 et (1.18) si et seulement si
DL(x∗ , λ∗ ) = 0 ∈ Rn (1.22)
Compte tenu du Théorème 1.17, si x est une solution du problème d'optimisation
∗
locale (1.16), alors il existe λ∗ ∈ Rm tel que DL(x∗ , λ∗ ) = 0.

∂L ∂f ∂ ∂
Démonstration. En eet, ∂x i
(x∗ , λ∗ ) = ∂x i
(x∗ ) + λ∗1 ∂x i
h1 (x∗ ) + · · · + λ∗m ∂x i
hm (x∗ )
∂L
pour tout 1 ≤ i ≤ n et ∂λ j
(x∗ , λ∗ ) = hj (x∗ ) pour tout 1 ≤ j ≤ m. Donc, l'identité
(1.22) est équivalente à
½
Df (x∗ ) + λ∗1 Dh1 (x∗ ) + · · · + λ∗m Dhm (x∗ ) = 0 et
h(x∗ ) = 0
¤
On a donc transformé le problème d'optimisation sous contrainte (1.16) dans Rn en

le problème d'optimisation sans contrainte
optimiser localementL(x, λ), (x, λ) ∈ Rn+m
dans Rn+m . En eet, la condition (1.22) n'est autre que la condition nécessaire pour
que (x∗ , λ∗ ) soit un point stationnaire de ce problème d'optimisation libre (sans
contrainte). Il apparaît que (x∗ , λ∗ ) est un point stationnaire du lagrangien L si et
seulement si x∗ satisfait la contrainte h(x∗ ) = 0, x∗ est un point stationnaire du
problème sous contrainte (1.16) et λ∗ est un vecteur multiplicateur de Lagrange du
problème sous contrainte (1.16) en x∗ .
1.4. Conditions du second ordre. Soit ϕ(t) une fonction de R dans R. On cherche
à résoudre le problème d'optimisation libre suivant
optimiser localement ϕ(t), t∈R
On cherche donc les minimums et maximums locaux de ϕ. Pour cela on commence par
résoudre ϕ0 (t) = 0 : on cherche les points stationnaires du problème d'optimisation.
On sait grâce à la formule de Taylor à l'ordre 2
ϕ(t + s) = ϕ(t) + ϕ0 (t)s + ϕ00 (t)s2 /2 + s2 ²(s)
que
(a) si t∗ satisfait ϕ0 (t∗ ) = 0 et ϕ00 (t∗ ) > 0, alors t∗ est un minimum local de ϕ
(b) si t∗ satisfait ϕ0 (t∗ ) = 0 et ϕ00 (t∗ ) < 0, alors t∗ est un maximum local de ϕ
(c) si t∗ satisfait ϕ0 (t∗ ) = 0 et ϕ00 (t∗ ) = 0, alors on ne peut pas conclure sans faire
une étude plus poussée de ϕ au voisinage de t∗ .
En qui concerne le dernier point, penser à
∗ ϕ(t) = t4 où en t∗ = 0 : ϕ0 (0) = ϕ00 (0) = 0 et 0 est un minimum (global)
∗ ϕ(t) = −t4 où en t∗ = 0 : ϕ0 (0) = ϕ00 (0) = 0 et 0 est un maximum (global)
∗ ϕ(t) = t3 où en t∗ = 0 : ϕ0 (0) = ϕ00 (0) = 0 et 0 n'est ni un minimum, ni un
maximum, mais un point d'inexion.
La condition ϕ0 (t∗ ) = 0 est appelée une condition nécessaire du premier ordre (en
dérivation) pour que t∗ soit un optimiseur local, alors que les conditions ϕ00 (t∗ ) > 0
et ϕ00 (t∗ ) < 0 sont respectivement appelées des conditions susantes du second ordre
pour que le point stationnaire t∗ soit un minimum local ou un maximum local.
La condition (1.22) est une condition nécessaire de premier ordre pour que x∗ soit
un optimiseur local de (1.16). Cherchons maintenant à déterminer en fonction des
dérivées secondes de f et de h1 , . . . hm des conditions susantes pour que le point
stationnaire x∗ soit un minimum local ou un maximum local.
Pour cela, on considère à nouveau Φ(t) = f (xt ) où t 7→ xt ∈ S est une courbe
paramétrée qui vit sur la surface S d'équation h(x) = 0 et telle que x(t∗ ) = x∗ . Les
formules de Taylor à l'ordre 2 qui vont nous servir sont
xt+s − xt = ẋt s + ẍt s2 /2 + ²(s)s2
où ẍt désigne le vecteur des dérivées secondes de t 7→ xt , c'est-à-dire l'accélération de

la courbe t 7→ xt à l'instant t, ainsi que
1
f (xt+s ) = f (xt ) + Df (xt )(xt+s − xt ) + h(xt+s − xt ), D2 f (xt )(xt+s − xt )i
2
+ ²(xt+s − xt )k(xt+s − xt )k2
où ha, bi désigne le produit scalaire. En injectant la première équation dans la seconde,
nous obtenons
1 s2
f (xt+s ) = f (xt ) + Df (xt )[sẋt + s2 ẍt + ²(s)s2 ] + hẋt , D2 f (xt )ẋt i + ²(s)s2
2 2
s2
= f (xt ) + sDf (xt )ẋt + [Df (xt )ẍt + hẋt , D2 f (xt )ẋt i] + ²(s)s2 (1.23)
2
Nous savons que Df (x )ẋt est lié à Dh(x∗ )ẋt∗ par (1.22), mais ça n'est pas susant
∗ ∗
pour conclure. De plus, l'accélération ẍt apparaît, il faut donc trouver un moyen pour
l'éliminer. La bonne façon de s'en sortir est de remarquer que puisque le courbe t 7→ xt
est sur S, on a h(xt ) = 0 pour tout t, donc
L(xt , λ) = f (xt ) + λ1 h1 (xt ) + · · · + λm hm (xt ) = f (xt ),
pour tout t et tout λ. Soient x∗ un point stationnaire et λ∗ le vecteur multiplicateur
de Lagrange qui lui est associé par (1.22). En prenant λ = λ∗ dans l'identité f (xt ) =
L(xt , λ∗ ), et en lui appliquant la formule de Taylor (1.23) en t = t∗ , on obtient
s2
f (xt∗ +s ) = f (x∗ ) + sDx L(x∗ , λ∗ )ẋt∗ + [Dx L(x∗ , λ∗ )ẍt∗ + hẋt∗ , Dx2 L(x∗ , λ∗ )ẋt∗ i] + ²(s)s2
2
s2
= f (x∗ ) + hẋt∗ , Dx2 L(x∗ , λ∗ )ẋt∗ i + ²(s)s2
2
où Dx L(x∗ , λ∗ ) et Dx2 L(x∗ , λ∗ ) désignent le gradient et la matrice hessienne de la
fonction x 7→ L(x, λ∗ ) en x = x∗ pour λ∗ xé. Pour la dernière égalité, nous avons
tiré parti de Dx L(x∗ , λ∗ ) = 0 qui est impliqué par (1.22).
Le calcul précédent est valable pour toute courbe t 7→ xt qui passe par x∗ en t = t∗ .
Donc la vitesse ẋt∗ peut prendre toutes les valeurs v dans l'espace tangent T (x∗ ).
On en conclut que si pour tout v non nul dans T (x∗ ), hv, Dx2 L(x∗ , λ∗ )vi > 0 alors le
point stationnaire x∗ est un minimum. De même, si pour tout v non nul dans T (x∗ ),
hv, Dx2 L(x∗ , λ∗ )vi < 0 alors le point stationnaire x∗ est un maximum. Nous venons de
prouver le
Théoreme 1.24 (Condition susante du second ordre). Soit x∗ un point stationnaire
du problème (1.16) de vecteur multiplicateur de Lagrange λ∗ . C'est-à-dire (1.22) :
DL(x∗ , λ∗ ) = 0. On suppose de plus que la contrainte h est régulière en x∗ (voir la

Dénition 1.15).
(a) Si pour tout v non nul de T (x∗ ), hv, Dx2 L(x∗ , λ∗ )vi > 0, alors x∗ est un minimi-
seur local.
(b) Si pour tout v non nul de T (x∗ ), hv, Dx2 L(x∗ , λ∗ )vi < 0, alors x∗ est un maximi-
seur local.
(c) S'il existe des v de T (x∗ ) tels que hv, Dx2 L(x∗ , λ∗ )vi > 0 et des v de T (x∗ ) tels
que hv, Dx2 L(x∗ , λ∗ )vi < 0, alors x∗ est un point-col.
½
x2 + y 2 + z 2 = 1
Exercice. Trouver le point du cercle de R d'équation
3
qui est
x+y+z =0
le plus éloigné du point de coordonnées (1, 1, 0).
Solution. Il s'agit dans un premier temps de résoudre le problème d'optimisation sui-

vant :
½
optimiser localement f (x, y, z) = (x − 1)2 + (y − 1)2 + z 2
(P)
sous les contraintes x2 + y 2 + z 2 = 1 et x + y + z = 0
Avant d'oublier, commençons par chercher les points de la surface de contrainte S

qui ne sont pas réguliers au sens de la Dénition 1.15, c'est à dire les (x, y, z) tels
M M
que h1 (x, y, z) = x2 + y 2 + z 2 − 1 = 0 et h2 (x, y, z) = x + y + z = 0, et tels
que les vecteurs Dh1 (x, y, z) et Dh2 (x, y, z) ne forment pas une partie libre de R3 .
On a Dh1 (x, y, z) = 2(x, y, z) et Dh2 (x, y, z) = (1, 1, 1). Ils sont liés s'ils sont co-
linéaires, c'est-à-dire lorsque x = y = z. Ce qui avec les contraintes nous donne

 x=y=z
x+y+z =0 . Or, ce système n'admet pas de solution. Donc tous les points
 2
x + y2 + z2 = 1
de la surface de contrainte (le cercle) sont réguliers.
Le lagrangien est L(x, y, z, λ, µ) = (x − 1)2 + (y − 1)2 + z 2 + λ(x2 + y 2 + z 2 − 1) + µ(x +
y + z), avec deux multiplicateurs de Lagrange λ et µ puisqu'il y a deux contraintes.
Recherchons les points stationnaires et leurs multiplicateurs. Les dérivées partielles
de L sont
∂L
(x, y, z, λ, µ) = 2(λ + 1)x + µ − 2
∂x
∂L
(x, y, z, λ, µ) = 2(λ + 1)y + µ − 2
∂y
∂L
(x, y, z, λ, µ) = 2(λ + 1)z + µ
∂z
∂L
(x, y, z, λ, µ) = x2 + y 2 + z 2 − 1
∂λ
∂L
(x, y, z, λ, µ) = x+y+z
∂µ
de sorte que nous avons à résoudre le système en (x, y, z, λ, µ) :
x/α + µ − 2 = 0
y/α + µ − 2 = 0
z/α + µ = 0
x2 + y 2 + z 2 = 1
x+y+z = 0
1
où nous avons posé α = 2(λ+1) en constatant que 2(λ + 1) = 0 est exclu du fait des

 x = α(2 − µ)
trois premières équations. On a donc y = α(2 − µ) qui avec x + y + z = 0

z = −αµ
nous donne 0 = α(4 − 3µ), soit µ = 4/3. Par conséquent (x, y, z) = α(2/3, 2/3, −4/3).
Donc, l'autre contrainte x2 + y 2 + z 2 = 1 impose 1 = α2 (4/9 + 4/9 + 16/9), soit
3 3
α2 = 9/24 : α ∈ {− 2√ , √
6 2 6
}.
Les points stationnaires et leurs multiplicateurs de Lagrange sont donc :
½ √
∗ ∗ ∗
√ √ √ (λ∗ , µ∗ ) = ( 6/3 − 1, 4/3)
(x , y , z ) = (1/ 6, 1/ 6, −2/ 6) avec 3
soit α∗ = 2√ 6√
½ ∗ ∗
√ √ √ (λ , µ ) = (− 6/3 − 1, 4/3)
(x∗ , y ∗ , z ∗ ) = (−1/ 6, −1/ 6, 2/ 6) avec 3
soit α∗ = − 2√ 6
La matrice Dx2 L qui apparaît dans le Théorème 1.24 est ici

 ∂2L ∂2L ∂2L

  
∂2x ∂x∂y ∂x∂z 2(λ∗ + 1) 0 0
 ∂2L ∂2L ∂2L 
 ∂x∂y ∂2y ∂y∂z 
(x∗ , y ∗ , z ∗ , λ∗ , µ∗ ) =  0 2(λ∗ + 1) 0 
∂2L ∂2L 2
∂ L 0 0 2(λ∗ + 1)
∂x∂z ∂y∂z ∂2z
 
1 0 0
= 1/α∗ 0 1 0
0 0 1
La forme quadratique hv, Dx2 L(x∗ , λ∗ )vi du Théorème 1.24 s'écrit
1
Q(u, v, w) = ∗ (u2 + v 2 + w2 ), (u, v, w) ∈ R3 .
α
Elle a donc un signe constant qui est celui de α∗ . Il n'est donc√pas utile √ de √ cal-
culer l'espace tangent dans ce cas. Le point (x∗ , y ∗ , z ∗ ) = (1/ 6, 1/ 6, −2/ 6)
est donc
√ un √ minimiseur
√ local de (P ) puisque 1/α∗ > 0 et le point (x∗ , y ∗ , z ∗ ) =
(−1/ 6, −1/ 6, 2/ 6) est un maximiseur local de (P ) puisque 1/α∗ < √ 0. √ √
La solution que nous cherchons est le maximiseur local (x∗ , y ∗ , z ∗ ) = (−1/ 6, −1/ 6, 2/ 6).
En eet, la fonction continue f (x, y, z) = (x−1)2 +(y −1)2 +z 2 est bornée sur le cercle
déni par les contraintes. Un unique maximiseur local est de ce fait le maximiseur
global. ¤
Exercice. Optimiser localement la fonction f (x, y) = 3x + 5y − 1 sous la contrainte
xy = 15
(1) à l'aide d'une méthode de substitution
(2) à l'aide de la méthode de Lagrange
Solution. (1) Commençons par la méthode de substitution qui ne pose aucune di-
culté sérieuse. Puisque xy = 15, on a nécessairement x et y non nuls. On peut donc
écrire y = 15/x et optimiser localement la fonction g(x) = f (x, 15/x) = 3x + 75/x − 1.
On étudie les variations de g à l'aide de sa dérivée g 0 (x) = 3 − 75/x2 et on trouve
que x = −5 et x = 5 sont respectivement un maximum local et un minimum local
15
de g. Par conséquent (−5, −5 ) = (−5, −3) et (5, 15
5 ) = (5, 3) sont respectivement un
maximum local et un minimum local du problème considéré.
(2) Appliquons maintenant la méthode de Lagrange. Dans cet exercice elle est
nettement plus lourde que la méthode de substitution, mais dans les situations plus
complexes, c'est la seule qui peut être envisagée. Le but de cet exercice est donc
d'appliquer la méthode pour en donner une illustration.
M
Commençons par chercher les points de la surface de contrainte d'équation h(x, y) =
xy − 15 = 0 qui ne sont pas réguliers. Ce sont les points (x, y) tels que h(x, y) = 0 et
Dh(x, y) = (0, 0), car une partie composée d'un unique vecteur½ est liée si et seulement
y=x=0
si ce vecteur est nul. On a Dh(x, y) = (y, x). Or le sytème n'admet pas
xy = 15
de solution. Donc tous les points de la surface de contrainte sont réguliers.
Le lagrangien est L(x, y, λ) = 3x + 5y − 1 + λ(xy − 15) et ses dérivées partielles
sont ∂L ∂L
∂x (x, y, λ) = 3 + λy, ∂y (x, y, λ) = 5 + λx et ∂L
∂λ (x, y, λ) = xy − 15. Donc

 λx = −5
les points stationnaires sont solution du système λy = −3 . Nécessairement λ

xy = 15
est
½ non nul car on aurait 0 = 0y = −3. On peut donc diviser par λ pour obtenir
x = −5/λ
ce qui avec xy = 15 implique 15/λ = 15. Par conséquent λ2 = 1
2
y = −3/λ
et les points stationnaires sont
(x∗ , y ∗ ) = (5, 3) avec λ∗ = −1
(x∗ , y ∗ ) = (−5, −3) avec λ∗ = 1
Etudions maintenant la condition susante
Ã 2 du second ! ordre. La matrice
µ des dérivées
¶
∂ L ∂2L
∂2x ∂x∂y 0 λ
secondes par rapport à x, y de L est ∂2L ∂2L
(x, y, λ) = , de sorte
λ 0
∂x∂y ∂2y
qu'en les points stationnaires, la forme quadratique associée est
M
Q∗ (u, v) = Q(x∗ ,y∗ ,λ∗ ) (u, v) = 2λ∗ uv, (u, v) ∈ R2
Cette forme quadratique n'est pas de signe constant sur R2 , il convient donc d'étudier
M
son signe en restriction à l'espace tangent T ∗ = T (x∗ , y ∗ ) à S = {(x, y) ∈ R2 , xy = 15}
au point (x , y ). Cet espace est l'espace orthogonal à Dh(x∗ , y ∗ ) avec h(x, y) =
∗ ∗
xy − 15. On a donc,
µ ∂h ∗ ∗ ¶ µ ∗¶
(u, v) ∈ T ∗ ⇔ (u, v) ∂h ∂x (x , y ) = 0 ⇔ (u, v) y = 0 ⇔ y ∗ u + x∗ v = 0.
∗ ∗ ∗
∂y (x , y ) x
En (x∗ , y ∗ ) = (5, 3) on a Q∗ (u, v) = 2λ∗ uv = −2uv car λ∗ = −1. Or T ∗ a pour

équation 3u + 5v = 0. Donc en restriction à T ∗ , Q∗ (u, v) = Q∗ (u, −3u/5) =
(−2)(−3u2 /5) = 6u2 /5. Par conséquent, pour tout vecteur non nul (u, v) de T ∗ , on
a Q∗ (u, v) > 0. On en déduit, grâce au Théorème 1.24(a) que (x∗ , y ∗ ) = (5, 3) est
un minimiseur local.
En (x∗ , y ∗ ) = (−5, −3) on a Q∗ (u, v) = 2λ∗ uv = 2uv car λ∗ = 1. Or T ∗ a (aussi)
pour équation −3u − 5v = 0. Donc en restriction à T ∗ , Q∗ (u, v) = Q∗ (u, −3u/5) =
2(−3u2 /5) = −6u2 /5. Par conséquent, pour tout vecteur non nul (u, v) de T ∗ , on
a Q∗ (u, v) < 0. On en déduit, grâce au Théorème 1.24(b) que (x∗ , y ∗ ) = (5, 3) est
un maximiseur local.
¤

Optimisation Sous Contrainte

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Optimisation Sous Contrainte

Transféré par

Droits d'auteur :

Formats disponibles

NOTES DU COURS DE MATHS3

1. Optimisation sous contrainte

10x − 6 = 0, d'où x = 3/5 et y = 2x − 1 = 6/5 − 1 = 1/5. Soit M = (3/5, 1/5).

pourrait nous permettre de résoudre des problèmes comme celui-ci :

où nous avons utilisé l'identité (1.3) pour rendre la matrice D2 f symétrique.

Dénition 1.6. On appelle gradient de f en (x1 , . . . , xn ) la matrice ligne Df (x1 , . . . , xn )

En fait, une courbe paramétrée C est une fonction t ∈]a, b[7→ xt ∈ S.

Attention, la vitesse dépend du paramètrage. Deux paramétrages diérents du même

qui est une matrice m × n et ẋt est une matrice colonne.

T (x∗ ) = {v ∈ Rn ; Dh(x∗ )v = 0}.

N (x∗ ) = vect{Dh1 (x∗ ), . . . , Dhm (x∗ )}

Dénition 1.15. On dit que la contrainte h est régulière en x∗ ∈ S si les vecteurs

1.3. Les multiplicateurs de Lagrange. Nous considérons le problème d'optimisa-

optimiser localement f (x) (1.16)

En posant α1 = −λ∗1 , . . . αm = −λ∗m , on a montré le résultat important suivant.

locale (1.16), alors il existe λ∗ ∈ Rm tel que DL(x∗ , λ∗ ) = 0.

On a donc transformé le problème d'optimisation sous contrainte (1.16) dans Rn en

où ẍt désigne le vecteur des dérivées secondes de t 7→ xt , c'est-à-dire l'accélération de

DL(x∗ , λ∗ ) = 0. On suppose de plus que la contrainte h est régulière en x∗ (voir la

Solution. Il s'agit dans un premier temps de résoudre le problème d'optimisation sui-

Avant d'oublier, commençons par chercher les points de la surface de contrainte S

de sorte que nous avons à résoudre le système en (x, y, z, λ, µ) :

La matrice Dx2 L qui apparaît dans le Théorème 1.24 est ici

 ∂2L ∂2L ∂2L

 En (x∗ , y ∗ ) = (5, 3) on a Q∗ (u, v) = 2λ∗ uv = −2uv car λ∗ = −1. Or T ∗ a pour

Vous aimerez peut-être aussi

Dénition 1.6. On appelle gradient de f en (x1 , . . . , xn ) la matrice ligne Df (x1 , . . . , xn )

Attention, la vitesse dépend du paramètrage. Deux paramétrages diérents du même

Dénition 1.15. On dit que la contrainte h est régulière en x∗ ∈ S si les vecteurs

En (x∗ , y ∗ ) = (5, 3) on a Q∗ (u, v) = 2λ∗ uv = −2uv car λ∗ = −1. Or T ∗ a pour