Académique Documents
Professionnel Documents
Culture Documents
CHRISTIAN LÉONARD
Date : 2004.
1
2 CHRISTIAN LÉONARD
1.1. Rappels sur les fonctions de plusieurs variables. Une fonction de n va-
riables est de la forme
(x1 , . . . , xn ) 7→ f (x1 , x2 , . . . , xn ) ∈ R
Pour rendre les choses plus lisibles, nous consirérerons avant tout des fonctions de
deux ou trois variables f (x, y) ou f (x, y, z). La formule de Taylor à l'ordre 2 pour les
fonctions habituelles d'une seule variable f (x) est
1
f (x + h) = f (x) + f 0 (x)h + f 00 (x)h2 + ²(h)h2 , x, h ∈ R
2
avec limh→0 ²(h) = 0. Elle se généralise aux fonctions de trois variables sous la forme
f (x + u,y + v, z + w) = (1.2)
f (x, y, z)
∂f ∂f ∂f
+ (x, y, z)u + (x, y, z)v + (x, y, z)w
∂x ∂y ∂z
· 2
∂ f ∂2f ∂2f
+1/2 2 (x, y, z)u2 + 2 (x, y, z)v 2 + 2 (x, y, z)w2
∂ x ∂ x ∂ x
2 2
¸
∂ f ∂ f ∂2f
+2 (x, y, z)uv + 2 (x, y, z)uw + 2 (x, y, z)vw
∂x∂y ∂x∂z ∂y∂z
+²(u, v, w)[u2 + v 2 + w2 ]
pour (x, y, z) ∈ R3 , (u, v, w) ∈ R3 avec lim(u,v,w)→0 ²(u, v, w) = 0.
NOTES DU COURS DE MATHS3 3
∂f ∂2f
Nous venons d'utiliser les dérivées partielles ∂x , ∂y∂z , . . . On rappelle qu'on note
∂f
∂x (xo , yo , zo ) la dérivée en x = xo de la fonction x 7→ f (x, yo , zo ). Puisque (x, y, z) 7→
∂f
∂x (x, y, z) est aussi une fonction de plusieurs
h i variables on peut à nouveau considérer
ses dérivées partielles. Par exemple ∂z ∂f ∂
∂x (xo , yo , zo ) est la dérivée en z = zo de
∂f ∂2f
z 7→ ∂x (xo , yo , z). On la note ∂z∂x (xo , yo , z).
Exemple. Avec f (x, y, z) = 2xy + x2 z 3 − y 2 z, nous avons ∂f 3
∂x (x, y, z) = 2y + 2xz ,
2 2
∂f 2 2 2 ∂ f 2 ∂ f 2
∂z (x, y, z) = 3x z − y et ∂z∂x (x, y, z) = 6xz , ∂x∂z (x, y, z) = 6xz . On remarque
∂2f ∂2f
que ∂z∂x = ∂x∂z . En fait, ceci est un phénomène général et on peut démontrer que
pour une grande classe de fonctions f (x1 , . . . , xn ), on a
∂2f ∂2f
= , 1 ≤ i, j ≤ n. (1.3)
∂xi ∂xj ∂xj ∂xi
Un autre exemple. On considère la fonction f (x, y) = xy + x3 y 2 en (xo , yo ) =
∂f ∂f ∂2f ∂2f
(1, −2). Alors, ∂x (x, y) = y+3x2 y 2 , ∂y (x, y) = x+2x3 y, ∂ 2 x (x, y) = 6xy 2 , ∂ 2 y (x, y) =
∂2f
3
2x et ∂x∂y (x, y) = 1 + 6x2 y. En (xo , yo ) = (1, −2), on obtient ∂f ∂x (1, −2) = 10,
∂f ∂2f ∂2f ∂2f
∂y (1, −2) = −3, ∂ 2 x (1, −2) = 24, ∂ 2 y (1, −2) = 2 et ∂x∂y (1, −2) = −11. La formule
de Taylor à l'ordre 2 en (1, −2) s'écrit donc
1
f (1 + u, −2 + v) = 2 + 10u − 3v + [24u2 + 2v 2 − 22uv] + ²(u, v)(u2 + v 2 ).
2
Il est pratique d'introduire l'écriture matricielle suivante
µ ¶
u
f ((1, −2) + (u, v)) =2 + (10, −3)
v
µ ¶µ ¶ °µ ¶°
1 24 −11 u ° u °2
+ (u, v) °
+ ²(u, v) ° ° .
2 −11 2 v v °
De même, la formule de Taylor (1.2) en dimension 3, s'écrit
u u
1
f (x + u, y + v, z + w) = f (x, y, z) + Df (x, y, z) v + (u, v, w)D2 f (x, y, z) v
2
w w
(1.4)
° °
° u °2
° °
+ ²(u, v, w) °
° v
°
°
° w °
4 CHRISTIAN LÉONARD
avec µ ¶
∂f ∂f ∂f
Df (x, y, z) = , , (x, y, z)
∂x ∂y ∂z
et
∂2f ∂2f ∂2f
∂2x ∂x∂y ∂x∂z
∂2f ∂2f ∂2f
D2 f (x, y, z) = ∂x∂y ∂2y ∂y∂z (x, y, z)
∂2f ∂2f ∂2f
∂x∂z ∂y∂z ∂2z
xn (t)
x1 (t), . . . , xn (t) que nous supposerons
0 dérivables en t. On note x01 (t), . . . , x0n (t) leurs
x1 (t)
dérivées ainsi que x0 (t) = ... ∈ Rn considére comme une matrice colonne.
x0n (t)
Considérons l'accroissement f (x(t + s)) − f (x(t)) lorsque s ∈ R est "petit". En notant
u = x(t + s) − x(t) ∈ Rn , la formule de Taylor à l'ordre 1 appliquée à toutes les
coordonnées de u nous donne u = sx0 (t) + ²(s)s et la formule de Taylor à l'ordre 1
(1.8) nous permet d'écrire
f ((x(t + s)) = f (x(t) + u)
= f (x(t)) + Df (x(t))u + ²(u)kuk
= f (x(t)) + sDf (x(t))x0 (t) + ²(s)s.
d
On en déduit que la dérivée dt f (x(t)) de t 7→ f (x(t)) satisfait l'identité suivante
d
f (x(t)) = Df (x(t))x0 (t). (1.9)
dt
1.2. Un peu de géométrie dans l'espace : espaces tangents et normaux. De
façon à pouvoir travailler avec des contraintes comme celles dénies par h1 = h2 = 0
dans (1.1), nous aurons besoin de rudiments de géométrie dans l'espace.
Une surface de R3 est dénie en général par une équation du type
h(x, y, z) = 0.
6 CHRISTIAN LÉONARD
Par exemple x − 2y + 6z = 0 est l'équation d'un plan vectoriel (qui passe par l'origine
(0,0,0)). C'est le plan orthogonal au vecteur 6) puisque son équation exprime
(1, −2,
x
précisément que le produit scalaire (1, −2, 6) y est nul. L'équation x − 2y + 6z =
z
0 = 33, 2 est celle d'un plan ane (qui ne passe pas l'origine) parallèle au précédent.
L'équation x2 + y 2 + z 2 − 1 = 0 est celle de la sphère centrée en l'origine de rayon
un ; x2 + y 2 + z 2 − 9 = 0 est celle de la sphère centrée en l'origine de rayon 3 ;
x2 +y 2 +z 2 +9 = 0 est l'équation d'un ensemble vide (pourquoi ?). Plus généralement,
((x − xo )/a)2 + ((y − yo )/b)2 + ((z − zo )/c)2 − d2 = 0 est l'équation d'un ellipsoïde.
Attention, une sphère est une surface, il ne faut pas la confondre avec la boule qu'elle
délimite, qui est un volume.
Dans R2 , x2 + y 2 − 1 = 0 est l'équation du cercle unité. Alors que dans R3 , la même
équation x2 + y 2 − 1 = 0 ne faisant pas apparaître la variable z, est celle du cylindre
"vertical" passant par le cercle unité du plan "horizontal" Oxy.
De manière générale on peut dire qu'une contrainte du type h(x1 , . . . , xn ) = 0 fait
passer de la dimension n à la dimension n − 1. Ainsi x1 + · · · + xn = 0 est l'équation
du sous-espace vectoriel de Rn orthogonal au vecteur (1, . . . , 1). C'est donc un espace
° °
° x1 °2
° °
vectoriel de dimension n−1. L'équation x21 +· · ·+x2n −1 = 0 s'écrit aussi ° ... ° =
° °
° °
° xn °
1. Il s'agit donc de celle de la sphère de Rn de rayon 1 ; elle est bien de dimension
n − 1. De tels ensembles de dimension n − 1 dans Rn sont appelés des hypersurfaces.
Revenons dans R3 et considérons un ensemble déni par deux contraintes du style
½
h1 (x, y, z) = 0
h2 (x, y, z) = 0
Puisque les deux contraintes doivent être satisfaites simultanément, cet ensemble est
l'intersection des deux surfaces d'équations h1 (x, y, z) = 0 et h2 (x, y, z) = 0. Par
exemple, les contraintes du problème de minimisation (1.1) se représentent géométri-
quement comme l'intersection en 3D d'une sphère et d'un plan. En général, l'inter-
section d'un plan et d'une sphère est soit vide, soit un cercle dans l'espace. De façon
exceptionnelle, si le plan est tangent à la sphère, l'intersection n'est pas vide et se
réduit au point de contact. Donc il semble que l'intersection de deux surfaces lors-
qu'elle n'est pas vide, soit une courbe de l'espace. C'est eectivement le cas en général.
L'intersection de deux plans est soit vide (si les plans sont distincts et parallèles) soit
une droite de l'espace. L'intersection d'un plan et d'un cylindre, ou de deux sphères,
NOTES DU COURS DE MATHS3 7
si elles ne sont pas vides sont des ellipses dans l'espace. Les droites et les ellipses de
l'espace sont des ensembles géométriques de dimension 1. Deux contraintes font donc
perdre en général deux dimensions. On passe de 3 à 3 − 2 = 1.
De manière générale on peut dire que 2 contraintes simultanées du type h1 (x1 , . . . , xn ) =
0 et h2 (x1 , . . . , xn ) = 0 font passer de la dimension n à la dimension n − 2. Couper par
une hypersurface (de dimension n − 1) fait perdre en général une dimension. Donc,
m contraintes simultanées du type
h1 (x1 , . . . , xn ) = 0
.. (1.10)
.
hm (x1 , . . . , xn ) = 0
dénissent en général un ensemble de dimension n − m. Nous avons déjà remarqué
cela dans le cas des systèmes linéaires. On appellera tout ensemble de Rn déni par
une famille d'équations (1.10) une surface de Rn .
Dénition 1.11. Une courbe paramétrée C sur une surface S est un ensemble de
points (xt ∈ S; t ∈]a, b[) paramétré régulièrement par t ∈]a, b[. Le lieu géométrique de
la courbe C est l'ensemble des points {xt ∈ S; t ∈]a, b[}.
Illustration graphique
x∗ . On le note T (x∗ ) et on a
Avec les considérations que nous avons menées plus haut au sujet de la dimension
de S, on remarque que si S est de dimension n − m, il en est de même de T (x∗ )
en général. En fait, en mathématiques on dit que, par dénition, la surface S est de
dimension n − m si la dimension de tous les espaces tangents T (x), x ∈ S est la même
et vaut n − m. Puisque les T (x) sont des espaces vectoriels, leurs dimensions est celle
que nous connaissons : c'est le nombre de vecteurs des bases vectorielles.
Exemple. L'ensemble S = {(x, y, z) ∈ R3 ; h1 (x, y, z) = x = 0, h2 (x, y, z) = x −
y = 0}} est clairement l'axe des z puisque x = y = 0. Son espace tangent en
tout
µ point est donc ¶ µ lui-même puisque
¶ c'est un espace vectoriel. On a Dh(x, y, z) =
Dh1 (x, y, z) 1 0 0
= . Donc pour tout x∗ ∈ S, T (x∗ ) = {v; Dh(x∗ )v =
Dh2 (x, y, z) 1 −1 0 ½
a=0
0} est l'ensemble des v = (a, b, c) tels que c'est-à-dire a = b = 0. On
a−b=0
retrouve l'axe des z.
Dénition 1.14. L' espace normal en x∗ à S est l'espace vectoriel orthogonal à T (x∗ ).
On le note N (x∗ ). C'est le sous-espace vectoriel de Rn engendré par Dh1 (x∗ ), . . . , Dhm (x∗ ) :
En eet, nous avons vu par construction que T (x∗ ) est orthogonal à tous les vecteurs
Dh1 (x∗ ), . . . , Dhm (x∗ ).
Si les vecteurs Dh1 (x∗ ), . . . , Dhm (x∗ ) forment une partie libre, alors la dimension
N (x∗ ) est m et celle de T (x∗ ) est n − m.
Si h n'est pas régulière en x∗ des tas d'ennuis peuvent arriver lors de la résolution du
problème d'optimisation. Nous éviterons cette situation dans ce cours d'introduction.
Il conviendra donc avant tout de s'assurer de la régularité de la contrainte aux points
"sensibles" (voir les Théorèmes 1.17 et 1.24 plus bas).
dans Rn+m . En eet, la condition (1.22) n'est autre que la condition nécessaire pour
que (x∗ , λ∗ ) soit un point stationnaire de ce problème d'optimisation libre (sans
contrainte). Il apparaît que (x∗ , λ∗ ) est un point stationnaire du lagrangien L si et
seulement si x∗ satisfait la contrainte h(x∗ ) = 0, x∗ est un point stationnaire du
problème sous contrainte (1.16) et λ∗ est un vecteur multiplicateur de Lagrange du
problème sous contrainte (1.16) en x∗ .
1.4. Conditions du second ordre. Soit ϕ(t) une fonction de R dans R. On cherche
à résoudre le problème d'optimisation libre suivant
optimiser localement ϕ(t), t∈R
On cherche donc les minimums et maximums locaux de ϕ. Pour cela on commence par
résoudre ϕ0 (t) = 0 : on cherche les points stationnaires du problème d'optimisation.
On sait grâce à la formule de Taylor à l'ordre 2
ϕ(t + s) = ϕ(t) + ϕ0 (t)s + ϕ00 (t)s2 /2 + s2 ²(s)
que
(a) si t∗ satisfait ϕ0 (t∗ ) = 0 et ϕ00 (t∗ ) > 0, alors t∗ est un minimum local de ϕ
(b) si t∗ satisfait ϕ0 (t∗ ) = 0 et ϕ00 (t∗ ) < 0, alors t∗ est un maximum local de ϕ
(c) si t∗ satisfait ϕ0 (t∗ ) = 0 et ϕ00 (t∗ ) = 0, alors on ne peut pas conclure sans faire
une étude plus poussée de ϕ au voisinage de t∗ .
En qui concerne le dernier point, penser à
∗ ϕ(t) = t4 où en t∗ = 0 : ϕ0 (0) = ϕ00 (0) = 0 et 0 est un minimum (global)
∗ ϕ(t) = −t4 où en t∗ = 0 : ϕ0 (0) = ϕ00 (0) = 0 et 0 est un maximum (global)
∗ ϕ(t) = t3 où en t∗ = 0 : ϕ0 (0) = ϕ00 (0) = 0 et 0 n'est ni un minimum, ni un
maximum, mais un point d'inexion.
La condition ϕ0 (t∗ ) = 0 est appelée une condition nécessaire du premier ordre (en
dérivation) pour que t∗ soit un optimiseur local, alors que les conditions ϕ00 (t∗ ) > 0
et ϕ00 (t∗ ) < 0 sont respectivement appelées des conditions susantes du second ordre
pour que le point stationnaire t∗ soit un minimum local ou un maximum local.
La condition (1.22) est une condition nécessaire de premier ordre pour que x∗ soit
un optimiseur local de (1.16). Cherchons maintenant à déterminer en fonction des
dérivées secondes de f et de h1 , . . . hm des conditions susantes pour que le point
stationnaire x∗ soit un minimum local ou un maximum local.
Pour cela, on considère à nouveau Φ(t) = f (xt ) où t 7→ xt ∈ S est une courbe
paramétrée qui vit sur la surface S d'équation h(x) = 0 et telle que x(t∗ ) = x∗ . Les
formules de Taylor à l'ordre 2 qui vont nous servir sont
xt+s − xt = ẋt s + ẍt s2 /2 + ²(s)s2
NOTES DU COURS DE MATHS3 13
pour conclure. De plus, l'accélération ẍt apparaît, il faut donc trouver un moyen pour
l'éliminer. La bonne façon de s'en sortir est de remarquer que puisque le courbe t 7→ xt
est sur S, on a h(xt ) = 0 pour tout t, donc
L(xt , λ) = f (xt ) + λ1 h1 (xt ) + · · · + λm hm (xt ) = f (xt ),
pour tout t et tout λ. Soient x∗ un point stationnaire et λ∗ le vecteur multiplicateur
de Lagrange qui lui est associé par (1.22). En prenant λ = λ∗ dans l'identité f (xt ) =
L(xt , λ∗ ), et en lui appliquant la formule de Taylor (1.23) en t = t∗ , on obtient
s2
f (xt∗ +s ) = f (x∗ ) + sDx L(x∗ , λ∗ )ẋt∗ + [Dx L(x∗ , λ∗ )ẍt∗ + hẋt∗ , Dx2 L(x∗ , λ∗ )ẋt∗ i] + ²(s)s2
2
s2
= f (x∗ ) + hẋt∗ , Dx2 L(x∗ , λ∗ )ẋt∗ i + ²(s)s2
2
où Dx L(x∗ , λ∗ ) et Dx2 L(x∗ , λ∗ ) désignent le gradient et la matrice hessienne de la
fonction x 7→ L(x, λ∗ ) en x = x∗ pour λ∗ xé. Pour la dernière égalité, nous avons
tiré parti de Dx L(x∗ , λ∗ ) = 0 qui est impliqué par (1.22).
Le calcul précédent est valable pour toute courbe t 7→ xt qui passe par x∗ en t = t∗ .
Donc la vitesse ẋt∗ peut prendre toutes les valeurs v dans l'espace tangent T (x∗ ).
On en conclut que si pour tout v non nul dans T (x∗ ), hv, Dx2 L(x∗ , λ∗ )vi > 0 alors le
point stationnaire x∗ est un minimum. De même, si pour tout v non nul dans T (x∗ ),
hv, Dx2 L(x∗ , λ∗ )vi < 0 alors le point stationnaire x∗ est un maximum. Nous venons de
prouver le
Théoreme 1.24 (Condition susante du second ordre). Soit x∗ un point stationnaire
du problème (1.16) de vecteur multiplicateur de Lagrange λ∗ . C'est-à-dire (1.22) :
14 CHRISTIAN LÉONARD
½
x2 + y 2 + z 2 = 1
Exercice. Trouver le point du cercle de R d'équation
3
qui est
x+y+z =0
le plus éloigné du point de coordonnées (1, 1, 0).
½
optimiser localement f (x, y, z) = (x − 1)2 + (y − 1)2 + z 2
(P)
sous les contraintes x2 + y 2 + z 2 = 1 et x + y + z = 0
∂L
(x, y, z, λ, µ) = 2(λ + 1)x + µ − 2
∂x
∂L
(x, y, z, λ, µ) = 2(λ + 1)y + µ − 2
∂y
∂L
(x, y, z, λ, µ) = 2(λ + 1)z + µ
∂z
∂L
(x, y, z, λ, µ) = x2 + y 2 + z 2 − 1
∂λ
∂L
(x, y, z, λ, µ) = x+y+z
∂µ
x/α + µ − 2 = 0
y/α + µ − 2 = 0
z/α + µ = 0
x2 + y 2 + z 2 = 1
x+y+z = 0
1
où nous avons posé α = 2(λ+1) en constatant que 2(λ + 1) = 0 est exclu du fait des
x = α(2 − µ)
trois premières équations. On a donc y = α(2 − µ) qui avec x + y + z = 0
z = −αµ
nous donne 0 = α(4 − 3µ), soit µ = 4/3. Par conséquent (x, y, z) = α(2/3, 2/3, −4/3).
Donc, l'autre contrainte x2 + y 2 + z 2 = 1 impose 1 = α2 (4/9 + 4/9 + 16/9), soit
3 3
α2 = 9/24 : α ∈ {− 2√ , √
6 2 6
}.
Les points stationnaires et leurs multiplicateurs de Lagrange sont donc :
½ √
∗ ∗ ∗
√ √ √ (λ∗ , µ∗ ) = ( 6/3 − 1, 4/3)
(x , y , z ) = (1/ 6, 1/ 6, −2/ 6) avec 3
soit α∗ = 2√ 6√
½ ∗ ∗
√ √ √ (λ , µ ) = (− 6/3 − 1, 4/3)
(x∗ , y ∗ , z ∗ ) = (−1/ 6, −1/ 6, 2/ 6) avec 3
soit α∗ = − 2√ 6
Dh(x, y) = (0, 0), car une partie composée d'un unique vecteur½ est liée si et seulement
y=x=0
si ce vecteur est nul. On a Dh(x, y) = (y, x). Or le sytème n'admet pas
xy = 15
de solution. Donc tous les points de la surface de contrainte sont réguliers.
Le lagrangien est L(x, y, λ) = 3x + 5y − 1 + λ(xy − 15) et ses dérivées partielles
sont ∂L ∂L
∂x (x, y, λ) = 3 + λy, ∂y (x, y, λ) = 5 + λx et ∂L
∂λ (x, y, λ) = xy − 15. Donc
λx = −5
les points stationnaires sont solution du système λy = −3 . Nécessairement λ
xy = 15
est
½ non nul car on aurait 0 = 0y = −3. On peut donc diviser par λ pour obtenir
x = −5/λ
ce qui avec xy = 15 implique 15/λ = 15. Par conséquent λ2 = 1
2
y = −3/λ
et les points stationnaires sont
(x∗ , y ∗ ) = (5, 3) avec λ∗ = −1
(x∗ , y ∗ ) = (−5, −3) avec λ∗ = 1
Etudions maintenant la condition susante
à 2 du second ! ordre. La matrice
µ des dérivées
¶
∂ L ∂2L
∂2x ∂x∂y 0 λ
secondes par rapport à x, y de L est ∂2L ∂2L
(x, y, λ) = , de sorte
λ 0
∂x∂y ∂2y
qu'en les points stationnaires, la forme quadratique associée est
M
Q∗ (u, v) = Q(x∗ ,y∗ ,λ∗ ) (u, v) = 2λ∗ uv, (u, v) ∈ R2
Cette forme quadratique n'est pas de signe constant sur R2 , il convient donc d'étudier
M
son signe en restriction à l'espace tangent T ∗ = T (x∗ , y ∗ ) à S = {(x, y) ∈ R2 , xy = 15}
au point (x , y ). Cet espace est l'espace orthogonal à Dh(x∗ , y ∗ ) avec h(x, y) =
∗ ∗
xy − 15. On a donc,
µ ∂h ∗ ∗ ¶ µ ∗¶
(u, v) ∈ T ∗ ⇔ (u, v) ∂h ∂x (x , y ) = 0 ⇔ (u, v) y = 0 ⇔ y ∗ u + x∗ v = 0.
∗ ∗ ∗
∂y (x , y ) x
a Q∗ (u, v) < 0. On en déduit, grâce au Théorème 1.24(b) que (x∗ , y ∗ ) = (5, 3) est
un maximiseur local.
¤