Vous êtes sur la page 1sur 11

SOLUTIONS

1 Interprétation géométrique des conditions d’optimalité de KKT

D’après les conditions du premier ordre, −∇f (x ∗ ) est dans le cône engendré par les gradi-
ents des contraintes actives en x∗ (le cône du dessin C, puisque ci (·) 6 0 dans X et que le
gradient de ci est dirigé vers les valeurs croissantes de c i ). Donc ∇f (x∗ ) est dans le cône
du dessin D.
Le cône du dessin B est le cône tangent à X en x ∗ .

2 Signification des multiplicateurs

1. Par admissibilité et complémentarité sur le problème (P p ), on a

λ̄E (p)> (cE (x̄(p)) + pE ) = 0 et λ̄I (p)> (cI (x̄(p)) + pI ) = 0.

On en déduit que
`(x̄(p), λ̄(p)) + λ̄(p)>p = f (x̄(p)).

2. On a alors en dérivant :
>
(f ◦ x̄)0 (p) · q = `0x (x̄(p), λ̄(p)) · x̄0 (p) · q + c(x̄(p))>λ̄0 (p) · q + λ̄0 (p) · q p + λ̄(p)>q.

En p = 0, ∇x `(x̄, λ̄) = 0, ce qui permet d’éviter le calcul de x̄ 0 (p) (c’est la raison


même de l’utilisation du lagrangien dans cette approche). D’autre part, c E∪I∗0 (x̄) = 0
et λ̄0I\I 0 (0) = 0 (car pour i ∈ I\I∗0 et p petit, ci (x̄(p)) + pi < 0 et donc λ̄I\I∗0 (p) = 0).

On en déduit
∇p (f ◦ x̄)(0) = λ̄.

Interprétation : λ̄i donne la variation de min(P0 ) lorsqu’on perturbe la contrainte i


comme dans (Pp ). En particulier, si λ̄i est grand, min f est très sensible à des erreurs
sur la i-ième contrainte. La figure 4 permet d’interpréter géométriquement la condition
λi > 0 pour i ∈ I.
3. Figure A. La solution est x̄ = (0, 0) qui est un minimum sans contrainte; donc λ̄ = 0.
Figure B. La solution est x̄ = (1, 0). Lorsque l’on perturbe la contrainte en x 1 > 1 + p,
la solution devient (1 + p, 0) et la valeur optimale v(p) = (1 + p) 2 . Le multiplicateur
optimal vaut donc λ̄ = v 0 (0) = 2.
Figure C. La solution est toujours x̄ = (1, 0). Le gradient ∇f (x̄) est colinéaire au
gradient de la première contrainte. Comme λ̄3 = 0 (la troisième contrainte est inactive),
on ne peut avoir que λ̄2 = 0. Dès lors λ̄1 = 2, comme à la figure B.

39

x̄(p)

∇f (x̄)

c(·) = 0
c(·) + p = 0 (p > 0)

Fig. 4: Signification des multiplicateurs

3 Minimisation d’une fonction linéaire sur une boule

1. Le problème est équivalent au suivant

min(x,v)∈Rn ×Rn c>x



 P
n
i=1 vi = 1
−v 6 x 6 v.

En utilisant le lagrangien
n n n
!
X X X
`(x, v, y, s+ , s− ) = c>x + y vi − 1 + s+
i (xi − vi ) − s−
i (xi + vi ),
i=1 i=1 i=1

on obtient les conditions d’optimalité suivantes

c + s + − s− = 0

 (a)
+ −

Pn− s − s = 0
 (b)

 ye

(c) i=1 vi = 1


 (d) −v 6 x 6 v
(e) s+ > 0, s− > 0




(f ) s+
i (xi − vi ) = 0, s−
i (xi + vi ) = 0, ∀i,

où e = (1, . . . , 1) ∈ Rn . Les équations (a) et (b) sont équivalentes à


1 1
s+ = (ye − c) et s− = (ye + c). (17)
2 2
Par (e), on voit que y > kck∞ . Si y > kck∞ , s+ > 0, s− > 0 et on aurait par (f ),
pour tout i : xi = vi = −vi , donc xi = vi = 0, ce qui contredirait (c). On a donc
démontré que
y = kck∞ .
On distinguent les cas suivants.

40
• Si |ci | < kck∞ , alors s+ −
i > 0, si > 0 puis xi = vi = −vi , donc xi = vi = 0.
• Si ci = kck∞ , alors s+ −
i = 0, si > 0 donc xi = −vi 6 0.
• Si ci = −kck∞ , alors s+ −
i > 0, si = 0 donc xi = vi > 0.

Si on note I := {i : |ci | = kck∞ }, les solutions x vérifient

xI c = 0, sgn(xi ) = − sgn(ci ) et kxk1 = 1.

Réciproquement les x vérifiant ces conditions vérifient (c)-(f ), avec s + et s− donnés


par (17) et v = |x|.
Quel que soit c et x ∈ Rn de norme kxk1 6 1, on a donc
X
c>x > kck∞ sgn(ci )xi = −kck∞ .
i∈I

On en déduit l’inégalité de Hölder : quel que soit c et x ∈ R n on a |c>x| 6 kck∞ kxk1 .

2. Le lagrangien du problème s’écrit (on prend la contrainte équivalente p1 kxkpp 6 p1 pour


des questions de différentiabilité et pour éviter le facteur p après différentiation) :
n
!
λ X
`(x, λ) = c>x + |xi |p − 1 .
p
i=1

Les conditions du premier ordre s’écrivent

ci + λxi |xi |p−2 = 0





kxkp 6 1


 λ>0
λ(kxkp − 1) = 0.

Nécessairement λ 6= 0 (puisque c 6= 0), donc kxk p = 1 (quatrième équation), λ =


kckp0 où p1 + p10 = 1 (première et troisième équation) et finalement

 p0
|ci |

p
xi = − sgn(ci ) .
kckp0
Dans le cas où p = 2, on obtient simplement
c
x=− .
kck2

Quel que soit c et x ∈ Rn de norme kxkp 6 1, on a donc


 p0  p0 X 0
n n
kckpp0
 
>
X |ci | p 1 p p0
+1
c x>− ci sgn(ci ) >− |ci | p =− p0 /p
− kckp0 .
kckp0 kckp0 kckp0
i=1 i=1

On en déduit l’inégalité de Hölder : quel que soit c et x ∈ R n on a |c>x| 6 kckp0 kxkp .


L’unicité de la solution du problème implique que l’on a égalité dans l’inégalité de
0
Hölder ssi x est parallèle au vecteur de composante sgn(c i )|ci |p /p (qui est c si p = 2).

41
3. Il s’agit de résoudre  P
minx i ci xi
−1 6 xi 6 1, ∀i.
Il s’agit des n problèmes indépendants :

minxi ci xi
−1 6 xi 6 1,
dont les solutions sont
• si ci > 0, alors xi = −1,
• si ci < 0, alors xi = 1,
• si ci = 0, alors −1 6 xi 6 1.
Quel que soit c et x ∈ Rn de norme kxk∞ 6 1, on a donc
n
X
>
c x>− sgn ci ci = −kck1 .
i=1

On en déduit l’inégalité de Hölder : quel que soit c et x ∈ R n on a |c>x| 6 kck1 kxk∞ .

4 Bifurcation de solutions

1. La contrainte non différentiable peut être remplacée par les 2 contraintes suivantes :

x2 + ε > 2x1
x2 + ε > −2x1 .

2. f est continue, l’ensemble admissible est non vide et fermé, mais il est non borné. On
a cependant x22 + 2εx2 + ε2 > 4x21 , donc
3 2 ε ε2
f (x) > x2 − x2 −
4 2 4
x22 3ε2
> −
4 8
et par conséquent f (x) → ∞ lorsque kxk → ∞ dans l’ensemble admissible. On en
déduit l’existence d’une solution.

3. Le lagrangien du problème s’écrit


`(x, λ) = x22 − x21 + λ1 (2x1 − x2 − ε) + λ2 (−2x1 − x2 − ε).
On en déduit les conditions d’optimalité :
−2x1 + 2λ1 − 2λ2 = 0






 2x2 − λ1 − λ2 = 0
 λ1 > 0, λ2 > 0


λ1 (2x1 − x2 − ε) = 0
λ2 (−2x1 − x2 − ε) = 0




2x1 − x2 6 ε




−2x1 − x2 6 ε.

42

Cas 1: 2x1 − x2 − ε = 0 et 2x1 + x2 + ε > 0. On en déduit que λ1 = , λ2 = 0,
3
2ε ε
x1 = et x2 = . C’est un point stationnaire si ε > 0.
3 3


Cas 2: 2x1 − x2 − ε < 0 et 2x1 + x2 + ε = 0. On en déduit que λ1 = 0, λ2 = ,
3
2ε ε
x1 = − et x2 = . C’est un point stationnaire si ε > 0.
3 3

Cas 3: 2x1 − x2 − ε = 0 et 2x1 + x2 + ε = 0. On en déduit que λ1 = λ2 = −ε, x1 = 0


et x2 = −ε. C’est un point stationnaire si ε 6 0.

Cas 4: 2x1 − x2 − ε < 0 et 2x1 + x2 + ε > 0. On en déduit que λ1 = λ2 = 0,


x1 = x2 = 0. C’est un point stationnaire si ε > 0. C’est en fait un point-selle. En effet,
le point est intérieur à l’ensemble admissible et le hessien de f y vaut
 
−2 0
.
0 +2

x1 x1 = 2 x2
3 −

3

x1 = 0
 
0

x1 = − 2
3

Fig. 5: Bifurcation des solutions

5 Conditions d’optimalité du 1er et 2ème ordre

1. On note
X = {x ∈ R2 : 0 6 x1 + x2 6 x31 + ε}.
Quel que soit ε ∈ R, X 6= ∅ (pour ε > 0, prendre x 1 = x2 = 0; pour ε < 0 prendre
x2 = 0 et x1 positif suffisamment grand). Pour x ∈ X, on a x 1 > −ε1/3 donc,

−x1 6 x2 6 x31 + ε + ε1/3 .

43
Donc si kxk → ∞ dans X, x1 → +∞ et
lim f (x) = +∞.
kxk→∞
x∈X

Comme X est fermé, non vide et f est continue, on en déduit l’existence d’au moins
une solution de (P ).

2. Le problème s’écrit sous forme standard



 min f (x)
−x1 − x2 6 0
x2 − x31 + x1 − ε 6 0.

On introduit le lagrangien
`(x, λ) = f (x) − λ1 (x1 + x2 ) + λ2 (x2 − x31 + x1 − ε).
Les conditions de Kuhn et Tucker s’écrivent
3(x1 + 1)2 − λ1 + λ2 (1 − 3x21 ) = 0





 −λ1 + λ2 = 0
0 6 x1 + x2 6 x31 + ε


(KT)

 λ1 (x1 + x2 ) = 0
λ (x − x31 + x1 − ε) = 0

 2 2



λ1 > 0, λ2 > 0.

La deuxième équation de (KT) donne λ 1 = λ2 = λ. On distingue alors deux cas.

Premier cas : λ = 0. La première équation de (KT) donne x 1 = −1 et la troisième


donne 1 6 x2 6 ε.
Donc si ε < 1, il n’y a pas de solution de (KT) pour λ = 0 (voir le cas λ > 0).
Si ε > 1, on a pour solution
x̄1 = −1 et x̄2 ∈ [1, ε].
Ces points correspondent à des points stationnaires du problème sans contrainte.

Deuxième cas : λ > 0. Par les conditions de complémentarité, on a


x1 = −x2 = −ε1/3 .
La première condition de (KT) donne alors (1 − ε 1/3 )2 = λε2/3 , ce qui implique que
 6= 0 et  6= 1.
Pour  = 1, on a λ = 0 et on retrouve la solution x̄ 1 = −1, x̄2 = 1 du premier cas.
Pour le cas ε = 0, on a bien x̄1 = x̄2 = 0 solution, mais les gradients des contraintes
sont linéairement dépendants en ce point (les contraintes sont non qualifiées) et il n’y
a pas de système d’optimalité.

44
En résumé.
•  = 0 : x̄ = (0, 0) est solution du problème sans système d’optimalité et sans
multiplicateur associé.
•  < 1,  6= 0 : x̄ = (−1/3 , 1/3 ) est solution du problème avec les multiplicateurs
λ̄1 = λ̄2 = (−1/3 − 1)2 .
•  = 1 : x̄ = (−1, 1) est solution avec multiplicateurs λ̄1 = λ̄2 = 0.
•  > 1 : les points stationnaires sont les x̄ 1 ∈ {−1} × [1, ] avec les multiplicateurs
λ̄1 = λ̄2 = 0 et x̄2 = (−1/3 , 1/3 ) avec multiplicateurs λ̄1 = λ̄2 = (−1/3 − 1)2 .
3. Voyons ce que donnent les conditions du second ordre pour le cas où  > 1. On a
 
2 6(x1 + 1) − 6λ2 x1 0
∇xx `(x, λ) = .
0 0

On a ∇2xx `(x̄1 , λ̄1 ) = 0 et le cône critique C(x̄1 ) = R2 si x̄12 6= 1 ou x̄12 6= ; C(x̄1 ) = {h ∈


R2 : h1 + h2 > 0} 6= {0} si x̄12 = 1 et C(x̄1 ) = {h ∈ R2 : (1 − 32 )h1 + h2 6 0} 6= {0} si
x̄12 = . On ne peut donc pas conclure.
D’autre part, comme C(x̄2 ) = {0}, x̄2 est un minimum local strict.

6 Méthodes des régions de confiance

1. La fonction f est continue et le domaine admissible est fermé, borné, non vide.
2. On va écrire les conditions de Kuhn et Tucker. Pour cela, il faut montrer que la
contrainte est qualifiée en x̄. Seul le cas où kx̄k = ∆ est à considérer. Alors, x̄ =
6 0 et
donc ∇c(x̄) = x̄ 6= 0. La contrainte est donc qualifiée.
Il existe alors un multiplicateur λ̄ tel que les conditions de Kuhn et Tucker soient
vérifiées. En remplaçant la contrainte de (10) par la contrainte équivalente (mais diffé-
rentiable) c(x) 6 0, on trouve les conditions (11), (12) et (13).
3. Si kx̄k < ∆, x̄ est dans l’intérieur du domaine admissible et est donc minimum local du
problème sans contrainte. La condition nécessaire du second ordre dit que ∇ 2 f (x̄) = A
est semi-définie positive.
D’autre part, (13) implique que λ̄ = 0. On a donc démontré (14).
4. (i) Si kx̄k = ∆, le cône critique (Définition 1.20, Remarque 1.21) contient les h ∈ R n
tels que c0 (x̄) · h = x̄>h = 0. Pour ces h, on a donc (Théorème 1.22)
h>∇2xx `(x̄, λ̄)h = h>(A + λ̄I)h > 0.

(ii) C’est clair, car si kxk = kx̄k, alors x est admissible et donc f (x̄) 6 f (x).
(iii) En utilisant (11), on a
1 >
f (x̄) = x̄ Ax̄ − b>x̄
2
1 >
= x̄ Ax̄ − x̄>Ax̄ − λ̄kx̄k2
2
1
= − x̄>Ax̄ − λ̄kx̄k2 .
2

45
Pour kxk = kx̄k, on a alors d’après (ii), la relation ci-dessus et (11)
1 λ̄ λ̄ 1
− x̄>Ax̄ − kx̄k2 − kxk2 = − x̄>Ax̄ − λ̄kx̄k2
2 2 2 2
= f (x̄)
6 f (x)
1 >
= x Qx − b>x
2
1 >
= x Qx − x̄>(A + λ̄I)x.
2
La relation entre les membres extrêmes donnent le résultat.
(iv) C’est une équation du second degré dont le discriminant vaut 4(x̄>h)2 > 0. Il y a
donc deux racines réelles distinctes.
(v) Soient h ∈ Rn tel que x̄>h 6= 0 et α la racine non nulle de l’équation de (iv). On
prend x = x̄ + αh. On a kxk = kx̄k et en appliquant (iii), on trouve le résultat
(α 6= 0).
5. La condition (14) est vérifiée grâce aux points 3, 4(i) et 4(v).
6. (i) D’après (11), x̄ vérifie la condition d’optimalité ∇ x `(x̄, λ̄) = 0 du problème.
D’autre part, l’application x 7→ `(x, λ̄) est convexe, car d’après (14) ∇2xx `(x, λ̄) =
A + λ̄I est semi-définie positive. Alors x̄ est solution du problème (la condition
d’optimalité du premier ordre est une CNS lorsque le problème est convexe).
(ii) Pour les x tels que kxk 6 ∆, on a

f (x̄) = `(x̄, λ̄) [par (13)]


6 `(x, λ̄) [par 6(i)]
6 f (x) [car kxk 6 ∆ et λ̄ > 0].

Ceci démontre le résultat.

7 Ellipsoı̈de de volume minimal

1. Soit H ∈ Sn . En développant cy (X + H) = k(X + H)yk2 , on obtient

cy (X + H) = cy (X) + y>HXy + y>XHy + kHyk2 .

Les termes linéaires en H forment la dérivée directionnelle c 0y (X)·H, qui s’écrit aussi
(on utilise le fait que tr AB = tr BA)
D E
c0y (X) · H = tr(Xyy>H + yy>XH) = Xyy> + yy>X, H . (18)

On en déduit le résultat.

2. La matrice examinée s’écrit


m
X
M= y i (y i )> = Y Y >,
i=1

46
où Y est la matrice y 1 · · · y m . On en déduit que, pour v ∈ Rn , v>M v =


kY >vk2 > 0.
Dès lors, M est définie positive si et seulement si Y est surjective, c’est-à-dire si et
seulement si les vecteurs y i engendrent Rn .

3. (a) La matrice εI est dans X pour  ∈ ]0, min i ky i k−1 ].


(b) Si X n’est pas borné, on peut trouver une suite de matrice X k ∈ X , telles
que kXk k → ∞. On peut aussi supposer que Xk /kXk k → X (on extrait une
sous-suite au besoin; Sn est de dimension finie !). Bien sûr kXk = 1. D’autre
part, en passant à la limite dans kX k y i k 6 1, on obtient Xy i = 0 pour tout i,
ce qui s’écrit aussi XY = 0. La surjectivité de Y conduit alors à X = 0, en
contradiction avec kXk = 1.
(c) Soit X0 := {X ∈ X : f (X) 6 f (X0 )}. Comme Sn est un espace métrique (c’est
un espace euclidien !), il suffit de montrer que pour toute suite de matrices
{Xk } ⊂ X0 telles que Xk → X, on a X ∈ X0 .
En passant à la limite dans kXk y i k 6 1, on obtient kXy i k 6 1. D’autre part,
de l’inégalité f (Xk ) 6 f (X0 ), on déduit que det Xk > C0 := exp(−f (X0 )) > 0,
si bien que det X > C0 > 0 (par la continuité du déterminant). Les valeurs pro-
pres de X sont donc toutes strictement positives (par la continuité des valeurs
propres on savait déjà aussi qu’elles étaient positives), donc X ∈ X . On a aussi
f (X) 6 f (X0 ), car f est continue sur X . Donc X ∈ X0 .
(d) D’après les points précédents, X 0 est un compact non vide (Sn est de dimension
finie) et f est continue sur X0 ; donc le problème min{f (X) : X ∈ X0 } a au
moins une solution X̄. Celle-ci est évidemment aussi une solution de (15).
(e) L’unicité vient de ce que X est convexe (convexité de S n++ et convexité de la
norme `2 ) et de la stricte convexité de f sur X (pour tout X ∈ X et tout
H ∈ Sn non nul, f 00 (X) · H 2 = tr(X −1/2 HX −1/2 )2 > 0 [formule vue]).

4. Il suffit de montrer qu’il existe D ∈ S n telle que c0yi (X̄) · D < 0 pour les i vérifiant
kX̄y i k = 1. D’après (18), on a

c0yi (X̄) · D = (y i )>X̄Dy i + (y i )>D X̄y i .

On voit qu’il suffit de prendre D = −X̄, puis qu’alors c0yi (X̄) · D = −2kX̄y i k2 < 0
(y i 6= 0 pour les indices considérés et X̄ est inversible).

5. Soit λi le multiplicateur associé à la contrainte kXy i k2 6 1, si bien que le lagrangien


est défini sur Sn × Rm par
m
X
λi kXy i k2 − 1 .

`(X, λ) = − log det X +
i=1

En une solution primale-duale (X̄, λ̄), on a


m
X  
−1
0 = ∇X `(X̄, λ̄) = −X̄ + λ̄i X̄y i (y i )> + y i (y i )>X̄ .
i=1

47
Les conditions de KKT s’écrivent alors

−1 > >
X̄ = X̄Y Λ̄Y + Y Λ̄Y X̄

kX̄y i k 6 1 et λ̄i > 0, pour tout i

λ̄i (kX̄y i k − 1) = 0,

où Λ̄ = diag(λ̄1 , . . . , λ̄m ) et Y a été définie précédemment.

6. Dans ce cas, Y Y > = I. On vérifie alors que X̄ = I et Λ̄ = 21 I est solution primale-


duale. Il n’y a pas d’autre solution primale, car les conditions de KKT sont suffisantes
et que (15) n’a qu’une solution.

8 Ellipsoı̈de de volume maximal

1. L’équivalence (i) ⇔ (ii) se déduit du fait que E A = A−1 (B). Ensuite (ii) a lieu si
et seulement si pour tout i :
 
min xi + (ei )>A−1 u > 0.
u∈B

Le minimum en u ∈ B ci-dessus est −A−1 ei /kA−1 ei k2 . Dès lors (ii) est équivalente
à xi − kA−1 ei k2 > 0 pour tout i, c’est-à-dire à (iii).

2. On sait que la fonction − log det ∈ Conv(S n ); elle est donc semi-continue inférieu-
rement. Par ailleurs, l’ensemble admissible est non vide (M = 0 lui appartient),
fermé (M → kM ei k2 est continue) et borné (on raisonne par l’absurde et on utilise
le fait que kM ei k2 = 0 pour tout i ⇒ M = 0). On en déduit que le problème
d’optimisation dans (16) a une solution.
L’unicité de la solution vient de ce que M → − log det M est strictement convexe et
M 7→ kM ei k2 est convexe (composition de l’application linéaire M 7→ M e i et de la
norme euclidienne qui est convexe).

3. On écrit les contraintes comme suit : kM e i k22 6 x2i . Le lagrangien du problème


n
s’écrit `(M,Pλ) = − log det M + 21 i=1 λi (kM ei k22 − x2i ). Si on note Λ = Diag(λ1 ,
P

. . . , λn ) = ni=1 λi ei (ei )>, on obtient les conditions d’optimalité suivantes

−M −1 + ΛM + M Λ = 0


kM ei k2 6 xi , ∀i


λ > 0, ∀i
 i


λi (kM ei k2 − xi ) = 0, ∀i.

On a clairement Λ  0, car si λi = 0, l’élément (i, i) de la première équation s’écrirait


(M −1 )ii = 0, ce qui n’est pas compatible avec le fait que M  0. Cherchons
M diagonale (le système ayant au plus une solution, si on en trouve une avec M
diagonale, c’est la bonne). La première équation accepte une solution de cette forme :
M = (2Λ)−1/2 . Par ailleurs, comme λ > 0, on a kM ei k2 = xi par complémentarité,
si bien que M = Diag(x1 , . . . , xn ) et les λi = 1/(2x2i ) > 0.

48
4. Si x 6> 0, l’ensemble admissible du problème d’optimisation dans (16) est vide ou
n’intersecte pas Sn++ , auxquels cas la valeur optimale vaut +∞ et l’identité est
bien vérifiée. Si x > 0, la solution du problème d’optimisation
Q P dans (16) est M =
Diag(x1 , . . . , xn ) et la valeur optimale vaut − log i xi = − i log xi ; l’identité est
également vérifiée.

49

Vous aimerez peut-être aussi