Vous êtes sur la page 1sur 80

1

Introduction à l'Optimisation

B. Rousselet
2

27 avril 1998

Une version plus a jour peut etre cherchée sur ma page:http://math.unice.fr/membres/br.html

1
réalisé par l'auteur avec l'aide technique de A. Omrane et le support nancier du P.E.C. Tempus No
07 228-94 "Shape optimal design, application to structures and environment"
2
Laboratoire J. A. Dieudonné, Parc Valrose, F 06108 Nice, Cédex 2, email : br@math.unice.fr
2
Table des matières

1 Introduction 7
1.1 Présentation générale . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Introduction et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Résultats de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Projection sur un sous -espace paramétré . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.1 Introduction - Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2 Résolution au sens des moindres carrés . . . . . . . . . . . . . . . . . . . . . 12
1.4.3 Projection et résolubilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Minimisation dans IR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
n
16
1.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.2 Rappel de calcul diérentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5.3 Résultats de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6 Algorithmes pour l'optimisation sans contraintes... . . . . . . . . . . . . . . . . . . 20
1.6.1 Algorithme du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2 Minimisation avec contraintes 23


2.1 Minimisation avec contraintes d'égalités linéaires . . . . . . . . . . . . . . . . . . . 23
2.2 Fonction quadratique avec contraintes d'égalités linéaires . . . . . . . . . . . . . . . 28
2.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 Elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.3 Algorithmes d'élimination généralisée . . . . . . . . . . . . . . . . . . . . . 29
2.2.4 Triangulation par des matrices orthogonales . . . . . . . . . . . . . . . . . . 31
2.2.5 Programmation quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3 Minimisation avec contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1 Condition d'optimalité avec contraintes d'égalité . . . . . . . . . . . . . . . 34
2.3.2 Minimisation avec contraintes d'inégalités . . . . . . . . . . . . . . . . . . . 39
2.4 Devoir : optimisation en présence d'inégalités simples . . . . . . . . . . . . . . . . 46
2.5 Esquisse de solution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.6 Examen : Eléments nis et optimisation . . . . . . . . . . . . . . . . . . . . . . . . 52
2.7 Une présentation de la programmation quadratique séquentielle . . . . . . . . . . . 54
2.7.1 Introduction, l'algorithme de Newton sans contraintes . . . . . . . . . . . . 54
4 TABLE DES MATIÈRES

2.7.2 Programmation quadratique séquentielle . . . . . . . . . . . . . . . . . . . . 55


2.7.3 Devoir : convergence de l'algorithme . . . . . . . . . . . . . . . . . . . . . . 56

3 Exemples d'optimisation d'origine mécanique 63


3.1 Introduction ; exemple sans contraintes . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2 Exemples avec contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2.1 Cas d'une liaison (avec deux ressorts) bilatérale . . . . . . . . . . . . . . . . 66
3.2.2 Liaisons Unilatérales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.3 Analyse en grands déplacements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4 Optimisation dans des espaces fonctionnels 73


4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2 Automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.3 Deux théorèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.3.1 Contraintes d'égalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3.2 Application à la conception de systèmes . . . . . . . . . . . . . . . . . . . . 75
4.3.3 Contraintes d'inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Table des gures

1.1 Projection orthogonale de f ∈ E . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11


1.2 Lissage par une droite : droite des moindres carrés . . . . . . . . . . . . . . . . . . 14
1.3 Distance (Pythagore) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 fonctions avec f (0) = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
00
17
1.5 fonction avec plusieurs minimums locaux . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6 fonction f vériant l'hypothèse H1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.1 Projection sur un sous espace t bv − c = 0 . . . . . . . . . . . . . . . . . . . . . . . 26


2.2 Cas où B B = IIRm
t
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 La C.N.O. à partir des courbes de niveau . . . . . . . . . . . . . . . . . . . . . . . 27
2.4 Cas où sj z = 0 ; j = 1, 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
t
30
2.5 symétrie orthogonale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6 Courbe tangente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.7 Exercice 2.8, minimisation d'une fonction J . . . . . . . . . . . . . . . . . . . . . . 38
2.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.10 En 1 variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.11 Projection en 2 variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.12 La solution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.13 Un pas de gradient projeté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.1 Equilibre des forces. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63


3.2 Une liaison bilatérale ; schématisation d'un rail . . . . . . . . . . . . . . . . . . . . 66

4.1 Barre chargée verticalement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76


4.2 Aires optimales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6 TABLE DES FIGURES
Chapitre 1

Introduction

1.1 Présentation générale


On considère l'optimisation d'abord sans contraintes en dimension nie ; puis nous passons au
cas avec contraintes d'égalités et inégalités ; nous établissons les conditions d'optimalité avec des
multiplicateurs de Lagrange et considérons l'approximation numérique de l'optimum ; une présen-
tation de la programmation mécanique séquentielle est fournie. Ces méthodes sont utilisées pour
des problèmes de statique de structures élastiques en présence de liaisons unilatérales et en grands
déplacements. L'optimisation dans des espaces de dimension innie est enn esquissée.

1.2 Introduction et notations

Nous considérons dans ce chapitre la minimisation de fonctions en dimension nie (ce qui signie
dans notre cas un espace vectoriel E de dimension nie sur IR ; on l'identiera le plus souvent à
IR ).
n

Nous considérons d'abord le cas signicatif des fonctions quadratiques ; ceci par souci de simplicité
mais aussi parceque au voisinage d'un minimum, une fonction peut être approchée par une fonction
quadratique (écrire une formule de Taylor).
Nous verrons dans les chapitres suivants que cela intervient tant du point de vue théorique qu' al-
gorithmique : une condition susante pour un optimum local est que le Hessien soit déni positif ;
l'algorithme de Newton pour minimiser une fonction consiste à l'approcher par une fonction qua-
dratique ; les méthodes dites de quasi-Newton reposent sur une variante de cette idée et constituent
une classe très importante d'algorithmes ; voir aussi les algorithmes d'optimisation avec contraintes.
Notations :
• E Espace vectoriel de dimension nie n
8 Introduction

• a : E × E −→ IR forme bilinéaire symétrique.


• ` : E −→ IR forme linéaire.

Rappelons qu'en dimension nie les formes linéaires et bilinéaires sont continues ; le produit sca-
laire dans E est noté (x, y), kxk désigne la norme associée.
Xn Xn
Après choix d'une base (ei )1≤i≤n , x = xi ei y = yj ej
j=1 i=1
   
x1 y1
 .   . 
`(x) = t F x a(x, y) = t y A x où x =  .   . 
 .  y =  .  avec Ai j = a(ei , ej )
xn yn
l'expression de droite est un produit matriciel, t y désigne le transposé de y : t y = [y1 , ..., yn ] ; noter
la diérence de position de y et de ya(x, y) = t y A x ; comme a est symétrique, A est une matrice
Xn
symétrique ; quand la base est orthonormée (x, y) = xi y¯i = t y x, kxk2 = t x x = kxk2 . Notons
i=1
que A est aussi matrice de l'application linéaire A associée à la forme bilinéaire a : a(x, y) = (Ax, y)
Indiquons que le cas de fonctions en dimension nie est souvent une approximation de fonctionnelles
dénie sur des espaces de fonctions de dimension innie ; c'est le cas classique de la méthode de
Galerkine et en particulier de la méthode des éléments nis si répandue en calcul de structures
élastiques. L'élasticité linéaire fournit de très nombreux exemples de minimisation de fonctionelles
quadratiques : l'énergie potentielle totale d'un système élastique (en élasticité linéaire) est une
forme quadratique : la position d'équilibre est atteinte au minimum.

Rappel de calcul diérentiel :


Dérivée directionnelle (ou de Gateau)
J : E −→ IR admet au point x une dérivée dans la direction y si et seulement si
J(x + ty) − J(x)
lim existe ; on la note J 0 (x, y).
t→0 t

Diérentielle (ou dérivée au sens de Fréchet)


J : E −→ IR est dérivable en x si et seulement si il existe une forme linéaire notée J 0 (x) telle que
|J(x + y) − J(x) − J 0 (x) y|
pour tout y ∈ E |J(x + y) − J(x) − J 0 (x) y| = o(kyk) quand y → 0 ou lim =0
kyk→0 kyk

L'existence de la dérivée au sens de Gateau est un peu plus forte que l'existence de dérivées
partielles pour lesquelles la limite du quotient diérentiel n'existe que pour y = ai une base de E ;
∂J
remarquer la notation : J 0 (x, ai ) = .
∂xi
On donne dans les cours élémentaires des contre exemples variés de fonctions dérivables au sens
de Gateau qui ne le sont pas au sens de Fréchet mais on montrera facilement que les fonctions
dérivables au sens de Fréchet le sont au sens de Gateau ; la non équivalence résulte de situations
plutôt pathologiques !
Attention à la notion de gradient très utile en optimisation.
Résultats de base 9

Dénition 1.1 Le gradient associé à la forme linéaire de la dérivee est déni par la formule :
∂J
∀y J 0 (x, y) = (gradJ, y) ou (gradJ, ai ) = J 0 (x, ai ) =
∂xi
Mais les composantes de gradJ ne sont pas (gradJ, ai ) sauf si la base est orthonormée.

Exercice 1.1 Dans le cas où la base n'est pas orthonormée, écrire un système linéaire qui
ai
fournit les composantes d'un vecteur associé à une forme linéaire (et donc celle du gradient à
partir des dérivées partielles).
suggestion : la matrice M est donnée par Mi,j = (ai , aj ) ; cette matrice porte le nom de Gramm.

1
Exercice 1.2 Montrer que J(x) = a(x, x) − `(x) est Fréchet dérivable et de dérivée J 0 (x, y) = a(x, y) − `(y) = t y A x
2

Exercice 1.3 Montrer qu'une fonction dérivable au sens de Fréchet l'est au sens de Gateau.

1.3 Résultats de base


Proposition 1.1 Soit E espace vectoriel de dimension n
a : E × E −→ IR une forme bilinéaire symétrique
b : E −→ IR une forme linéaire
1 1
et J : E −→ IR J(x) = a(x, x) − `(x) = t x A x − t x F ;
2 2
abus de notations J(x) = J(x)
(i) si J atteint un minimum relatif ou local en un point x∗ ∈ E alors
∀y ∈ E J 0 (x∗ , y) = 0 ou Ax∗ = F
(condition nécessaire d'optimalité ou C.N.O.)
(ii) Si de plus la forme bilinéaire est dénie positive : ∃γ > 0 , ∀x ∈ E a(x, x) ≥ γkxk2 ( ou
t
x A x ≥ γ kxk2 ) la C.N.O. admet une unique solution x∗ et cette solution réalise le minimum
absolu (ou global) de J sur E .) elle est donc aussi C.S.O. (condition susante d'optimalité)1

La démonstration est simple et ses méthodes s'étendent à des situations plus compliquées (voir
Ÿ1.3)
(i) soit x∗ un minimum relatif de J , alors pour tout y ∈ E et t ∈ IR petit J(x∗ + ty) ≥ J(x∗ )
J(x∗ + ty) − J(x∗)
donc pour t > 0 ≥0
t
J(x∗ + ty) − J(x∗)
et pour t < 0 ≤0.
t
D'où en faisant tendre t −→ 0 par valeurs positives J 0 (x∗ , y) ≥ 0
puis par valeurs négatives J 0 (x∗ , y) ≤ 0
et donc J 0 (x∗ , y) = 0 ce qui se traduit par ∀y ∈ IRn t
(A x∗ − F ) = 0 d'où A x∗ − F = 0.

1 Si besoin de clarier son vocabulaire logique : il faut, condition nécessaire ; il sut, condition susante !
10 Introduction

(ii)

Lemme 1.1 : Sous l'hypothèse (ii), soit A l'application linéaire associée à a : a(x, y) = (A x, y),
A est bijective ; la matrice associée est inversible.

En eet : si A x = 0 alors a(x, x) = 0 et donc avec l'hypothèse x = 0, A est injective et donc


bijective puisque nous sommes en dimension nie.

Conséquence : la C.N.O. admet une unique solution ; de plus un calcul facile donne :

1t
J(x + y) = J(x) + t y A x − t y F + yAy
2
quand x = x∗ , la C.N.O. fournit :

1t
J(x∗ + y) = J(x∗ ) + yAy
2
on a donc bien ∀y ∈ IRn J(x∗ + y) ≥ J(x∗ ) ce qui montre que x∗ est bien un minimum absolu
(ou global) et non pas relatif (ou local).

Exercice 1.4 (rappel)


•a dénie positive si et seulement si toutes les valeurs propres de A (ou de A) sont strictement
positives.
• a est dénie positive si et seulement si : ∀x ∈ E a(x, x) > 0 (avec E de dimension nie).

Exercice 1.5 a) exprimer J dans une base de valeurs propres de A, determiner ainsi le minimum
de J .
b) En dimension 2 ou 3 , former les courbes de niveau de J .
c) Cette méthode est elle interéssante numériquement dans le cas où A est une matrice 1000 ×
1000 ?
(Consulter éventuellement un cours d'analyse numérique matricielle)

Exercice 1.6 a) Reformuler la proposition si A est dénie négative.


b) Que peut -on dire si les valeurs propres de A sont positives ou nulles ? (courbes de niveau).
c) Mêmes questions si les valeurs propres sont de signe quelconque mais non nulles ? (courbes de
niveau).

Exercice 1.7 (élémentaire)


Soit f (x1 , x2 ) = ax21 + bx1 x2 + cx22 + dx1 + ex2
a) Calculer la dérivée de f
b) en déduire une écriture matricielle de f .
Projection sur un sous -espace paramétré 11

Exercice 1.8 1. Soit B matrice à n lignes et m colonnes indépendantes avec n ≥ m, montrer


que A = t B B est une matrice m × m symétrique et dénie positive.
2. Donner des exemples issus de la mécanique des structures.

1.4 Projection sur un sous -espace paramétré

1.4.1 Introduction - Notations


Pour une bonne compréhension de l'optimisation , il me parait indispensable de maîtriser d'une
part l'algèbre linéaire et le calcul matriciel et d'autre part la géométrie ane euclidienne ; nous
rappelons ici quelques principes utiles dans ce paragraphe ; se reporter à un manuel de base.
Soit donc E un espace vectoriel euclidien (muni d'un produit scalaire) de dimension n et soient
(bj )1≤j≤m un système libre vecteurs de E ; le sous -espace vectoriel engendré
( m
)
F = y ∈ E, ∃ (xj )1≤j≤m ∈ IR y =
X
m
xj bj (1.1)
i=1

F est un sous- espace paramétré ; les xj sont les paramètres ;

Fig. 1.1  Projection orthogonale de f ∈ E

il est bien connu en géométrie euclidienne que si f ∈ E , il existe une unique projection orthogonale
P f ∈ F , il existe donc des paramètres λj∗ tels que P f = λj ∗ bj vérient pour k = 1, ..., m.
P

m
!
X
f − λi∗ bi , bk = 0 (1.2)
i=1

Nous allons écrire matriciellement cette relation et la retrouver à l'aide du résultat du §1.1.
 
n
b1 j
 . 
. 
X
Après le choix d'une base (ei )i=1,...,n comme dans l'introduction, bj = bi j ei , posons bj = 
 . 
i=1
bn j
12 Introduction

et B matrice de coecients bi j ; il sera commode parfois de considèrer B par blocs : B = [b1 , ..., bm ]
où les bi désignent donc les blocs des colonnes de B ; dans ces conditions si x ∈ IRm on peut eec-
X X
tuer le produit par blocs : B x = bj xj = xj bj
X X
et il convient de remarquer que xj bj sont les composantes du vecteur xj bj ; noter que
dans l'usage des espaces vectoriels on écrit les scalaires à gauche des vecteurs mais quand on veut
 
x1
 . 
. 
X
representer  .  les scalaires ap-
xj bj par un produit matriciel par blocs Bx = [b1 , ..., bm ] 
xm
paraissent à droite du vecteur.

Exercice 1.9 Interpreter par blocs le produit t


y B; caractériser le noyau de t B ; comparer avec
ImB .

Exercice 1.10 Utiliser une représentation graphique des matrices rectangulaires B ; interpreter

ainsi B x, t B B , B t B ; t y t B ....

Nous pouvons donc écrire matriciellement (1.2) en supposant que ei est une base orthonormale :

(ei , ej ) = t ei ej = δij t
(f − B x∗ ) bk = 0 et donc t
(f − B x∗ ) B = 0 (1.3)

C'est cette dernière équation que nous allons retrouver.

1.4.2 Résolution au sens des moindres carrés

Dans la pratique il est fréquent que l'on ait à résoudre un système linéaire B x = f avec B
matrice à n lignes et m colonnes (indépendantes), avec n ≥ m.
Nous verrons au §3. que ce système peut admettre des solutions mais le cas le plus fréquent est qu'il
n'admette pas de solutions quand n > m : " il y a trop d'équations, le système est surdeterminé".
Quand on a besoin d'une "solution " on utilise souvent la notion de " solution au sens des moindres
carrés ".
Résoudre au sens des moindres carrés signie chercher le x∗ ∈ IRm qui minimise
J(x) = kB x − f k22 C'est à dire le carré de la distance de f au sous- espace F déni en (1.2)
où kyk22 = (y, y) = y y est le produit scalaire de E .
t

Dorénavant nous omettrons l'indice 2 pour la norme : kyk2 = (y, y) .


Projection sur un sous -espace paramétré 13

Proposition 1.2 : Soit Bune matrice à n lignes et m colonnes indépendantes, il existe un x∗


unique qui minimise J(x) = kBx − f k2 ; il satisfait la condition nécessaire et susante t e∗ B = 0
avec e∗ = f − B x∗ . Ceci dénit x∗ solution de t B B x∗ − t B f = 0.

Interprétation géométrique : B x∗ n'est autre que le vecteur colonne de la projection ortho-


gonale P f sur F ; en eet t e∗ B = 0 n'est autre que (1.3), une écriture matricielle de (1.2) ; cette
proposition n'est donc rien d'autre que : " la perpendiculaire est plus courte que toute oblique ".
(comme disait l'un de mes professeurs de Lycée) ; mais on peut dire aussi dans ce contexte que
l'erreur e∗ est orthogonale aux colonnes de B .
La Démonstration peut se faire simplement avec le résultat de base du §1.1
D'abord en dévelopant le produit matriciel : J(x) = t
(B x − f ) (B x − f ) on trouve J(x) = t x t B B x − 2 t x t B f
qui est donc de la forme du J de la proposition ?? avec
A = 2BB t
F = 2Bft
E = IR et avec un terme constant t f f qui n'intervient pas
m

dans la détermination de x ; enn avec l'exercice 5, A = t B B est dénie positive ; la proposition


2 indique donc l'existence, et l'unicité du minimum x∗ , elle fournit de plus la C.N.S.O. A x∗ −
F = 0 soit ici t B B x∗ − t B f = 0 ou B (B x∗ − f ) = 0
t

Utilisation pratique : pour déterminer la "solution au sens des moindres carrés " on résout les
équations dites "normales "
t t
B B x∗ = B f

elles ne sont autres qu'une autre écriture de t B e∗ = 0.


Si vous avez fait l'exercice 1.8, vous savez que t B B est une matrice carrée m × m ; il est donc
numériquement facile de résoudre au sens des moindres carrés si vous avez peu d'inconnues même
avec beaucoups d'équations !

Exercice 1.11 ( lissage par une droite, droite des moindres carrés)
on dispose de points (ξi , ηi ) et l'on souhaite trouver une droite qui passe au mieux par les points
(ξi , etai )

(pensez à des points de mesure de 2 quantités ξ et η supposées reliées par une loi linéaire η = c + dξ
de coecient c et d inconnu) ; on va chercher cette droite au sens des moindres carrés i.e. résoudre
au sens des moindres carrés :

c + ξi d = ηi i = 1, ..., n

les inconnues sont ici c et d.

a) écrire un système linéaire Bx = f


avec B n lignes, 2 colones
14 Introduction

Fig. 1.2  Lissage par une droite : droite des moindres carrés

x 2 lignes
f n lignes.
b) trouver x∗ au sens des moindres carrés (les coecients c et d).
c) vérier que c + ξ¯ d = η̄ avec ξ¯ et η̄ moyennes de (ξ¯i ) et (η̄i ).
d) d peut s'interpreter comme une covariance si l'on considère ξi et ηi comme des variables aléatoires
équiprobables ; comment s'appelle cette droite en probabilités- statistiques ?

1.4.3 Projection et résolubilité

Reprenons les notations du paragraphe précédent, en se rappelant que B x∗ est la projection


orthogonale de f sur F P f = B x∗ avec

t t
B B x∗ = B f

On a donc :

Proposition 1.3 i) La projection P : E −→ F = {B x, x ∈ IRm } est donnée par P f = B(t BB)−1 t Bf


la matrice de P est B(t BB)−1 t
B on a t f − P f P f = 0


ii) On vérie P 2 = P et t P = P donc P est aussi orthogonale.

Attention : On a vu (exercice 1.8) que comme les colonnes de B sont indépendantes t B B est
dénie positive donc inversible ; (t B B)−1 a bien un sens ; mais B n'est pas inversible : cela n'a pas
de sens car c'est une matrice rectangulaire !
Projection sur un sous -espace paramétré 15

Cas particulier fondamental : projection sur une droite parametrée ; soit b ∈ IRn D =
{y ∈ IR /∃x ∈ IR, y = xb}
n

bt b f
t
B B = t b b ∈ IR , P f = t
bb
noter que cette projection est invariante quand on multiplie b par un scalaire, on a donc avec
b
u = t 1/2 , P f = ut u f
( b b)
géométriquement t u f = kf k cos θ avec θ angle entre u et f si bien que P f = cos θ kf k u est la
formule bien connue de la projection sur une droite de vecteur unitaire u.
On retrouve aussi que d(f, D) = t (f − P f )(f − P f ) comme t (f − P f )P f = 0 on a :

t
d(f, D) = (f − P f )f = t (f − u t u f )f
t
= f f − tf u tu f
t
= f f − t (P f ) P f

ceci n'est autre que le théorème de Pythagore !

Fig. 1.3  Distance (Pythagore)

Corollaire 1.1 : IRn se décompose en une somme directe orthogonale de F = Im B = Im P et de


Ker B = Ker P ; en pratique si f(∈ IRn
f − Bx∗ ∈ Ker t B ou
f = Bx∗ + (f − Bx∗ ) avec t t
B Bx∗ − B f = 0
Bx∗ et f − Bx∗ sont orthogonaux et cette écriture est unique :
si f = b + n avec b ∈ Im B et n ∈ Ker t B , alors b = Bx∗ avec t B Bx∗ − t B f = 0 et n = f − Bx∗ .

En eet avec la proposition 1.2. f −Bx∗ ∈ Ker t B ; d'autre part si y ∈ Im B et z ∈ Ker t B : y = Bx


et t y z = t x t B z = 0 ce qui montre l'orthogonalité ; il reste juste à vérier que Im B ∩ Ker t B = {0}
en eet si y = Bx et t B y = 0 alors t y y = t x B y = 0
16 Introduction

Ce corollaire est très important en pratique sous la forme suivante.

Proposition 1.4 Soit le système linéaire surdéterminé Bx = f avec B à n lignes et m colonnes


indépendantes avec n ≥ m, f ∈ IRn et x ∈ IRm ; ce système est soluble si et seulement si :
t t
∀ y y B = 0 =⇒ y f = 0
(ce qui signie f ∈ (Ker B) )t ⊥

en d'autres termes :
le système est soluble (ou f ∈ Im B ) si et seulement si f ∈ (Ker t B)⊥ ou encore Im B =
(Ker t B)⊥

Cas particulier : B = Aλ = A − λI avec A matrice carée ; quand λ est valeur propre de A , la


condition y Aλ = 0 signie y vecteur propre à gauche de Aλ ou vecteur propre de t Aλ , on a donc :
t

Corollaire 1.2 Soit A matrice inversible, λ valeur propre de A (A − λ I)x = f


ce système est soluble si et seulement si b est orthogonal au sous- espace propre de t A − λ I .

Remarque 1.1 En dimension innie, ce résultat est connu sous le nom d'alternative de Fredholm
.

1.5 Minimisation dans IRn

1.5.1 Introduction .
Ce paragraphe vise à étendre le résultat de base de la proposition 1.1. à des fonctions plus gé-
nérales ; cela n'est pas aisé ; tant que l'on ne s'intéresse qu'à un résultat d'existence, l'hypothèse
suivante est commode :

H1 lim J(x) = + ∞ parfois appelée coercitivité


kxk→+∞

de J car la fonctionelle quadratique a cette proprièté quand la forme bilinéaire est coercitive.
L'obtention d'une condition nécessaire d'optimalité demande seulement que la fonction soit dié-
rentiable.
Cela se complique beaucoup si l'on souhaite une condition nécessaire et susante : en eet le
Hesien positif est une C.N.O. mais pas vraiment susante ; le Hessien déni positif est susant
mais pas nécessaire ; il est facile de le voir en une variable.
La fonction f (x) = x3 satisfait f 0 (0) = 0 f 00 (0) = 0 a-t-on envie de dire que zéro est un minimum
local ?
Minimisation dans IRn 17

Fig. 1.4  fonctions avec f 00 (0) = 0

f (x) = x4
Dans le cas f 0 (0) = 0 f 00 (0) = 0 et zéro est un minimum absolu bien que f 00 (0) ne soit pas
strictement positif.

Mais le pire n'est pas là, considérons cette fonction g avec plusieurs minimums locaux, en tous

Fig. 1.5  fonction avec plusieurs minimums locaux

ces minimums f 0 (xi∗ ) = 0 xi∗ et f 00 (xi∗ ) > 0 et l'on voudrait bien caractériser le meilleur
minimum absolu et disposer d'algorithmes de calcul. Ces questions ne sont pas passées inaperçues
dès les débuts des algorithmes d'optimisation (années 60) mais ne se sont vraiment développées
que dans les années 80 ; les applications à l'art de l'ingénieur démarrent et sont prometeuses (Arora
et al [?] (1995)) ; pourquoi ce changement de perspectives : on commence à disposer de moyens de
calculs susants pour analyser à faible coût de grands systèmes ; or la détermination numérique
d'un minimum demande d'analyser de très nombreuses fois le système à optimiser.

1.5.2 Rappel de calcul diérentiel

Nous allons avoir besoin de dérivée seconde de fonctions de plusieurs variables ; c'est une fonction
de 2 variables vectorielles
18 Introduction

Dénition 1.2 J est dite deux fois dérivable au sens de Gateau si la


J 0 (x + tz, y) − J 0 (x, y)
lim
t→0 t
existe et on la note J 00 (x; y, z).

Dénition 1.3 Elle est dite deux fois dérivable au sens de Fréchet s'il existe une forme bilinéaire
(y, z) 7−→ J 00 (x)(y, z) telle que
kJ 0 (x + z)y − J 0 (x)y − J 00 (x)(y, z)k
lim = 0
kzk→0 kzk

cette forme bilinéaire s'appelle souvent le Hessien et en notation matricielle J 00 (x)(y, z) = t z H(x) y

Proposition 1.5 : Formule de Taylor à l'ordre 2 (susante pour nos applications)


1
1) J(x + y) = J(x) + J 0 (x)y + J 00 (x; y, y) + o(kyk2 )
Z2 1
2) J(x + y) = J(x) + J 0 (x)y + (1 − t)J 00 (x + ty; y, y)dt
0

Démonstration 1) La première formule n'est qu'un cas particulier très utile du 2) obtenu en
Z 1
1
approchant J (x + ty) par J (x) et
00 00
(1 − t)dt = !
0 2
2) la formule 2) se déduit de la formule de Taylor en une variable en posant f (t) = J(x + ty)
Z 1
f (1) = f (0) + f 0 (0) + (1 − t)f 00 (t)dt
0
(cette dernière formule résulte de 2 intégrations par parties)

1.5.3 Résultats de base


Dénition 1.4 Soit J une fonction à minimiser, I = Inf J(x) (éventuellement −∞) ; (xk )k∈IN
est dite minimisante quand J(xk ) −→ I

2
Attention : I peut n'être pas atteint : par exemple I = 0 pour f = e−x /2
mais la valeur 0 n'est
atteinte pour aucune valeur de x ∈ IR.
Remarquons que par dénition d'une borne inférieure, l'existence de suites minimisantes est ba-
nale ; considérons le cas où I est ni, alors pour tout ε > 0, il existe x tel que I ≤ f (x) ≤ I + ε

Fig. 1.6  fonction f vériant l'hypothèse H1

il sut de considèrer une suite εn −→ 0 pour disposer d'une suite xn telleque f (xn ) −→ I .
Minimisation dans IRn 19

Toutefois, le comportement de la suite xn n'est pas évident ; voici deux exemples.

2
a . f (x) = e−x /2
I = 0 ; si (xn ) est une suite minimisante |xn | → +∞ ; le minimum n'est
pas atteint ; mais f ne vérie pas H1.

b . f (x) = sin x I = −1 ; si xn est une suite minimisante, elle peut osciller au voisinage

des points + 2kπ k ∈ Z ; dans cet exemple il y a beaucoup de minimums absolus ; l'hypothèse
2
H1 n'est pas vériée.

c.

Lemme 1.2 Sous l'hypothèse H 1 , une suite minimisante (xk ) est bornée.

Ce résultat très simple déroute souvent les étudiants, pourtant il sut de raisonner par la contrapo-
sée : si la suite (xk ) n'est pas bornée on peut en extraire une sous- suite xk0 telle que kxk0 k −→ +∞
mais H 1 entraîne J(xk0 ) −→ +∞ ; ceci est la négation de l'hypothèse J(xk0 ) −→ I
(sauf bien sûr si J était toujours égale à +∞, situation pathologique exclue de facto)

Proposition 1.6 Soit J : IRn −→ IR, continue


i) Si J satisfait l'hypothèse H 1 alors J atteint son minimum en au moins un point x∗ .
ii) Si J est diérentiable, x∗ vérie J 0 (x∗ ) = 0
iii) Si J est deux fois diérentiable, x∗ vérie de plus ∀y ∈ IRn t y H(x∗ ) y ≥ 0 où H est le Hessien
de J .
iv) Si J 0 (x0 ) = 0 et H(x0 ) est déni positif, alors x0 est un minimum local isolé.

Démonstration i) Je vais illustrer pour ce point, l'utilisation de la technique de la suite minimi-


sante.
Soit I = Infx∈IRn J(x) ce nombre peut être −∞ et n'est peut être pas atteint !

Par dénition d'une borne inférieure, il existe une suite xk tel que J(xk ) −→ I ; quitte à en extraire
une sous- suite on pourrait supposer que la suite J(xk ) est décroissante d'où le nom de la technique.
Avec le lemme 1.2, la suite est bornée.

Pour achever la démonstration du i) il sut d'utiliser le résultat classique :


" De toute suite bornée (xk ) de IRn on peut extraire une sous- suite convergente (xk0 ) " . Ceci n'est
qu'une formulation commode de la compacité des parties fermées, bornées de IRn .

Par suite xk0 −→ x∗ et comme J est continue J(xk0 ) −→ J(x∗ ) qui est donc égale à I = lim J(xn ) ;
le minimum est donc bien atteint au point x∗ .
20 Introduction

Noter que sans hypothèse supplémentaire la suite (xk ) peut ne pas converger ainsi qu'on le voit
sur la gure.

ii)
La démonstration est analogue au i) de la proposition 1.1.
iii) la formule de Taylor donne comme J 0 (x∗ ) = 0
1
J(x∗ + ρy) − J(x∗ ) = ρ2 t y H(x∗ ) y + o(ρ2 )
2
et donc comme J(x∗ + ρy) ≥ J(x∗ ) en faisant tendre ρ → 0, on trouve pour tout y ∈ IRn t
y H(x∗ ) y ≥
0
iv) La formule de Taylor donne encore avec J 0 (x0 ) = 0
1
J(x0 + y) − J(x0 ) = t y H(x0 ) y + o(kyk2 )
2
et donc comme t y H(x∗ ) y ≥ α kyk2
J(x0 + y) − J(x0 ) > 0 pour y assez petit ce qui montre que x0 est un minimum local isolé (la
fonction ne peut pas présenter de "plateau " au voisinage de x0 ).

1.6 Algorithmes pour l'optimisation sans contraintes...


Notons que pour le cas quadratique, un algorithme de résolution de systèmes linéaires convient :
par exemple Choleski ou une méthode de relaxation ; le gradient conjugué est bien adapté aux
grandes matrices creuses issues des éléments nis.

Pour une fonctionnelle non quadratique, l'algorithme du gradient a l'avantage de la simplicité


et l'inconvénient de la lenteur ; l'algorithme de Newton (voir propriétés dans la section sur la
programmation quadratique séquentielle ) demande peu d'itérations mais demande le calcul de
dérivées secondes ; la mise en oeuvre de ce calcul peut être bien simpliée par l'utilisation de
calcul symbolique (par exemple, Maple) ou de diérentiation automatique de programme fortran
(exemple Odysee, Adifor). Un algorithme de quasi-newton peut être un compromis car il utilise
seulement des dérivées premières.
Algorithmes pour l'optimisation sans contraintes... 21

1.6.1 Algorithme du gradient


Encore appelé algorithme de la plus grande pente pour minimiser une fonction J : IRn −→ IR,
xk+1 = xk − ρk gradJ(xk ) où ρ ∈ IR est à choisir par un algorithme de minimisation dans IR.

Pour simplier l'analyse, supposons que ρk réalise le minimum de

j(ρ) = J(xk − ρgradJ(xk ))

; pour insister sur ce choix considérons

j(ρ) = J(xk − ρwk )

Lemme 1 1. Pour xk+1 = xk − ρwk si ρ est optimal (réalise le minimum de j(ρ), on a


(gradJ(xk+1 , gradj(xk )) = 0 ;
2. si wk = gradJ(xk ) on a (gradJ(xk+1 , xk+1 − xk ) = 0
3. kgradJ(xk )k ≤ kgradJ(xk ) − gradJ(xk+1 )k

Exercice 1.12 Dessiner une itération de l'algorithme à l'aide de courbes de niveaux pour mini-
miser une fonction de 2 variables.

Proposition 1.7 Soit J : IRn −→ IR avec J elliptique et J 0 uniformément continue sur les com-
pacts , la méthode du gradient à pas optimal converge et on a :

kxk − x∗ k ≤ αkgradJ(xk )k

La démonstration peut de faire en plusieurs étapes.


étape1 : Comme J est elliptique son minimum est atteint ; par suite J(xk ) est minorée et décrois-
sante donc convergente.
étape2 : avec ellipticité :

J(xk ) − J(xk+1 ) ≥ (gradJ(xk+1 , xk+1 − xk ) + αkxk − xk+1 k2

avec le lemme le premier terme de droite est nul et donc kxk − xk+1 k −→ 0
étape3 : comme J(xk ) est décroissante et J coercitive (car elliptique xk reste dans un borné
(lemme ...) et avec uniforme continuité de J 0 : kgradJ(xk ) − gradJ(xk+1 )k −→ 0 et donc
kgradJ(xk )k −→ 0 avec le lemme.
étape4 : l'ellipticité fournit encore :
(gradJ(xk ) − gradJ(x∗ ), xk − x∗ ) ≥ αkxk − x∗ k2 d'où la majoration du lemme.

Remarque 1.2 1. Il sut de supposer que J est 2 fois continument diérentiable pour avoir
l'uniforme continuité de J 0 sur les bornés.
22 Introduction

2. En pratique, on ne peut avoir précisement le pas optimal

Proposition 1.8 Soit J : IRn −→ IR avec J elliptique et avec


kgradJ(x) − gradJ(y)k ≤ M kx − yk, alors pour 0 < a ≤ ρk ≤ b < 2α
M2 , l'algorithme du gradient
converge géométriquement : kxk+1 − x∗ k ≤ βkxk − x∗ k avec β < 1

Exercice 1.13 Démontrer la proposition

Exercice 1.14 Dans le cas où J est quadratique


1. Préciser l'algorithme du gradient.
2. Ecrire l'algorithme dans la base de vecteurs propres de A.
3. pour A dénie positive en déduire que le meilleur choix de ρ est ρ∗ = 2
λn +λ1 et que le taux
de convergence τ = λλnn −λ1
+λ1

4. Dans quel cas l'algorithme est très lent ?


5. Ce choix est tout à fait théorique pourquoi ?

Exercice 1.15 Faire un changement de variable x = Cξ ; que devient l'algorithme du gradient ?


Cas quadratique. Interet du changement ?
cette idée très simple est très ecace si l'on sait construire une matrice telle que les valeurs propresles plus
petites et les plus grandes soient plus proches : on parle de preconditionement
Chapitre 2

Minimisation avec contraintes

2.1 Minimisation avec contraintes d'égalités linéaires

Comme dans le cas sans contraintes, nous considérons d'abord le cas le plus simple :
les contraintes sont de la forme t bj v = cj où bj ∈ IRn j = 1, · · · , m , cj ∈ IR.
D'une part l'obtention des conditions d'optimalité avec multiplicateur de Lagrange est facile à par-
tir de la proposition 1.3 (de la page p.13) ; d'autre part cette situation peut être considérée comme
un intermédiaire algorithmique : la minimisation d'une fonction quadratique avec contraintes d'éga-
lités linéaires peut servir à minimiser la même fonction avec des contraintes d'inégalités linéaires ;
ce dernier problème pouvant être utilisé séquentiellement pour approcher un problème général de
programmation mathématique : programmation quadratique séquentielle (voir §2.4).
Le mot contraintes est fréquent en optimisation ; en analyse mathématique c'est la situation de mi-
nimisation dans une partie K d'un espace vectoriel. Il convient de ne pas confondre le sens du mot
contrainte en optimisation avec les contraintes mécaniques ; dans ce dernier sens les Belges parlent
de tension ; en anglais on parle de "constraint" en optimisation et de "stress " en mécanique.
Nous considérons donc le problème :
(C.L.E) Minimiser J : IRn −→ IR dans l'ensemble K = v| t bj v = cj j = 1, · · · , m où bj ∈ IRn

cj ∈
IR.
ou encore K = v| t B v = c où les colonnes de la matrice B sont les vecteurs bj :

 
c1
 . 
. 
B = [b1 | b2 · · · | bm ]  . .
c=
cm

Le théorème ci-dessous étend le (i) et (ii) de la proposition 1.6, au cas avec contraintes linéaires ;
cette condition n'est pas susante (voir plus loin).

Théorème 2.1 : Soit le problème (C.L.E) avec J continue, et les bj sont supposés linéairement
24 Minimisation avec contraintes

indépendants.
(i) Si J tend vers l'inni quand kvk −→ +∞ dans K fermé ou si K est fermé, borné alors J
atteint son minimum (ou maximum) en au moins un point v∗ ∈ K .
(ii) Si J est diérentiable et si J atteint son minimum en v∗ ∈ K , alors il existe λ∗j ∈ IR , j =
1, · · · , m (des multiplicateurs de Lagrange) tels que on ait la C.N.O.(condition nécessaire d'opti-
malité)

ou de façon équivalente
X
grad J(v ∗ ) + λ∗j bj = 0
 
λ∗1
 . 
grad J(v ∗ ) + B λ∗ = 0 avec λ∗ =  . 
 .  B = [b1 |b2 · · · |bm ]
λ∗m
ou encore J 0 (v∗ ) + t λ∗ t B = 0

En pratique, il est commode d'introduire le Lagrangien L(v, λ) = J(v) + t λ(t B v − C) la C.N.O.


∂L ∗ ∗
s'écrit alors (v , λ ) = 0 sans oublier la contrainte t B v − C = 0 qui n'est autre que
∂v
∂L ∗ ∗
(v , λ ) = 0 .
∂λ
Démonstration
(i) Comme dans le cas sans contrainte de la proposition 1.6 avec la technique de la suite minimi-
sante, et en utilisant la compacité des fermés, bornés de IRn : v∗ ∈ K puisque K est fermé.
(ii) Pour obtenir la C.N.O. , comme dans le cas sans contrainte on part de
J(v ∗ + ρ w) − J(v ∗ ) ≥ 0 mais ici on doit avoir v ∗ ∈ K et v ∗ + ρ w ∈ K i.e.
t
bj (v ∗ + ρ w) = cj et donc t bj w = 0.
Posons donc KT = w ∈ IRn / t bj w = 0 (C'est le sous- espace vectoriel tangent à K d'où la no-


tation !) ; comme KT est un sous- espace vectoriel nous pouvons faire tendre ρ → 0 par valeurs
positives ou négatives et donc :

J(v ∗ + p w) − J(v ∗ )
≥ 0 pour ρ≥0 donne
ρ
J (v , w) ≥ 0 tandis que ρ ≤ 0 donne
0 ∗

J 0 (v ∗ , w) ≤ 0 et donc J 0 (v ∗ , w) = 0.
Mais à la diérence du cas sans contraintes, J 0 (v ∗ , w) n'est nul que pour w ∈ KT !
Remarquons que KT = Ker t B et donc : ∀w ∈ Ker t B t
w grad J(v ∗ ) = 0 ; avec la proposition
1.4 cela montre que le système B λ = − grad J(v ∗ ) est soluble, d'où l'existence de λ∗ énoncé dans
le théorème.

Cas Particulier : J quadratique


1
J = tv A v − tv F
2
Minimisation avec contraintes d'égalités linéaires 25

grad J = A v − F et la C.N.O. devient :



 A v + B λ

 = F avec la contrainte
(2.1)

 t
 B v = c

Lemme 2.1 Si il existe α > 0 , ∀w ∈ KT t


w A w ≥ α kwk2 , le système (2.1) admet une
solution unique.

Noter que A n'est pas nécessairement inversible mais que sa restriction à KT est inversible.
Dans ce cas particulier on peut donner une démonstration directe.
En eet, il sut de vérier
(
A v + Bλ = 0 donne une solution nulle
t
(2.2)
B v = 0

or la première équation donne t v A v + t v B λ = 0 et avec la dernière équation il reste t v A v = 0


d'où v = 0 et λ = 0 en reportant dans la première équation.

Remarques sur le système (2.1)

(1) Dans le cas où A est inversible, on a v = −A−1 B λ − A−1 F et la deuxième équation donne
−t B A−1 B λ = c + A−1 F ; ce système permet de trouver λ.
Cette méthode n'est pas conseillée numériquement mais est commode dans les petits exemples.
(2) De plus dans le cas A = I :
v = −Bλ + F et + t B B λ = −c + t B F
donc v = −B(t B B)−1 (−c + t B F ) + F .

Remarque 2.1 A noter que la situation du cas particulier est tres fréquente dans l'analyse par élé-
ments nis de systèmes elliptiques d'équations aux dérivées partielles, en particulier en mécanique
des structures élastiques.

1
Exercice 2.1 kv − F k2 avec la contrainte v ∈ K = t Bv − c = 0

J(v) =
2
a) trouver explicitement v et λ.
b) comparer avec la projection sur un sous- espace paramétré.
c) cas où B a une seule colonne.
d) cas où B a des colonnes orthonormées.

Solution
a) J(v) = t v v − t v F + t F F
26 Minimisation avec contraintes

c'est à dire A = I ; on a donc la formule du 2) ci- dessus :


v = −B (t B B)−1 t B F + B (t B B)−1 c + F

b) le premier terme B (t B B)−1 t B F n'est autre que la projection de F sur le sous- espace
{v/ v = B x x ∈ IRm } qui est orthogonal à KT (voir proposition 1.3), le deuxième terme tient
compte du fait que K ne passe pas par l'origine ; si l'on connait un v0 ∈ K c = t B v0 ) on peut
écrire :
v = −B (t B B)−1 t B (F − v0 ) + F

c) Quand B = b a une seule colonne K = {v/t b v = c} est un hyperplan ane ;

Fig. 2.1  Projection sur un sous espace t bv − c = 0

b tb
− t (F − v0 ) est la projection de −(F − v0 ) sur la droite portée par b ; ajouté à F cela ramène
bb
dans K (voir gure 2.1).

d) Dans le cas où t B B = IIRm on a :


v = −B t B(F − v0 ) + F attention B t B 6= IIRm

Remarque 2.2 Il convient de réaliser intuitivement la C.N.O. à partir des courbes de niveau de
J; visualisons pour une fonction de deux variables x, y.

La gure 2.3 représente les courbes de niveau de (x, y) 7−→ J(x, y) ; en l'abscence de contraintes,
J atteint son minimum au point m autour duquel tournent les courbes de niveau comme sur
une carte géographique ; plus les ellipses sont grandes, plus grande est J(x, y) ; on constate que
lorsqu'on s'éloigne du point v∗ = (x∗ , y∗ ) où D est tangent à une courbe de niveau, la fonction
augmente ; c'est donc que (x∗ , y∗ ) est un minimum local de J sur la droite D ! Or la normale à la
courbe de niveau est ∇J(x∗ , y∗ ) ; ce vecteur est donc colinéaire au vecteur b orthogonal à la droite
t
b v − c = 0 ; ou ∇J(x∗ , y∗ ) + λb = 0 ce qui n'est autre que la C.N.O. du théorème 2.1 avec une
seule contrainte.
Minimisation avec contraintes d'égalités linéaires 27

Fig. 2.2  Cas où t B B = IIRm

Fig. 2.3  La C.N.O. à partir des courbes de niveau


28 Minimisation avec contraintes

Voici quelques exercices pour lesquels on peut obtenir une solution explicite assez facilement ; le
seul but est de manipuler la C.N.O. ; on dessinera les contraintes et les courbes de niveau.

Exercice 2.2 Soit J(x, y) = x2 + y2 et K = (x, y) 2x + y = 2 . Déterminer le minimum et




le multiplicateur de Lagrange.

kxk2
Exercice 2.3 Même question pour x ∈ IRn et K = x t b x − c = 0

J(x, y) =
2

1 2
Exercice 2.4 (x + x22 + x23 ) et K = x x1 − x2 − 1 = 0 , x2 − x3 − 2 = 0

J(x, y) =
2 1

   
6 1 1
Exercice 2.5  0  sur K = x B x = 0 avec B =  1 2  ; distance
Projection de β =  t
    
  
0 1 3
de f à K .

2.2 Fonction quadratique avec contraintes d'égalités linéaires

2.2.1 Introduction
1t
Soit donc pour v ∈ IRn J(v) = v A v − t v f avec la contrainte
2

t
B v − c = 0 où B n est une matrice à n lignes et m colonnes avec m < n, et la C.N.O.

m
(
Av + Bλ = f
t
Bv = c

on a vu dans les petits exemples qu'il est commode de tirer v en fonction de λ de la première
équation et de reporter cette expression dans la dernière équation, ce qui fournit un système pour
déterminer λ :
v = A−1 Bλ + A−1 f d'où −t BA−1 Bλ = c − t BA−1 f ce qui permet de déterminer λ que l'on re-
porte ensuite pour trouver v .
Cette méthode peut être transformée en un algorithme numérique sous réserve que A soit inversible
avec une décomposition de Cholesky de A puis de t BA−1 B .
Fonction quadratique avec contraintes d'égalités linéaires 29

2.2.2 Elimination
Nous allons présenter une autre méthode qui s'applique même si A n'est pas inversible ; rappelons
que cela n'empêche pas le système d'avoir une unique solution ; le problème de minimisation a éga-
lement une solution dès que A est dénie positive sur l'espace tangent aux contraintes (Lemme 2.1).
Il s'agit essentiellement d'une méthode d'élimination ; voyons cela d'abord avec une seule contrainte :
t
bv = c si bi 6= 0 on peut tirer
" n
#
1 X
v1 = − bi vi + c
b1 i=2

et reporter cela dans la 1ère équation ; il est alors possible d'éliminer λ1 : une façon indirecte de
s'en convaincre est que l'on a paramétré les contraintes, on a donc un problème de minimisation
sans contraintes ; avec une seule contrainte, la seule précaution est de vérier que b n'est pas trop
petit, sinon prendre un autre coecient ; dans le cas de plusieurs contraintes il faut chercher une
sous- matrice m × m dont le déterminant n'est pas trop petit.
Remarquons toutefois que  cette transformation
 peut s'écrire :
1
 b1 
 
v2
 0   . 
v = s c + Z v [ avec s =  .  v[ =  . 
 . 
 
 .. 
vn
 
0
 
− b2 · · · − bbm1
 b1 
 1 ··· 0 
et Z = 
 
.. 

 . 

0 ··· 1

Notons que l'on a banalement t s b = 1 et que t


bZ=0
c'est à dire que les colonnes de Z constituent une base de l'hyperplan t b w = 0 pour w ∈ IRn .
L'algorithme ci-dessous est une généralisation de cette remarque.

2.2.3 Algorithmes d'élimination généralisée


En suivant Fletcher, 1981 [?] avec une présentation légérement diérente, nous supposons que nous
disposons de deux matrices S et Z

n S Z n telles que la matrice S Z


 

m n−m
soit inversible et que t B S = IIRm t
BZ = 0

Nous verrons au Ÿ2.2.4. une méthode possible pour construire S et Z .


30 Minimisation avec contraintes

Comme dans le cas d'un hyperplan, la deuxième condition, jointe à l'inversibilité de S Z , signie
 

que les colonnes de Z constituent une base du sous- espace vectoriel t B w = 0 avec w ∈ IRn .
Quand à la première condition, elle s'explicite en t bi sj = δij avec B = b1 · · · bm
 

S = s1 · · · sm .
 

Cette condition rappelle celle de base duale du sous- espace vectoriel engendré par les bi ; toutefois
cela n'est le cas que si t sj Z = 0, ce qui n'est pas nécessairement le cas ; toutefois voir le §2.4. où
nous verrons aussi comment construire pratiquement ces matrices.
L'idée est très simple tout comme au §2.2.2., ces matrices permettent de paramétrer les contraintes :

v = Sc + Zy avec y ∈ IRn−m si et seulement si t


Bv = c (2.3)

Nous avons dessiné, sur la gure 2.4 , le cas où t sj z = 0 j = 1, 2 avec n = 3 , m = 2 dans

Fig. 2.4  Cas où t sj z = 0 ; j = 1, 2

ce cas Z se réduit à un seul vecteur ; S c est alors l'intersection de la droite t B v = c et du plan


t
Zw=0 w ∈ IRn .
Il sut donc de considérer
Av + Bλ = f qui s'écrit :
A Z y + A S c + B λ = f et en multipliant par t Z on élimine λ :
t
Z A Z y = t Zf − t
ZASc
Ce système est soluble en y puisque A est dénie positive sur le sous espace vectoriel {w ∈ IRn /t B w = 0}
et ce sous espace vectoriel est engendré par les colonnes de Z ! on peut donc utiliser l'algorithme
de Cholesky pour calculer y .
On en déduit v avec (2.3) puis λ en multipliant
A v + B λ = f par t S : λ = t S f − t S A v .
Fonction quadratique avec contraintes d'égalités linéaires 31

2.2.4 Triangulation par des matrices orthogonales


Nous indiquons ici une méthode numériquement stable pour construire les matrices S et Z du pa-
ragraphe précédent. Pour cela nous supposons savoir construire une matrice Q orthogonale n × n
et unematrice R triangulaire
 supérieure m × m :


  " # " #
 Q1 Q2  R R
Q=   n telles que B = Q = [Q1 Q2 ] = Q1 R
0 0
m n−m
Avec ces matrices si on suppose S = Q1 t R−1 on a bien t B S = I et Z = Q2 satisfait t B Z = 0
puisque t B Z = t R t Q1 Q2 et ce dernier produit est nul car comme Q est orthogonale, ses colonnes
sont orthogonales entre elles !
Dans ce cas la matrice S satisfait de plus :

t
S Z = 0

En eet t S Z = R−1t Q1 Q2 = 0. Nous voyons que dans ce cas s1 , · · · , sm constitue la base duale de
b1 , · · · , bm (dans le sous- espace vectoriel λi bi ).
P

La gure 2.4 correspond donc à cette situation.

A noter que pour orthogonaliser on peut être tenter d'utiliser la méthode de Gramm- Schmidt :
elle est à éviter car elle n'est pas stable numériquement.
Une bonne méthode numérique consiste à utiliser les opérateurs de Householder :

h th v
S(h) v = v − 2 th h
v, h ∈ IRn . (2.4)

h th v
On reconnaît en th h
la projection de v sur la droite engendrée par h ; voir gure 2.5

Exercice 2.6 i) Pour h 6= 0 montrer que S(λ h) = S(h) avec λ ∈ IR, λ 6= 0


montrer que S(h) est l'opérateur de symétrie orthogonale par rapport à l'hyperplan t h w = 0.
ii) montrer que S(h) est un opérateur symétrique t S = S et orthogonal S t S = t S S = I ce qui
avec la symétrie se réduit à S 2 = I .
iii) Si kvk = kwk, montrer qu'il existe h ∈ IRn telque w = S(h) v.

Solution : i) S(λ h) = S(h) est immédiat avec λ 6= 0.


Ceci revient à dire que la projection de v et de S(h) v sur h sont opposées et ont même projection
sur {w, t h w = 0} ; prenons khk = 1 or S(h) v = v − 2ht h v
t
h S(h) v = t h v − 2t h v = −t h v
donc la projection de S(h) v sur h est −h t h v est bien opposée à la projection de v .
D'autre part : la projection de v sur l'hyperplan t h w = 0
P v = v − h th v
32 Minimisation avec contraintes

P S(h) v = S(h) v − h t h S(h) v = v − 2ht h v + ht h v = v − ht h v = P v


ii) simple calcul matriciel.
iii) l'interprétation avec la symétrie amène à prendre h = w − v ; il faut alors calculer
h th v h t h h + 2h t h v h t h (h + 2v)
w − S(h) v = w − v + 2 t = th h
= th h
hh
or h + 2v = w + v donc t h(h + 2v) = t (w − v)(w + v) = t w w − t v v

 
1
 
 0 
A partir de ces propriétés il est facile de transformer un vecteur v en kvke1 où e1 =  ..  soit h1
 

 . 

0
telque kvke1 = S(h1 ) v
 
kvk
 
 0 
si v est la première colonne de A : S(h1 ) A = A1 a pour première colonne  ..  et donc
 

 . 

0
A = S(h1 ) A1 d'où la possibilité de triangulariser à l'aide de matrices orthogonales.
A noter que cette idée est à l'origine d'un bon algorithme de calcul de valeurs et de vecteur propres :
la méthode Q R ; voir par exemple Schatzman [?].

Fig. 2.5  symétrie orthogonale

2.2.5 Programmation quadratique


Dans le cas d'une fonctionnelle quadratique avec des inégalités linéaires, on peut utiliser itérative-
ment la minimisation de la fonctionnelle avec des contraintes d'égalité. considérons la minimisation
1t
de J(v) = 2 vAv −t vf avec les contraintes t Bv − c ≤ 0. Remarquons que

J(v + d) = q(d) + J(v)


Fonction quadratique avec contraintes d'égalités linéaires 33

avec
1t
q(d) = dAdt vAd −t df
2
Algorithme :
A partir d'un point admissible v 0 ,
Minimiser q(d) avec B ˜ = v k + dk
= 0 pour j ∈ sat(v k ) ; soit dk le minimum et posons : v k+1
j d
Si dk = 0 et si les multiplicateurs du problème avec égalités sont ≥ 0 on s'arrête ; si des multipli-
cateurs sont négatifs, on retire le plus négatif.
Si dk 6= 0, on distingue 2 cas :

cas 1 ˜ satisfait les autres contraintes, J a diminué et on le prend comme nouveau point de
Si v k+1
˜ .
départ v k+1 = v k+1
cas 2 Dans ce cas, on cherche ρ tel que le point v + ρdk soit admissible ; on doit donc avoir
t
Bj (v + ρdk ) − cj ≤ 0 ; on trouve que

cj −t Bj v
ρ ≤ ρ∗ = M in{ tB d
/ sat(v k ),t Bj d > 0}
/j∈
j

On prend vk+1 = v + ρ∗ dk et on rajoute dans les contraintes saturées celle que l'on vient
d'atteindre avec le pas ρ∗ ; et on recommence.
34 Minimisation avec contraintes

2.3 Minimisation avec contraintes

2.3.1 Condition d'optimalité avec contraintes d'égalité


On souhaite obtenir une condition analogue à celle obtenue au théorème 2.1 dans lequel les
contraintes sont supposées linéaires t bj v = cj ; si l'on reprend la démonstration de ce théorème
on voit qu'un des ingrédients est que si v ∗ est minimum local v ∗ + ρw satisfait les contraintes si
et seulement si t bj w = 0 ; cette caractérisation simple des directions admissibles w vient naturel-
lement du caractère linéaire des contraintes.
Une façon d'adapter cette approche au cas de contraintes non linéaires Fj (v) = 0 est de considérer
des wk tels que il existe ρk avec v ∗ + ρk wk admissible et de considérer les w qui sont limite de
wk quand ρk −→ 0 ; cette approche s'étend au cas avec contraintes d'inégalités et se trouve par
exemple dans Fletcher [?] (1981).

Du point de vue géométrique cela rappelle la dénition d'une tangente à une surface comme limite
de sécantes.

Il nous paraît plus commode de caractériser les w admissibles comme les vecteurs tangents en v ∗ ,
aux courbes passant par v ∗ et satisfaisant les contraintes.

K = {v ∈ IRn / Fj (v) = 0; j = 1, · · · , n} ≡ {v ∈ IRn / F(v) = 0} où


F : IRn −→ IRm
 
F1 (v)
 .. 
v 7−→ 
 .


Fm (v)

Dénition 2.1 L'espace tangent en v∗ ∈ K est


 
dv

KT (v ) = w = ∈ IR /v(0) = v , ∃ ε > 0 , v ∈ C (−ε, ε) , v(t) ∈ K
n ∗ 1
dt t=0

On pourrait démontrer qu'il s'agit bien d'un sous-espace vectoriel mais ce qui nous interésse ici
est d'en donner une caractérisation à l'aide de la dérivée de F ; pour cela nous avons besoin d'une
condition dite de régularité.

Dénition 2.2 est dit régulier pour K si les Fj (v∗ ) sont des formes linéaires indépen-
v∗ ∈ K
0

dantes (ou grad Fj (v) = t Fj (v∗ ) sont des vecteurs indépendants).


0

Cette terminologie habituelle en optimisation correspond à ce que les géomètres appelent une
submersion (voir par exemple Berger-Gostiaux [?] (1972), F. Pham [?] ) ; le résultat suivant est
classique.
(1992)
Minimisation avec contraintes 35

Théorème 2.2 En un point régulier v∗ ∈ K , on a KT (v∗ ) = KG (v∗ ) avec


KG (v ∗ ) = {w ∈ IRn , F 0 (v ∗ ) w = 0}

ou de façon équivalente

KG (v ∗ ) = w ∈ IRn , Fj0 (v ∗ ) w = 0 ; j = 1, ..., m ≡


\
Ker Fj0 (v ∗ ) .

j=1,...m

Démonstration :
Nous montrons d'abord que KT (v ∗ ) ⊂ KG (v ∗ ) ;
dv
soit w ∈ KT (v ∗ ), il existe donc une courbe de K {t 7−→ v(t)} telle que v(0) = v ∗ et ;
dt t=0

dv
comme F(v(t)) = 0 on en déduit par la dérivation de fonctions composées que : F 0 (v(t) = 0 et
dt
donc en t = 0 F (v ) w = 0.
0 ∗

Réciproquement, si w ∈ KG (v∗ ) nous devons construire une courbe située sur K au voisinage de v∗ ;
en s'appuyant sur l'intuition géométrique (voir gure 2.6) il est naturel de chercher cette courbe
Xm
dans le sous-espace ane v ∗ + αw + uj grad Fj (v ∗ )
j=1

Fig. 2.6  Courbe tangente

nous allons montrer que l'on peut trouver des fonctions α −→ uj (α) telles que au voisinage de
α = 0 celle courbe soit tangente à w ; nous cherchons donc α −→ u(α) telque

F(v ∗ + αw + t F 0 (v ∗ )u(α)) = 0 ;

nous sommes dans une situation de fonction implicite pour


f (α, u) = F(v ∗ + αw + t F 0 (v ∗ )u), on a
∂f
= F 0 (v ∗ ) w = 0 (car w ∈ KG (v ∗ ))
∂α α=0 ,u=0

∂f
= F 0 (v ∗ ) t F 0 (v ∗ )
∂u α=0 ,u=0

Comme v ∗ est régulier les colonnes de F 0 (v ∗ ) sont linéairement indépendantes, F 0 (v ∗ ) t F 0 (v ∗ ) est


dénie positive (exercice 1.8 du Ÿ1.1.) donc inversible ; le théorème des fonctions implicites (Pham
36 Minimisation avec contraintes

[?]) assure donc l'existence au voisinage de zéro, d'une fonction α 7−→ u(α) telle que

f (α, u(α)) = 0 ou F(v ∗ + αw + t F 0 (v ∗ )u(α)) = 0


∂f d u ∂f
et l'on a = − en particulier en α = 0
∂u d α ∂α
d u
F 0 (v ∗ ) t F 0 (v ∗ ) = −F 0 (v ∗ ) w = 0 car w ∈ KG (v ∗ ) ;
d α α=0

nalement la courbe
α 7−→ v ∗ + αw + t F 0 (v ∗ ) u(α) est tangente à w, situé sur K et passe par v ∗ .

Cette caractérisation de l'espace tangent va nous permettre d'obtenir une condition nécessaire
d'optimalité du 1er ordre ; comme pour le théorème 2.1 cette condition n'est pas susante et pour
un problème de maximisation, nous aurions la même condition.

Nous considérons le problème (avec contraintes d'égalités) :


(C.E.) Minimiser J : IRn −→ IR dans l'ensemble S = {v ∈ IRn / F(v) = 0} avec F : IRn −→ IRm .

Nous avons le théorème suivant qui généralise le théorème 2.1 .

Théorème 2.3 Soit le problème (C.E.) avec J et F continues.


(i) Si J tend vers l'inni quand kvk −→ +∞ ou si K est (fermé), borné alors J atteint son mini-
mum (ou maximum) en au moins un point v∗ .
(ii) Si J et F sont diérentiables et si J atteint un minimum (ou maximum) local en v∗ (point
régulier pour S), alors il existe λ∗j ∈ IR , j = 1, · · · , m (les multiplicateurs de Lagrange) tels que
on ait la C.N.O. :

∀w ∈ IRn J 0 (v ∗ ) w + t λ F 0 (v ∗ ) w = 0

ou grad J(v ∗ ) + t F 0 (v ∗ ) λ = 0 .

Remarque 2.3 En pratique, il est commode d'introduire le Lagrangien


∂L ∗ ∗
L(v, λ) = J + t λ F la C.N.O. s'écrit : (v , λ ) = 0 sans oublier la contrainte sous la forme :
∂v
∂L ∗ ∗
(v , λ ) = 0 .
∂λ

Démonstration
(i) Comme dans le cas sans contraintes avec une suite minimisante ; comme les F sont continues,
S est fermé et les limites de sous-suites sont bien dans S ; dans le cas où S est fermé, borné, on
utilise la compacité des fermés, bornés de IRn .
Minimisation avec contraintes 37

(ii) Nous pouvons d'abord dégager le

Lemme 2.2 Sous les hypothèses du théorème, ∀w ∈ KT (v∗ ) J 0 (v ∗ ) w = 0 .

La démonstration de ce lemme est très simple et utilise la même idée que dans le cas sans
contraintes : on utilise les variations de v ∗ ; on les prend ici, sous la forme d'une courbe de S
passant par v ∗ : t 7−→ v(t) ; on a donc

J(v(t)) − J(v ∗ )
J(v ∗ ) ≤ J(v(t)) et donc ≥ 0
t
dv
pour tout t > 0 ; en faisant tendre t −→ 0+ on obtient J 0 (v ∗ ) ≥0
dt t=0

dv
avec t < 0 et t → 0− , on obtient J 0 (v ∗ ) ≤ 0 et donc

dt

t=0
dv

J 0 (v ∗ ) = 0 ou par dénition de l'espace tangent : ∀w ∈ KT (v ∗ ) J 0 (v ∗ ) w = 0
dt t=0

Pour la démonstration du (ii) du théorème, on utilise ce lemme et la caractérisation

KT (v ∗ ) = KG (v ∗ ) (théorème 2.2)

et on conclut comme dans le cas avec contraintes linéaires avec la proposition 1.4 qui fournit
l'existence des λ.

Voici quelques exercices d'application directe de ce théorème.

Exercice 2.7 Soit m ∈ IRn , trouver la distance de m à l'hyperplan


{x ∈ IRn / .
P
ai xi − b = 0}

1X
Solution La fonctionnelle à minimiser n'est pas précisée ; si J(x) = |xi − mi |p , le Lagrangien
p
est
X 
L(x, λ) = J(x) + λ ai xi − b et la C.N.O.

∂L
=0 donne |xi − mi |p−1 sgn |xi − Fi | + λai = 0
∂xi

avec
P
ai xi − b = 0

pour un calcul eectif, on essaye de tirer xi de la 1ère équation en fonction de λ et de reporter


dans la contrainte ; pour simplier prenons p = 2 ;
P
b − ai xi
λ= P 2 xi = mi − λai
ai
38 Minimisation avec contraintes

1 |b − ai mi |2
P
et P 2 carré de la distance euclidienne à un hyperplan ; formule élémentaire connue.
2 ai

Cet exemple pouvait se traiter avec le théorème 2.1 ; mais voici une situation "duale " qui relève
du théorème précédent.

Exercice 2.8 Minimiser J(x) = avec la contrainte


X
|xi |p − 1 = 0
P
ai xi

Fig. 2.7  Exercice 2.8, minimisation d'une fonction J

solution L = J + λF
X
avec F(x) = |xi |p − 1
C.N.O.
ai + λ p |xi |p−1 sgn xi = 0
avec |xi |p − 1 = 0
P
ai
dans le cas p = 2 xi =

a2i
P
1 X 2
et ai − 1 = 0 donne λ = 2
4λ2 4
± ai
x∗i ± = P 2 1/2 J(x∗i ± ) = ±(
X
a2i )1/2
( ai )

La C.N.O. fournit 2 solutions dont l'interprétation géométrique est évidente ; pour les départager
il faut une condition de 2ième ordre (voir ...)

Exercice 2.9 soit a = (1, 0), trouver la distance de a à la parabole d'équation


y2 = 4 x ; ceci par 3 méthodes :
i) tirer x en fonction de y
ii) tirer y en fonction de x
iii) utiliser les multiplicateurs de Lagrange
Comparer et commenter les résultats trouvés.

Exercice 2.10 Soit F(x) = x21 + x22 + x23 − R2


et S = x ∈ IR3 / F(x) = 0


a) Soit G orthogonal à F 0 (x), construire une courbe tangente à G .


Minimisation avec contraintes 39

b) Ecrire une C.N.O. avec le plan tangent en x∗ minimum de J(x) = x1 + x2 + x3 sur S ; trouver
x∗ .
c) Comparer avec la C.N.O. avec multiplicateurs de Lagrange ; trouver x∗ .
d) Vérier la C.S.O. du 2nd ordre.

2.3.2 Minimisation avec contraintes d'inégalités

Introduction

On a vu lors de la démonstration de la C.N.O. du 1er ordre avec contraintes d'égalités linéaires


que l'on utilisait un résultat d'équivalence entre la résolubilité d'un système surdéterminé BΛ = g
et le fait que g soit orthogonal au noyau de t B (proposition 1.4) ; dans le cas d'égalités linéaires
Ker t B = w ∈ IRn / t bj w = 0 (bj sont les colonnes de B ) est un ensemble de directions admis-


sibles.

En présence de contraintes d'inégalités, les directions admissibles sont maintenant dénies par des
inégalités comme le montre l'exemple ci-dessous ;

Considérons l'exemple très simple suivant :


minimiser la fonction J(x) avec la contrainte
(b1 , x) ≤ c1 ; soit x∗ le minimum ; si (b1 , x∗ ) = c1 , on a donc J(x∗ + ρy) − J(x∗ ) ≥ 0 pour (b1 , y) ≤ 0
et donc en divisant par ρ et en faisant tendre ρ > 0 vers zéro
J 0 (x∗ , y) ≥ 0 pour (b1 , y) ≤ 0 ; si (b1 , x∗ ) < c1 , on trouve J 0 (x∗ , y) = 0

Fig. 2.8 
40 Minimisation avec contraintes

Comme grad J(x∗ ) doit avoir un produit scalaire positif avec tous les y qui vérient (b1 , y) ≤ 0,
on voit intuitivement que grad J(x∗ ) doit être de la forme
grad J(x∗ ) = −λ1 b1 avec λ1 ≥ 0.

Exercice 2.11 montrer l'existence de λ1 ≥ 0 dans l'exemple ci-dessus.

1 1
Exercice 2.12 Pour la fonction J(x) = J(x1 , x2 ) = (x − 1)2 + (x2 − 1)2 on cherche à mini-

2
miser avec 2 contraintes (b1 , x) ≤ 0 et (b2 , x) ≤ 0
a) à l'aide d'un dessin, distinguer dans quels cas le minimum est atteint en
t
xm = (1, 1).

Indications. Le minimum xm de J sans contraintes est x1m = 1, x2m = 1 ; suivant la position de la droite

Fig. 2.9 

d'équation (b1 .x) = 0 par rapport à ce minimum nous avons deux situations très diérentes.

1er Cas. Si (b1 . xm ) < 0 alors pour ρ assez petit x = xm + ρy vérie encore la contrainte pour
tout y ∈ IR2 ; toutes les directions sont admissibles et J 0 (xm , y) = 0 pour tout y ∈ IR2 comme en l'ab-
sence de contraintes ; en fait dans ce cas cette contrainte est inutile et n'inue pas sur la minimisation de J .

2ième Cas. Si au contraire (b1 . xm ) > 0 comme sur la gure 2.9, on constate en regardant les courbes
de niveau que le minimum x∗ 6= xm se trouve sur la droite (b1 . x) = 0 mais alors x = x∗ + ρy ne vérie la
contrainte que si (b1 . y) ≤ 0. Il reste à discuter la contrainte (b2 , xm ) < 0

Exercice 2.13 Reprendre dese exercices de projection sur sous espaces anes ; remplacer les e'ga-
lités par des inégalités et essayer de trouver directement le minimum ; utiliser aussi le théorème ci
dessous.
Minimisation avec contraintes 41

Exercice 2.14 Voir les exercices de barres avec blocages du chapitre sur les exemples me'caniques.

Conditions d'optimalité du premier ordre

Nous considérons le problème (avec Contraintes d'Inégalités)


(C.I.) Minimiser J : IR −→ IR dans l'ensemble K = {v ∈ IRn /E(v) = 0 et F(v) ≤ 0}
n

avec E : IRn −→ IRm m ≤ n


F : IRn −→ IRp

Comme nous l'avons vu dans l'exemple en un point v 0 donné on peut avoir


Fi (v 0 ) < 0 ou Fi (v 0 ) = 0 suivant les indices considérés.

Dénition 2.3 Une contrainte d'inégalité Fi (v) ≤ 0 est dite saturée au point v0 si en ce point
Fi (v 0 ) = 0 ; si Fi (v 0 ) < 0 elle est dite non saturée ; par convention une contrainte d'égalité est
saturée en ce point ; on note sat(v0 ) les indices de contraintes saturées en v0 .

Ainsi une contrainte non saturée en un point v 0 ne restreint pas le domaine admissible au voisinage
de v 0 ; il faut donc s'attendre que les conditions d'optimalités locales ne fassent intervenir que les
contraintes saturées au minimum local.

Comme dans le cas de contraintes d'égalités et pour simplier, nous faisons une hypothèse de
régularité.

Dénition 2.4 v0 ∈ K déni en (C.I.) est dit régulier pour K , si les Ej0 (v0 )
j = 1, · · · , m et les Fk0 (v 0 ) pour k = 1, · · · , p,
et k ∈ sat(v0 ) = indices de contrainte saturée en v0 sont des formes linéaires indépendantes.


Voici le théorème qui exprime la condition d'optimalité locale du premier ordre ; la seule mais
importante nouvauté réside dans le bf signe des multiplicateurs de Lagrange ; le résultat suivant
est connu comme condition de Karush-Kuhn-Tucker. Attention comme il y a 2 façons d'écrire une
inégalité et que l'on peur écrire le Lagrangien avec + ou − devant le multiplicateur de Lagrange
les conditions de signe du théorème ci dessous dépendent de la convention choisie.

Théorème 2.4 Soit le problème (C.I.) avec J , E et F continues.


(i) Si J tend vers l'inni quand kvk → +∞ (Hypothèse H1 du Ÿ1.3.1) ou si K est (fermé), borné,
alors J atteint son minimum (ou maximum) en au moins un point v∗ ∈ K

(ii) Si J , E et F sont diérentiables et si J atteint un minimum (ou maximum) local en v∗ , point


régulier pour K , alors il existe λ ∈ IRm , µ ∈ IRp tels que
42 Minimisation avec contraintes
∂L ∗ ∗ ∗
(v , λ , µ ) = 0
∂v

µ∗ ≥ 0 , t ∗
µ F(v ∗ ) = 0

∂L ∗ ∗ ∗ ∂L ∗ ∗ ∗
et (v , λ , µ ) = 0 (v , λ , µ ) ≤ 0
∂λ ∂µ

avec L(v, λ, µ) = J (v) + t λ E(v) + t µ F(v)

∂L
Remarque 2.4 la condition =0 peut s'expliciter en
∂v
0 ∗ t ∗ 0 ∗ t ∗ 0 ∗
J (v ) + λ E (v ) + µ F (v ) = 0
ou
gradJ(v ∗ ) + t E 0 (v ∗ ) λ∗ + t F 0 (v ∗ ) µ∗ = 0 ;
∂L ∂L
les conditions =0 ≤ 0 ne font que redire les contraintes: E = 0 et F ≤ 0 ;
∂λ ∂µ
la condition µ∗ ≥ 0 est typique des contraintes d'inégalités ; si l'on avait pris des contraintes
F(v) ≥ 0, µ∗ serait alors négatif ; enn comme µ∗k ≥ 0 et Fk (v ∗ ) ≤ 0 la condition t µ∗ F(v ∗ ) = 0
donne simplement µ∗k Fk (v∗ ) = 0, k = 1, · · · , p ; l'interprétation est que µ∗k = 0 si Fk (v∗ ) < 0 (c'est
à dire si contraintes non saturées)

Démonstration.
(i) Pour l'existence, cela est encore analogue au cas sans contraintes ; remarquons d'abord que
comme E et F sont continues, les contraintes sont un ensemble K fermé ; soit I = inf J(v) et
v∈K
(v k ) une suite minimisante : J(v k ) −→ I ; si K est borné la suite l'est aussi ; dans le cas contraire,
l'hypothèse H1 du Ÿ 1.3.1. et le lemme 1.2 assurent que cette suite est bornée ; on peut donc
extraire une sous-suite convergente : v k → v ∗ ; comme K est fermé, v ∗ ∈ K ; la continuité de J
0
donne de plus J(v k ) −→ J(v ∗ ) on a donc I = J(v ∗ ) et le minimum est atteint en v ∗ .

(ii) Considérons l'ensemble Sv∗ = {v ∈ IRn / E(v) = 0 et Fsat (v) = 0} il est déni à l'aide des
mêmes égalités E(v) = 0 que K et l'on a remplacé les inégalités F(v) ≤ 0 par les égalités
Fsat(v∗ ) (v) = 0 où Fsat(v∗ ) désigne [Fi ]i∈sat(v∗ ) (sat(v ∗ ) sont les indices tels que Fi (v) ≤ 0
soit saturée en v = v ∗ ) ; comme Sv∗ ⊂ K , la fonction J atteint donc son minimum au point v∗ , le
théorème 2.3 assure que le Lagrangien

L(v, λ, µ) = J (v) + t λ E(v) + t µsat(v∗ ) Fsat(v∗ ) (v)

vérie en (v ∗ , λ∗ , µ∗sat(v∗ ) )

∂L ∗ ∗ ∗
(v , λ , µsat(v∗ ) ) = 0 et
∂v

∂L ∗ ∗ ∗ ∂L ∗ ∗ ∗
(v , λ , µsat(v∗ ) ) = 0 (v , λ , µsat(v∗ ) ) = 0
∂λ∗ ∂µ∗
Mais comme v ∗ réalise un minimum local sur K qui contient Sv∗ , nous avons des conditions
supplémentaires sur le signe des µ∗i pour i indice de contrainte d'inégalité saturée.
Minimisation avec contraintes 43

Comme v ∗ est régulier le noyau de t B = [t E 0 (v ∗ ) , t Fsat(v


0
∗ ) (v )] est réduit à zéro :

" #
λ
t
B = t E 0 (v ∗ ) λ + t F 0 (v ∗ ) µsat(v∗ ) = 0
µsat(v∗ )
entraine λ = 0 et µsat(v∗ ) = 0 ; avec la proposition 1.4, l'opérateur B est donc surjectif ; soit donc
k0 un indice de contrainte d'inégalité saturée ; on peut trouver w telque

E 0 (v ∗ ) w = 0
Fi0 (v ∗ ) w = 0 pour i 6= k0 et i ∈ sat(v ∗ )
Fk0 0 (v ∗ ) w < 0
soit alors,
0
Svk∗ = v/E(v) = 0 et Fi (v) = 0 i ∈ sat(v ∗ ) − k 0
 

0 dv
et soit t 7−→ v(t) ∈ Svk∗ telle que = w ; comme v ∗ est régulier, le théorème 2.2 (si w est
dt t=0

orthogonal au gradient des contraintes, il est tangent à une courbe tracée sur la surface) assure
que pour tout t petit, v(t) existe ;
∂L ∗ ∗ ∗
comme Fk0 (v(t)) < 0 donc v(t) ∈ K pour tout t petit ; la condition d'optimalité (v , λ , µsat(v∗ ) ) = 0
∂v
donne
J 0 (v ∗ ) w + 0 + µk0 t Fk0 0 (v ∗ ) w = 0

par suite comme Fk0 0 (v ∗ ) w < 0, µk0 et J 0 (v ∗ )w sont de même signe ; d'autre part pour t petit
dv
v(t) est dans K , donc J (v(t)) ≥ J (v ∗ ) donne J 0 (v ∗ ) ≥ 0 par suite µk0 ≥ 0.
dt t=0

Finalement nous avons obtenu toutes les conditions en posant µ∗j = 0 pour les indices de contraintes
non saturées ; dans ce cas

si Fj (v ∗ ) < 0 µ∗j = 0 et

si Fi (v ∗ ) = 0 µ∗i ≥ 0

on a donc bien µ∗ ≥ 0 et t µ∗ F(v ∗ ) = 0.

Conditions d'optimalité du deuxième ordre

De même que sans contraintes, l'annulation de la dérivée est une condition nécessaire et non
susante d'optimalité, la situation est analogue en présence de contraintes : il convient d'utiliser
les dérivées secondes du Lagrangien. La encore comme dans le cas sans contraintes on n'a pas de
conditions nécessaires et susantes. Nous utilisons les mêmes notations que pour les conditions du
premier ordre. Pour obtenir une condition susante assez générale, il est commode d'utiliser des
vecteurs obtenus comme limites de sécantes ; on peut donner un contre-exemple où il n'existe pas
de courbe qui satisfait F(x(t)) = 0 au voisinage d'un extremum.
44 Minimisation avec contraintes

Dénition 2.5
KG = {w ∈ IRn : E 0 (v∗)w = 0, Fsat(v
0
∗ ) w ≤ 0}; (2.5)

KT = {w|x∗ + αk wk ∈ K and wk → w}

et l'on a le lemme :

Lemme 2 Si v∗ est régulier KT = KG

Pour les conditions du deuxième ordre, il faut considérer des ensembles un peu plus petit.

Théorème 2.5 (conditions nécessaires du deuxième ordre)


Soit v∗ un point régulier de K où J atteint son minimum ; avec le théorème précédent, il satisfait
les conditions du premier ordre. Soit

KG2 = {w ∈ IRn : E 0 (v∗)w = 0, Fsat


0 0
+ (v ∗ ) w = 0, Fsat0 (v ∗ ) w ≤ 0}; (2.6)

où sat+ (v∗ ) désigne les indices de contraintes saturées de multiplicateur strictement positif et
sat0 (v ∗ ) désigne les indices de contraintes saturées de multiplicateur nul ; on a :

∂ 2 L∗
∀w ∈ KG2 (w, w) ≥ 0 (2.7)
∂v 2

La démonstration utilise un lemme

Lemme 3 Si v∗ est régulier


KG2 = KT2


KT2 = {w|x∗ + αk wk ∈ K2 and wk → w}
K2 = {v|E(v) = 0 Fsat+ (v∗ ) (v) = 0} ∩ K

où sat+ (v∗ ) désigne les contraintes saturées de multiplicateur strictement positif.

Théorème 2.6 Conditions susantes du deuxième ordre


Si v∗ satisfait les conditions du premier ordre et si
∂ 2 L∗
∀w ∈ KG2 (w, w) > 0 (2.8)
∂v 2

alors v∗ est un minimum local isolé.

Démonstration Soit la suite vk = v∗ + δk wk ∈ K avec k wk k= 1 avec xk ∈ K ; on extrait une


0
sous-suite telle que wk → w ∈ KG .
Minimisation avec contraintes 45

cas 1 : w 6∈ KG 2 . Dans ce cas, il existe i ∈ sat+ (v ∗ ) tel que Fi0 w < 0 La condition du premier
ordre donne :
J 0 (v ∗ )w + t λ∗ E 0 (v ∗ )w + t µ∗ F 0 (v ∗ )w = 0
0
comme w ∈ KG mais w 6∈ KG2 on en deduit que J 0 (v ∗ )w > 0 donc pour k 0 grand J 0 (v ∗ )wk > 0
0
et donc J(v k ) > J(v ∗ ). Notons que la condition du deuxième ordre n'a pas encore servi. C'est
donc pour cela qu'il n'y a aucune condition à vérier pour les w ∈
/ K G2 .
cas2 :w ∈ KG 2
. Alors comme v k ∈ K donc
0

0 0
J(v k ) ≥ L(v k , λ∗ )

or la formule de Taylor fournit :


0
0 0 ∂L k0 (δ k )2 ∂ 2 L∗ k0 k0 0
L(v k , λ∗ ) = L∗ (v ∗ , λ∗ ) + δ k (w ) + (w , w ) + o((δ k )2 )
∂x 2 ∂v 2
ce qui se simplie avec la condition du premier ordre :
0
0 (δ k )2 ∂ 2 L∗ k0 k0 0
L(v k , λ∗ ) = L(v ∗ , λ∗ ) + 2
(w , w ) + o((δ k )2 )
2 ∂v
ou (comme L(v ∗ , λ∗ ) = J(v ∗ ))
0
0 (δ k )2 ∂ 2 L∗ k0 k0 0
J(v k ) ≥ J(v ∗ ) + 2
(w , w ) + o((δ k )2 )
2 ∂v
Ce qui donne avec la condition du deuxième ordre :
0
J(v k ) > J(v ∗ )

Exercice 2.15 Soit avec les contraintes vi ≤ ci , i = 1, m ≤ n. En


Pn
J(x) = i=1 (xi − ai )2
distingant, ai < ci , ai = ci , ai > ci préciser KG , KG2 .

Exercice 2.16 Soit j(x, y) = σx2 à minimiser avec x ≥ 0 ; discuter suivant σ.


2 y
+ 2 +x

Exercice 2.17 Soit A une matrice symétrique et J =t xAx.


1. Soit la contrainte t xx = 1 ; préciser le min de J (discuter suivant les valeurs propres de A).
Ce résultat est souvent attribué à Lord Rayleigh
2. Soit la contrainte t xx ≥ 1 ; préciser le min de J.
3. Soit la contrainte t xx ≤ 1 ; préciser le min de J. On trouve un résultat un peu surprenant : x
vecteur propre associé à valeur propre simple négative, les autres étant positives ; considérer le cas
n = 2, A de valeurs propres 1 et -1 ; tracer les courbes de niveau de J)

4. Avec A, dénie positive, soit la contrainte t xx = 1 et t xx1 = 0 avec x1 vecteur propre associé
à plus petite valeur propre ; préciser le min de J (discuter suivant les valeurs propres de A).
46 Minimisation avec contraintes

2.4 Devoir : optimisation en présence d'inégalités simples


MIM Partiel optimisation avril 1998 Rousselet
Exercice 1 On considère la minimisation de J : IRn −→ IR dans K = {v ∈ IRn :t Bv − c ≤ 0}.
1. Avec quelles hypothèses a-t-on existence d'un minimum de J avec v ∈ K ?
2. Avec quelles hypothèses peut-on écrire des conditions nécessaires d'optimalité avec des
multiplicateurs de Lagrange ? Les écrire.
3. Dans le cas où
B = [e1 , ..., em ]

avec ei vecteurs de la base canonique deIRn et m ≤ n, particulariser les conditions


d'optimalité. Cas où n = m = 1 ; dessin.
4. Cas
1t
J= vAv −t vF , B = [e1 , ..., em ]
2
(A symétrique) particulariser les conditions d'optimalité. Résoudre avec n = m = 1 puis
2.
5. Autre cas
1t
J= (v − a)(v − a) , B = [e1 , ..., em ]
2
particulariser les conditions d'optimalité. On note vPa le point où le minimum est atteint
(vecteur projection de a sur K )
6. Solution explicite des conditions d'optimalité précédentes ; dessin pour n = m = 2.
7. On utilise vPa déni plus haut ; montrer

k vPa − vPb k2 ≤k a − b k2

Dessin avec n = m = 2.
Exercice 2 On considère la minimisation de J : L2 (Ω) −→ IR avec J(v) = 1
(v − φ)2 dx ; cette
R
2 Ω
fonctionnelle est à minimiser dans K = {v ∈ L2 (Ω) : v ≤ γ p.p.}
1. Préciser des conditions d'optimalité avec multiplicateur de Lagrange ; solution explicite ;
comparer avec 1.6.
2. En approchant l'intégrale avec une formule d'intégration numérique (par exemple en
dimension 1, les trapèzes avec Ω =]a, b[), écrire une fonctionnelle approchée dénie dans
IRn avec n points de quadrature ; comparer avec 1.6.
Exercice3 On considère la minimisation de J : IRn −→ IR avec J elliptique (constante α ) avec
de plus : kgradJ(x) − gradJ(y)k ≤ M kx − yk
1. Existence unicité du minimum dans IRn .
2. On considère l'algorthme du gradient ; on note v k le k ieme itéré et v ∗ le minimum. En
exprimant v k+1 − v ∗ à l'aide de v k et v ∗ , monter que avec un choix convenable de ρ on
a kv k+1 − v ∗ k ≤ βkv k − v ∗ k avec β < 1
Esquisse de solution 47

3. Pour minimiser J dans K = {v ∈ IRn :t Bv − c ≤ 0} avec B = [e1 , ..., em ], on considère


l'algorithme ṽ k+1 = vP k+1 où v k+1 se déduit de v˜k par un pas de l'algorithme du
v

gradient et vPa est déni dans l'exercice précédent (projection de a sur K) ; dessiner 2
itéres successifs avec n = 2, m = 1.
4. Avec le même choix de ρ que precédement, montrer que l'on a encore avec v ∗ minimum
dans K :
kṽ k+1 − ṽ ∗ k ≤ βkṽ k − ṽ ∗ k

5. Conclusion pour cet algorithme.

2.5 Esquisse de solution


Exercice 1 1. Il sut d'utiliser un théorème du cours. On suppose J continue et

limJ(v) = +∞ , k v k→ +∞

K est manifestement fermé ; dans le cas où K est borné, la continuité de J est naturel-
lement susante.
2. On applique le même théorème avec J diérentiable et F(v) =t Bv−c ; comme Fk (v) =t
Bk , v est un point régukier des que les Bk sont linéairement indépendants pour k ∈
sat(v). Attention cela ne demande pas que tous les vecteurs Bk soient linéairement
indépendants : penser au cas où K est un cube !

L(v, λ, µ) = J (v) + +t µ F(v)


∂L∗ ∂J ∗ t ∗t
= + µ B=0
∂v ∂v
µ∗ ≥ 0 ;t µ∗ F ∗ = 0 ;t Bv − c

3. Si B = [e1 , ..., em ], la condition ∂L


∂v = 0 se particularise en :
∂J ∗
= −µ1 (2.9)
∂v1
..
.
∂J ∗
= −µi (2.10)
∂vi
..
.
∂J ∗
= −µm (2.11)
∂vm
..
.
∂J ∗
=0 (2.12)
∂vi
..
.

∂J
=0 (2.13)
∂vn
48 Minimisation avec contraintes

Fig. 2.10  En 1 variable

4. La condition ∂L
∂v = 0 devient :

(Av − F )1 = −µ1 (2.14)


..
.
(Av − F )i = −µi (2.15)
..
.
(Av − F )m = −µm (2.16)
..
.
(Av − F )i = 0 (2.17)
..
.
(Av − F )n = 0 (2.18)

Dans le cas n = m = 1

cas 1 Si F/a ≤ c alors v ∗ = F/a

cas2 Si F/a ≥ c alors v ∗ = c = (F − µ∗ )/a La dernière égalité détermine µ∗

Dans le cas m = n = 2 la discussion est analogue mais il faut distinguer 4 cas :


[v1 < c1 v2 < c2 ] [v1 < c1 v2 = c2 ] [v1 = c1 v2 < c2 ] [v1 = c1 v2 = c2 ]

5. Maintenant, la fonction à minimiser est la distance de v au point a ; l'ensemble des


conditions :
vi = ai − µi i=1, ..., m vi = ai mboxi = m + 1, ..., n

µi ≥ 0 vi − ci ≤ 0 µi (vi − ci ) = 0 i=1, ..., m


Esquisse de solution 49

6. Le minimum est donc atteint en (vPa )i = vi∗ = min(ai , ci ) (vPa ) est la projection de a
sur K.

Fig. 2.11  Projection en 2 variables

7. (vPa )i − (vPb )i = min(ai , ci ) − min(bi , ci ) ce qui vaut suivant le cas ai − bi ou ci − bi


ou ai − ci . d'où l'on déduit facilement k (vPa ) − (vPb ) k≤k a − b k
Exercice 2 1. La situation est analogue au premier problème mais dans un espace de Hilbert ;
on utilise le théorème du chapitre Optimisation dans des espaces fonctionnels. La régu-
larité est banale à vérier ; comme l'espace est de Hilbert ; son dual est identié à lui
même, le multiplicateur est pris dans L2 (Ω).
Z
L(v, p) = J(v) + p(v − γ)

Les conditions d'optimalité :


Z Z
2
∀h ∈ L (Ω) (v − φ)h + ph = 0
Ω Ω

ce qui donne
v−φ+p=0

d'autre part : Z
v−φ≤0; p(v − γ) = 0 ; p ≥ 0

On a donc si φleqγ v = φ ; p = 0 et si φ > γ on a v = γ .
2. En discrétisant :
1X
Jh = ωi (vi − φi )2
2 i
et la contrainte vi ≤ γi c'est donc un problème du type projection considéré dans le
premier problème.
50 Minimisation avec contraintes

Fig. 2.12  La solution

Exercice 3 Dans le cas où la fonctionnelle est plus compliquée qu'une distance, il est en général
impossible de calculer explicitement la solution ; un algorithme possible est de projeter le
gradient ; cet algorithme ne peut etre utilisé que si l'on sait eectivement projeter ; on se
limite donc dans ce problème au cas simple v ≤ c.
1. Comme J est elliptique on a existence et unicité du minimum.
2. On a comme gradJ(v ∗ ) = 0

v k+1 − v ∗ = v k − ρgradJ(v k ) − v ∗ − gradJ(v ∗ )

en prenant le produit scalaire :

kv k+1 −v ∗ k2 = kv k −v ∗ k2 −2ρ(v k −v ∗ , gradJ(v k )−gradJ(v ∗ ))+ρ2 kgradJ(v k )−gradJ(v ∗ )k

d'où avec l'ellipticité et le caratère Lipschitz du gradient :

kv k+1 − v ∗ k ≤ (1 − 2ρα + ρ2 M )kv k − v ∗ k2

il est facile de trouver un intervalle pour ρ tel que l'on ait la majoration demandée.
3. Avec la solution de la question 6 du premier problème.
˜ = (vP k+1 ) = min(v k+1 , c )
vik+1 v i i i

Dessin facile.
4.

˜ − v˜∗ k = kvP k+1 ) − vP ˜∗ k ≤ kv˜k − ρgradJ(v˜k ) − v˜∗ − gradJ(v˜∗ )k


kv k+1 v v

la première égalité car v˜∗ , le minimum dans K est sa propre projection. On conclut avec
une majoration analogue à celle du gradient sans contrainte.
Esquisse de solution 51

Fig. 2.13  Un pas de gradient projeté


52 Minimisation avec contraintes

2.6 Examen : Eléments nis et optimisation


MIM juin 1998 (B. Rousselet)
Exercice 1 On considère la fonctionnelle

J: V −→ IR (2.19)
Z ` Z `
k 02
θ 7−→ θ ds − mθds (2.20)
0 2 0

1. Donner un espace de Hilbert dans lequel la minimisation de J est bien dénie. Existence
et unicité du minimum.
2. On considère la minimisation de J dans
Z `
K1 = {θ ∈ V / sinθ ds = 0} (2.21)
0

Ecrire puis justier une condition nécessaire d'optimalité du 1premier ordre.


3. On considère la minimisation de J dans
Z `
K2 = {θ ∈ V / −c≤ sinθ ds ≤ c} (2.22)
0

Ecrire puis justier une condition nécessaire d'optimalité du premier ordre.


4. Proposez une discrétisation de ce problème de minimisation : on ne demande pas de
détailler le calcul explicite des fonctionnelles approchées.
5. Proposer un algorithme pour résoudre le problème d'optimisation discrétisé ; proposez
un logiciel corespondant ?
6. Interprétation mécanique : exion d'une tige inextensible au repos le long de l'axe des
x
x0 (s) = cosθ y 0 (s) = sinθ

Donner une interprétation des contraintes K1 et K2 ainsi que du multiplicateur de


Lagrange.

Exercice2 On considère la fonction :

J : IR3 −→ IR (2.23)
k k2
(θ0 , θ1 , θ2 ) 7−→ (θ0 − θ1 )2 + (θ2 − θ1 )2 − m1 θ1 − m2 θ2 (2.24)
2 2
1. (a) Expliciter une condition nécessaire du premier ordre pour la minimisation de J ;
(b) etudier une condition susante du deuxième ordre.
(c) Que se passe-t-il si J ne dépend que de θ1 , θ2 ; (on fait θ0 = 0).
On fait cette hypothèse dans la suite

2. On minimise maintenant J : IR2 −→ IR avec la contrainte :

K1 = {(θ1 , θ2 ) ∈ IR2 /`(sinθ1 + sinθ2 ) = 0}


Examen : Eléments nis et optimisation 53

(a) Expliciter une condition nécessaire du premier ordre pour la minimisation de J ;


solution explicite.
(b) Etudier une condition susante du deuxième ordre.
(c) Interprétation mécanique du problème (en particulier K1 et le multiplicateur).
(d) On appelle θα le point où est atteint le minimum avec la contrainte perturbée :

K1,α = {(θ1 , θ2 ) ∈ IR2 /`(sinθ1 + sinθ2 ) = α}

Calculer la dérivée de α 7−→ J(θα ).


3. On minimise maintenant J : IR2 −→ IR avec la contrainte :

K2 = {(θ1 , θ2 ) ∈ IR2 / − c ≤ `(sinθ1 + sinθ2 ) ≤ c}

(a) Expliciter une condition nécessaire du premier ordre pour la minimisation de J ;


discussion et solution explicite pour θ1 , θ2 , c petits.
(b) Etudier une condition susante du deuxième ordre.
(c) Interprétation mécanique du problème (en particulier K2 et le multiplicateur).
(d) On appelle θα le point où est atteint le minimum avec la contrainte perturbée :

K2,α = {(θ1 , θ2 ) ∈ IR2 / − c + α ≤ `(sinθ1 + sinθ2 ) ≤ c + α}

Calculer la dérivée de α 7−→ J(θα ).


54 Minimisation avec contraintes

2.7 Une présentation de la programmation quadratique sé-


quentielle

2.7.1 Introduction, l'algorithme de Newton sans contraintes


L'idée de cette famille de méthodes est d'utiliser un algorithme du type Newton pour résoudre les
conditions d'optimalité

∂L


 (x, λ) = 0
 ∂x

 ∂ L (x, λ) = 0



∂λ
où L est un Lagrangien associé au problème.
En fait cela revient plutôt à minimiser successivement les approximations quadratiques du Lagran-
gien.
Voyons d'abord cela sans contraintes pour une fonction J : IRn −→ IR ; la formule Taylor fournit :
1
J(xk + δ) = J(xk ) + J 0 (xk ) δ + J 00 (xk )(δ, δ) + o(kδk2 )
2
on considère alors la minimisation de
1
q(δ) = J(xk ) + J 0 (xk ) δ + J 00 (xk )(δ, δ)
2
Cette fonction admet un unique minimum dès que J 00 (xk ) est déni positif et c'est la solution de
J 00 (xk ) δ = −J 0 (xk ) on pose ensuite xk+1 = xk + δ et l'on itère le processus.
Si l'on pose g(xk ) = J 0 (xk ) cela donne g 0 (xk ) δ = −g(xk ) et l'on reconnaiit la méthode de Newton-
Raphson pour résoudre g(x) = 0 ; cette dernière équation n'est autre que la condition nécessaire
d'optimalité pour la minimisation de J (susante si J 00 (x) est déni positif).
Voici un résultat simple sur la convergence de la méthode de Newton

Proposition 2.1 Soit g = t J 0 (x) si g0 (x) = J 00 (x) est dénie positive (dans un voisinage du
minimum x∗ ) :
∃ α > 0 αkhk2 ≤ t h g 0 (x) h ;

si g0 est lipschitzienne (au voisinage de x∗ ) :

∃ M > 0 kg 0 (x) − g 0 (y)k ≤ M kx − yk

alors la méthode de Newton converge quadratiquement :


M k
kxk+1 − x∗ k ≤ kx − x∗ k2
α

Démonstration
L'itération g 0 (xk ) δ k = −g(xk ) peut s'écrire avec hk = xk − x∗
δ k = xk+1 − xk = hk+1 − hk
Une présentation de la programmation quadratique séquentielle 55

g 0 (xk ) hk+1 = g 0 (xk ) hk − g(xk ) or la formule de Taylor fournit :


g(xk ) = g(x∗ ) + g 0 (x∗ ) hk + o(hk ) comme au minimum g(x∗ ) = 0 on obtient
g 0 (xk ) hk+1 = (g 0 (xk ) − g 0 (x∗ ))hk + o(hk )

d'où avec l'uniforme ellipticité de g 0 (x) au voisinage de x∗ :

α khk+1 k2 ≤ t
hk+1 g 0 (xk ) − g 0 (x∗ ) hk


puis comme g 0 est lipschitzien : α khk+1 k2 ≤ M khk k2 khk+1 k


ou bien
α khk+1 k ≤ M khk k2

ce qui montre que hk → 0 et que la convergence est quadratique.

2.7.2 Programmation quadratique séquentielle


Soit la minimisation de J : IRn −→ IR avec les contraintes d'égalité

c(x) = 0 avec c : IRn → IRm .

Le lagrangien associé : L(x, λ) = J(x) + t λ c(x) ; dévellopons à l'ordre 2 au voisinage de (xk , λk )


avec la notation :
Lk = L(xk , λk ) , F k = F(xk ) g k = t J 0 (xk )

∂ Lk 1 ∂ 2 Lk ∂ Fk
L(xk + δ, λk + µ) = Lk + δ + tµ F k + 2
(δ, δ) + t µ δ + o(|µ| + |δ|)2
∂x 2 ∂x ∂x

∂ Fk 1 ∂ 2 Lk t ∂F
k
= J k + t λk F k + t g k δ + t λk δ+ (δ, δ) + t
µF k
+ µ δ + o(|µ| + |δ|)2 .
∂x 2 ∂ x2 ∂x
Ou :
1 ∂ 2 Lk ∂ Fk
 
L(xk + δ, λk + µ) = J k + t g k δ + (δ, δ) + t k
(λ + µ) F k
+ δ + o(|µ| + |δ|)2
2 ∂ x2 ∂x

En posant λk+1 = λk + µ, on constate donc que la partie quadratique de ce developpement est


constituée de deux termes :
1 ∂ 2 Lk ∂ Fk
 
q k (δ) = J k + t g k δ + (δ, δ) et de t k+1 t k
λ ` (δ) = λt k+1 k
F + δ
2 ∂ x2 ∂x

La minimisation de  q k avec
 la contrainte ` (δ) = 0 a pour C.N.O. :
k
2 k k
t k 1∂ L ∂c
g + δ + tν = 0
2 ∂ x2 ∂x
2 k
∂ L ∂L k
Comme 2
δ est proche de (x + δ, λk ) ceci est une C.N.O. approchée de notre problème
∂x ∂x
initial
56 Minimisation avec contraintes

D'où l'algorithme : Soit x1 , λ1 approximation initiale de (x∗ , λ∗ ),

Faire pour k de 2 à k max



Minimiser q (k) (δ) avec `k (δ) = 0 ; soit
δ k qui réalise le minimum



λk+1 est le multiplicateur de Lagrange associé




xk+1 = xk + δ k
Vérier un critère d'arrêt (par exple C.N.O.)


n faire

Extension à des contraintes d'inégalités F(x) ≤ 0 ; on utilise le même algorithme en remplaçant


`k (δ) = 0 par `k (δ) ≤ 0.

Commentaires :
1) Pour résoudre la minimisation du problème quadratique on peut utiliser l'algorithme du §2.3.1.
pour les contraintes d'égalité ou du §2.3.2. pour les contraintes d'inégalité.
On peut démontrer que si l'on part assez près du minimum, l'algorithme converge quadratiquement,
la situation est donc analogue à celle de Newton. Du reste Fletcher [?] (1981) l'appelle méthode
de Lagrange-Newton.
2) Les mises en oeuvre de cet algorithme utilisent souvent une méthode de quasi-Newton au lieu
d'une méthode de Newton pour construire le problème quadratique approché ; c'est le cas dans le
programme VF13 de Harwell HSL12.

2.7.3 Devoir : convergence de l'algorithme


1 2
Exercice 2.18 : Minimum avec y − x2 − 1 = 0.
(x + y 2 )
2
1) Ecrire la C.N.O. ; résoudre et interpreter graphiquement.
2) En partant d'un point (x1 , y1 , λ1 ) proche de (x∗ , y∗ , λ∗ ) calculer (x2 , y2 , λ2 ) avec l'algorithme ci-
dessus et montrer que cette nouvelle solution donne une amélioration quadratique !

Exercice 2.19 Si (d'après Fletcher (1981)) la condition susante d'optimalité


"
du deuxième
#
ordre
HL∗ G∗
est satisfaite en un point x∗ régulier pour les contraintes alors la matrice est inversible
G∗ 0 t

au voisinage de x∗ , avec les notations HL∗ matrice hessienne du Lagrangien L(x, λ) = J(x) + t λ F(x) ;
à noter cette matrice intervient dans l'algorithme de programmation quadratique séquentielle (voir
Ÿ2.4.2. et l'exercice 2.20 ).

Solution : La C.S.O. du 2nd ordre utilise l'ensemble


G∗2 = y ∈ IRn / t Gi∗ y = 0 t
Gi∗ y ≤ 0

i ∈ S − S0 , i ∈ S0
Une présentation de la programmation quadratique séquentielle 57

où S désigne les indices des contraintes saturées en x∗ et S0 les indices de S pour lesquels le mul-
tiplicateur est nul ; la C.S.O. du 2nd ordre :
∀y ∈ G∗r − {0} t
y HL∗ y > 0
" #
HL∗ G∗
On va montrer que le noyau de la matrice est réduit à zéro, ce qui assurera l'inver-
t
G∗ 0
sibilité ;
soit (y, µ) solution de
(
HL∗ y + G ∗ µ = 0
t
G∗ y =0

La deuxième équation signie t Gi∗ y = 0 pour toutes les contraintes, donc y ∈ G∗2 ; d'autre part en
multipliant la première équation on a :
t
y HL∗ y + t y G ∗ µ = 0 et avec la
C.S.O. y G µ < 0
t ∗
pour y ∈ G∗r − {0}

Comme t G ∗ y = 0 cela est impossible et entraîne que y = 0 ; nalement dans la première équation
il reste G ∗ µ = 0 ; la condition de régularité entraîne que µ = 0.

Exercice 2.20 Examen éléments nis et Optimisation ; Maîtrise M.I.M 1996/97- Partiel d'opti-
misation (avril 97)

On considère la minimisation de J0 : IRp −→ IR avec les contraintes d'égalité Fi (x) = 0 ,


Fi : IRp −→ IR; i = 1, ..., m
 
F1
(On pose .. 
) et le cas particulier où p = 2 ( C. P.),
. 

F =

Fm
1
J0 (x) = t xAx avec la contrainte x2 − x21 − 1 = 0.
2
1) Rappeler la C.N.O. du 1er ordre ; C. P. : expliciter.
2) Rappeler la C.S.O. du 2ème ordre ; C. P. : expliciter.
t t
∂J0 ∂F
−→ Utiliser les notations : g0 = G= ,
∂x ∂x

∂ 2 J0
H0 matrice Hessienne de J0 : t yH0 z = [y, z]
∂x2
∂ 2 Fi
H Hessien de F : Hijl = ; HL matrice Hessienne du Lagrangien ;
∂xj ∂x`

t
avec Hi matrice Hessienne de Fi ;
P
λH = λi Hi

g0∗ désigne g0 calculé en x∗ ,


58 Minimisation avec contraintes

g0k désigne g0 calculé en xk , etc ..

3) Rappeler l'algorithme de programmation quadratique séquentiel ; C. P. : expliciter.

4) En développant à l'odre 1, au voisinage de x∗ avec xk = x∗ + hk , λk = λ ∗ + α k : gk , G k , F k ,


montrer que la C.N.O. du 1er ordre peut s'écrire :
(
g0k + G k λ∗ − HLk hk + t αk Hk hk = O(khk k2 )
t
G hk = O(khk k2 )
C. P. : préciser la formule et la retrouver directement.

5) En déduire que l'algorithme de programmation quadratique séquentiel peut s'écrire :



k k+1
 HL h

 + G k αk+1 = − t αk Hk hk + O(khk k2 )


 t G k hk+1

= O(khk k2 )

C. P. : expliciter.

6) Avec quelles hypothèses peut - on en déduire :


max khk+1 k , kαk+1 k ≤ c khk k max khk k , kαk k
 

7) Convergence de l'algorithme ; nature de la convergence.

Solution
1) Le Lagrangien du problème est :

L(x, λ) = J0 + t F avec λ ∈ IRm

et dans le C.P.

1t
L(x, λ) = x A x + λ (x2 − x21 − 1) avec λ ∈ IR
2

La C.N.O. du 1er ordre s'écrit :

∂L


 =0
 ∂x
(
g0∗ + G ∗ λ∗

=0
soit ∗
F =0
 ∂L



=0
∂λ  !

 A x∗ + λ∗ −2x∗1
=0

et dans le C.P. : 1

 x∗ − x∗ 2 − 1

=0
2 1
Une présentation de la programmation quadratique séquentielle 59

2) Comme il s'agit d'un problème de minimisation avec contraintes d'égalité, l'ensemble G∗2 utile
pour la C.S.O. est simplement (voir Ÿ 2.3.1.)
p ∈ IRn , t Gi∗ p = 0


et la C.S.O. est :
∀p ∈ G∗2 − {0} t
p HL p > 0
où HL est la matrice hessienne du Lagrangien :

X
HL = H0 + t λ H = H0 + λi H i

avec les notations de l'énoncé.

!
−2 0
C.P. HL = A + λ G∗2 = {p, −2x∗1 p1 + p2 = 0}
0 0
et la C.S.O. est :
∀p ∈ G∗2 − {0} t
p A p − 2λ p21 > 0

3) L'algorithme de programmation quadratique séquentielle (voir Ÿ 2.4.2.) peut s'écrire :


Minimiser q k (δ) avec la contrainte `k (δ) = 0
λk+1 est le multiplicateur de Lagrange associé au problème quadratique et
xk+1 = xk + δ k avec δ k minimum du problème quadratique.
Nous écrivons les conditions d'optimalité du problème quadratique où (voir Ÿ2.4.2.)
q k (δ) = J k + t g0k δ + t δ HLk δ
`k (δ) = F k + t G k δ

Le Lagrangien associé est


Lk (δ, ν) = q k (δ) + t ν `k (δ) et la

C.N.O. s'écrit 
∂Lk
=0



 ∂δ
(
g0k + HLk δ + G k ν

=0
ou k t k
 k F + G δ =0
 ∂L


=0

∂ν
la solution (δ, ν) de ce système
(
HLk δ + G k ν = −g0k
t
Gk δ = Fk
est notée (δ k , λk+1 ) et xk+1 = xk + δ k est utilisé pour dénir le problème quadratique approché à
l'itération (k + 1) ; dans le C.P. le système est :
 ! !
k
k
−2 0 −2x 1
= − Axk

 Aδ + λ δ + v



0 0 1




(−2xk1 1) δ k − (xk2 − (xk1 )2 − 1)

=
60 Minimisation avec contraintes

4) Développons à l'ordre 1 avec x∗ = xk − hk

t ∗ t k
g0 = g0 − t hk H0k + O(|hk |2 )

t
G∗ = t
G k − t hk Hk + O(|hk |2 )

F ∗ = F k − t G k hk + O(|hk |2 )

et la C.N.O. du 1er ordre


(
g0∗ + G ∗ λ∗ = 0
s'écrit avec λ∗ = λk − α k
F∗ =0

k k k k ∗ t k k k k
 g0 − H0 h + G λ − (λ − α ) H h

 = O(|hk |2 )


t
G k hk = −F k + O(|hk |2 )

La première équation peut se transformer en remarquant que

HL = H0 + t λ H et la deuxième avec F∗ = 0

k k ∗ k k t k k k
 g0 + G λ − HL h + α H h

 = O(|hk |2 )


t
G k hk −F k + O(|hk |2 ) .

 =

Pour le C.P. :
 ! " ! # " #
k −2xk1 ∗ k k −2 0 t k −2 0
hk = O(|hk |2 )

 +A x +


 λ − Ah + λ δ + α
1 0 0 0 0




(−2xk1 1) hk −(xk2 − (xk1 )2 − 1) + O(|hk |2 )

=

5) Reprenons les itérations et utilisons le développement de la C.N.O. obtenu à la question précé-


dente en notant que δ k = xk+1 − xk = hk+1 − hk et λk+1 = λ∗ + αk+1

La première relation
HLk δ k + G k λk+1 = −g0k s'écrit

HLk (h k+1 k
− h ) + G (λ + αk k+1
) + g0k = 0

et avec la C.N.O. développée

HLk hk+1 + G k αk = −t αk Hk hk + O(|hk |2 )

La deuxième relation
t k k
G δ = −F k s'écrit

t
G k hk+1 = t G k hk − F k = O(|hk |2 )
Une présentation de la programmation quadratique séquentielle 61

la deuxième égalité vient de la C.N.O. développée ; nous avons bien obtenu



k k+1
 HL h

 + G k αk+1 = − t αk Hk hk + O(|hk |2 )


t
G k hk+1 = O(|hk |2 )

Et pour le C.P. :
 ! ! !
k+1 −2 0 −2xk1 −2 0
+ λk hk+1 + αk+1 = t αk hk + O(|hk |2 )

 Ah



0 0 1 0 0




(−2xk1 1) hk+1 = + O(|hk |2 )

6) Le but des développements de la question précédente est d'obtenir une estimation de (hk+1 , αk+1 )
à partir de (hk , αk ) comme c'est habituel dans l'analyse de la convergence d'un algorithme.
Insistons d'abord sur la méthode car la plupart des étuduants font le raisonnement suivant qui est
faux !
Pour déduire de Bx = f une majoration de x, les étudiants essayent curieusement de majorer kBk
1
par une constante c et en déduisent idiotement que kxk ≤ kf k !
c

Il y a deux erreurs : d'abord en dimension nie kBk est toujours majorée par une constante et
ensuite cela permet d'écrire kf k ≤ kBk kxk et donc on peut seulement minorer kxk.
Le bon raisonnement consiste simplement à écrire x = B −1 f d'où :
kxk ≤ kB −1 k kf k ; il convient donc de majorer kB −1 k ou encore de savoir que B est inversible,
uniformément si il dépend de paramètres comme c'est le cas ici.

On va utiliser cette démarche avec


 
HLk Gk " # " #
  hk+1 −t αk Hk hk + O(|hk |2 )
B=  x= f=

t
 αk+1 O(|hk |2 )
Gk 0

L'uniforme inversibilité de B au voisinage de (x∗ , λ∗ ) fait l'objet de l'exercice 2.19 ; en prenant


comme norme max(khk; kαk) on a donc :

max(khk+1 k, kαk+1 k) ≤ c max(kαk k khk k , khk k2 )

7) Pour en déduire la convergence de l'algorithme, posons ek = max(khk k, kαk k) ; l'estimation


ci-dessus s'écrit :
ek+1 ≤ c khk k ek ≤ c (ek )2
62 Minimisation avec contraintes

ce qui donnera la convergence quadratique de l'algorithme dès que l'on saura que lim ek = 0 ;
k→+∞
pour cela on va montrer que c ek ≤ β < 1 ce qui donnera

ek+1 ≤ β ek et la convergence vers zéro de ek .


Pour cela nous raisonnons par récurrence en montrant d'abord c e2 ≤ β < 1 ; pour cela, nous dis-
tingons deux cas :
1er cas : Si kh1 k ≤ |α1 | alors

β β
e2 ≤ ckh1 ke1 ≤ β < 1 dès que kh1 k ≤ 1
=
ce ckα1 k

donc dans ce cas on prendra :

β
kh1 k ≤ kα1 k et kh1 k ≤
ckα1 k
(si kα1 k grand on doit prendre kh1 k petit)

2ème cas : si kα1 k ≤ kh1 k alors


e2 ≤ ckh1 k e1 = c kh1 k2 ≤ β c
β
dès que kh1 k2 ≤
c

dans ce cas on prendra r


1 1 β
kα k ≤ kh k ≤
c
La récurrence est ensuite aisée :
hypothèse de récurrence c ek ≤ β < 1
on a ek+1 ≤ c (ek )2 ≤ β ek

et d'autre part c ek+1 ≤ c β ek ≤ β 2 < β


d'où c ek+1 ≤ β < 1 ce qui achève la récurrence et la solution du problème.
Chapitre 3

Exemples d'optimisation d'origine


mécanique

Nous donnons dans ce chapitre des exemples de problèmes d'optimisation d'origine mécanique avec
ou sans contraintes. La discussion des conditions aux limites se fait avec des arguments mécaniques ;
à titre d'exercice on justiera tout ça avec les conditions d'optimalité du chapitre 3

3.1 Introduction ; exemple sans contraintes

Dans ce chapitre on décrit un exemple très simple issu de la mécanique des structures : il s'agit
d'un assemblage de barres munies de rotules avec ressort de rappel. Nous considérons le cas de
petites rotations qui donne lieu à la minimisation d'une énergie potentielle totale sans contraintes
si le mouvement de rotation des barres ne peut rencontrer aucun obstacle ; en présence d'obstacles
(liaisons unilatérales) l'équilibre des barres s'obtient par minimisation de l'énergie potentielle avec
les contraites sur les déplacements. La position d'équilibre peut donc être obtenue avec un algo-
rithme de programmation quadratique Ÿ2.3.2 ; ceci peut être réalisé avec un autre algorithme, le
programme V E17 dû à Powell et qui se trouve dans la bibliothèque HSL12 de HARWELL.

Le cas à un ressort
- équilibre des forces : ici équilibre des moments en O où est située une rotule sans frottements :

Fig. 3.1  Equilibre des forces.


64 Exemples d'optimisation d'origine mécanique

M0 = F `
- loi du ressort : M0 = k θ (relation contraintes-déformations en élasticité linéaire).
- d'où l'équation : k θ = F `
En fait, on a écrit l'équilibre des moments sur la conguration au repos : approximation correcte,
seulement pour θ petit : en fait le moment en O de la force appliquée est M0 = F ` cos θ et
l'équation est alors :

k θ = F ` cos θ (équation exacte)

L'approximation ci-dessus est correcte si θ2 est négligeable devant 1.

Dans les deux cas :


1 2
- énergie élastique : w(θ) = kθ
2 (
cas approché : F ` θ
- travail des forces extérieures :
cas exact : F ` sin θ
- énergie potentielle totale :
1
Π = k θ2 − F ` sin θ exact
2
1
Π ' k θ2 − F ` θ approché
2

Principe de stationarité de l'énergie potentielle totale : (valable seulement en élasticité).


L'équilibre a lieu en θ qui annule Π0 (θ) : Π0 (θ) = 0 redonne les équations obtenues par équilibre
des forces ; l'équilibre est stable quand c'est un minimum de Π (voir par exemple Bamberger [?]
(1981), Corradi [?]).
Remarque dans le cas exacte Π00 = k + F ` sin θ

Exercice 3.1 Vérier la stabilité de l'équilibre (Π00 > 0 à l'équilibre).

Cas à deux ressorts (petits déplacements)


Le deuxième ressort tourne de θ2 − θ1 par rapport au premier. Nous étudions toujours l'équilibre
avec l'énergie potentielle totale (Cf par exemple Bamberger [?] (1981)).
Introduction ; exemple sans contraintes 65

- énergie de déformation élastique.


1 1
w(θ1 , θ2 ) = k1 θ12 + k2 (θ2 − θ1 )2
2 2

- travail des forces extérieures (cas approché : θi2 << 1) :


T = F1 `1 θ1 + F2 (`2 θ2 + `1 θ1 )

- énergie potentielle totale :


Π=w−T

- Equilibre :


∂ Π1

 = k1 θ1 − k2 (θ2 − θ1 ) − F1 `1 − F2 `1
 ∂ θ1

∂ Π2


+ k2 (θ2 − θ1 ) − F2 `2


 =
∂ θ2

- Stabilité :

∂2 Π
= k1 + k2
∂ θ12

∂2 Π ∂2 Π
= − k2 = k2
∂ θ1 ∂ θ2 ∂ θ22
 
k1 + k2 − k2
le Hessien est donc
 
H = 



−k2 k2

dénie positive : si et seulement si tous les mineurs principaux sont ≥ 0


k1 + k2 > 0
det H = (k1 + k2 )k2 − k22 = k1 k2 > 0
66 Exemples d'optimisation d'origine mécanique

réalisé par exemple quand k1 > 0, k2 > 0 ce qui est naturel : ressorts de rappel.

3.2 Exemples avec contraintes

3.2.1 Cas d'une liaison (avec deux ressorts) bilatérale

Fig. 3.2  Une liaison bilatérale ; schématisation d'un rail

On suppose que l'extrémité se déplace sans frottement sur une droite ; (x0 , y0 ) position de l'extré-
mité au repos, (x, y) position après chargement ; équation de la droite :

ax + by +c = 0
d'autre part puisque l'extrémité (x0 , y0 ) se trouve sur la droite D
a x0 + b y0 + c = 0
le déplacement de l'extrémité est relié au déplacement

u1 + u2 = x − x0
v1 + v2 = y − y0

et vérie : a (u1 + u2 ) + b (v1 + v2 ) = 0

Le principe de stationarité s'applique aux systèmes avec liaisons :


la position d'équilibre annule la dérivée du Lagrangien :

L(u, v, λ) = Π(u, v) + λ (a(u1 + u2 ) + b(v1 + v2 ))

pour l'utiliser, il faut tout exprimer à l'aide des mêmes variables ; on peut exprimer l'angle à partir
du déplacement :

vi = `i sin θi ' `i θi
Exemples avec contraintes 67

θi
v
i

vi
θi ' (θi2 négligé devant 1)
`i
Le Lagrangien s'écrit :
 2  2
1 v1 1 v2 v1
L(u1 , u2 , v1 , v2 ; λ) = k1 + k2 − − F1 v1 − F2 (v1 + v2 )
2 `1 2 `2 `1
− G1 u1 − G2 (u1 + u2 ) + λ (a (u1 + u2 ) + b (v1 + v2 ))

∂Π ∂Π
Equilibre : =0 =0
∂ui ∂vi
∂L
= −G1 − G2 + λ a
∂u1
∂L
= −G2 + λ a
∂u2
 
∂L k1 k2 v2 v1
= 2 v1 − − − F1 − F2 + λ b = 0
∂v1 `1 `1 `2 `1
 
∂L k2 v2 v1
= − − − F2 + λ b = 0
∂v2 `2 `2 `1

les deux premières conditions nous donnent G1 = 0 et G2 = λ a ; ceci est particulier : avec notre
approximation, l'énergie potentielle ne contient pas u1 , il est donc normal que l'on ne puisse pas
prendre en compte une force horizontale1 .

Pour simplier on supposera G2 = 0 et a = 0 alors la liaison se réduit à : v1 + v2 = 0 ;

Analyse aux dimensions : b (v1 + v2 ) = 0


k2 v1
vi est une longueur, b sans dimension, Fi est une force, aussi ; λ a donc la dimension d'une
`1 `2
force !
c'est la force de réaction exercée par le support pour que l'extrémité reste sur le support.

Autre situation : supposons qu'une rotule est bloquée par exemple θ2 − θ1 = 0 on peut bien sûr
1 ce cas n'est pas considéré dans le cours sur les C.N.O.
68 Exemples d'optimisation d'origine mécanique
1
voir directement que w = k1 θ12 ; retrouvons le avec un multiplicateur
2
 
v2 v1
L = W − T + λ −
`2 `1

Equilibre
 
∂L k1 k2 v2 v1 λ
= 2 v1 − − − F1 − F2 −
∂v1 `1 `1 `2 `1 `1
 
∂L k2 v2 v1 λ
= − − − F2 +
∂v2 `2 `2 `1 `2

v2 v1
− = 0 fournit :
`2 `1

k1 λ


 2 v1 − F1 − F2 − = 0
 `1 `1



 λ
 −F2 +
 = 0
`2
λ = F2 `2 est le produit d'une force par une distance, c'est un moment, le moment qui permet le
blocage de la rotule.

3.2.2 Liaisons Unilatérales

Exemple 0 Une rotule à blocage

1 2
Π(θ) = kθ − F lsinθ avec θ ≤ θ
2

Le Lagrangien :
L(θ, λ) = Π(θ) + λ(θ − θ)

es conditions d'optimalité :

kθ − F lcosθ + l = 0 (3.1)
λ(θ − θ) = 0 ; λ ≥ 0 ;θ − θ ≤ 0 (3.2)

cas 1 : λ = 0 alors kθ − F lcosθ = 0 ; il y a une solution dans [0, π2 ] mais elle ne convient que si
θ − θ ≤ 0 ; quand on approche le cosinus par 1, ca donne Fl
k ≤ θ.

cas 2 : θ − θ = 0 dans ce cas θ est connu mais cela n'est possible que si λ ≥ 0 on doit donc avoir :
kθ − F lcosθ ≤ 0 ; dans le cas contraire, cela voudrait dire que le blocage agit dans le même
sens que la force ce qui ne corespond pas aux conditions de l'expérience ; noter que λ est
l'opposé de la réaction !
Exemples avec contraintes 69

Exemple 1 Les rotules n'autorisent pas une trop grande rotation :


v1
θ1 ≤ θ̄1 ou ≤ θ̄1
`1
v2 v1
θ2 − θ1 ≤ θ̄21 ou − ≤ θ̄21
`2 `1

θ1

θ 21

   
v1 v2 v1
L(v, λ) = W − T + λ1 − θ̄1 + λ2 − − θ̄21
`1 `2 `1
 
∂L k1 k2 v2 v1 λ1 λ2


 = 2 v1 − − − F1 − F2 + −
 ∂v1 `1 `1 `2 `1 `1 `2

  

 ∂L k2 v2 v1 λ2

 = − − − F2 +
∂v `2 `2 `1 `2
 v21
 − − θ1 ≤ 0
`1
v2 v1
 − − θ̄21 ≤ 0
`2 `1
v1
- si les inégalités sont saturées c'est à dire si − θ1 = 0 et si
`1
v2 v1
− − θ̄21 = 0,
`2 `1
les équations d'équilibre donnent λ1 et λ2 (moments qui autorisent le blocage)

λ2 = F2 `2 − k2 θ̄21

pour θ̄21 petit,λ2 a le même signe que F2 `2 ;


λ2 + k2 θ̄21 = F2 `2 : le blocage et le ressort équilibrent F2 `2 .

- si θ̄21 est plus grand on peut avoir


λ2 = F2 `2 − k2 θ̄21 < 0
dans ce cas λ2 < 0, et F2 `2 = λ2 + θ̄21 < λ2
le blocage s'oppose à l'action du ressort ; mécaniquement idiot ; on est donc amené à considérer
que λi > 0  v1
 − θ1 < 0
D'autre part quand `1
 2 − v1 < θ̄21
v
`2 `1
70 Exemples d'optimisation d'origine mécanique

les blocages ne sont pas actifs, mécaniquement on est amené à considérer λ1 = 0 et λ2 = 0 ; si une
liaison est saturée le multiplicateur est positif ; si une liaison n'est pas saturée, ce multiplicateur
est nul.

Exercice 3.2 1. retrouver cela en utilisant la C.N.O. du Ÿ2.3.1


2. si nécessaire reprendre et discuter le même problème avec une seule barre avec θ ≤ θ̄.

Exemple
X
2 un obstacle empêche chaque rotule de trop descendre
vj ≤ v̄i
j≤i
L(v, λ) = W − T + λ1 (v1 − v̄1 ) + λ2 (v1 + v2 − v̄2 )
  
∂L k1 k2 v2 v1
= v − − − F1 − F2 + λ1 + λ2

1

∂v1 `21 `1 `2 `1


∂L k2 v2 v1
= − − − F2 + λ2


∂v2 `2 `2 `

(1  
v1 = v̄1 k2 v̄2 v̄1
si les inégalités sont saturées − − + λ2 = F2
v1 + v2 = v̄2 `1 `2 `1
 
k2 v2 v1
si − − + λ2 < F2 on a λ2 < 0
`1 `2 `1

les ressorts et l'obstacle n'agissent pas dans le même sens : contact idiot ; au contraire si v1 < v̄1
pas de contact pas de réaction d'où λ1 = 0.

v
1
v
2
Analyse en grands déplacements 71

Cas d'un grand nombre de ressorts

F2 F3 F F6 F7
F1 4 F5
k2 k5 k6 k7
k1 k3 k4

θ1
v1
θ2

θ3
v2

θ
4

θ
5

θ6

θ
7

nr
1 1X vi
W= k1 θ12 + ki (θi − θi−1 ) n r = nombre de ressorts ; θi =
2 2 i=2 `i

 
X X
T = Fi  vj  = F1 v1 + F2 (v1 + v2 ) + . . . + F7 (v1 + · · · + v7 )
i j≤i

= (F1 + · · · + F7 )v1 + (F2 + · · · + F7 )v2 + · · · + F7 v7

v1
Liaison : θi+1 − θi ≤ θ̄i+1,i ≤ θ̄1
`1
vi+1 vi X
− ≤ θ̄i+1,i vj ≤ v̄i
`i+1 `i
j≤i

Exercice 3.3 1) écrire matriciellement avec les variables vi (ou bien θi ) l'énergie potentielle et
les contraintes.
2) Calculer la position d'équilibre avec le sous-programme Ve17ad de la bibliothèque Harwell HSL
12.

3.3 Analyse en grands déplacements


On étudie le cas de grands déplacements : on n'approche plus sinθ par θ et en présence d'obstacles.
Pour prendre en compte les contraintes en déplacements (liaison unilatérale avec un obstacle) nous
72 Exemples d'optimisation d'origine mécanique

exprimons l'énergie potentielle en déplacement en posant


vi
θi = Arc sin
`i
mais dans ce cas il faut imposer comme contraintes l'inextensibilité des barres.
On considère le même problème mécanique que précédement.

Exercice 3.4 1) Ecrire des sous-programmes qui calculent l'énergie potentielle totale et son gra-
dient, les contraintes et leur gradient ;
2) utiliser le sous-programme Ve13ad de la bibliothèque Harwell HSL 12 pour trouver la position
d'équilibre.
Chapitre 4

Optimisation dans des espaces


fonctionnels

4.1 Introduction
Ce chapitre considère des situations où le problème n'est pas naturellement posé dans Rn .
 Le cas sans contrainte est très classique : minimisation de l'énergie potentielle en élasticité,
principe de Hamilton en dynamique.
 Le cas avec une contrainte s'intitule classiquement, problème isopérimétrique ; voici un exemple :
Rb Rbp
Minimiser J(φ) = a φdx avec a 1 + φ02 dx − l = 0 avec φ(a) = 0 = φ(b) nous avons ici une
contrainte dénie à l'aide d'une intégrale.
 Nous pouvons avoir aussi une "innité" de contraintes comme en automatique (ou controle
optimal). Voici une situation classique dite linéaire-quadratique : minimiser
Z tf
t 1
J(x, u) = x(tf )Sx(tf )/2 + [t xCx +t uQu]dx
2 t0

avec les contraintes


ẋ = Ax(t) + Bu(t) t ∈ [t0 , tf ] x(t0 ) = x0

4.2 Automatique
Nous détaillons l'exemple ci-dessus.

Exercice 4.1 1. Approcher le problème ci-dessus avec une formule d'intégration numérique
pour la fonctionnelle et l'équation diérentielle (le plus simple est les trapèzes et Euler expli-
cite).
74 Optimisation dans des espaces fonctionnels

2. Ecrire un Lagrangien pour le problème discrétisé.


3. Ecrire les conditions d'optimalité.
4. Essayer de les résoudre (on pourra y revenir après l'etude du cas continu).

Dans l'exemple ci-dessus vous avez pris soin de prendre un multiplicateur associé à chaque noeud de
discrétisation ; pour le cas continu, le multiplicateur devient une fonction p (et même une mesure
µ comme nous verrons plus loin). Le Lagrangien s'écrit donc à l'aide d'une intégrale (ou plus
géneralement à l'aide d'un crochet de dualité).
Z tf
L(x, u, p) = J(x, u) + [t p(ẋ − Ax(t) − Bu(t))]dt (4.1)
t0

La premiére condition d'optimalité :


∂L
∀v v=0 (4.2)
∂u
donne :
Qu +t Bp = 0 (4.3)

d'autre part :
∂L
∀y y=0 (4.4)
∂x
fournit : Z tf Z tf
t
y(tf )Sx(tf ) + [t yCx]dt + [t p(ẏ − Ay)]dt (4.5)
t0 t0

Par intégration par parties, nous trouvons :

− ṗ −t Ap + Cx = 0 t ∈ [t0 , tf ] (4.6)

avec
t
p(tf ) + Sx(tf ) = 0 (4.7)

Cette équation est dite adjointe ; si x était connu, ce serait une équation analogue à l'équation d'état
mais avec une matrice transposée et une condition initiale en tf ; c'est un problème rétrograde ; la
solution est dite état adjoint.

Exercice 4.2 Approcher les conditions d'optimalité avec Euler et la formule des trapèzes et com-
parer. (Vous pouvez trouver de petites variantes)

4.3 Deux théorèmes

Voici deux théorèmes qui permettent d'écrire des conditions d'optimalité locales pour des problèmes
d'optimisation posés dans des espaces de Banach ; on pourra trouver des démonstrations dans [?].
Deux théorèmes 75

4.3.1 Contraintes d'égalité


Dénition 4.1 Soient X et Z deux espaces de Banach et E une application continuement Fréchet
dérivable : E : X → Z et K = {x; E(x) = 0} ; x0 est dit un point régulier de K si et seulement
si l'application linéaire E 0 (x0 ) : X → Z est surjective.

Théorème 4.1 Soit J : X → IR, continuement Fréchet dérivable ; si x∗ réalise un minimum local
de J dans K et est un point régulier de K, alors il existe z∗0 ∈ Z 0 tel que le lagangien
L(x, z 0 ) = J(x)+ < z 0 , E(x) > (4.8)

vérie :
∂L
∀h ∈ X (x∗ , z∗0 )h = 0 (4.9)
∂x
et ∂L
∂z∗0 =0 (ce qui redonne la contrainte).

La démonstration peut se faire en utilisant un théorème de la fonction inverse généralisée dû à


Liusternik.

Ce théorème permet de justier l'écriture de conditions d'optimalité pour des problèmes de type
isopérimétrique ou d'automatique avec des contraintes d'égalités.

Exercice 4.3 1. On considère la fonctionnelle


Z b
1
[y 02 − f y]dx; (4.10)
2 a

minimiser avec y(a) = α y(b) = β ; introduire des espaces adéquat et écrire des conditions
d'optimalité.
2. Interpréter les multiplicateurs de Lagrange ; cas particulier α = 0 = β .
3. Considérer la même fonctionnelle avec les contraintes y(a) = α y(b) = β y(x0 ) = y0 avec
a < x0 < b
4. Extension en plusieurs variables.

4.3.2 Application à la conception de systèmes


Nous considérons ici, sous formes d'application, un exemple très simple pour illustrer la conception
de systèmes. Cette démarche est en fait au coeur de l'application industrielle des mathématiques.
Pourquoi résout-on des équations ? Tout simplement pour prévoir le comportement de systèmes
complexes avant leur fabrication ; le comportement d'un système dépend de nombreux paramètres
que l'on cherche toujours à optimiser au mieux. Cette étude peut se placer au niveau de l'avant
projet ou plus tard au niveau de la mise au point des détails du projet. L'exemple suivant est
présenté d'un autre point de vue dans le document d'optimisation de structures (barre peusante
d'élongation minimum).
76 Optimisation dans des espaces fonctionnels

Système à analyser

Cet exemple est présenté par Verma et Keller [?] (la présentation de la solution est légèrement
diérente). L'origine mécanique est la suivante : comme dans l'interprétation donnée à la n du §2,
il s'agit d'une barre chargée le long de son axe : u désigne le déplacement longitudinal, l'allongement
relatif est γ = u0 (x) et l'eort normal n = EAu0 (x) avec A(x) aire de la section droite ; cette barre
est xée à une extrémité x = 0, elle est soumise à une force concentrée à son autre extrémité
x = ` et à son poids propre : force répartie de densité linéique ρgA(x) avec ρ masse volumique du
matériaux, g accélération de la pesanteur.

Fig. 4.1  Barre chargée verticalement

Le principe des travaux virtuels (ou principe variationnel), s'écrit donc :



 trouver uA nul en x = 0 telque pour v nul en x = 0


Z ` Z ` (4.11)

0 0


 EAu (x) v (x) dx = ρ g A v dx + P v(`) .
0 0
Deux théorèmes 77

Le problème d'optimisation

Minimiser J(u, A) = u avec les contraintes :


R`
Équation 4.11 et 0 A(x) dx − V = 0.
L'espace dans lequel l'équation est bien posée est par exemple X = {v ∈ H 1 (0, `)/v(0) = 0} qui est
un espace de Hilbert ; le multilplicateur peut donc être pris dans le même espace ; nous préciserons
cela plus loin. On peut donc écrire le Lagrangien :
Z ` Z `
L(u, A, p, λ) = u(l) + EAu0 (x) p0 (x) dx − ρ g A p dx − P p(`) (4.12)
0 0

Pour appliquer le théorème, il convient de vérier que la fonctionnelle et les contraintes sont conti-
nument Fréchet dérivable et la regularité par rapport aux contraintes. Les conditions d'optimalité
s'écrivent d'abord formellement :
∂L ∂L
∀w ∈ X w=0 ; ∀B ∈ L∞ (0, l) B=0 (4.13)
∂u ∂A
∂L ∂L
∀z ∈ X z = 0 ; ∀µ ∈ IR µ=0 (4.14)
∂p ∂λ
Ce qui fournit :
Z `
∀w ∈ X w(l) + EAw0 (x) p0 (x) dx = o (4.15)
0
Z ` Z ` Z `

∀B ∈ L (0, l) 0 0
EBu (x) p (x) dx − ρ g B p dx + λ Bdx = 0 (4.16)
0 0 0
Z ` Z `
∀z ∈ X 0
EAu (x) z (x) dx − 0
ρ g A z dx − P z(`) = 0 (4.17)
0 0
Z `
∀µ ∈ IR µ[ A(x) dx − V ] = 0 (4.18)
0
La première equation 4.15 est souvent appelée état adjoint comme en automatique ; elle est dénie
à l'aide de la même forme bilinéaire que l'équation du système 4.17 ; en général on trouve un
opérateur adjoint linéarisé. L'équation 4.16 peut se simplier en mettant B en facteur ; comme
l'égalité est vraie pour tout B , on obtient

∀x ∈ (0, `) Eu0 (x) p0 (x) − ρgp(x) = −λ (4.19)

Ce qui signie que la fonction de gauche est en fait constante dans l'intervalle. Pour justier cette
démarche, nous pouvons utiliser un cadre abstrait ; soit la forme bilinéaire qui dépend de A :
Z `
aA (u, v) = EAu0 (x) p0 (x) dx (4.20)
0

On montre facilement que cette forme est bilinéaire, symétrique, continue, coercitive dans X ; elle
dépend de façon linéaire continue de A ∈ L∞ (0, l) ; le théorème de Lax-Milgram ([?]) permet de
lui associer un opérateur A :

AA : X −→ X (4.21)
u 7−→ AA u (4.22)
78 Optimisation dans des espaces fonctionnels

tel que

(AA u, v)X×X = aA (u, v) (4.23)

Avec les notations du théorème, la contrainte peut alors se préciser à l'aide de la fonctionnelle :

E : X × L∞ (o, `) −→ V × IR (4.24)
Z `
(u, A) 7−→ E(u, A) = (AA u − f, Adx − V ) (4.25)
0

où f ∈ V est donné par le théorème de Riesz :

Z `
(f, z)X×X = ρ g A z dx − P z(`) (4.26)
0

Comme

kAukX = Supkvk≤1 (AA u, v) = Supkvk≤1 aA (u, v)

la Fréchet diérentiabilité de E est facile à montrer et on a :

Z `
E 0 (u, A)(v, B) = (AB u + AA v, Bdx) (4.27)
0

La surjectivité de cette dérivée est facile ; pour la deuxième composante à valeur dans IR c'est
banal et il y a une innité de solutions ; pour la première, remarquons que pour g ∈ X , nous
devons résoudre en (v, B) :

AB u + AA v = g (4.28)

Prenons B arbitraire qui satisfasse l'équation de la deuxième composante, il reste une équation en
v avec l'opérateur AA qui est inversible ; d'où la surjectivité et donc la régularité de tout point u
qui satisfait les contraintes.
Deux théorèmes 79

Solution explicite

 

 

  y


  
 
 
 

 

  f

 

  p


  l



Ce problème très simple peut être résolu explicitement ; voir poly d'optimisation de structures ;
voici des solutions graphiques.

4.3.3 Contraintes d'inégalités


Comme dans le cas d'égalité, soient X et Z deux espaces de Banach et F une application Fréchet
dérivable : F : X → Z et K = {x; F(x) ≤ 0} ; pour que K soit bien déni, Z doit être ordonné
ce qui peut se faire avec un cône P dit des éléments positifs ; nous supposerons que ce cône est
d'intérieur non vide ; nous dirons ici que x0 est dit un point régulier de K si

∃h ∈ X F(x0 ) + F 0 (x0 )h < 0 (4.29)

Exercice 4.4 Vérier que en dimension nie l'hypothèse de régularité donnée dans le chapitre
correspondant implique la régularité ci dessus.

Théorème 4.2 Avec les hypothèses ci-dessus , soit une fonction J continuement Fréchet dérivable,
J : X → IR

si x∗ est un minimum local de J dans K et si x∗ est un point régulier de K , alors il existe


80 Optimisation dans des espaces fonctionnels

 

 



y


 

 

  f F x

 

  p


  l



Fig. 4.2  Aires optimales.

z∗0 ∈ Z 0 z∗0 ≥ 0 tel que


L(x, z 0 ) = J(x)+ < z 0 , F(x) > (4.30)

vérie
∂L
∀h ∈ X (x∗ , z∗0 )h = 0 (4.31)
∂x
∂L
(x∗ , z∗0 ) ≤ 0 (4.32)
∂z 0
et
< z∗0 , F(x∗ ) >= 0 (4.33)

Un exercice d'application directe est le suivant.

Exercice 4.5 1. On considère la fonctionnelle


Z b
1
[y 02 − f y]dx; (4.34)
2 a

minimiser avec y(a) = 0 = y(b) y(x0 ) − y0 ≤ 0


Ecrire des conditions d'optimalité.
2. Dans le cas où f est une masse de Dirac résoudre les conditions d'optimalité en discutant
suivant la valeur de y0 .
3. Extension en plusieurs variables.

Vous aimerez peut-être aussi