Opti Very Important

RO04/TI07 - Optimisation non-linaire
Stphane Mottelet
Universit de Technologie de Compigne
Printemps 2003
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
2
Sommaire
I Motivations et notions fondamentales 4
I.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
I.2 Formes quadratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.3 Rappels de calcul diffrentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
I.4 Notions sur la convexit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
I.5 Rsultats dexistence et dunicit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
I.6 Conditions ncessaires doptimalit en labsence de contraintes . . . . . . . . . . 37
Exemples du chapitre I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Exercices du chapitre I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
II Les mthodes de gradient 54
II.1 Les mthodes de descente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
II.2 Les mthodes de gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Exemples du chapitre II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
III La mthode du gradient conjugu 65
III.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
III.2 La mthode du gradient conjugu . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
3
III.3 Interprtation de la mthode du gradient conjugu . . . . . . . . . . . . . . . . . . 78
IV Mthodes de recherche linaire 84
IV.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
IV.2 Caractrisation de lintervalle de scurit . . . . . . . . . . . . . . . . . . . . . . . 88
V Mthodes de Quasi-Newton 98
V.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
V.2 Les mthodes de quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
V.3 Mthodes spciques pour les problmes de moindres carrs . . . . . . . . . . . 118
VI Conditions doptimalit en optimisation avec contraintes 121
VI.1 Les conditions de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
VI.2 Les conditions de Kuhn et Tucker . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
VI.3 Exemples de problmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
VI.4 Conditions sufsantes doptimalit . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
VII Mthodes primales 151
VII.1 Contraintes dgalit linaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
VII.2 Contraintes dingalit linaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
VII.3 Mthodes de pnalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
VII.4 Mthodes par rsolution des quations de Kuhn et Tucker . . . . . . . . . . . . . . 170
Exemples du chapitre VII . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
VIII Mthodes utilisant la notion de dualit 178
VIII.1 Elements sur la dualit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
VIII.2 Methodes duales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
suivant
4
Chapitre I
Motivations et notions fondamentales
I.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
I.2 Formes quadratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.3 Rappels de calcul diffrentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
I.4 Notions sur la convexit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
I.5 Rsultats dexistence et dunicit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
I.6 Conditions ncessaires doptimalit en labsence de contraintes . . . . . . . . . . . 37
Exemples du chapitre I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Exercices du chapitre I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
chapitre section suivante
5
I.1 Motivations
I.1.1 Formulation gnrale des problmes doptimisation non linaire . . . . . 6
I.1.2 Un exemple en rgression non-linaire . . . . . . . . . . . . . . . . . . . . 8
I.1.3 Un exemple en mcanique . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
6
I.1.1 Formulation gnrale des problmes doptimisation non linaire
La forme gnrale dun problme doptimisation est la suivante :
(PC)
_
_
min
xR
n
f(x), (I.1.1)
sous les contraintes
g(x) 0, (I.1.2)
h(x) = 0, (I.1.3)
o les fonctions f, g et h sont typiquement non-linaires (cest lobjet de cette deuxime partie du cours).
Lquation (VI.1.2) dsigne ce que nous apelleront des contraintes dingalit et lquation (VI.1.3) des
contraintes dgalit.
Lobjet de ce cours est la prsentation de techniques permettant de rsoudre le problme (PC), ainsi que des
problmes o soit un seul des deux types de contraintes est prsent, soit des problmes ny a pas de contraintes
du tout. Nous noterons ces types de problmes ainsi :
(PC) problme gnral, avec contraintes dingalit et dgalit,
(PCE) problme avec contraintes dgalit,
(PCI) problme avec contraintes dingalit,
(P) problme sans contraintes.
Il va de soi que la plupart des problmes rels ou industriels ne sont pas initialement sous une des formes
proposes. Cest pourquoi un des premiers travaux consiste en gnral mettre le problme initial sous une
forme standard. Par exemple, un problme donn sous la forme
max
xR
n
g(x),
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
7
Formulation
gnrale des
problmes
doptimisation
non linaire
se mettra sous la forme standard (P) en posant f(x) = g(x) ! Cependant, la mise sous forme standard
ncssite en gnral un peu plus de travail, comme nous allons le voir dans les exemples qui suivent.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section suivant
8
I.1.2 Un exemple en rgression non-linaire
0 20 40 60 80 100
-1.0
-0.6
-0.2
0.2
0.6
1.0
On considre un problme didentication des paramtres a, b, c et c dun signal du type

f(t) = a exp(bt) cos (ct +d),
partir dchantillons [t
i
, y
i
]
i=1...m
du signal f(t) (ces chantillons sont reprsents par les ronds sur la gure
ci-dessus).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
9
Un exemple en
rgression
non-linaire
On propose de faire cette identication en minimisant la fonction
J(a, b, c, d) =
1
2
m
i=1
(y
i
f(t
i
))
2
,
=
1
2
m
i=1
(y
i
a exp(bt
i
) cos (ct
i
+d))
2
.
Le choix dlever au carr la distance entre y
i
et f(t
i
) est bien sr arbitraire : on aurait pu prendre la valeur
absolue, mais le carr permet dobtenir une fonction J diffrentiable (ceci sera bien sr clari dans la suite).
Si nous najoutons pas de conditions sur les paramtres a, b, c, d le problme pos est donc du type (P), avec
x = [a, b, c, d]
R
4
. Ce problme est communment appel un problme de moindres carrs (non linaire).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
10
I.1.3 Un exemple en mcanique
u(x)
v(x)
On considre une corde horizontale de longueur 1 tendue ses deux extrmits, avec une tension . La d-
viation ventuelle de la corde par rapport sa position dquilibre est dsigne par u(x), pour x [0, 1]. Les
extrmits tant xes, on aura toujours u(0) = u(1) = 0. On ngligera le poids propre de la corde par rapport
la tension , cela permet dafrmer quen labsence daction extrieure, la corde est au repos et on a donc
u(x) = 0, x [0, 1].
Supposons maintenant que la corde est carte de sa position dorigine. Alors on peut montrer que lnergie
potentielle associe cette dformation (suppose petite) est
E(u) =
1
2
_
1
0
_
du
dx
_
2
dx. (I.1.4)
En labsence dobstacle, la position de repos u(x) = 0 minimise cette nergie. Il peut alors tre intressant
dtudier un problme o un obstacle empche la corde de prendre la position triviale u(x) = 0. Intuitivement,
on voit bien que la corde va toucher lobsctale en certains points, mais pas forcment en tous les points de
lintervalle [0, 1] (cela va dpendre de la forme de lobstacle)
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
11
Un exemple en
mcanique
Supposons par exemple que cet obstacle peut tre reprsent par une fonction v(x) 0. Alors la prsence
de lobstacle se traduit par la condition
u(x) v(x), x ]0, 1[. (I.1.5)
Si on veut connatre la dformation u(x) de la corde lorsque lobstacle est prsent, on peut donc penser
quil est raisonnable de considrer le problme
_
_
min
u
1
2
_
1
0
_
du
dx
_
2
dx,
u(0) = u(1) = 0,
u(x) v(x), x ]0, 1[.
(I.1.6)
Il sagit, techniquement parlant, dun problme de calcul des variations, et donc linconnue est une fonction
(la fonction u(x)). Il parait donc pour linstant impossible de le mettre sous forme standard. Cependant, on
peut essayer de rsoudre un problme approch, en utilisant la mthode des lments nis :
Approximation avec la mthode des lments nis
Puisque lon est en dimension 1 despace, la mthode est trs simple mettre en oeuvre. Dune part, on
discrtise lintervalle [0, 1] : on considre les abscisses
x
k
=
k
N
, k = 0 . . . N.
On considre le vecteur U = [U
1
, . . . , U
N1
]
, ainsi que la fonction u

N
(x) dnie par :
u
N
(x
k
) = U
k
, u
N
(0) = u
N
(1) = 0, de plus u
N
est continue et afne par morceaux.
On peut alors montrer que
E(u
N
) =
1
2
U
AU,
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
12
Un exemple en
mcanique
o A est la matrice (dnie positive)
A = N
2
_
_
_
_
_
_
_
2 1 0
1 2 1
.
.
.
.
.
.
.
.
.
1 2 1
0 1 2
_
_
_
_
_
_
_
.
On peut donc proposer la version approche du problme (I.1.6) :
_
min
U
1
2
U
AU,
v(x
k
) U
k
0, k = 1 . . . N 1.
(I.1.7)
Il sagit donc dun problme se mettant assurment sous la forme (PCI). De plus la fonction f(U) =
1
2
U
AU est assez particulire : il sagit dune forme quadratique (nous y reviendrons plus tard). La fonction
g permettant dexprimer les contraintes dingalit, dnie par
g(U) =
_
_
_
v(x
1
) U
1
.
.
.
v(x
N1
) U
N1
)
_
_
_,
est de plus linaire. Nous aborderons des mthodes tenant compte de ces particularits.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section prcdente chapitre section suivante
13
I.2 Formes quadratiques
I.2.1 Dnition dune forme quadratique . . . . . . . . . . . . . . . . . . . . . . 14
I.2.2 Proprits des formes quadratiques dnies positives . . . . . . . . . . . 16
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
14
I.2.1 Dnition dune forme quadratique
Cours :
exemple en mcanique
Lexemple prcdent nous donne une ide, partir dun problme particulier, de la forme que peut prendre
la fonction f. Une telle fonction sappelle une forme quadratique. Nous allons maintenant tudier leurs pro-
prits.
Dnition I.2.1. Soit A une matrice symtrique n n et b R
n
. On appelle forme quadratique la fonction
f : R
n
Rdnie par
f(x) =
1
2
x
Ax b
x.
Lorsque la matrice A possde certaines proprits, la fonction f peut prendre un nom particulier. La pro-
prit laquelle nous allons nous intresser est la positivit :
Dnition I.2.2. Soit A une matrice symtrique n n et b R
n
. On dit que A est semi-dnie positive et on
note A 0, quand
x
Ax 0, x R
n
.
On dit que A est dnie positive et on note A > 0, quand
x
Ax > 0, x R
n
, x ,= 0.
Cette dnition peut tre relie aux valeurs propres de la matrice A :
Proprit I.2.3. Soit A une matrice symtrique n n. On note
i
i=1...n
ses valeurs propres (relles). On
a les quivalences suivantes :
A 0
i
0, i = 1 . . . n,
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
15
Dnition
dune forme
quadratique
A > 0
i
> 0, i = 1 . . . n.
Lorsque la matrice A est dnie positive (resp. semi-dnie positive), on dira que f(x) est une forme
quadratique dnie positive (resp. semi-dnie positive). Dans le cas o A est dnie positive la fonction f
possde un certain nombre de proprits. Nous nous intressons dans un premier temps aux surfaces f(x) = c
o c R.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
16
I.2.2 Proprits des formes quadratiques dnies positives
Exemples :
Exemple I.1
Proprit I.2.4. Soit A une matrice symtrique n n, dnie positive et b R
n
. Considrons la forme
quadratique
f(x) =
1
2
x
Ax b
x.
On considre la famille de surfaces dnie par
c
= x R
n
, f(c) = c,
pour c R, et on dnit le vecteur x solution de
A x = b.
Alors
c
est dnie de la faon suivante :
Si c < f( x) alors
c
= .
Si c = f( x) alors
c
= x.
Si c > f( x) alors
c
est un ellipsode centr en x.
Dmonstration : La matrice A tant diagonalisable, il existe une matrice P (la matrice des vecteurs
propres) orthogonale telle que
P
AP = D,
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
17
Proprits des
formes
quadratiques
dnies
positives
o D = diag (
1
, . . . ,
n
) avec
i
> 0. On fait le changement de variable y = x x : cela donne
f( x +y) = f( x) + (A x b)
y +
1
2
y
Ay,
et puisque A x = b, on a
f(x) = f( x) +
1
2
(x x)
A(x x).
On fait maintenant le changement de variable (x x) = Pz, ce qui donne
f(x) = f( x) +
1
2
z
APz,
= f( x) +
1
2
z
Dz,
= f( x) +
1
2
n
i=1
i
z
2
i
.
La surface
c
est donc dnie par
c
=
_
z R
n
,
1
2
n
i=1
i
z
2
i
= c f( x)
_
.
Si c f( x) < 0 il est clair quil ny a pas de solution lquation
1
2
n
i=1
i
z
2
i
= c f( x),
puisque le second membre est toujours positif ! Si c = f( x) la seule solution est z = 0, cest dire x = x. Si
c > f( x) lquation dnit bien un ellipsode, puisque les
i
sont positifs. 2
Nous avons en fait dmontr un rsultat trs intressant qui caractrise la valeur minimale prise par f(x)
quand x parcourt R
n
:
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
18
Proprits des
formes
quadratiques
dnies
positives
Thorme I.2.5. Soit Aune matrice symtrique nn dnie positive et b R
n
, et soit f la forme quadratique
associe, dnie par
f(x) =
1
2
x
Ax b
x.
Soit x le vecteur (unique) vriant A x = b, alors x ralise le minimum de f, cest dire
f( x) f(x), x R
n
.
Ce rsultat est une consquence directe de la proprit I.2.4.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
19
I.3 Rappels de calcul diffrentiel
I.3.1 Dnition de la diffrentiabilit . . . . . . . . . . . . . . . . . . . . . . . . . 20
I.3.2 Calcul de la drive premire . . . . . . . . . . . . . . . . . . . . . . . . . 22
I.3.3 Drive seconde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
20
I.3.1 Dnition de la diffrentiabilit
Dans R
n
on note x le vecteur colonne
x =
_
_
_
x
1
.
.
.
x
n
_
_
_,
et la notation |.| dsignera, sauf indication du contraire, la norme euclidienne
|x| =
_
n
k=1
x
2
k
_1
2
.
Avant de donner la dnition de la diffrentiabilit, il est important de rappeller celle de la continuit :
Dnition I.3.1. Soit f : R
n
R
m
, on dit que f est continue au point a R
n
si pour tout rel > 0 il
existe > 0 tel que
|x a| < |f(x) f(a)| < .
Voici maintenant la dnition de la diffrentiabilit :
Dnition I.3.2. Soit f : R
n
R
m
reprsente dans la base canonique de R
m
par le vecteur
f(x) =
_
_
_
f
1
(x)
.
.
.
f
m
(x)
_
_
_, (I.3.1)
continue en a R
n
. On dit que f est diffrentiable en a sil existe une application linaire, note f
(a), telle
que pour tout h R
n
on ait
f(a +h) = f(a) +f
(a)h +|h| (h), (I.3.2)

Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
21
Dnition de la
diffrentiabilit
o (.) est une fonction continue en 0 vriant lim
h0
(h) = 0. On appelle f
(a) drive de f au point a.

La notation f
(a)h doit tre prise au sens f
(a) applique h. Cette notation devient assez naturelle

lorsque lon reprsente f
(a) par sa matrice dans les bases canoniques de R

n
et R
m
, comme le montre plus
bas la proposition I.3.2.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
22
I.3.2 Calcul de la drive premire
Exemples :
Exemple I.3
Exemple I.2
Exercices :
Exercice I.2
Exercice I.1
On peut dores et dja donner un rsultat pratique permettant de calculer directement la drive partir
du dveloppement (I.3.2) :
Proposition I.3.1. Soit f : R
n
R
m
diffrentiable en a, alors
lim
t0
f(a +th) f(a)
t
= f
(a)h.
Dmonstration : On a f(a +th) = f(a) +tf
(a)h +[t[ |h| (th), do

f
(a)h =
f(a +th) f(a)
t
|h| (th).
Il suft de noter que lim
t0
(th) = 0 pour conclure. 2
La quantit f
(a)h est appelle communment drive directionnelle de f au point a dans la direction h.

La proposition suivante fait le lien entre la matrice de f
(a) et les drives partielles de f au point a :

Proposition I.3.2. Soit f : R
n
R
m
diffrentiable en a, alors on peut reprsenter f
(a) par sa matrice

dans les bases canoniques de R
n
et de R
m
et on a
[f
(a)]
ij
=
f
i
x
j
(a)
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
23
Calcul de la
drive
premire
Dmonstration : On note e
1
, . . . , e
n
la base canonique de R
n
. Par dnition de la matrice, la j
me
colonne de f
(a) est obtenue en appliquant f
(a) au j
me
vecteur de la base canonique de R
n
. On obtient
donc le vecteur
f
(a)e
j
= lim
t0
f(a +te
j
) f(a)
t
,
grce la proposition I.3.1. La dnition de f donne par (I.3.1) permet dcrire que
[f
(a)e
j
]
i
= lim
t0
f
i
(a +te
j
) f
i
(a)
t
,
= lim
t0
f
i
(a
1
, . . . , a
j
+t, . . . , a
n
) f
i
(a
1
, . . . , a
n
)
t
,
=
f
i
x
j
(a).
2
On appelle souvent f
(a) la matrice jacobienne de f au point a. Lorsque m = 1 on adopte une notation et

un nom particuliers : le gradient est le vecteur not f(a) et dni par
f
(a) = f(a)
,
et on a
f(a +h) = f(a) +f(a)
h +|h| (h).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
24
I.3.3 Drive seconde
Exemples :
Exemple I.4
Exercices :
Exercice I.4
Exercice I.3
On se place maintenant dans le cas m = 1, soit f : R
n
R.
Dnition I.3.3. Lapplication f : R
n
Rest dite deux fois diffrentiable sil existe une matrice symtrique
2
f(a) telle que
f(a +h) = f(a) +f(a)
h +h
2
f(a)h +|h|
2
(h).
On appelle
2
f(a) matrice hessienne de f au point a. Comme lnonce le thorme suivant (non dmon-
tr), cette matrice sobtient partir des drives secondes de f :
Thorme I.3.4. Soit f : R
n
R une fonction deux fois diffrentiable en un point a. Si on note g(x) =
f(x) alors la matrice hessienne est dnie par
2
f(a) = g
(a), soit
[
2
f(a)]
ij
=

2
f
x
i
x
j
.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
25
I.4 Notions sur la convexit
I.4.1 Dnition de la convexit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
I.4.2 Fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
I.4.3 Caractrisation de la convexit en termes du hessien . . . . . . . . . . . . 30
I.4.4 Caractrisation de la convexit en termes du gradient . . . . . . . . . . . 32
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
26
I.4.1 Dnition de la convexit
Exemples :
Exemple I.5
La convexit est la base une proprit gomtrique, assez intuitive dailleurs, qui permet de caractriser
certains objets. On voit assez bien ce quest un objet convexe dans un espace deux ou trois dimensions. Nous
allons maintenant montrer comment cette proprit peut aussi sappliquer aux fonctions de R
n
dans R.
objet convexe objet non convexe
x
y
x
y
Dnition I.4.1. Un ensemble K R
n
est dit convexe si pour tout couple (x, y) K
2
et [0, 1] on a
x + (1 )y K.
Cette dnition peut sinterprter en disant que le segment reliant x et y doit tre dans K. Elle se gnralise
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
27
Dnition de la
convexit
de la faon suivante : on dira quun vecteur y est une combinaison convexe des points x
1
, . . . , x
p
si on a
y =
p
i=1
i
x
i
,
avec
i
0 et
p
i=1
i
= 1.
On peut citer quelques cas particuliers : R
n
tout entier est un ensemble convexe, de mme quun singleton
a.
Proprit I.4.2. Soit une famille K
i
i=1...p
densembles convexes et S =
p
i=1
K
i
. Alors S est convexe.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
28
I.4.2 Fonctions convexes
fonction convexe fonction non-convexe
x y x y
Dnition I.4.3. On dit quune fonction f : K R, dnie sur un ensemble convexe K, est convexe si elle
vrie
(x, y) K
2
, [0, 1], f(x + (1 )y) f(x) + (1 )f(y).
On dira que f est strictement convexe si
(x, y) K
2
, x ,= y, ]0, 1[, f(x + (1 )y) < f(x) + (1 )f(y).
Lorsque n = 1 cette dnition sinterprte bien gomtriquement : le graphe de la fonction est toujours en
dessous du segment reliant les points (x, f(x)) et (y, f(y)).
Corollaire I.4.4. On dnit pour (x, y) K
2
, o K est un ensemble convexe, la fonction : [0, 1] Rpar
(t) = f(tx + (1 t)y).
Alors on a lquivalence
(t) convexe sur [0, 1], (x, y) K
2
f convexe sur K.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
29
Fonctions
convexes
Dmonstration : Si (t) est convexe sur [0, 1] on a en particulier
() (1) + (1 )(0), [0, 1],
ce qui donne exactement
f(x + (1 )y) f(x) + (1 )f(y).
La rciproque est admise. 2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
30
I.4.3 Caractrisation de la convexit en termes du hessien
Exemples :
Exemple I.6
Dans le cas o f : K R Ron a le rsultat suivant :
Proprit I.4.5. Si f : R R est 2 fois continment drivable sur K convexe alors f est convexe si
et seulement si f
(x) 0,x K et strictement convexe si et seulement si f
(x) > 0,x K (sauf

ventuellement en des points isols).
Ce rsultat se gnralise pour n > 1 : le rsultat suivant fait le lien entre le hessien et la proprit de
convexit :
Thorme I.4.6. Soit f : K R
n
R une fonction deux fois diffrentiable, alors f est convexe si et
seulement si
2
f(x) 0, x K, et strictement convexe si et seulement si
2
f(x) > 0, x K.
Dmonstration : La dmonstration fait appel un rsultat obtenu dans lexercice I.1 : si on dnit
(t) = f(x +ty) alors on a
(t) = y
2
f(x +ty)y,
et on sait grce a la proprit I.4.5 que f convexe si
(t) 0, t. On aura donc f convexe si et seulement si

y
2
f(x +ty)y 0, (x, y) K
2
,
do le rsultat. 2
Le corrolaire suivant est immdiat :
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
31
Caractrisation
de la convexit
en termes du
hessien
Proprit I.4.7. Soit f une forme quadratique dnie par
f(x) =
1
2
x
Ax b
x,
alors f est convexe si et seulement si A 0, et strictement convexe si et seulement si A > 0.
Cela provient du fait que
2
f(x) = A (voir lexemple I.4 ).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
32
I.4.4 Caractrisation de la convexit en termes du gradient
Dans le cas o la fonction f nest suppose quune fois diffrentiable, on a le rsultat suivant :
n
R une fonction une fois diffrentiable, alors f est convexe si et
seulement si
f(y) f(x) +f(x)
(y x), (x, y) K
2
.
La fonction f est strictement convexe si et seulement si
f(y) > f(x) +f(x)
(y x), (x, y) K
2
, x ,= y.
On voit bien linterprtation gomtrique de ce dernier resultat quand n = 1 : le graphe dune fonction
convexe f se trouve toujours au-dessus de la tangente en un point donn.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
33
I.5 Rsultats dexistence et dunicit
I.5.1 Thoremes gnraux dexistence . . . . . . . . . . . . . . . . . . . . . . . 34
I.5.2 Unicit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
34
I.5.1 Thoremes gnraux dexistence
Considrons notre problme doptimisation I.1.1 introduit au dbut du cours, que lon crira pour locca-
sion un peu diffremment, en mettant les contraintes sous la forme x K R
n
:
min
xK
f(x). (I.5.1)
Nous allons donner deux rsultats trs gnraux dexistence dune solution au problme (I.5.1). Auparavant
nous avons besoin de la dnition dun ensemble compact :
Dnition I.5.1. Un ensemble K R
n
est dit compact si, de toute suite x
k
, o x
k
K, k, on peut
extraire une sous-suite convergente.
Nous donnons le thorme suivant sans dmonstration :
Thorme I.5.2. Un ensemble K R
n
est compact si et seulement si il est ferm et born.
Dans R, les intervalles ferms du type [a, b] (ou des reunions de tels intervalles) sont compacts. La notion
de fermeture signie quune suite x
k
, o x
k
K, k, doit converger vers une limite x K. Pour illustrer
sur un exemple quun intervalle ouvert dans Rne peut pas tre compact, on peut considrer lexemple suivant.
Soit K =]0, 1] et la suite x
k
= 1/k, on a bien x
k
K mais lim
k
= 0 , K.
Voici maintenant deux rsultats dexistence, dont les dmonstrations peuvent tre consultes dans les do-
cuments.
Thorme I.5.3. Si f : K R
n
R est continue et si de plus K est un ensemble compact, alors le
problme (I.5.1) admet une solution optimale x K, qui vrie donc
f( x) f(x), x K.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
35
Thoremes
gnraux
dexistence
Le second rsultat est moins gnral car il considre le cas particulier K = R
n
:
n
Rune fonction continue sur R
n
. Si
lim
x
f(x) = ,
alors (I.5.1) admet une solution optimale x.
Dmonstration : Soit x
0
R
n
. Puisque lim
x
f(x) = il existe M > 0 tel que |x| > M
f(x) > f(x
0
), donc
M > 0, f(x) f(x
0
) |x| M.
Puisque x est caractris par f( x) f(x), x R
n
, on a donc forcment | x| M. Donc x est solution
du problme
min
xM
f(x),
et le thorme prcdent sapplique, la boule x R
n
, |x| M tant compacte. 2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
36
I.5.2 Unicit
Lunicit rsulte en gnral de proprits de convexit (de f et de K).
n
R strictement convexe sur K convexe. Le minimum de f sur K, sil
existe, est unique.
Dmonstration : Soit donc x K tel que f( x) f(x), x K. Supposons quil existe y ,= x tel que
f( y) f(x), x K. Formons pour ]0, 1[ le vecteur
u = y + (1 ) x.
Daprs la stricte convexit de f et puisque ncessairement f( y) = f( x) on a
f(u) < f( y) + (1 )f( x) = f( x),
ce qui contredit le fait que x soit un minimum. On a donc x = y. 2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
37
I.6 Conditions ncessaires doptimalit en labsence de
contraintes
I.6.1 Conditions ncessaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
I.6.2 Conditions ncessaires et sufsantes . . . . . . . . . . . . . . . . . . . . . 39
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
38
I.6.1 Conditions ncessaires
On va maintenant regarder de plus prs le cas o K = R
n
, cest dire le problme sans contraintes (P).
Dans le cas o f est diffrentiable, on a le rsultat suivant :
n
Rdiffrentiable et x vriant
f( x) f(x), x R
n
,
alors on a ncessairement
f( x) = 0.
Dmonstration : Pour tout t R
et pour tout h R
n
on a
f( x) f( x +th).
On a donc
lim
t0
+
f( x) f( x +th)
t
= f( x)
h 0,
et
lim
t0
f( x) f( x +th)
t
= f( x)
h 0,
donc f( x)
h = 0, h R
n
, donc f( x) = 0 (prendre par exemple h = f( x)). 2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
39
I.6.2 Conditions ncessaires et sufsantes
La condition de gradient nul devient sufsante dans le cas o f est convexe :
n
Rconvexe et diffrentiable. Si x vrie
f( x) = 0,
alors on a f( x) f(x), x R
n
.
Dmonstration : Soient x R
n
et [0, 1]. Puisque f est convexe on a
f( x + (1 )x) f(x) + (1 )f( x).
On retranche f( x) de chaque ct de lingalit, on note que
x + (1 ) x = x +(x x),
puis in divise par , ce qui donne lingalit
f( x +(x x)) f( x)
f(x) f( x).
Et si on fait tendre vers 0 on obtient
f( x)
(x x) f(x) f( x),
donc 0 f(x) f( x). 2
Lorsque la fonction nest pas convexe, on ne peut donner quune condition ncessaire et sufsante dopti-
malit locale. On dsignera par minimum local (que lon oppose au minimum global) un vecteur vriant les
conditions suivantes :
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
40
Conditions
ncessaires et
sufsantes
Dnition I.6.3. On appellera x
minimum local de f, sil existe > 0 tel que

f(x
) f(x), x, |x x
| .
Dans le cas o f est deux fois diffrentiable on peut alors donner le rsultat suivant :
n
Rdeux fois diffrentiable. Si
_
f(x
) = 0,
2
f(x
) > 0,
alors x
est un minimum local de f.

Dmonstration : On a
f(x
+th) = f(x
) +tf(x
h +
t
2
2
h
2
f(x
)h +t
2
|h|
2
(th),
= f(x
) +
t
2
2
h
2
f(x
)h +t
2
|h|
2
(h).
On a donc pour t > 0
f(x
+th) f(x
)
t
2
=
1
2
h
2
f(x
)h +|h|
2
(th).
Donc si t est sufsamment petit on aura bien f(x
+th) f(x
) > 0 puisque
2
f(x
) > 0. 2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
41
Exemples du chapitre I
I.1 Courbes de niveau dune forme quadratique dans R
2
. . . . . . . . . . . 42
I.2 Gradient dune fonction quadratique . . . . . . . . . . . . . . . . . . . . . . 44
I.3 Drive dune fonction afne . . . . . . . . . . . . . . . . . . . . . . . . . . 45
I.4 Matrice hessienne dune fonction quadratique . . . . . . . . . . . . . . . . 46
I.5 Combinaison convexe de points dans le plan . . . . . . . . . . . . . . . . . 47
I.6 Convexit dune fonction quadratique . . . . . . . . . . . . . . . . . . . . . 48
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
42
Exemple I.1 Courbes de niveau dune forme quadratique dans R
2
On considre la fonction f(x) =
1
2
x
Ax b
x o A est une matrice symtrique 2 2 dnie positive.

On note P la matrice des vecteurs propres et
1
>
2
> 0 les deux valeurs propres. Notons x la solution du
systme linaire A x = b. On a montr que les courbes iso-valeurs sont dnies par lquation
1
2
(
1
z
2
1
+
2
z
2
2
) = c f( x),
o on a effectu le changement de variable z = P(x x). Si on a c f( x), lquation ci-dessus dnit une
ellipse dans le repre (z
1
, z
2
), dont lquation canonique est donne par
z
1
a
2
+
z
2
b
2
= 1,
avec
a =
2(c f( x))
1
, b =
2(c f( x))
2
.
On sait que lon peut dcrire cette ellipse par la courbe paramtrique z(t), t [0, 2] avec
z(t) =
_
a cos t
b sint
_
,
donc lquation paramtrique de la courbe x(t) dans le repre original est
x(t) = x +P
_
a cos t
b sint
_
.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
43
Exemple I.1
Courbes de
niveau dune
forme
quadratique
dans R
2
Lancer la simulation
-4.31 -2.48 -0.65 1.17 3.00 4.83 6.65 8.48 10.31
-0.16
1.90
3.97
6.03
8.10
10.16
+
Retour au grain
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
44
Exemple I.2 Gradient dune fonction quadratique
1
2
x
Ax b
x o A est une matrice carre symtrique n n. On a

f(x +th) =
1
2
x
Ax +
1
2
t
2
h
Ah +tx
Ah +b
(x +th),
= f(x) +t(x
Ab
)h +
1
2
t
2
h
Ah,
on a donc
f(x +th) f(x)
t
= (Ax b)
h +
1
2
th
Ah.
Puisque lim
t0
1
2
th
Ah = 0, on a donc f(x) = Ax b.
Retour au grain
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
45
Exemple I.3 Drive dune fonction afne
On considre la fonction f(x) = Cx +d o C est une matrice mn. On a f(x +h) = Cx +Ch +d =
f(x) +Ch. Donc f
(x) = C, x R
n
. On notera quici f est diffrentiable pour tout x R
n
, ce qui nest
pas forcment le cas quand f est quelconque.
Retour au grain
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
46
Exemple I.4 Matrice hessienne dune fonction quadratique
n n. Lexemple prcdent nous a donn f(x) = Ax b. Puisque la matrice hessienne est la drive
du gradient on a donc
2
f(x) = A.
Retour au grain
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
47
Exemple I.5 Combinaison convexe de points dans le plan
-1.87 -1.10 -0.34 0.43 1.19 1.96
-1.13
-0.59
-0.05
0.49
1.03
1.57
.
.
.
. .
. .
.
.
.
.
.
.
.
.
.
. .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . .
.
.
.
.
. .
.
.
. .
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
. ..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
. .
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
. . .
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
. .
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
. .
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
. .
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
.
.
. .
.
.
.
.
.
.
.
. .
.
.
.
.
. .
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
. .
.
.
. .
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
.
.
.
.
.
.
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
. .
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
. .
.
.
.
.
.
. .
.
.
.
.
.
.
. .
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
. .
.
. .
.
.
. .
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
. .
.
.
.
.
..
.
.
.
.
.
.
. .
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . .
.
.
.
.
.
.
.
. .
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
..
.
. .
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
. .
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
. .
.
.
. .
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
. .. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
. .
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
..
.
. .
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
..
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
. .
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
.
.
.
. .
.
.
.
.
.
.
. .
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
. .
.
. .
.
.
.
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
. .
.
.
.
. .
. . .
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
. .
.
.
.
.
.
. .
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
.
.
.
.
.
.
.
.
.
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
.
.
.
.
.
.
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
. .
.
.
.
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
. .
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
. . .
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
. .
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
. .
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
. . .
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
..
. .
.
.
. .
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . .
.
. .
.
.
. .
.
.
.
.
.
Considrons un ensemble de points du plan x

1
, . . . , x
p
. La simulation qui est propose ici permet de gnrer
alatoirement un trs grand nombre de points de la forme
y
k
=
p
i=1
i
x
i
,
en tirant alatoirement les coefcients
i
i=1...p
suivant une loi uniforme sur [0, 1], renormaliss en les
divisant par leur somme, de faon ce que lon ait toujours
p
i=1
i
= 1. Le polygone limite contenant tous
les points gnrs sappelle lenveloppe convexe des points x
1
, . . . , x
p
.
Retour au grain
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
48
Exemple I.6 Convexit dune fonction quadratique
1
2
x
Ax b
x o A est une matrice carre symtrique. Puisque
2
f(x) = A (voir lexemple prcdent), f est convexe si et seulement si A 0, strictement convexe lorsque
A > 0
Retour au grain
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section prcdente chapitre
49
Exercices du chapitre I
I.1 Calcul dune drive compose . . . . . . . . . . . . . . . . . . . . . . . . 50
I.2 Calcul du gradient dune fonction quadratique . . . . . . . . . . . . . . . . 51
I.3 Calcul dune drive seconde compose . . . . . . . . . . . . . . . . . . . 52
I.4 Calcul du hessien dune fonction quadratique . . . . . . . . . . . . . . . . 53
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
50
Exercice I.1 Calcul dune drive compose
Soit f : R
n
Rdnie par et x : R R
n
. On dnit la fonction relle g(t) = f(x(t)). Calculer g
(t).
Retour au grain
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
51
Exercice I.2 Calcul du gradient dune fonction quadratique
1
2
x
Ax b
x o A est une matrice n n. Montrer que lon a

f(x) =
1
2
(A+A
)x b.
Retour au grain
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
52
Exercice I.3 Calcul dune drive seconde compose
Soit f : R
n
Rdnie par et x : R R
n
. On dnit la fonction relle g(t) = f(x(t)). Calculer g
(t)
dans le cas o x(t) = (u +tv) o u et v sont deux vecteurs de R
n
, puis pour x(t) quelconque.
Retour au grain
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
53
Exercice I.4 Calcul du hessien dune fonction quadratique
1
2
x
Ax b
x o A est une matrice n n. Montrer que lon a
2
f(x) =
1
2
(A+A
).
Retour au grain
Aide 1
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent suivant
54
Chapitre II
Les mthodes de gradient
II.1 Les mthodes de descente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
II.2 Les mthodes de gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Exemples du chapitre II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
55
II.1 Les mthodes de descente
II.1.1 Principe des mthodes de descente . . . . . . . . . . . . . . . . . . . . . . 56
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section
56
II.1.1 Principe des mthodes de descente
Dnition II.1.1. Soit f : R
n
R. On dira quun vecteur d est une direction de descente en x sil existe
t > 0 tel que

f(x +td) < f(x), t ]0,
t].
Le principe dune mthode de descente consiste faire les itrations suivantes
x
k+1
= x
k
+t
k
d
k
, t
k
> 0, (II.1.1)
tout en assurant la proprit
f(x
k+1
) < f(x
k
).
Le vecteur d
k
est la direction de descente en x
k
. Le scalaire t
k
est appel le pas de la mthode litration k.
On peut caractriser les directions de descente en x
k
laide du gradient :
Proposition II.1.1. Soit d R
n
vriant
f(x)
d < 0,
alors d est une direction de descente en x.
Dmonstration : on a pour t > 0
f(x +td) = f(x) +tf(x)
d +t(t),
donc si on crit
f(x +td) f(x)
t
= f(x)
d +(t),
on voit bien que pour t sufsamment petit on aura f(x +td) f(x) < 0. 2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section
57
Principe des
mthodes de
descente
Dans la mthode (II.1.1) le choix de t
k
est li la fonction
(t) = f(x
k
+td
k
),
en particulier, une faon de choisir t
k
peut tre de rsoudre le problme doptimisation ( une seule variable)
min
t>0
(t).
Le pas

t
k
obtenu ainsi sappelle le pas optimal. La fonction (t) = f(x
k
+td
k
) tant diffrentiable, on a alors
ncessairement
t
k
) = f(x
k
+

t
k
d
k
)
d
k
= 0.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
58
II.2 Les mthodes de gradient
II.2.1 Principe des mthodes de gradient . . . . . . . . . . . . . . . . . . . . . . 59
II.2.2 La mthode du gradient pas optimal . . . . . . . . . . . . . . . . . . . . 60
II.2.3 Calcul du pas optimal dans le cas quadratique . . . . . . . . . . . . . . . . 61
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
59
II.2.1 Principe des mthodes de gradient
Exemples :
Exemple II.1
On cherche dterminer la direction de descente qui fait dcroitre (t) = f(x + td) le plus vite possible
(au moins localement). Pour cela on va essayer de minimiser la drive de (t) en 0. On a
(0) = f(x)
d,
et on cherche d solution du problme
min
dR
n
,d=1
(0).
La solution est bien sr
d =
f(x)
|f(x)|
,
en vertu de lingalit de Schwartz.
Il y a ensuite de nombreuses faon dutiliser cette direction de descente. On peut par exemple utiliser un
pas x a priori t
k
= > 0, k.
On obtient alors la mthode du gradient simple :
_
d
k
= f(x
k
),
x
k+1
= x
k
+d
k
.
Sous certaines hypothses de rgularit (f deux fois diffrentiable) cette mthode converge si est choisi
assez petit.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
60
II.2.2 La mthode du gradient pas optimal
La mthode du gradient pas optimal consiste faire les itrations suivantes
_
d
k
= f(x
k
),
x
k+1
= x
k
+t
k
d
k
,
(II.2.1)
o t
k
est choisi de manire ce que
f(x
k
+t
k
d
k
) f(x
k
+td
k
), t > 0. (II.2.2)
Cette mthode possde une proprit interessante :
Proposition II.2.1. Soit f : R
n
R une fonction diffrentiable. Les directions de descente d
k
gnres
par la mthode (II.2.1)-(II.2.2) vrient
d
k+1
d
k
= 0.
Dmonstration : Si on introduit la fonction (t) = f(x
k
+td
k
), on a
(t) = f(x
k
+td
k
)
d
k
,
et puisque est drivable on a ncessairement
(t
k
) = 0 donc
f(x
k
+t
k
d
k
)
d
k
= f(x
k+1
)
d
k
= d
k+1
d
k
= 0.
2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
61
II.2.3 Calcul du pas optimal dans le cas quadratique
Exemples :
Exemple II.2
On a f(x) =
1
2
x
Ax b
x avec A > 0 et on note (t) = f(x

k
+td
k
). Le pas optimal t
k
est caractris
par
(t
k
) = 0,
on a donc
f(x
k
+t
k
d
k
)
d
k
= (A(x
k
+t
k
d
k
) b)
d
k
= 0,
soit
(f(x
k
) +t
k
Ad
k
)
d
k
= 0,
on obtient donc
t
k
=
f(x
k
)
d
k
d
k
Ad
k
,
qui est bien positif car d
k
est une direction de descente et d
k
Ad
k
> 0 (car A > 0).
La mthode du gradient pas optimal peut donc scrire (dans le cas quadratique)
_
_
d
k
= b Ax
k
,
t
k
=
d
k
d
k
d
k
Ad
k
,
x
k+1
= x
k
+t
k
d
k
.
(II.2.3)
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
62
Exemples du chapitre II
II.1 Mthode du gradient simple dans le cas quadratique . . . . . . . . . . . . 63
II.2 Mthode du gradient pas optimal dans le cas quadratique . . . . . . . . 64
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
63
Exemple II.1 Mthode du gradient simple dans le cas quadratique
Dans le cas o f(x) =
1
2
x
Ax b
x la mthode du gradient simple peut scrire

_
d
k
= b Ax
k
,
x
k+1
= x
k
+d
k
,
(II.2.4)
o > 0 est x a priori. Il existe bien sr des conditions sur pour que la mthode converge. Nous illustrons
ici le fonctionnement de la mthode dans le cas n = 2 sur une petite simulation.
-13.2 -7.5 -1.8 3.8 9.5 15.2
-9
-5
-1
3
7
11
+

Retour au grain
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
64
Exemple II.2 Mthode du gradient pas optimal dans le cas quadratique
Dans le cas o f(x) =
1
2
x
Ax b
x la mthode du gradient pas optimal peut scrire

_
_
d
k
= b Ax
k
,
t
k
=
d
k
d
k
d
k
Ad
k
,
x
k+1
= x
k
+t
k
d
k
,
(II.2.5)
Nous illustrons ici le fonctionnement de la mthode dans le cas n = 2 sur une petite simulation.
-1.74 -0.30 1.15 2.60 4.05 5.50
1.02
2.04
3.06
4.09
5.11
6.13
+

Retour au grain
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent suivant
65
Chapitre III
La mthode du gradient conjugu
III.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
III.2 La mthode du gradient conjugu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
III.3 Interprtation de la mthode du gradient conjugu . . . . . . . . . . . . . . . . . . . 78
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
66
III.1 Introduction
III.1.1 Directions conjugues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
III.1.2 Lemme fondamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
67
III.1.1 Directions conjugues
Dnition III.1.1. Soit A une matrice symtrique n n, dnie positive. On dit que deux vecteurs x et y de
R
n
sont Aconjugus (ou conjugus par rapport A) sil vrient
x
Ay = 0. (III.1.1)
La matrice A tant dnie positive, la forme bilinaire a(x, y) = x
Ay dnit un produit scalaire et

la relation (III.1.1) traduit lorthogonalit des vecteurs x et y pour ce produit scalaire. La dmonstration du
thorme suivant est laisse en exercice.
Thorme III.1.2. Si d
0
, d
1
, . . . , d
k
sont des directions Aconjugues deux deux, soit
d
i
Ad
k
= 0, i, j, i < j k,
alors elles sont linairement indpendantes.
Considrons maintenant dans R
2
une mthode de descente applique la minimisation dune forme qua-
dratique dnie positive f(x) =
1
2
x
Ax b
x :
x
1
= x
0
+
0
d
0
,
x
2
= x
1
+
1
d
1
,
avec d
0
et d
1
deux directions Aconjugues et
0
et
1
dtermins de faon optimale. On a donc les relations
suivantes :
f(x
1
)
d
0
= (Ax
1
b)
d
0
= 0,
f(x
2
)
d
1
= (Ax
2
b)
d
1
= 0,
car
0
et
1
sont optimaux. Montrons que lon a de plus
f(x
2
)
d
0
= 0.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
68
Directions
conjugues
On a
f(x
2
)
d
0
= (Ax
2
b)
d
0
= (A(x
1
+
1
d
1
) b)
d
0
,
= (Ax
1
b)
d
0
+
1
d
1
Ad
0
,
= 0.
Puisque f(x
2
)
d
0
= f(x
2
)
d
1
= 0 et d
0
, d
1
linairement indpendants, on a f(x
2
) = 0, x
2
ralise
donc le minimum de f sur R
2
. La relation de conjugaison permet donc la mthode de descente de converger
en deux itrations (dans le cas o n = 2).
Dnition III.1.3. Soit d
0
, d
1
, . . . , d
n
une famille de vecteur Aconjugus. On appelle alors mthode de
directions conjugues la mthode
_
x
0
donn
x
k+1
= x
k
+
k
d
k
,
k
optimal
On va maintenant montrer la proprit vrie pour n = 2, savoir x
n
= x o x ralise le minimum de
f(x) =
1
2
x
Ax b
x, est valable pour tout n.

Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
69
III.1.2 Lemme fondamental
On se donne a priori une famille d
0
, d
1
, . . . , d
n
de directions conjugues et on note
E
k
= Vect(d
0
, d
1
, . . . , d
k1
),
le sous-espace vectoriel engendr par les vecteurs d
0
, d
1
, . . . , d
k1
. Par construction, lalgorithme de direc-
tions conjugu
_
x
0
donn,
x
k+1
= x
k
+
k
d
k
,
k
optimal,
(III.1.2)
construit itrativement un vecteur x
k
vriant
x
k
x
0
+E
k
.
Voici lnonc du lemme fondamental :
Lemme III.1.4. Le vecteur x
k
dni par lalgorithme (III.1.2) ralise le minimum de f(x) =
1
2
x
Ax b
x
sur le sous espace x
0
+E
k
, cest dire x
k
x
0
+E
k
et
f(x
k
) f(x), x x
0
+E
k
.
Pour la dmonstration de ce lemme nous aurons besoin du thorme suivant :
Thorme III.1.5. Une condition ncessaire et sufsante pour que x
k
E
k
+ x
0
ralise le minimum de
f(x) =
1
2
x
Ax b
x sur le sous espace x

0
+E
k
est
f(x
k
)
d
i
= 0, i = 0, . . . , k 1.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
70
Lemme
fondamental
Dmonstration : Condition ncssaire : supposons que f(x
k
) f(x), x x
0
+E
k
. On a donc pour
tout t R,
f(x
k
) f(x
k
+td), d E
k
.
On a donc soit
(f(x
k
+td) f(x
k
))/t 0, si t > 0,
soit
(f(x
k
+td) f(x
k
))/t 0, si t < 0.
Si lon fait tendre t vers zro, on en conclut que
f(x
k
)
d = 0, d E
k
,
donc en particulier f(x
k
)
d
i
= 0, i = 0, . . . , k 1. On admettra que la condition est sufsante.2 2
Dmonstration du lemme fondamental : Pour k = 1 on a
x
1
= x
0
+
0
d
0
,
avec
0
optimal, cest dire f(x
1
)
d
0
= 0. Puisque d
0
E
1
la proprit est donc vrie pour k = 1.
Supposons maintenant que la proprit est vrie lordre k :
f(x
k
)
d
i
= 0, i = 0, . . . , k 1.
Dune part
k
est optimal donc f(x
k+1
)
d
k
= 0. Dautre part on a pour 0 i < k
f(x
k+1
)
d
i
= (A(x
k
+
k
d
k
) b)
d
i
,
= (Ax
k
b)
d
i
+
k
d
k
Ad
i
= 0,
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
71
Lemme
fondamental
car
k
est optimal et d
k
Ad
i
= 0 (conjugaison). On a donc
f(x
k+1
)
d
i
, i = 0, . . . , k,
ce qui dmontre le lemme fondamental.2
Un corollaire direct est donc que la mthode de directions conjugues converge en n itrations au plus,
puisque E
n1
= R
n
.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
72
III.2 La mthode du gradient conjugu
III.2.1 Algorithme de la mthode du gradient conjugu . . . . . . . . . . . . . . . 73
III.2.2 La mthode du gradient conjugu dans le cas gnral . . . . . . . . . . . 76
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
73
III.2.1 Algorithme de la mthode du gradient conjugu
Lide de la mthode est de construire itrativement des directions d
0
, . . . , d
k
muutellement conjugues.
A chaque tape k la direction d
k
est obtenue comme combinaison linaire du gradient en x
k
et de la direction
prcdente d
k1
, les coefcients tant choisis de telle manire que d
k
soit conjugue avec toutes les directions
prcdentes. Si lon note g
k
= f(x
k
), lalgorithme prend la forme suivante
On se donne x
0
et on pose d
0
= g
0
.
x
k+1
= x
k
+
k
d
k
, avec (III.2.1)
k
=
g
k
d
k
d
k
Ad
k
, (III.2.2)
d
k+1
= g
k+1
+
k
d
k
, avec (III.2.3)
k
=
g
k+1
Ad
k
d
k
Ad
k
. (III.2.4)
Notons dune part que la formule (III.2.2) dnit bien le pas optimal : en effet on a bien
f(x
k+1
)
d
k
= g
k
d
k
+
k
d
k
Ad
k
= 0.
On va maintenant montrer que lalgorithme ci-dessus dnit bien une mthode de directions conjugues.
Thorme III.2.1. A une itration k quelconque de lalgorithme o loptimum nest pas encore atteint, cest
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
74
Algorithme de
la mthode du
gradient
conjugu
dire g
k
,= 0, on a :
k
=
g
k
g
k
d
k
Ad
k
, (III.2.5)
k
=
g
k+1
(g
k+1
g
k
)
g
k
g
k
(III.2.6)
, =
g
k+1
g
k+1
g
k
g
k
, (III.2.7)
et les directions d
0
, . . . , d
k+1
sont mutuellement conjugues.
Dmonstration : On raisonne par rcurrence sur k en supposant que d
0
, . . . , d
k
sont mutuellement
conjugues.
- Montrons dabord lquivalence de III.2.2 et III.2.5. Comme d
0
, . . . , d
k
sont mutuellement conjugues
x
k
ralise le minimum de f sur x
0
+E
k
, on a g
k
d
k1
= 0 do
g
k
d
k
= g
k
(g
k
+
k
d
k1
) = g
k
g
k
.
- Pour montrer (III.2.6) on note que
g
k+1
g
k
= A(x
k+1
x
k
) =
k
Ad
k
, (III.2.8)
on a alors
g
k+1
Ad
k
=
1
k
g
k+1
(g
k+1
g
k
),
et en utilisant (III.2.5) il vient bien
k
=
g
k+1
(g
k+1
g
k
)
g
k
g
k
,
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
75
Algorithme de
la mthode du
gradient
conjugu
ce qui dmontre (III.2.6). On a de plus g
k+1
g
k
= 0 car g
k
= d
k
k1
d
k1
appartient E
k+1
et que g
k+1
est orthogonal ce sous-espace (les directions d
0
, . . . , d
k
sont conjugues, par hypothse de rcurrence), ceci
dmontre (III.2.7).
- Montrons maintenant que d
k+1
Ad
i
= 0, pour i = 0, . . . , k. On a dune part
d
k+1
Ad
k
= (g
k+1
+
k
d
k
)
Ad
k
= 0,
par dnition de
k
. Dautre part, on a pour i < k
d
k+1
Ad
i
= g
k+1
Ad
i
+
k
d
k
Ad
i
,
avec d
k
Ad
i
= 0 en vertu de lhypothse de rcurrence. On a ensuite, en utilisant la formule (III.2.8]
g
k+1
Ad
i
=
1
i
g
k+1
(g
i+1
g
i
),
et si lon note que
g
i+1
g
i
= d
i+1
+ (
i
+ 1)d
i
i1
d
i1
,
on a bien
g
k+1
(g
i+1
g
i
) = 0,
car g
k+1
d
i+1
= g
k+1
d
i
= g
k+1
d
i1
= 0, en vertu du fait que g
k+1
est orthogonal E
k+1
et que i < k. On
a donc bien d
k+1
Ad
i
= 0, ce qui achve la dmonstration. 2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
76
III.2.2 La mthode du gradient conjugu dans le cas gnral
La mthode de Fletcher et Reeves est une extension directe de la mthode du Gradient conjugu pour les
fonction quelconques. Applique une fonction quadratique, elle se comporte comme cette dernire :
On se donne x
0
et on pose d
0
= f(x
0
).
x
k+1
= x
k
+
k
d
k
, avec
k
optimal (III.2.9)
d
k+1
= f(x
k+1
) +
k
d
k
, avec (III.2.10)
k
=
|f(x
k+1
)|
2
|f(x
k
)|
2
. (III.2.11)
Cette mthode est intressante car elle ne ncssite pas de stocker une matrice (contrairement aux mthodes
qui seront vues dans les chapitres suivants). Sa vitesse de convergence est trs suprieure celle de la mthode
du gradient (ce point sera clari pour le cas quadratique dans le grain suivant).
La variante dite de Polak-Ribire consiste dnir
k
par la formule (III.2.6). On peut dmontrer la
convergence de la mthode de Fletcher-Reeves pour une classe assez large de fonctions f, ce quon ne peut pas
faire pour la variante de Polak-Ribire. Par contre on peut montrer que cette dernire converge plus rapidement
(quand elle converge effectivement !), cest donc la mthode qui est utilise en gnral.
Lefcacit de la mthode du gradient conjugu repose essentiellement sur deux points :
La recherche linaire (dtermination du pas optimal) doit tre exacte,
Les relations de conjugaison doivent tre prcises.
La recherche du pas optimal doit tre ralise laide dun algorithme spcique (cest lobjet du prochain
chapitre) puisque f est quelconque. Par contre la notion de conjugaison na pas de sens dans le cas non-
quadratique (sauf prs de loptimum, mais on ne le connat pas. Il faut donc tester au cours des itrations si
lhypothse dapproximation quadratique est vrie. On peut surveiller les indicateurs suivants
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
77
La mthode du
gradient
conjugu dans
le cas gnral
[f(x
k+1
)
f(x
k
)[ doit tre petit
On doit avoir
f(x
k+1
)
d
k+1
|f(x
k+1
)||d
k+1
|
,
avec 0 < 0 pas trop petit, cest dire que d
k+1
doit tre une direction de descente raisonnable.
Dans le cas o ces conditions ne sont pas vries, on rompt la conjugaison et on redmarre lalgorithme
avec d
k+1
= f(x
k+1
). On peut aussi dcider de faire ce redmarrage arbitrairement toutes les p itrations
(p x de lordre de n par exemple).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
78
III.3 Interprtation de la mthode du gradient conjugu
III.3.1 Interprtation de la mthode du gradient conjugu . . . . . . . . . . . . . 79
III.3.2 Convergence de la mthode du gradient conjugu . . . . . . . . . . . . . 81
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
79
III.3.1 Interprtation de la mthode du gradient conjugu
Dnition III.3.1. On appelle kime sous-espace de Krylov associ la matrice A et au vecteur g
0
le sous
espace
/
k
= Vect(g
0
, Ag
0
, . . . , A
k1
g
0
).
Par construction, dans la mthode du gradient conjugu appliqu au cas quadratique, on a E
k
= /
k
,
comme le montre le rsultat suivant :
Proposition III.3.1. Dans la mthode du gradient conjugu on a
E
k
= Vect(d
0
, d
1
, . . . , d
k1
) = Vect(g
0
, Ag
0
, . . . , A
k1
g
0
).
Dmonstration : Cette proprit est vrie lordre k = 1 puisque d
0
= g
0
. Supposons quelle soit
vrie lordre k. On a alors la formule (III.2.6) qui nous permet dcrire
d
k+1
= A(x
k
+
k
d
k
) b +
k
d
k
,
= g
k
+
k
Ad
k
+
k
d
k
,
= d
k
k1
d
k1
+
k
Ad
k
+
k
d
k
,
ce qui permet de conclure que d
k+1
/
k+1
. La proprit est donc vrie pour tout k > 0. 2
Comme dans le cas de lalgorithme du gradient pas optimal, nous choisissons maintenant de mesurer la
distance sparant x
k
du vecteur x = A
1
b laide de la fonction dnie par
E(x) = |x x|
2
A
= (x x)
A(x x).
Minimiser E(x) est quivalent minimiser f(x) =
1
2
x
Ax b
x comme le montre la proposition suivante

( dmontrer en exercice)
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
80
Interprtation
de la mthode
du gradient
conjugu
Proposition III.3.2. Soit f(x) =
1
2
x
Ax b
x une forme quadratique dnie positive et x = A

1
b. On
a
E(x) = (x x)
A(x x) = f(x) +c,

o c est une constante.
On va maintenant illustrer dun autre point de vue la convergence particulire de lalgorithme du gradient
conjugu. Tout vecteur x
x
0
+E
k
scrit
x = x
0
+
k1
j=0
j
A
j
g
0
,
et comme g
0
= Ax
0
b = A(x
0
x) on a donc
x x = x
0
x +
k1
j=0
j
A
j+1
(x
0
x) = p(A)(x
0
x),
o le polynme
p(z) = 1 +
k1
j=0
j
z
j+1
est de degr k et satisfait p(0) = 1. Puisque le vecteur x
k
obtenu ltape k de lalgorithme du gradient
conjugu vrie
f(x
k
) f(x), x E
k
+x
0
,
on a, en vertu du rsultat dmontr dans la proposition prcdente,
E(x
k
) = |x
k
x|
2
A
|p(A)(x
0
x)|
2
A
,
pour tout polynome p T
k
vriant p(0) = 1.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
81
III.3.2 Convergence de la mthode du gradient conjugu
Le rsultat suivant va nous permettre de retrouver dune autre manire la proprit de convergence nie de
lalgorithme du GC :
Proposition III.3.3. Soit A une matrice dnie positive et x
k
le vecteur obtenu ltape k de lalgorithme
du GC. Alors on a
E(x
k
) E(x
0
) min
pP
k
,p(0)=1
max
z(A)
p(z)
2
.
Dmonstration : Puisque la matrice A est dnie positive il existe une matrice orthogonale U telle que
A = UDU
avec D =diag(
1
, . . . ,
n
), o (A) =
i
i=1...n
sont les valeurs propres de A. Si on dnit
A
1/2
= UD
1/2
U
on a
|x|
2
A
=
_
_
_A
1/2
x
_
_
_
2
,
donc
|p(A)(x
0
x)|
2
A
=
_
_
_A
1/2
p(A)(x
0
x)
_
_
_
2
|p(A)|
2
|x
0
x|
2
A
,
o on a utilis la proprit que p(A) et A
1/2
commutent (ces deux matrices ont les mmes vecteurs propres).
Puisque lon a aussi A
j
= UD
j
U
les valeurs propres de p(A) sont donnes par les nombres p(

i
) pour
i = 1 . . . n, et donc
|p(A)|
2
= max
i=1...n
p(
i
)
2
.
On a donc bien
E(x
k
) E(x
0
) min
pP
k
,p(0)=1
max
z(A)
p(z)
2
.
2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
82
Convergence
de la mthode
du gradient
conjugu
On a le corollaire suivant, qui permet dexhiber le polynme optimal p(z) pour k = n :
Thorme III.3.2. Soit A une matrice dnie positive. Lalgorithme du GC converge en n itrations au
plus. Plus prcisment, si la matrice A possde k n valeurs propres distinctes, alors Lalgorithme du
GC converge en k itrations au plus.
Dmonstration : Dans les deux cas possibles, notons
p(z) =
k
i=1
i
z
i
.
On a bien p(z) de degr k, p(0) = 1 et par construction p(
i
) = 0 pour i = 1 . . . k. En vertu du rsultat
montr dans la proposition III.3.3, on a donc
E(x
k
) = 0,
soit x
k
= x. 2
La mthode du gradient conjugu tant en gnral utilise comme une mthode itrative, il est intressant
de la comparer la mthode du gradient pas optimal. Le rsultat suivant sera admis (la dmonstration repose
sur la dtermination dun polynme particulier p(z) solution dun problme de moindre carrs).
Thorme III.3.3. Soit A une matrice dnie positive et x
k
le vecteur obtenu ltape k de lalgorithme du
GC. Alors on a
E(x
k
) 4E(x
0
)
_
_
(A) 1
_
(A) + 1
_
2k
,
o on a not (A) =
n
/
1
le conditionnement de A pour la norme euclidienne.
Pour lalgorithme du gradient pas optimal on avait
E(x
k
) E(x
0
)
_
(A) 1
(A) + 1
_
2k
,
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
83
Convergence
de la mthode
du gradient
conjugu
on voit donc que pour une mme matrice A, la mthode du gradient conjugu convergera plus rapidement.
Cependant cette estimation peut tre trs pessimiste car dans le cas o les valeurs propres sont groupes autour
de valeurs distinctes, on peut tre trs proche du cas ou certaines valeurs propres sont multiples (et ou le
nombre thorique ditrations est infrieur n) tout en ayant un mauvais conditionnement.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent suivant
84
Chapitre IV
Mthodes de recherche linaire
IV.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
IV.2 Caractrisation de lintervalle de scurit . . . . . . . . . . . . . . . . . . . . . . . . 88
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
85
IV.1 introduction
IV.1.1 But de la recherche linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
IV.1.2 Intervalle de scurit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
86
IV.1.1 But de la recherche linaire
On a vu que dans le cas non-quadratique les mthodes de descente :
x
k+1
= x
k
+t
k
d
k
, t
k
> 0,
ncssitent la recherche dune valeur de t
k
> 0, optimale ou non, vrant
f(x
k
+t
k
d
k
) f(x
k
).
On dnit comme prcedemment la fonction (t) = f(x
k
+ td
k
). Rappellons que si f est diffrentiable, le
pas optimal

t peut tre caractris par
_

t) = 0,
(
t) (t), pour 0 t
t,
autrement dit,

t est un minimum local de qui assure de plus la dcroissance de f. En fait, dans la plupart
des algorithmes doptimisation modernes, on ne fait jamais de recherche linaire exacte, car trouver

t signie
quil va falloir calculer un grand nombre de fois la fonction , et cela peut tre dissuasif du point de vue du
temps de calcul. En pratique, on recherche plutot une valeur de t qui assure une dcroissance sufsante de f.
Cela conduit la notion dintervalle de scurit.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
87
IV.1.2 Intervalle de scurit
Dnition IV.1.1. On dit que [a, b] est un intervalle de scurit sil permet de classer les valeurs de t de la
faon suivante :
Si t < a alors t est considr trop petit,
Si b t a alors t est satisfaisant,
Si t > b alors t est considr trop grand.
Le problme est de traduire de faon numrique sur les trois conditions prcdentes, ainsi que de trouver
un algorithme permettant de dterminer a et b. Lide est de partir dun intervalle sufsament grand pour
contenir [a, b], et dappliquer un bonne stratgie pour itrativement rduire cet intervalle.
Algorithme de base
Initialement, on part de [, ] contenant I = [a, b], par exemple en prenant = 0 et tel que () > (0)
(une telle valeur de existe avec un minimum dhypothses, par exemple f coercive). On fait ensuite les
itrations suivantes :
1. On choisit t dans lintervalle [, ].
2. Si t est trop petit on prend = t et on retourne en 1.
3. Si t est trop grand on prend = t et on retourne en 1.
4. Si t convient on sarrte.
Il faut maintenant prciser quelles sont les relations sur qui vont nous permettre de caractriser les valeurs
de t convenables, ainsi que les techniques utilises pour rduire lintervalle (point nr1 ci-dessus).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
88
IV.2 Caractrisation de lintervalle de scurit
IV.2.1 La rgle dArmijo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
IV.2.2 La rgle de Goldstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
IV.2.3 La rgle de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
IV.2.4 Rduction de lintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
IV.2.5 Rduction de lintervalle par interpolation cubique . . . . . . . . . . . . . . 96
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
89
IV.2.1 La rgle dArmijo
Dans la rgle dArmijo on prend = 0, un rel 0 < m < 1. La rgle est la suivante :
(t)
b t
m
1
(0)
(0)
a
Rgle dArmijo
Si (t) (0) +m
(0)t, alors t convient.

Si (t) > (0) +m
(0)t, alors t est trop grand.

Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
90
La rgle
dArmijo
On peut noter que lon a
(0) = f(x
k
),
(0) = f(x
k
)
d
k
.
Puisque = 0, t nest jamais considr trop petit, cest pourquoi la rgle dArmijo est peu utilise seule.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
91
IV.2.2 La rgle de Goldstein
En ajoutant une deuxime ingalit la rgle dArmijo on obtient la rgle de Goldstein, o m
1
et m
2
sont
deux constantes vriant 0 < m
1
< m
2
:
(t)
a b t
m
1
(0)
(0) m
2
(0)
Rgle de Goldstein
Si (t) < (0) +m
2
(0)t, alors t est trop petit.

Si (t) > (0) +m
1

si (0) +m
1
(0)t (t) (0) +m

2
(0)t, alors t convient

Sommaire
Concepts
Notions
Exemples
Exercices
Documents
92
La rgle de
Goldstein
Le choix de m
2
doit tre tel que dans le cas quadratique, le pas optimal appartienne lintervalle de scurit
(cest bien la moindre des choses). Dans le cas quadratique on a
(t) =
1
2
at
2
+
(0)t +(0), a > 0,

et le pas optimal

t vrie
t) = 0, soit

t =
(0)/a. On a donc (exercice)

(
t) = (0) +

(0)
2

t.
Donc

t sera considr comme satisfaisant si m
2

1
2
. Des valeurs typiques utilises dans la pratique sont
m
1
= 0.1 et m
2
= 0.7
Thorme IV.2.1. Soit f : R
n
Rcoercive, cest dire f continue et
lim
x
f(x) = +.
Soit lalgorithme de gradient
x
k+1
= u
k
k
g
k
,
o g
k
= f(x
k
) o chaque itration le pas
k
satisfait la rgle de Goldstein
(0) +m
2
(0)
k
(
k
) (0) +m
1
(0)
k
,
o () = f(x
k
g
k
) et 0 < m
1
< m
2
< 1. Alors la suite x
k
est borne, la suite f(x
k
) est dcroissante et
convergente, et le vecteur g
k
vrie
lim
k
|g
k
| = 0.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
93
IV.2.3 La rgle de Wolfe
La rgle de Wolfe fait appel au calcul de
(t), elle est donc en thorie plus coteuse que la rgle de

Goldstein. Cependant dans de nombreuses applications, le calcul du gradient f(x) reprsente un faible cot
additionnel en comparaison du cot dvaluation de f(x) (par exemple en contrle optimal), cest pourquoi
cette rgle est trs utilise. Le calcul des drives de permet de plus dutiliser une mthode dinterpolation
cubique dans la phase de rduction de lintervalle, comme nous le verrons plus loin.
(t)
b t
m
1
(0)
(0) m
2
(0)
a
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
94
La rgle de
Wolfe
Rgle de Wolfe
Si (t) > (0) +m
1

Si (t) (0) +m
1
(0)t et
(t) < m
2
(0), alors t est trop petit.

Si (t) (0) +m
1
(0)t et
(t) m
2
(0), alors t convient.

Dans cette rgle, on sassure que t nest pas trop petit en assurant que
(t) a sufsamment augment.

Sommaire
Concepts
Notions
Exemples
Exercices
Documents
95
IV.2.4 Rduction de lintervalle
Le premier problme rsoudre est celui de la dtermination dun intervalle de dpart [, ]. On peut
commencer par choisir = 0, et utiliser une valeur initiale de t cense tre une bonne valeur de dpart (ce
point sera clari plus loin).
Recherche dun intervalle de dpart
1. Si t est satisfaisant alors on sarrte
2. Si t est trop grand, alors on prend = t et on sarrte
3. Si t est trop petit, on fait t ct, c > 1, et on retourne en 1.
Cet algorithme donne un intervalle initial [, ] quil va falloir ensuite rduire, sauf si t est admissible,
auquel cas la recherche linaire est termine, ce peut tre le cas si la valeur initiale de t est bien choisie.
Rduction de lintervalle
On suppose maintenant que lon dispose dun intervalle [, ] mais que lon na pas encore de t satisfaisant.
Une manire simple de faire est de procder par exemple par dichotomie, en choisissant
t =
+
2
,
puis en conservant soit [, t] ou [t, ] suivant que t est trop grand ou trop petit. Le problme est que cette
stratgie ne rduit pas assez rapidement lintervalle. Cependant elle nutilise aucune informations sur (dri-
ves ou autres). On prfre en gnral procder en construisant une approximation polynomiale p(t) de et
en choisissant t ralisant le minimum (sil existe) de p(t) sur [, ]. Lorsque lon utilise la rgle de Wolfe, on
peut utiliser une approximation cubique.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
96
IV.2.5 Rduction de lintervalle par interpolation cubique
Comme nous lavons voqu, un choix judicieux de t peut tre fait en faisant une approximation cubique
de (t) sur lintervalle [, ] et prendre t ralisant le minimum de cette cubique : on considre le polynme
p(t) vriant
p(t
0
) = (t
0
) = f
0
,
p(t
1
) = (t
1
) = f
1
,
p
(t
0
) =
(t
0
) = g
0
,
p
(t
1
) =
(t
1
) = g
1
o t
0
et t
1
sont quelconques (on peut bien sr prendre t
0
= et t
1
= ). On passe en variables rduites sur
[0, 1] ce qui conduit dnir le polynme q(s) par
q(s) = p(t
0
+st
1
), s [0, 1], = t
1
t
0
,
qui vrie donc
q(0) = f
0
,
q(1) = f
1
,
q
(0) = g
0
,
q
(1) = g
1
.
Si on cherche q de la forme
q(s) = as
3
+bs
2
+cs +d,
alors les calculs donnent
a = (g
0
+g
1
) + 2(f
0
f
1
), b = 3(f
1
f
0
) (2g
0
+g
1
), c = g
0
, d = f
0
.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
97
Rduction de
lintervalle par
interpolation
cubique
Si b
2
3ac < 0 alors q(s) nadmet pas de minimum, et cela ne permet pas de choisir .
Si b
2
3ac 0 il y a un minimum donn par
s =
b +
b
2
3ac
3a
,
si s [0, 1] cela permet de donner t la valeur
t = t
0
+ s,
sinon, cela ne permet pas de choisir t, et on peut en dernier recours faire appel la dichotomie.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent suivant
98
Chapitre V
Mthodes de Quasi-Newton
V.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
V.2 Les mthodes de quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
V.3 Mthodes spciques pour les problmes de moindres carrs . . . . . . . . . . . . 118
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
99
V.1 Introduction
V.1.1 La mthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
V.1.2 Mthodes mtrique variable . . . . . . . . . . . . . . . . . . . . . . . . . 102
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
100
V.1.1 La mthode de Newton
La mthode de Newton permet de construire un algorithme permettant de rsoudre le systme dquations
non-linaires
g(x) = 0,
o g : R
n
R
n
est difrentiable : on se donne x
0
R
n
et on fait les itrations
x
k+1
= x
k
g
(x
k
)
1
g(x
k
), (V.1.1)
o g
(x) est la drive (ou jacobienne) de g au point x. Lapplication de cette mthode au problme doptimi-
sation
min
xR
n
f(x), (V.1.2)
consiste lutiliser pour rsoudre le systme doptimalit du problme (V.1.2), cest dire que lon pose
g(x) = f(x) dans (V.1.1) : on obtient les itrations
x
k+1
= x
k
2
f(x
k
)
1
f(x
k
). (V.1.3)
La mthode de Newton est intressante car sa convergence est quadratique au voisinage de la solution, cest
dire que lon a
|x
k+1
x| |x
k
x|
2
, > 0,
mais la convergence nest assure que si x
0
est sufsamment proche de x, ce qui en limite lintrt.
Pour rsoudre le problme de convergence locale de la mthode de Newton, on peut penser lui ajouter
une phase de recherche linaire, dans la direction
d
k
=
2
f(x
k
)
1
f(x
k
).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
101
La mthode de
Newton
Cela est possible uniquement si d
k
est une direction de descente en x
k
, soit
f(x
k
)
d
k
= f(x
k
)
2
f(x
k
)
1
f(x
k
) < 0,
ce qui sera le cas si
2
f(x
k
) est une matrice dnie positive, ce qui nest pas garanti (on sait tout au plus que
2
f( x) > 0).
Le principe des mthodes que nous allons voir maintenant consiste remplacer le Hessien
2
f(x
k
) par
une approximation H
k
(si possible dnie positive), construite au cours des itrations.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
102
V.1.2 Mthodes mtrique variable
Le principe des mthodes dites mtrique variable consiste faire les itrations suivantes
_
d
k
= B
k
g
k
,
x
k+1
= x
k
+
k
d
k
,
(V.1.4)
o on a not g
k
= f(x
k
) et B
k
est une matrice dnie positive. La mthode ci-dessus concide avec la
mthode du gradient si B
k
= I. On peut envisager de prendre B
k
= B > 0, k et cela conduit la remarque
suivante.
Remarque V.1.1. Lorsque lon cherche rsoudre le problme
min
xR
n
f(x),
On peut poser x = Cy o C est une matrice inversible (changement de variable). Notons alors

f(y) = f(Cy).
On a
f(y) = C
f(Cy).
Un pas de la mthode du gradient applique la minimisation de

f(y) est donn par
y
k+1
= y
k
k
C
f(Cy
k
),
soit en revenant la variable originale et en posant x
k
= Cy
k
x
k+1
= x
k
k
CC
f(x
k
).
On obtient bien une mthode du type (V.1.4) avec B = CC
> 0. Dans le cas o f est une forme quadratique,

on voit assez facilement comment lintroduction de B permet dacclrer la convergence de la mthode.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
103
Mthodes
mtrique
variable
Thorme V.1.2. Soit f(x) = une forme quadratique dnie positive et B une matrice dnie positive. Lal-
gorithme du gradient prconditionn
_
x
0
= donn,
x
k+1
= x
k
k
Bg
k
,
k
optimal
converge linairement au sens o
|x
k+1
x|
A
|x
k
x|
A
,
avec
=
(BA) 1
(BA) + 1
.
Dans cette mthode, on voit bien comment inue la matrice B sur la vitesse de convergence : plus le
conditionnement de BA sera faible, plus lacclration sera grande. On ne peut bien sr pas poser B = A
1
,
puisque cela sous-entendrait que lon a dj rsolu le problme ! Cependant, lide est tout de mme assez
bonne, en ce sens quelle indique que B soit tre une approximation de A
1
si lon veut effectivement acclrer
la mthode. Enn, et pour terminer cette introduction avant dtudier de plus prs les mthodes de quasi-
Newton pour f quelconque, on peut dores et dj dire quun critre de bon fonctionnement de la mthode
(V.1.4) serait que lon ait au moins
lim
k
B
k
= A
1
,
dans le cas quadratique.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
104
V.2 Les mthodes de quasi-Newton
V.2.1 Relation de quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
V.2.2 Formules de mise jour de lapproximation du hessien . . . . . . . . . . . 106
V.2.3 Formule de Broyden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
V.2.4 Formule de Davidon, Fletcher et Powell . . . . . . . . . . . . . . . . . . . . 110
V.2.5 Algorithme de Davidon-Fletcher-Powel . . . . . . . . . . . . . . . . . . . . 112
V.2.6 Algorithme de Broyden, Fletcher, Goldfarb et Shanno . . . . . . . . . . . . 116
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
105
V.2.1 Relation de quasi-Newton
Une mthode de quasi-Newton est une mthode du type :
_
d
k
= B
k
g
k
,
x
k+1
= x
k
+
k
d
k
,
(V.2.1)
ou
_
d
k
= H
1
k
g
k
,
x
k+1
= x
k
+
k
d
k
,
(V.2.2)
o B
k
(respectivement H
k
) est une matrice destine approcher linverse du hessien de f (respectivement
le hessien de f) en x
k
. Il se pose donc un problme : quelle stratgie adopter pour faire cette approximation.
On peut par exemple poser B
0
= I, mais comment ensuite mettre jour lapproximation B
k
au cours des
itrations ? Lide est la suivante : on sait que au point x
k
, le gradient et le hessien de f vrient la relation
g
k+1
= g
k
+
2
f(x
k
)(x
k+1
x
k
) +(x
k+1
x
k
).
Si on suppose que lapproximation quadratique est bonne, on peut alors ngliger le reste et considrer que lon
a
g
k+1
g
k

2
f(x
k
)(x
k+1
x
k
),
cela conduit la notion de relation de quasi-Newton :
Dnition V.2.1. On dit que les matrice B
k+1
et H
k+1
vrient une relation de quasi-Newton si on a
H
k+1
(x
k+1
x
k
) = f(x
k+1
) f(x
k
),
ou
x
k+1
x
k
= B
k+1
f(x
k+1
) f(x
k
).
Il reste un problme rsoudre : comment mettre jour B
k
tout en assurant B
k
> 0 ? Cest ce que nous
allons voir maintenant.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
106
V.2.2 Formules de mise jour de lapproximation du hessien
Le principe de la mise jour consiste, une itration donne de lalgorithme
_
d
k
= B
k
g
k
,
x
k+1
= x
k
+
k
d
k
,
(V.2.3)
appliquer une formule du type
B
k+1
= B
k
+
k
, (V.2.4)
avec
k
symtrique, assurant la relation de quasi-Newton
x
k+1
x
k
= B
k+1
(g
k+1
g
k
),
ainsi que B
k+1
> 0, sous lhypothse que B
k
> 0.
La formule (V.2.4) permet dutiliser les nouvelles informations obtenues lors de ltape k de lalgorithme,
cest dire essentiellement le gradient g
k+1
= f(x
k+1
) au point x
k+1
, obtenu par recherche linaire (exacte
ou approche) dans la direction d
k
. Il existe diffrentes formules du type (V.2.4). Suivant que
k
est de rang
1 ou 2, on parlera de correction de rang 1 ou de rang 2.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
107
V.2.3 Formule de Broyden
On peut chercher dterminer une formule de correction de rang 1 de la faon suivante. On crit B
k+1
sous la forme
B
k+1
= B
k
+vv
,
et on cherche v tel que la relation de quasi-Newton
B
k+1
y
k
= s
k
,
o on a pos y
k
= g
k+1
g
k
et s
k
= x
k+1
x
k
. On a donc
B
k
y
k
+vv
y
k
= s
k
,
et en prenant le produit scalaire des deux membres de lgalit prcdente avec y
k
on obtient
(y
k
v)
2
= (s
k
B
k
y
k
)
y
k
Si on utilise maintenant lgalit
vv
=
vv
y
k
(vv
y
k
)
(v
y
k
)
2
,
alors on peut crire, en remplacant v
y
k
par s
k
B
k
y
k
et (v
y
k
)
2
par y
k
(s
k
B
k
y
k
), la formule de correction
B
k+1
= B
k
+
(s
k
B
k
y
k
)(s
k
B
k
y
k
)
(s
k
B
k
y
k
)
y
k
, (V.2.5)
connue sous le nom de formule de Broyden. La validit de cette formule provient du rsultat suivant :
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
108
Formule de
Broyden
Thorme V.2.2. Soit f une forme quadratique dnie positive. Considrons la mthode itrative qui, partant
dun point x
0
arbitraire engendre sucessivement les points
x
k+1
= x
k
+s
k
,
o les s
k
sont des vecteurs linairement indpendants. Alors la suite de matrices gnre par B
0
, une matrice
symtrique quelconque et la formule
B
k+1
= B
k
+
(s
k
B
k
y
k
)(s
k
B
k
y
k
)
(s
k
B
k
y
k
)
y
k
,
o y
k
= f(x
k+1
) f(x
k
), converge en au plus n tapes vers A
1
, linverse du hessien de f.
Dmonstration : Puisque le hessien de f est constant et gal A on a
y
i
= f(x
i+1
) f(x
i
) = A(x
i+1
x
i
), i.
On a vu que B
k+1
est construit de faon ce que lon ait
B
k+1
y
k
= s
k
,
montrons que lon a aussi
B
k+1
y
i
= s
i
, i = 0 . . . k 1.
On raisonne par rcurrence en supposant que cette proprit est vraie pour B
k
, savoir
B
k
y
i
= s
i
, i = 0 . . . k 2.
Soit donc i k 2 quelconque. On a
B
k+1
y
i
= B
k
y
i
+
(s
k
B
k
y
k
)(s
k
y
i
B
k
y
k
y
i
)
(s
k
B
k
y
k
)
y
k
. (V.2.6)
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
109
Formule de
Broyden
Par lhypothse de rcurrence on a B
k
y
i
= s
i
donc
y
k
B
k
y
i
= y
k
s
i
,
mais comme As
j
= y
j
, j, on obtient
y
k
s
i
= s
k
As
i
= s
k
y
i
,
donc dans (V.2.6) le numrateur est nul et on a B
k+1
y
i
= B
k
y
i
= s
i
. On a donc
B
k+1
y
i
= s
i
, i = 0 . . . k.
Au bout de n itrations on a donc
B
n
y
i
= s
i
, i = 0 . . . n 1,
et puisque lon a y
i
= As
i
cette dernire formule dcrit
B
n
As
i
= s
i
, i = 0 . . . n 1.
Comme les s
i
constituent une base de R
n
on a B
n
A = I ou encore
B
n
= A
1
,
ce qui montre le rsultat. 2
Le problme de la formule de Broyden est quil ny a aucune garantie que les matrices B
k
soientt dnes
positives mme si la fonction f est quadratique et si par exemple B
0
= I. On peut cependant noter lintrt de
la proprit B
n
= A
1
, qui sera aussi vrie par les mthodes de mise jour que nous allons voir maintenant.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
110
V.2.4 Formule de Davidon, Fletcher et Powell
La formule de mise jour de Davidon, Fletcher et Powell est une formule de correction de rang 2 donne
par
B
k+1
= B
k
+
s
k
s
k
s
k
y
k
B
k
y
k
y
k
B
k
y
k
B
k
y
k
(V.2.7)
Le rsultat suivant montre que sous certaines conditions, la formule (V.2.7) conserve la dnie-positivit des
matrices B
k
.
Thorme V.2.3. On considre la mthode dnie par
d
k
= B
k
g
k
,
x
k+1
= x
k
+
k
d
k
,
k
optimal
O B
0
> 0 est donne ainsi que x
0
. Alors les matrices B
k
sont dnies positives, k > 0.
Dmonstration : Soit x un vecteur de R
n
. On a
x
B
k+1
x = x
B
k
x +
(s
k
x)
2
s
k
y
k
(y
k
B
k
x)
2
y
k
B
k
y
k
,
=
y
k
B
k
y
k
x
B
k
x (y
k
B
k
x)
2
y
k
B
k
y
k
+
(s
k
x)
2
s
k
y
k
Si on dnit le produit scalaire x, y) = x
B
k
y alors on a
x
B
k+1
x =
y
k
, y
k
) x, x) y
k
, x)
2
y
k
, y
k
)
+
(s
k
x)
2
s
k
y
k
. (V.2.8)
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
111
Formule de
Davidon,
Fletcher et
Powell
Le premier terme du second membre est positif ou nul daprs lingalit de Cauchy-Schwartz. Quant au
deuxime terme on peut faire lanalyse suivante : puisque le pas est optimal, on a la relation
g
k+1
d
k
= 0,
et donc
s
k
y
k
= +
k
(g
k+1
g
k
)
d
k
=
k
g
k
B
k
g
k
> 0,
on a donc x
B
k+1
x 0. Les deux termes dans (V.2.8) tant positifs, cette quantit ne peut sannuler que si
les deux termes sont simultanment nuls. Le premier terme ne peut sannuler que si x = y
k
pour un scalaire
,= 0. Dans ce cas le deuxime terme est non nul car s
k
x = s
k
y
k
. On a donc bien B
k+1
> 0. 2
Remarque V.2.4. La proprit s
k
y
k
> 0 est vrie galement par des mthodes de recherche linaire ap-
proches comme par exemple la rgle de Wolfe de Powell : en effet dans ce cas on dtermine un point x
k+1
tel
que
(
k
) = f(x
k+1
)
d
k
m
2
f(x
k
)
d
k
, 0 < m
2
< 1,
do
g
k+1
x
k+1
x
k
k
> g
k
x
k+1
x
k
k
,
et donc (g
k+1
g
k
)
(x
k+1
x
k
) > 0.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
112
V.2.5 Algorithme de Davidon-Fletcher-Powel
On peut donc formuler maintenant la mthode utilisant la formule de correction (V.2.7) :
Algorithme de Davidon-Fletcher-Powel
1. Choisir x
0
et B
0
dnie positive quelconque (par exemple B
0
= I)
2. A litration k, calculer la direction de dplacement
d
k
= B
k
f(x
k
),
dterminer le pas optimal
k
et poser
x
k+1
= x
k
+
k
d
k
.
3. Poser s
k
=
k
d
k
et y
k
= f(x
k+1
) f(x
k
) puis calculer
B
k+1
= B
k
+
s
k
s
k
s
k
y
k
B
k
y
k
y
k
B
k
y
k
B
k
y
k
.
4. Faire k k + 1. Retourner en 1 sauf si le critre darrt est vri.
Comme critre darrt on retiendra par exemple |g
k+1
| < .
Cet algorithme a un comportement remarquable dans le cas o f est une forme quadratique :
Thorme V.2.5. Appliqu une forme quadratique f, lalgorithme DFP engendre des directions s
0
, . . . , s
k
vriant
s
i
As
j
= 0, 0 i < j k + 1, (V.2.9)
B
k+1
As
i
= s
i
, 0 i k. (V.2.10)
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
113
Algorithme de
Davidon-
Fletcher-Powel
Dmonstration : En utilisant la formule (V.2.7) on a pour tout k
B
k+1
As
k
= B
k+1
y
k
,
= s
k
,
par construction. Donc (V.2.10) est en particulier vrie pour k = 0, soit
B
1
As
0
= s
0
.
On a aussi
s
0
As
1
=
1
s
0
AB
1
g
1
,
=
1
s
0
AB
1
g
1
,
=
1
s
0
g
1
,
= 0,
puisque B
1
As
0
= s
0
et que x
1
est obtenu par un pas optimal dans la direction s
0
. Donc (V.2.10) est vrie
pour k = 0.
Supposons maintenant que (V.2.9) et (V.2.10) sont vries lordre k 1. On peut crire dune part pour
i = 0 . . . k 1.
g
k+1
g
i+1
= y
i+1
+y
i
+. . . y
k
,
= A(s
i+1
+s
i
+. . . s
k
)
car f est une forme quadratique de hessien A. Dautre part, puisque x
i+1
est obtenu par un pas optimal dans
la direction s
i
on a s
i
g
i+1
= 0 et donc
s
i
(g
k+1
g
i+1
) = s
i
A(s
i+1
+s
i
+. . . s
k
), i = 0 . . . k 1,
donc en vertu de lhypothse de recurrence (conjugaison des s
i
) on a
s
i
g
k+1
= 0, i = 0 . . . k 1, (V.2.11)
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
114
Algorithme de
Davidon-
Fletcher-Powel
Cette relation reste aussi valable pour i = k puisque lon a s
k
g
k+1
= 0 (pas optimal). La deuxime hypothse
de rcurrence permet donc dcrire, en remplacant s
i
par B
k+1
As
i
dans (V.2.11)
s
i
AB
k+1
g
k+1
= 0, i = 0 . . . k
et donc, puisque H
k+1
g
k+1
= s
k+1
/
k+1
,
s
i
As
k+1
= 0, i = 0 . . . k,
ce qui dmontre donc la proprit (V.2.9) au rang k.
Montrons maintenant que
B
k+1
As
i
= s
i
, i = 0 . . . k 1.
Cette relation est vraie pour i = k comme on la dj montr plus haut. On a
B
k+1
As
i
= B
k
As
i
+
s
k
s
k
As
i
s
k
y
k
B
k
y
k
y
k
B
k
As
i
y
k
B
k
y
k
.
Le deuxime terme du second membre est nul car s
k
As
i
= 0. Si on note que par lhypothse de rcurrence
on a B
k
As
i
= s
i
pour i = 0 . . . k 1 et y
k
= s
k
A le numrateur du troisime terme est donn par
B
k
y
k
y
k
B
k
As
i
= B
k
y
k
s
k
As
i
= 0.
Par consquent on a bien
B
k+1
As
i
= s
i
, i = 0 . . . k 1,
ce qui dmontre la proprit (V.2.10) au rang k. 2
La mthode DFP se comporte donc, dans le cas quadratique, comme une mthode de directions conju-
gues. Dans ce cas lalgorithme converge en au plus n itrations. On peut aussi remarquer que lon a pour
k = n 1 la relation
B
n
As
i
= s
i
, i = 0, . . . n 1,
et comme les s
i
sont linairement indpendants (car mutuellement conjugus) on en dduit que
B
n
= A
1
.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
115
Algorithme de
Davidon-
Fletcher-Powel
Remarque V.2.6. On peut montrer que dans le cas gnral (non quadratique), sous les mmes rserves que
pour la mthode de Fletcher-Reeves (rinitialisation priodique d
k
= g
k
), cet algorithme permet de conver-
ger vers un minimum local x de f, et que lon a
lim
k
B
k
=
2
f( x)
1
,
ce qui montre que prs de loptimum x, si la recherche linaire est exacte, la mthode se comporte asympto-
tiquement comme la mthode de Newton. Cette remarque permet de justier le choix dune estimation du pas
de dplacement donne par
k
= 1,
dans les mthodes de recherche linaire approche.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
116
V.2.6 Algorithme de Broyden, Fletcher, Goldfarb et Shanno
La formule de mise jour de Broyden, Fletcher, Goldfarb et Shanno est une formule de correction de rang
2 qui sobtient partir de la formule DFP en intervertissant les rles de s
k
et y
k
. La formule obtenu permet de
mettre jour une approximation H
k
du hessien possdant les mmes proprits, savoir H
k+1
> 0 si H
k
> 0
et vriant la relation de quasi-Newton
y
k
= H
k
s
k
.
La formule est donc la suivante :
H
k+1
= H
k
+
y
k
y
k
y
k
s
k
H
k
s
k
s
k
H
k
s
k
H
k
s
k
(V.2.12)
Lalgorithme associ est le suivant :
Algorithme de Broyden, Fletcher, Goldfarb et Shanno
1. Choisir x
0
et H
0
dnie positive quelconque (par exemple H
0
= I)
2. A litration k, calculer la direction de dplacement
d
k
= H
1
k
f(x
k
),
dterminer le pas optimal
k
et poser
x
k+1
= x
k
+
k
d
k
.
3. Poser s
k
=
k
d
k
et y
k
= f(x
k+1
) f(x
k
) puis calculer
H
k+1
= H
k
+
y
k
y
k
y
k
s
k
H
k
s
k
s
k
H
k
s
k
H
k
s
k
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
117
Algorithme de
Broyden,
Fletcher,
Goldfarb et
Shanno
4. Faire k k + 1. Retourner en 2 sauf si le critre darrt est vri.
Notons que la direction d
k
est obtenue par rsolution dun systme linaire. En pratique la mise jour de
H
k
est faite directement sur le facteur de Cholesky C
k
o H
k
= C
k
C
k
ce qui ramne le calcul de d
k
au mme
cot que pour la formule de DFP. De plus, cette technique permet de contrler prcisment la dnie positivit
de H
k
, qui peut se dgrader cause des erreurs darrondi.
Remarque V.2.7. La mthode BFGS possde les mmes proprits que la mthode DFP : dans le cas qua-
dratique les directions engendres sont conjugues et on a H
n
= A. Cette mthode est reconnue comme tant
beaucoup moins sensible que la mthode DFP aux imprcisions dans la recherche linaire, du point de vue
de la vitesse de convergence. Elle est donc tout fait adapte quand la recherche linaire est faite de faon
conomique, avec par exemple la rgle de Goldstein ou la rgle de Wolfe et Powell. Elle est par exemple
utilise dans la fonction fminu de Matlab.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
118
V.3 Mthodes spciques pour les problmes de moindres
carrs
V.3.1 La mthode de Gauss-Newton . . . . . . . . . . . . . . . . . . . . . . . . . 119
V.3.2 la mthode de Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . . 120
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
119
V.3.1 La mthode de Gauss-Newton
Dans les problmes de moindres carrs non linaires, la fonction minimiser prend en gnral la forme
f(x) =
1
2
m
i=1
f
i
(x)
2
,
comme on peut le voir sur lexemple vu au premier chapitre. Quand on veut appliquer la mthode de Newton
la minimisation de f(x), on doit calculer le Hessien de f, qui dans ce cas prcis prend une forme particulire :
on a dune part
f(x) =
m
i=1
f
i
(x)f
i
(x),
et le hessien de f est donn par
2
f(x) =
m
i=1
f
i
(x)f
i
(x)
+
m
i=1
f
i
(x)
2
f
i
(x).
Si lon se place prs de loptimum, o on supposera que les f
i
(x) sont petis, le deuxime terme peut alors tre
nglig. La matrice obtenue
H(x) =
m
i=1
f
i
(x)f
i
(x)
,
possde une proprit intressante : elle est semi-dnie positive. De plus dans la plupart des cas m est trs
suprieur n et la matrice est la plupart du temps dnie positive (nous reviendrons sur ce point). La mthode
originale que lon obtient partir de la mthode de Newton en remplacant
2
f(x) par H(x) est la mthode
de Gauss-Newton :
_
_
_
x
0
donn,
H
k
=

m
i=1
f
i
(x
k
)f
i
(x
k
)
,
x
k+1
= x
k
H
1
k
f(x
k
).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
120
V.3.2 la mthode de Levenberg-Marquardt
Pour assurer la convergence globale de la mthode de Gauss-Newton, on peut combiner lalgorithme pr-
cdent avec une recherche linaire, et dans ce cas on peut alors faire les itrations
_
d
k
= H
1
k
f(x
k
)
x
k+1
= x
k
+
k
d
k
,
cependant, il ny a aucune garantie que H
k
reste dne positive, et en gnral on fait appel une mthode mo-
die, qui est la mthode de Levenberg-Marquardt : lide consiste remplacer, dans la mthode prcdente,
la matrice H
k
par la matrice H
k
+ I o est un rel positif. Si est trs grand, on retombe alors sur la
mthode du gradient.
Mthode de Levenberg-Marquardt
_
_
x
0
donn,
H
k
=

m
i=1
f
i
(x
k
)f
i
(x
k
)
,
d
k
= (H
k
+I)
1
f(x
k
)
x
k+1
= x
k
+
k
d
k
,
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent suivant
121
Chapitre VI
Conditions doptimalit en optimisation avec
contraintes
VI.1 Les conditions de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
VI.2 Les conditions de Kuhn et Tucker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
VI.3 Exemples de problmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
VI.4 Conditions sufsantes doptimalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
122
VI.1 Les conditions de Lagrange
VI.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
VI.1.2 Problme avec contraintes dgalit . . . . . . . . . . . . . . . . . . . . . . 124
VI.1.3 Contraintes dgalit linaires . . . . . . . . . . . . . . . . . . . . . . . . . 125
VI.1.4 Contraintes dgalit non-linaires . . . . . . . . . . . . . . . . . . . . . . . 127
VI.1.5 Le thorme de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
123
VI.1.1 Introduction
On sintresse maintenant des problmes doptimisation de la forme
(PC)
_
_
min
xR
n
f(x), (VI.1.1)
g(x) 0, (VI.1.2)
h(x) = 0, (VI.1.3)
o les fonctions f, g et h sont diffrentiables au moins une fois, et f est typiquement non-linaire. Cependant
nous tudierons le cas o g et h sont linaires avec un intrt tout particulier. Dans ce chapitre nous allons
nous efforcer dobtenir les conditions doptimalit associes au problme (PC). Les chapitres suivants mettront
ensuite laccent sur les mthodes numriques permettant de le rsoudre. Nous nous intresserons prcisment
dans ce chapitre aux problmes
(PCE) problme avec contraintes dgalit,
(PCI) problme avec contraintes dingalit,
et les rsultats stendront facilement aux problme gnral (PC).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
124
VI.1.2 Problme avec contraintes dgalit
On va tout dabord sintresser au problme suivant, dit problme doptimisation avec contraintes dgalit
seulement :
(PCE)
_
_
min
xR
n
f(x), (VI.1.4)
h(x) = 0. (VI.1.5)
La raison majeure justiant que lon sintresse en premier au problme (PCE) est que (PC) est un problme
du type (PCI) dont on ne sait pas quelles sont les contraintes actives (nous reviendrons sur cette terminologie
plus tard). Nous allons dans un premier temps nous intresser au cas o les contraintes sont linaires.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
125
VI.1.3 Contraintes dgalit linaires
Un problme doptimisation avec contraintes dgalit linaires prend la forme
_
min
xR
n
f(x), (VI.1.6)
Ax b = 0. (VI.1.7)
o A est une matrice p n avec p < n et b R
p
. On notera
S = x R
n
, Ax b = 0.
Nous allons maintenant dnir le concept de direction admissible dans S.
Dnition VI.1.1. On dit que d R
n
est une direction admissible en x S sil existe > 0 tel que
x +td S, t [, ]
Dans notre cas, on a A(x + td) b = tAd puisque x S, et donc les directions admissibles d sont
caractrises par
Ad = 0. (VI.1.8)
Rappellons maintenant un rsultat bien utile dalgbre linaire :
Thorme VI.1.2. Soit A une matrice p n. On a la relation suivante
(Ker A)
= (ImA
)
On peut donc noncer les conditions ncessaires doptimalit pour le problme (VI.1.6) :
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
126
Contraintes
dgalit
linaires
Thorme VI.1.3. Soit x S solution du problme (VI.1.6), vriant donc
f( x) f(x), x S
Alors il existe ncessairement un vecteur R
p
vriant
f( x) +A
= 0.
Si de plus A est de rang p alors est unique.
Dmonstration : Soit d une direction admissible, vriant donc d Ker A. Pour tout t Ron a
f( x) f( x +td),
soit
f( x +td) f( x)
t
0, t > 0,
f( x +td) f( x)
t
0, t < 0.
Si on prend la limite de ces deux expressions quand t tend vers 0 en en dduit que
f( x)
d = 0, d Ker A
soit f( x) (Ker A)
, donc f( x) ImA
. Il existe donc un vecteur tel que

f( x) = A
,
ce qui dmontre le rsultat. Pour lunicit, supposons quil existe deux vecteurs
1
et
2
vriant
f( x) = A
1
= A
2
.
On a donc
A
(
1
2
) = 0,
et donc
1
2
= 0 si A est de rang p. 2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
127
VI.1.4 Contraintes dgalit non-linaires
Nous tudions maintenant le problme
_
min
xR
n
f(x), (VI.1.9)
h(x) = 0. (VI.1.10)
o h : R
n
R
p
est diffrentiable. On note comme prcdemment
S = x R
n
, h(x) = 0.
Le concept de direction admissible dans S ne peut pas se dnir comme pour les contraintes linaires, car pour
x S il peut ne pas exister > 0 et d R
n
tels que x + td S. On doit donc dnir le concept de courbe
admissible.
Considrons une courbe x(t) dnie pour t 0 vriant
_
x(t) S, t [, ], > 0
x(0) = x.
Puisque x(t) S on a h
i
(x(t)) = 0 pour 1 i p et on peut crire que
d
dt
h
i
(x(t)) = h
i
(x(t))
x(t) = 0, 1 i p.
Si on note y = x(0) le vecteur tangent la courbe x(t) en t = 0, on a donc
h
i
( x)
y = 0, 1 i p. (VI.1.11)
Cela conduit la dnition suivante :
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
128
Contraintes
dgalit
non-linaires
Dnition VI.1.4. On dit que y R
n
est une direction admissible en x S sil existe > 0 et une courbe
x(t) vriant
_
_
_
x(t) S, t [, ],
x(0) = x,
x(0) = y.
On notera alors y T( x).
Lensemble T( x) dnit le plan tangent S en x. Lanalyse faite prcdemment montre que lon a lim-
plication
y T( x) h
i
( x)
y = 0, 1 i p,
qui sera insufsante pour montrer la condition ncssaire doptimalit. Nous allons donc maintenant nous
attacher montrer sous quelles conditions la relation (VI.1.11) est une condition sufsante dappartenance
T( x).
Dnition VI.1.5. On dit que x est un point rgulier pour la contrainte h(x) = 0 si
h( x) = 0,
Les vecteurs h
i
( x) sont linairement indpendants.
Si on note h( x) la matrice n p
h( x) = [h
1
( x) . . . h
p
( x)] ,
la condition dindpendance linaire des h
i
( x) peut scrire
Rang h( x) = p.
et on a donc h( x)
x(0) = 0 pour toute courbe admissible x(t).

On a la proposition suivante :
Proposition VI.1.1. Si x est un point rgulier pour la contrainte h(x) = 0, alors
h( x)
y = 0 y T( x).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
129
Contraintes
dgalit
non-linaires
Dmonstration : Soit y R
n
vriant h( x)
y = 0. On considre la courbe x(t) donne par

x(t) = x +ty +h( x)u(t).
La fonction u(t) R
p
, pour linstant inconnue, va tre dtermine de telle faon que h(x(t)) = 0. On va
pour cela poser le problme de la dtermination de u(t) sous la forme dune quation implicite. On dnit la
fonction F : RR
p
R
p
par
F(t, u) = h( x +ty +h( x)u).
Le problme de la dtermination de u(t) se ramne donc la rsolution de lquation
F(t, u) = 0,
au voisinage du point (0, 0). On a dune part F(0, 0) = h( x) = 0 et
u
F(t, u) = h( x)
h( x +ty +h( x)u),

soit
u
F(0, 0) = h( x)
h( x).
La matrice

u
F(0, 0) est inversible puisque par hypothse h( x) est de rang p. On peut alors appliquer le
thorme des fonctions implicites : il existe un voisinage du point (0, 0) et une fonction u(t) tels que
F(t, u) = 0 u = u(t).
Notons que lon a donc ncssairement u(0) = 0 puisque F(0, 0) = 0.
On a donc maintenant
x(t) = y +h( x) u(t)
soit en t = 0
x(0) = y +h( x) u(0).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
130
Contraintes
dgalit
non-linaires
Montrons que u(0) = 0. Pour cela on crit que lon a
d
dt
h(x(t)) = h(x(t))
(y +h( x) u(t)) = 0,
puisque h(x(t)) = 0, et donc en t = 0 la relation prcdente prend la forme
d
dt
h(x(t))
t=0
= h( x)
y +h( x)
h( x) u(0) = 0.
Le premier terme du second membre est nul par hypothse, et donc u(0) = 0 puisque h( x)
h( x) est
inversible. Donc
x(0) = y,
soit y T( x), ce qui dmontre le rsultat annonc. 2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
131
VI.1.5 Le thorme de Lagrange
Thorme VI.1.6. Soit x S = x R
n
, h(x) = 0 un point rgulier solution du problme (VI.1.9),
vriant donc
f( x) f(x), x S
Alors il existe ncessairement un vecteur R
p
unique vriant
f( x) +h( x) = 0,
soit encore
f( x) +
p
i=1
i
h
i
( x) = 0.
Les composantes du vecteur sont appeles multiplicateurs de Lagrange.
Dmonstration : Considrons une courbe x(t) dnie pour t [, ] vriant
_
x(t) S, t [, ], > 0
x(0) = x.
On a
f(x(0)) f(x(t)), t [, ],
donc ncessairement
d
dt
f(x(t))
t=0
= f( x)
x(0) = 0,
ce qui signie que f( x) se trouve dans lorthogonal de T( x) le plan tangent S en x. Si lon utilise lqui-
valence
T( x) = Ker h( x)
T( x)
= Imh( x),
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
132
Le thorme
de Lagrange
il existe donc un vecteur R
p
tel que
f( x) = h( x).
Lunicit rsulte du fait que h( x) est de rang p et se montre comme dans le cas linaire. 2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
133
VI.2 Les conditions de Kuhn et Tucker
VI.2.1 Problme avec contraintes dingalit . . . . . . . . . . . . . . . . . . . . . 134
VI.2.2 Interprtation gomtrique des conditions de Kuhn et Tucker . . . . . . . 138
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
134
VI.2.1 Problme avec contraintes dingalit
On sintresse maintenant au problme suivant, dit problme doptimisation avec contraintes dingalit
seulement :
(PCI)
_
_
min
xR
n
f(x), (VI.2.1)
g(x) 0, (VI.2.2)
o g : R
n
R
m
, est diffrentiable (il ny a ici aucune condition sur m). On notera K lensemble des points
admissibles, cest dire
K = x R
n
, g(x) 0.
Au point solution de (PCI) il va de soi que les contraintes effectivement actives vrieront g
i
( x) = 0.
Cependant, puisque lon ne sait pas a priori quelles sont ces contraintes, le passage de (PCI) a un problme
du type (PCE) nest pas direct.
Dnition VI.2.1. On appelle contraintes satures en x lensemble des indices i tel que g
i
( x) = 0, et on note
I( x) = i [ g
i
( x) = 0.
On note alors S( x) lensemble
S( x) = x R
n
, g
i
(x) = 0, i I( x).
Le concept de direction admissible se dnit comme suit :
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
135
Problme avec
contraintes
dingalit
Dnition VI.2.2. On dit que y R
n
est une direction admissible en x K sil existe > 0 et une courbe
x(t) vriant
_
_
_
x(t) K, t [, ],
x(0) = x,
x(0) = y.
On notera alors y C( x).
Lemme VI.2.3. Soit y R
n
une direction admissible en x K, alors on a ncessairement
g
i
( x)
y 0, i I( x).
Dmonstration : Considrons une courbe x(t) dnie pour t [, ] vriant
_
_
_
x(t) K, t [, ], > 0
x(0) = x,
x(0) = y.
Comme g
i
( x) < 0 pour i , I( x), on aura toujours g
i
(x(t)) < 0 pour t sufsamment petit. Par contre, pour
i I( x) on doit avoir g
i
(x(t)) 0 pour t sufsamment petit. Si on utilise le dveloppement de Taylor de
g
i
(x(t)) en t = 0 on doit donc avoir
g
i
( x) +tg
i
( x)
y +t(t) 0.
Puisque g
i
( x) = 0 il faut donc ncessairement que lon ait
g
i
( x)
y 0.
2 Comme dans le cas des contraintes dgalit, on doit dnir la notion de point rgulier, qui est ncessaire
pour que la condition prcdente soit sufsante :
Dnition VI.2.4. On dit que x est un point rgulier pour la contrainte g(x) 0 si
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
136
Problme avec
contraintes
dingalit
g( x) 0,
Les vecteurs h
i
( x)
iI( x)
sont linairement indpendants.
Sous lhypothse de rgularit de x on aura, comme dans le cas des contraintes dgalit
g
i
( x)
y 0, i I( x) y C( x).
La proposition suivante permet deffectuer le premier pas vers les conditions de Kuhn et Tucker.
Proposition VI.2.1. Soit x la solution du problme (PCI). Il existe > 0 tel que
x B( x, ), g
i
(x) < 0, i , I( x),
o on a not B( x, ) la boule de centre x et de rayon . Alors x est la solution du problme
_
min
xB( x,)
f(x), (VI.2.3)
g
i
(x) = 0, i I( x). (VI.2.4)
Ce rsultat est uniquement d la continuit de g, et montre que lon est localement ramen un problme
avec contraintes dgalit. On peut donc maintenant noncer le rsulat principal :
Thorme VI.2.5. Soit x K un point rgulier solution du problme (PCI). Alors il existe un unique
vecteur R
m
tel que
f( x) +
m
i=1
i
g
i
( x) = 0, (VI.2.5)
i
0, i = 1 . . . m, (VI.2.6)
i
g
i
( x) = 0, i = 1 . . . m (VI.2.7)
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
137
Problme avec
contraintes
dingalit
Dmonstration : Les relation (VI.2.5) (VI.2.7) sont une consquence directe du thorme de Lagrange,
car il suft de prendre
i
= 0 pour i , I( x). On peut ensuite montrer (VI.2.6) par labsurde : supposons quil
existe k I( x) tel que
k
< 0. On dnit la surface
S
k
= x [ g
i
(x) = 0, i I( x), i ,= k.
On dnit y R
n
tel que
g
i
( x)
y = 0, i I( x), i ,= k,
g
k
( x)
y = 1.
Alors y est une direction admissible en x puisque
g
i
( x)
y 0, i I( x),
et que x est un point rgulier. Il existe donc une courbe x(t) S
k
et vriant de plus x(t) K, pour t [, ],
telle que x(0) = y. On a donc
d
dt
f(x(t))
t=0
= f( x)
y, (VI.2.8)
=
i
g
i
( x)
y, (VI.2.9)
=
k
g
k
( x)
y =
k
< 0, (VI.2.10)
ce qui est impossible car f est minimum en x. 2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
138
VI.2.2 Interprtation gomtrique des conditions de Kuhn et Tucker
On considre un cas o I( x) = 1, 2. Au point x, lensemble des directions admissibles C( x) forme un
cne qui est lintersections des demi-espaces dquation
g
i
( x)
y 0, i = 1, 2.
Pour que x soit un optimum local, il faut que le vecteur f( x) forme un angle obtus avec les directions ad-
C( x)
f( x)
g
1
( x)
K
g
2
( x)
g
1
(x) = 0
g
2
(x) = 0
x
FIG. VI.2.1 Illustration des conditions de Kuhn et Tucker sur un exemple deux dimensions.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
139
Interprtation
gomtrique
des conditions
de Kuhn et
Tucker
missibles. On vrie aussi que f( x) est combinaison linaire ( coefcients positifs) des vecteurs g
i
( x),
i = 1, 2.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
140
VI.3 Exemples de problmes
VI.3.1 Distance dun point un plan . . . . . . . . . . . . . . . . . . . . . . . . . . 141
VI.3.2 Pseudo-inverse de Moore et Penrose . . . . . . . . . . . . . . . . . . . . . 142
VI.3.3 Exemple de programme quadratique . . . . . . . . . . . . . . . . . . . . . 143
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
141
VI.3.1 Distance dun point un plan
On cherche calculer la distance dun point x
0
R
n
au plan dni par lquation Ax = b, o A /
pn
avec Rang A = p. Se problme se pose sous la forme
min
xR
n
1
2
|x
0
x|
2
Ax = b.
On pose donc f(x) =
1
2
|x
0
x|
2
. On a
f(x) = (x
0
x),
et donc le systme doptimalit est donn par
( x x
0
) +A
= 0, (VI.3.1)
A x = b. (VI.3.2)
En multipliant lquation (VI.3.1) par A on peut exprimer

par
= (AA
)
1
(Ax
0
d),
et on obtient en substituant

dans (VI.3.2)
x = (I A
(AA
)
1
A)x
0
+A
(AA
)
1
d.
Un problme voisin est celui de la projection dune direction d sur le plan Ax = 0. Le rsultat prcdent donne
donc
d = Pd,
avec P = I A
(AA
)
1
.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
142
VI.3.2 Pseudo-inverse de Moore et Penrose
On cherche rsoudre le systme
Ax = b,
avec A /
pn
, p < n et A de rang p. Il sagit donc dun systme sous-dtermin. La pseudo-inverse de
Moore-Penrose est par dnition la matrice A
telle que le vecteur

x = A
b,
est la solution de norme minimale du systme
Ax = b.
Le problme doptimisation rsoudre est donc :
min
xR
n
1
2
|x|
2
Ax = b,
et le systme doptimalit est donn par
x +A
= 0, (VI.3.3)
A x = b. (VI.3.4)
Il suft de substituer x dans la deuxime quation et puisque AA
t
op est de rang p on obtient
x = A
(AA
)
1
b,
et donc la pseudo-inverse est donne par
A
= A
(AA
)
1
.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
143
VI.3.3 Exemple de programme quadratique
On cherche rsoudre le problme
min
xR
2
1
2
|x x
0
|
2
x
1
0,
x
2
0,
x
1
+x
2
1,
o x
0
= (1,
1
2
). Il sagit dun problme avec contraintes dingalit se mettant sous la forme g(x) 0 avec
g(x) =
_
_
x
1
x
2
x
1
+x
2
1
_
_
.
Sur le dessin, on peut sassurer que trs probablement seule la contrainte numro 3 est active. On peut sen
persuader par le calcul de la faon suivante : on peut tenter de rsoudre le systme
f(x) +
3
g
3
(x) = 0,
g
3
(x) = 0,
soit ici
x x
0
+
3
_
1
1
_
= 0,
x
1
+x
2
= 1,
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
144
Exemple de
programme
quadratique
x
g
1
(x) = 0
g
2
(x) = 0
K
g
3
(x) = 0
x
1
x
0
x
2
FIG. VI.3.2 Exemple de programme quadratique
ou bien encore
x
1
+
3
= 1,
x
2
+
3
=
1
2
,
x
1
+x
2
= 1,
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
145
Exemple de
programme
quadratique
dont la solution est donne par
x
1
=
3
4
, x
2
=
1
4
,
3
=
1
4
.
On a bien
3
0 ce qui justie a posteriori le choix de saturer la contrainte numro 3.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
146
VI.4 Conditions sufsantes doptimalit
VI.4.1 Dnition du lagrangien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
VI.4.2 Condition ncssaire du second ordre . . . . . . . . . . . . . . . . . . . . 148
VI.4.3 Condition ncssaire du second ordre . . . . . . . . . . . . . . . . . . . . 150
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
147
VI.4.1 Dnition du lagrangien
Considrons le problme (PCE) avec contraintes dgalit
_
min
xR
n f(x),
h(x) = 0,
o h : R
n
R
p
.
Dnition VI.4.1. On appelle lagrangien associ au problme (PCE) la fonction L : R
n
R
p
Rdnie
par
L(x, ) = f(x) +
p
i=1
i
h
i
(x).
Les conditions de Lagrange peuvent se reformuler laide du lagrangien : soit x solution de (PCE). Alors
il existe

tel que
x
L( x,
) = 0,
o on a not
x
le gradient partiel par rapport la variable x. Dans la suite nous ferons lhypothse que h et
f sont deux fois continment diffrentiables.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
148
VI.4.2 Condition ncssaire du second ordre
Thorme VI.4.2. Soit x un point rgulier solution de (PCE). Alors il existe

tel que
x
L( x,
) = 0,
et de plus pour tout y T( x), y ,= 0, on a
y
2
xx
L( x,
)y 0.
Dmonstration : Soit y T( x). On sait quil existe une courbe x(t) dnie pour t [, ] vriant
_
_
_
x(t) S, t [, ], > 0
x(0) = x,
x(0) = y.
Puisque x est optimal on a
f(x(0)) f(x(t)), t,
et puisque la fonction f est deux fois diffrentiable, on a ncessairement
d
2
dt
2
f(x(t))
t=0
0.
On a ici dune part
d
dt
f(x(t)) = f(x(t))
x(t),
et donc
d
2
dt
2
f(x(t)) = x(t)
2
f(x(t)) x(t) +f(x(t))
x(t), (VI.4.1)
d
2
dt
2
f(x(t))
t=0
= y
2
f( x)y +f( x)
x(0) 0 (VI.4.2)
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
149
Condition
ncssaire du
second ordre
Dautre part on a h
i
(x(t)) = 0 donc
d
2
dt
2
h(x(t))
t=0
= y
2
h
i
( x)y +h
i
( x)
x(0) = 0, i = 1, . . . , p.
On peut multiplier chacune de ces galits par

i
et en faire la somme, ce qui donne
y
_
p
i=1
2
h
i
( x)
_
y +
_
p
i=1
i
h
i
( x)
)
_
x(0) = 0.
En additionnant cette dernire galit (VI.4.2) on obtient
y
2
f( x) +
p
i=1
2
h
i
( x)
_
y +
_
f( x) +
p
i=1
i
h
i
( x)
_
x(0) 0,
et puisque le deuxime terme est nul (condition de Lagrange) on obtient bien lingalit annone. 2 Le
rsultat suivant est une gnralisation du thorme prcdent dont la dmonstration sera admise.
Thorme VI.4.3. Soit x R
n
et

R
p
vriant les conditions
h( x) = 0,
f( x) +
p
i=1
i
h
i
( x) = 0,
y
2
xx
L( x,
)y 0 , y T( x), y ,= 0,
alors x est un minimum local du problme (PCE).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
150
VI.4.3 Condition ncssaire du second ordre
Thorme VI.4.4. Soit x R
n
et

R
p
vriant les conditions
g( x) 0,
f( x) +
p
i=1
i
g
i
( x) = 0,
i
0, i = 1 . . . m,
i
g
i
( x) = 0, i = 1 . . . m,
y
2
xx
L( x,
)y 0 , y T
+
( x), y ,= 0,
o on a not T
+
( x) le plan tangent en x la surface
S
+
= x R
n
, g
i
( x) = 0, i I( x) et
i
> 0.
Alors x est un minimum local du problme (PCE).
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent suivant
151
Chapitre VII
Mthodes primales
VII.1 Contraintes dgalit linaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
VII.2 Contraintes dingalit linaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
VII.3 Mthodes de pnalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
VII.4 Mthodes par rsolution des quations de Kuhn et Tucker . . . . . . . . . . . . . . 170
Exemples du chapitre VII . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
152
VII.1 Contraintes dgalit linaires
VII.1.1 La mthode du gradient projet . . . . . . . . . . . . . . . . . . . . . . . . 153
VII.1.2 La mthode de Newton projete . . . . . . . . . . . . . . . . . . . . . . . . 156
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
153
VII.1.1 La mthode du gradient projet
On sintresse un problme avec contraintes dgalit lineaires
_
min
xR
n
f(x), (VII.1.1)
Ax b = 0, (VII.1.2)
et nous ferons lhypothse que A /
pn
est de rang maximal. Une ide assez naturelle consiste appliquer
une mthode de descente qui prenne en compte la contrainte Axb = 0. Supposons que nous disposons dun
point x
0
K = x R
n
, Ax b = 0. On sait quune direction admissible doit vrier
Ad = 0. (VII.1.3)
On peut chercher la meilleure direction de descente respectant (VII.2.3) en rsolvant le problme
_
_
minf(x)
d, (VII.1.4)
Ad = 0, (VII.1.5)
|d| = 1. (VII.1.6)
Proposition VII.1.1. Le vecteur d solution du problme (VII.1.4),(VII.1.5),(VII.1.6) est donn par d =
y/ |y| o y est la projection orthogonale de f(x) sur Ker A.
Dmonstration : On peut crire que
f(x) = y +z,
o y Ker A et z ( Ker A)
, ces deux sous-espaces tant complmentaires dans R

n
. On a donc
f(x)
d = y
d.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
154
La mthode du
gradient
projet
Comme d est un vecteur unitaire quelconque y
d sera maximal pour

d =
y
|y|
,
do le rsultat. On remarquera que si y ,= 0, le vecteur d est bien une direction de descente car on a
f(x)
= y
(y +z) = y
y < 0.
2
Pour former la matrice de projection sur Ker A on utilise en gnral la factorisation QR de la matrice A
,
qui sexprime sous la forme
A
= Q
_
R
0
_
,
o R /
pp
est triangulaire suprieure et Q /
nn
est orthogonale, et se dcompose en Q = [U V ] o les
colonnes de U /
n,p
forment une base orthogonale de ImA
et les colonnes de V /
n,np
une base
orthogonale de ( ImA
= Ker A. Dans ce cas la matrice de la projection orthogonale sur Ker A scrit

P = I UU
= V V
.
Remarque VII.1.1. Dans lalgorithme que nous allons tudier, la matrice de projection peut tre calcule une
fois pour toutes puisque A est donne. Cependant, pour les problmes avec contraintes dingalit lineaires,
on sera amen considrer une succession de problmes avec contraintes dgalit, et la matrice A pourra
voluer chaque itration, par ajout ou supression dune ligne. Le choix de la factorisation QR est tout
indiqu car il existe des techniques de mise jour particulirement conomiques, ce qui nest pas le cas quand
on exprime la matrice P sous la forme classique
P = I A
[AA
]
1
A.
La mthode du gradient projet consiste tout simplement mettre en oeuvre une mthode de descente
utilisant chaque pas la direction d
k
= V V
f(x
k
). Les itrations sont poursuivies jusqu ce que d
k
= 0.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
155
La mthode du
gradient
projet
Cela signie alors que f(x) ImA
et donc quil existe tel que

f(x
k
) = A.
On peut utiliser la factorisation de A
pour obtenir par rsolution du systme linaire

R = U
f(x).
Algorithme du gradient projet
1. Poser k = 0 et choisir x
0
admissible.
2. Calculer la projection d
k
= V V
f(x
k
),
3. Si d
k
= 0
Calculer = R
1
U
f(x
k
)
Arrter les itrations.
4. Dterminer
k
> 0 ralisant le minimum de f(x
k
+d
k
).
5. Poser x
k+1
= x
k
+
k
d
k
, faire k k + 1 et retourner en 2.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
156
VII.1.2 La mthode de Newton projete
La mthode du gradient projet souffrant des mmes problmes que la mthode du gradient (vitesse de
convergence trs sensible au conditionnement), on lui prfre souvent les mthodes de quasi-Newton adaptes
au cas des contraintes linaires. Il est plus facile de comprendre comment fonctionnent ces mthodes en faisant
lanalyse suivante
Supposons que lon dispose dun point x
0
admissible. Lide est de poser x = x
0
+ V z et de considrer
une nouvelle fonction

f dnie par
f(z) = f(x
0
+V z),
o les colonnes de V forment une base orthogonale de Ker A (on a vu comment obtenir une telle matrice).
Alors par construction le problme (??) est quivalent au problme sans contraintes
min
zR
p
f(z),
(VII.1.7)
puisque
A(x
0
+V z) b = Ax
0
b +AV z = 0.
On peut donc appliquer nimporte quelle mthode de descente la rsolution de (VII.1.7). Notons que lon a
f(z) = V
f(x
0
+V z),
donc la mthode du gradient applique la minimisation de

f(z) scrit
z
k+1
= z
k
k
V
f(x
0
+V z
k
),
et si on pose x
k
= x
0
+V z
k
, les itrations prcdentes scrivent
x
k+1
= x
k
k
V V
f(x
k
),
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
157
La mthode de
Newton
projete
ce qui redonne exactement la mthode du gradient projet. On peut de la mme manire crire la mthode de
Newton applique la rsolution de (VII.1.7) : le hessien de

f scrit
2

f(z) = V
2
f(x
0
+V z)V,
si si on note G
k
=
2

f(z
k
) la direction de Newton en z
k
scrit
p
k
= G
1
k

f(z
k
).
Si la matrice G
k
est dnie positive alors p
k
sera une direction de descente pour

f et le vecteur V p
k
sera une
direction de descente pour f puisque
f(x
k
)
V p
k
=
f(z
k
)
p
k
< 0.
Remarque VII.1.2. On sait que dans le cas gnral un optimum local du problme (PCE) est caractris
par
y
2
xx
L( x,
)y 0, y T( x), y ,= 0.
Or dans le cas des contraintes linaires on a
2
xx
L(x, ) =
2
f(x), (VII.1.8)
et le sous espace T( x) nest autre que Ker A. Et donc si lon dispose dune matrice V dont les colonnes
forment une base orthogonale de Ker A, tout vecteur y T( x) sexprime sous la forme y = V z et la
condition (VII.1.8) scrit
zV
2
f( x)V z > 0, z.
On est donc assur que le hessien projet est dni positif loptimum, ce qui justie lutilisation des mthodes
de quasi-Newton.
On peut donc envisager une mthode de quasi-Newton ou la mise jour opre non pas sur le hessien de f
mais sur le hessien projet. Voici lalgorithme correspondant pour la mthode BFGS :
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
158
La mthode de
Newton
projete
Algorithme de la mthode BFGS projete
1. Poser k = 0, choisir x
0
admissible et poser H
0
= I.
2. Poser g
k
= V
f(x
k
).
3. Si g
k
= 0
Calculer = R
1
U
f(x
k
)
Arrter les itrations.
4. Calculer la direction p
k
= H
1
k
g
k
.
5. Dterminer
k
> 0 ralisant le minimum de f(x
k
+V p
k
).
6. Poser x
k+1
= x
k
+
k
V p
k
.
7. Calculer g
k+1
= V
f(x
k+1
) et y
k
= g
k+1
g
k
.
8. Mise jour du hessien projet
H
k+1
= H
k
+
y
k
y
k
y
k
p
k
+
g
k
g
k
p
k
g
k
9. faire k k + 1 et retourner en 2.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
159
VII.2 Contraintes dingalit linaires
VII.2.1 Mthode de directions ralisables . . . . . . . . . . . . . . . . . . . . . . . 160
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section
160
VII.2.1 Mthode de directions ralisables
On sintresse maintenant un problme avec contraintes dingalits lineaires
_
min
xR
n
f(x), (VII.2.1)
Ax b 0. (VII.2.2)
On peut essayer de voir comment adapter la stratgie de lalgorithme du gradient projet. Supposons que nous
disposons dun point initial admissible x
0
K = x R
n
, Ax b 0. Notons I
0
lensemble des indices
des contraintes satures, soit
I
0
= i [ A
i
x
0
b
i
= 0.
On peut chercher une direction de descente d qui permette, au moins pour un petit dplacement, de rester dans
K. Si on note A
0
/
pn
la matrice compose des lignes i I
0
on doit donc avoir
A
I
0
d = 0. (VII.2.3)
Aprs calcul de la factorisation (U V )
_
R
0
_
de A
I
0
, une direction admissible d peut tre obtenue par
d = V V
f(x
0
).
Il y a ensuite deux cas envisager :
1. Si d ,= 0, il faut dterminer le dplacement maximal autoris par les contraintes non satures, cest
dire
max
tel que
max
= [ 0, A
i
(x
0
+d) b
i
0, i , I
0
.
Ensuite, on cherche le pas optimal
opt
dans direction d. Ce pas pouvant faire sortir du domaine admis-
sible, on prendra donc toujours
= min(
opt
,
max
),
en notant bien que lorsque =
max
, cela signie quune nouvelle contrainte sera sature.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section
161
Mthode de
directions
ralisables
2. Si d = 0 cela signie que f(x) ImA
I
0
et donc quil existe tel que
f(x) = A
I
0
,
et qui sobtient par rsolution du systme linaire
R = U
f(x),
et il faut ensuite considrer deux cas
(a) Si 0, alors x satisfait les condition de Kuhn et Tucker. Le point x est donc un optimum local
du problme.
(b) Sinon, on supprime dans I
0
une des contraintes pour lesquelles
i
< 0 (par exemple la plus n-
gative). On obtient alors une nouvelle matrice A
1
qui permet de dterminer une nouvelle direction
de descente en x
0
. On peut ensuite poursuivre les itrations.
On peut donc rsumer lalgorithme de la faon suivante :
Algorithme du gradient projet (contraintes dingalit)
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section
162
Mthode de
directions
ralisables
1. Poser k = 0 et choisir x
0
.
2. Dterminer I
k
= i [ A
i
x
k
b
i
= 0.
3. Former la matrice A
I
k
= A
i
iI
k
.
4. Calculer ou mettre jour la factorisation A
I
k
= [U
k
V
k
]
_
R
k
0
_
5. Calculer la projection d
k
= V
k
V
k
f(x
k
)
6. Si d
k
= 0
Calculer = (R
k
)
1
U
k
f(x
k
)
Si 0 alors on sarrte
Sinon, choisir j tel que
j

i
, i, faire I
k
= I
k
j et retourner en 3.
7. Calculer
max
= [ 0, A
i
(x
k
+d
k
)a b
i
0, i , I
k
.
8. Dterminer
k
ralisant le minimum de f(x
k
+d
k
) sur [0,
max
].
9. Poser x
k+1
= x
k
+
k
d
k
, faire k k + 1 et retourner en 2.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
163
VII.3 Mthodes de pnalisation
VII.3.1 Mthode de pnalisation externe . . . . . . . . . . . . . . . . . . . . . . . 164
VII.3.2 Mthode de pnalisation interne . . . . . . . . . . . . . . . . . . . . . . . . 167
VII.3.3 Estimation des multiplicateurs . . . . . . . . . . . . . . . . . . . . . . . . . 168
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
164
VII.3.1 Mthode de pnalisation externe
Exemples :
Exemple VII.1
On considre un problme avec contraintes dingalit non-linaires :
(PCI)
_
_
min
xR
n
f(x), (VII.3.1)
g(x) 0, (VII.3.2)
Le but des mthodes de pnalisation est de rsoudre (PCI) de faon approche de la faon suivante : on dnit
la fonction (x) par
(x) =
m
i=1
(g
+
i
(x))
2
,
o [.]
+
est la fonction partie positive dnie par
y
+
= max(0, y).
Si on note K = x R
n
, g(x) 0, la fonction vrie par construction
_
(x) = 0, pour x K,
(x) > 0, pour x , K.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
165
Mthode de
pnalisation
externe
On introduit alors le problme P
(P
)
_
_
_
min
xR
n
f
(x), (VII.3.3)
f
(x) = f(x) +
1
(x), (VII.3.4)
dont on notera x
la solution, vriant
f
(x
) f
(x) x R
N
.
Le nom de pnalit extrieure provient du fait que x
est toujours lextrieur (au sens large) de K comme le

montre le rsultat suivant :
Proposition VII.3.1. Sil existe au moins une contrainte sature loptimum x du problme (PCI) alors
le vecteur solution du problme pnalis (P
) verie ncessairement
i
0
, g
i
0
(x
) 0.
Dmonstration : Montrons la contrapose : si g
i
(x
) < 0, i on a par dnition x
K. Puisque
f
(x
) f
(x), x R
n
,
donc en particulier pour x = x, on a
f
(x
) f
( x),
mais commme x
K et x K on a
(x
) = ( x) = 0,
et donc
f(x
) f( x).
Do x
= x. On a donc g
i
( x) < 0, i et aucune contrainte nest sature en x. 2 En gnral,
on a toujours x
, K comme le montre l?? mais sous des hypothses assez peu restrictives, x
tend vers une

solution du problme (PCI) quand tend vers 0.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
166
Mthode de
pnalisation
externe
Thorme VII.3.1. Soit : R
n
Rune fonction de pnalisation extrieure vriant :
(x) 0,
(x) = 0 x K,
continue.
On suppose dautre part que f est continue, que K est ferm et que lune des deux conditions suivantes est
vrie :
f(x) +quand |x| ,
K est born et (x) +quand |x| .
continue.
Alors, quand
k
tend vers 0, la suite x
k
admet au moins un point daccumulation qui est alors une solution
optimale du problme (PCI).
Lorsquon met en oeuvre cette mthode de faon pratique, on ne peut pas prendre tout de suite
k
trs petit,
cause des problmes de conditionnement que cela peut causer. On commence donc avec une valeur du type
0
= 1, et chaque solution x
k
est prise comme vecteur initial pour rsoudre le problme avec
k+1
=
k
/100
(par exemple). On peut bien sr utiliser nimporte quelle mthode pour rsoudre le problme min
x
f
k
(x)
(BFGS, gradient conjugu, ...).
Algorithme de la mthode de pnalisation
1. Choisir x
0
,
1
= 1 et poser k = 1
2. Trouver x
k
solution du problme min
xR
n
f
k
(x) en partant de x
k1
.
3. Poser
k+1
=
k
/100
4. faire k k + 1 et retourner en 2
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
167
VII.3.2 Mthode de pnalisation interne
Dans le cas des mthodes internes, en gnral, x
nest jamais dans K (sauf cas particulier) : cela peut

poser des problmes si par exemple la fonction f nest pas dnie hors de K. Les mthodes internes permettent
dviter cet inconvnient. Leur principe est le mme que pour les mthodes externes : on considre une fonction
f
(x) = f(x) +(x),

mais ici la fonction (x) est dne pour x K et est du type
(x) =
m
i=1
1
g
i
(x)
2
.
Puisque lon a (x) quand on sapproche de la frontire de K, on qualie souvent de fonction
barrire. Les proprit de convergence sont les mme que pour les mthodes externes, mais il faut ici disposer
dun x
0
K, ce qui peut tre difcile dans certains cas.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
168
VII.3.3 Estimation des multiplicateurs
Les mthodes de pnalisation ne sont en gnral jamais utilises pour obtenir la solution du problme avec
contraintes, car cela ncessitrait dutiliser des paramtres de pnalisation beaucoup trop petits. En revanche,
elles permettent de calculer des estimations correctes des multiplicateurs.
Pour les mthodes externes, le point x
k
est solution du problme minf
k
(x) o
f
(x) = f(x) +
1
i=1
[g
+
i
(x)]
2
,
et vrie donc les conditions doptimalit
f(x
k
) +
2
i=1
g
+
i
(x
k
)g
i
(x
k
) = 0.
Sous les hypothses du thorme VII.3.1 x
k
x et donc pour les contraintes non satures, puisque g
i
( x) < 0,
il existe k
0
tel que
k > k
0
g
i
(x
k
) < 0, i , I( x).
Si on suppose que x est rgulier, les conditions de Kuhn et Tucker sont vries et on a
f( x) +
iI
i
g
i
( x) = 0.
Si on note maintenant que pour k > k
0
,
f(x
k
) +
2
iI
g
+
i
(x
k
)g
i
(x
k
) = 0,
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
169
Estimation des
multiplicateurs
alors par continuit de f et g on en dduit que pour i I
lim
k
2
g
+
i
(x
k
) =
i
.
On peut bien sr faire le mme type de raisonnement pour la mthode de pnalit interne.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
170
VII.4 Mthodes par rsolution des quations de Kuhn et
Tucker
VII.4.1 Cas des contraintes dgalit . . . . . . . . . . . . . . . . . . . . . . . . . . 171
VII.4.2 Mthode de Wilson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
VII.4.3 Cas des contraintes dingalit . . . . . . . . . . . . . . . . . . . . . . . . . 174
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
171
VII.4.1 Cas des contraintes dgalit
On cherche rsoudre le problme :
min
xR
n
f(x),
h
i
(x) = 0, i = 1 . . . p
(VII.4.1)
On sait que la recherche dun point de Kuhn et Tucker revient rsoudre le systme n+p inconnues et n+p
inconnues
_

x
L(x, ) = 0,
h(x) = 0,
(VII.4.2)
o on a not L(x, ) = f(x) +
p
i=1
i
h
i
(x) le lagrangien associ (VII.4.1). La mthode de Newton
consiste, partir dun point (x
k
,
k
), linariser (VII.4.2) au voisinage de ce point, et dnir (x
k+1
,
k+1
)
comme la solution du systme obtenu. On peut crire les quations suivantes :
x
L(x
k
,
k
) +
2
x
L(x
k
,
k
)(x
k+1
x
k
) +h(x
k
)(
k+1
k
) = 0,
h(x
k
) +h(x
k
)
(x
k+1
x
k
) = 0,
o
x
L(x
k
,
k
) = f(x
k
) +h(x
k
)
k
. Si on pose
J
k
= h(x
k
)
=
h
x
(x
k
),
et H
k
=
2
x
L(x
k
,
k
), on obtient le systme
_
H
k
J
k
J
k
0
__
x
k+1
x
k
k+1
_
=
_
f(x
k
)
h(x
k
)
_
. (VII.4.3)
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
172
Cas des
contraintes
dgalit
Une mthode base sur la rsolution itrative de (VII.4.3) prsentera les inconvnients habituels de la mthode
de Newton : la convergence est locale. De plus, les quations de Kuhn et Tucker sont aussi vries pour les
maximums. Si on veut remdier ces inconvnients il faut diposer dune bonne estimation initiale de ( x,
),
qui peut par exemple tre fournie par une mthode de pnalisation.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
173
VII.4.2 Mthode de Wilson
Dans la mthode prcdente, pour viter les points stationnaires qui ne sont pas des minimum, on peut
faire lanalyse suivante : si on note s
k
= x
k+1
x
k
on observe que le systme (VII.4.3) scrit
H
k
y
k
+J
k

k+1
= f(x
k
).
Le vecteur y
k
est la solution du problme doptimisation quadratique suivant :
_
min
y
1
2
y
H
k
y +f(x
k
)
y,
J
k
y +h(x
k
) = 0,
(VII.4.4)
et
k+1
est le multiplicateur associ. Au lieu de rsoudre le systme (VII.4.3) on peut donc rsoudre le pro-
blme (VII.4.4), ce qui permet dviter les points stationnaires qui ne sont pas des minima. La rsolution de ce
problme peut se faire avec toute mthode adapte aux problmes quadratiques. Cette extension de la mthode
de Newton est due Wilson.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
174
VII.4.3 Cas des contraintes dingalit
La mthode de Wilson vue au grain prcdent se gnralise trs facilement au cas des contraintes dinga-
lit. Si le problme original est de la forme :
min
xR
n
f(x),
g
i
(x) 0, i = 1 . . . m,
(VII.4.5)
les contraintes linarises prennent la forme
g(x
k
)
y +g(x
k
) 0.
On peut alors utiliser une mthode consistant rsoudre itrativement le problme quadratique
_
min
y
1
2
y
H
k
y +f(x
k
)
y,
J
k
y +g(x
k
) 0,
(VII.4.6)
Remarque VII.4.1. Comme on la dj dit la mthode de Wilson (pour les contraintes dgalit et dingalit)
ne converge que localement. La globalisation de cette mthode peut se faire en utilisant une approximation de
quasi-Newton pour la matrice H
k
=
2
x
L(x
k
,
k
) et en faisant une recherche linaire dans la direction s
k
pour dnir x
k+1
= x
k
+
k
s
k
. Lors de la recherche linaire, on cherche alors minimiser une fonction de
mrite du type
(x) = f(x) +c
p
k=1
[h
i
(x)[,
dans le cas des contraintes dgalit, ou
(x) = f(x) +c
m
k=1
g
+
i
(x),
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
175
Cas des
contraintes
dingalit
dans le cas des contraintes dingalit (dans ce dernier cas c doit tre un majorant des multiplicateurs opti-
maux). Les fonctions (x) et (x) sont des fonctions de pnalisation exacte : cette terminologie traduit le fait
que contrairement aux fonctions de pnalisation diffrentiables que lon a vu prcdemment, le minimum de
ou peut concider avec x pour des valeurs nies de c.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
176
Exemples du chapitre VII
VII.1 Un problme pnalis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section
177
Exemple VII.1 Un problme pnalis
On considre le problme
_
min
1
2
x
2
,
x 1.
La fonction pnalise scrit
f
(x) =
1
2
x
2
+
1
([1 x]
+
)
2
.
Pour x , K on a
f
(x) = x
2
(1 x).
Si on fait lhypothse a priori que x
, K alors on a
x
(1 x
) = 0,
et donc x
= (1 +/2)
1
. On a bien x
, K et
lim
0
x
= 1.
Retour au grain
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent
178
Chapitre VIII
Mthodes utilisant la notion de dualit
VIII.1 Elements sur la dualit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
VIII.2 Methodes duales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
179
VIII.1 Elements sur la dualit
VIII.1.1 Le problme dual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
VIII.1.2 Point-col du lagrangien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
180
VIII.1.1 Le problme dual
On sintresse ici aux problmes avec contrainte dingalit du type
min
xR
n
f(x),
g(x) 0,
(VIII.1.1)
et on note comme dhabitude K = x R
n
, g(x) 0. Le problme (VIII.1.1) est appell problme primal
par opposition au problme dual que lon va maintenant dnir.
Soit (x) une fonction indicatrice de K :
(x) = 0, si x K, (VIII.1.2)
(x) = +, sinon. (VIII.1.3)
Alors le problme primal est quivalent
min
xR
n
f(x) +(x).
On peut construire la fonction de la faon suivante :
(x) = max
0
g(x) = max
0
m
i=1
i
g
i
(x).
On peut vrier que la fonction ainsi dnie a bien les caractristiques donnes par (VIII.1.2)-(VIII.1.3) : si
x K on a g
i
(x) 0 et donc
g(x) 0, le max est donc atteint pour = 0. Si x , K il existe j tel que

g
j
(x) > 0, et donc
g(x) peut tre rendu arbitrairement grand en faisant tendre

j
vers +.
Le problme primal est donc quivalent au problme
min
xR
n
_
f(x) + max
0
g(x)
_
,
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
181
Le problme
dual
et si on utilise le lagrangien L(x, ) = f(x) +
g(x), on peut alors noter que le problme primal scrit

min
xR
n
max
0
L(x, ). (VIII.1.4)
Dnition VIII.1.1. On appelle problme dual du problme (VIII.1.1) le problme
max
0
min
xR
n
L(x, ), (VIII.1.5)
et appelle w() = min
xR
n L(x, ) la fonction duale.
Proposition VIII.1.1. La fonction duale w() est concave.
Dmonstration : Soient
1
0,
2
0, [0, 1] et =
1
+(1 )
2
. Il existe x
1
,x
2
et x tels que
w(
1
) = L(x
1
,
1
),
w(
2
) = L(x
2
,
2
),
w() = L(x, ).
On a donc par dnition de la fonction duale :
w(
1
) L(x,
1
),
w(
2
) L(x,
2
).
Si on multiplie la premire inquation par et la deuxime par (1 ) il vient
w(
1
) + (1 )w(
2
) f(x) + [
1
+ (1 )
2
]
g(x) = w().
2 Ce qui est remarquable dans cette proprit est que le rsultat ne suppose absolument rien sur la convexit
des fonctions f et g
i
.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
182
VIII.1.2 Point-col du lagrangien
On montre facilement la proposition suivante :
Proposition VIII.1.2. On a
max
0
_
min
xR
n
L(x, )
_
min
xR
n
_
max
0
L(x, )
_
.
Dmonstration : On a L(x, ) max
0
L(x, ) et donc par dnition de w()
w() min
xR
n
max
0
L(x, ).
On a donc
max
0
w() min
xR
n
max
0
L(x, ),
ce qui montre le rsultat. 2 Si lon note que par construction
min
xR
n
max
0
L(x, ) = f( x),
o x est la solution du problme primal, on a donc
max
0
w() f( x).
Alors sil existe bien un maximum de la fonction duale atteint pour =

, la valeur w(
) est un minorant de
f( x) et il existe un point x(
) tel que
w(
) = L(x(
),
) f( x).
Le thorme suivant prcise dans quelles conditions on a x(
) = x :
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
183
Point-col du
lagrangien
Thorme VIII.1.2. Sil existe un couple ( x,
) tel que
L( x, ) L( x,
) L(x,
), x R
n
, R
m
,
alors x est une solution du problme primal et

est le multiplicateur de Kuhn et Tucker associ.
Un point vriant cette proprit est appel un point-col du lagrangien. On a dans ce cas
L( x,
) = max
0
w() = min
xK
f(x).
Lorsque ce point existe, on peut donc rsoudre le problme dual la place du problme primal : lintrt
principal est la concavit de la fonction duale ainsi que la simplicit des contraintes. On voit aussi que mme
lorsquil nexiste pas de point col, le maximum de la fonction duale fournit un minorant de f( x), ce qui peut
tre utile dans certaines circonstances. On appelle alors la diffrence f( x) w(
) le saut de dualit.
Thorme VIII.1.3. Si f est strictement convexe, si les g
i
sont convexes et si K est dintrieur non-vide,
lexistence de x est quivalente lexistence de

et on a
w(
) = L( x,
) = f( x).
Il existe cependant des cas o il existe un point-col et les conditions prcdentes ne sont pas vries.
Quand il ny a pas de point-col, on peut faire alors appel des techniques o on utilise un lagrangien augment
du type
L(x, , r) = f(x) +
g(x) +r
m
i=1
(g
+
i
(x))
2
,
pour dnit la fonction duale. Ce type dapproche permet de gnraliser les mthodes duales pour les cas
typiquement non-convexes.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
184
VIII.2 Methodes duales
VIII.2.1 Mthode dUzawa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
VIII.2.2 Mthode dArrow et Hurwicz . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
185
VIII.2.1 Mthode dUzawa
Le principe de la mthode dUzawa est dutiliser la mthode du gradient pour maximiser la fonction duale,
tout en tenant compte de la contrainte 0 : cela donne la mthode
k+1
= [
k
+
k
w(
k
)]
+
.
Lutilisation de cette mthode suppose que la fonction duale est diffrentiable (au moins a loptimum). Ce sera
le cas si le minimum en x de L(x,
) est unique. Dans ce cas si on note x() le vecteur tel que

w() = L(x(), ),
on peut crire que
w() =
x
L(x(), )
dx()
d
+
L(x(), ),
= g(x()),
puisque x() est par dnition le minimum en x de L(x, ). Lalgorithme de la mthode est donc le suivant :
Algorithme dUzawa
1. Poser k = 0 et
0
= 0.
2. Dterminer x
k
solution du problme min
xR
n
f(x) +
k
g(x)
3. Si max
i
g
i
(x
k
) < alors on sarrte.
4. Sinon, calculer
k+1
= [
k
+
k
g(x
k
)]
+
5. Faire k k + 1 et retourner en 2.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
section suivant
186
Mthode
dUzawa
Au point 4 on peut choisir
k
xe ou bien faire une recherche linaire. Lorsque la fonction duale est mal
conditionne, on peut aussi utiliser une mthode de quasi-Newton. Dans le test darrt choisi la valeur de > 0
devra tre choisie prudemment : en effet, sil nexiste pas de point-col on ne peut avoir x
k
K et donc si est
trop petit lalgorithme ne sarrtera pas.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
prcdent section
187
VIII.2.2 Mthode dArrow et Hurwicz
Cette mthode est trs voisine de la mthode dUzawa. Au lieu de dterminer x
k
comme le minimum de
L(x,
k
) on se contente dun pas dans la direction
x
L(x,
k
) : on dnit x
k+1
par
x
k+1
= x
k
x
L(x
k
,
k
),
et
k+1
par
k+1
= [
k
+
k
g(x
k
)]
+
.
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
188
Index des concepts
Le gras indique un grain o le concept est dni ; lita-
lique indique un renvoi un exercice ou un exemple, le gras
italique un document, et le romain un grain o le concept
est mentionn.
A
Algorithme BFGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
Algorithme DFP . . . . . . . . . . . . . . . . . . . . . . . . . 110, 112
B
Broyden (formule de) . . . . . . . . . . . . . . . . . . . . . . . . . 107
C
Calcul du pas optimal (cas quadratique) . . . . . . . . . . 61
Condition ncssaire du second ordre. . . . . . . . . . . 148
Condition ncssaire du second ordre - contraintes din-
galit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
Conditions ncessaires (sans contraintes) . . . . . . . . . 38
Conditions ncessaires et sufsantes (sans contraintes)
39
conjugaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Convexit (relation avec le gradient) . . . . . . . . . . . . . 32
Convexit (relation avec le hessien) . . . . . . . . . . . . . . 30
Convexit des ensembles . . . . . . . . . . . . . . . . . . . . . . . 26
Convexit des fonctions . . . . . . . . . . . . . . . . . . . . . . . . 28
Courbe admissible . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
D
Drive directionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 22
diffrentiabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Direction admissible . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Distance dun point un plan . . . . . . . . . . . . . . . . . . 141
E
Estimation des multiplicateurs . . . . . . . . . . . . . . . . . 168
exemple en mcanique . . . . . . . . . . . . . . . . . . . . . . 10, 14
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
189
existence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
F
Forme quadratique (dnition) . . . . . . . . . . . . . . . . . . 14
forme quadratique dnie positive (proprits) . . . . 16
G
Gauss-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Gradient conjug : tude de convergence . . . . . . . . . 81
Gradient conjug, Interprtation, sous espace de Kry-
lov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Gradient conjugu : algorithme . . . . . . . . . . . . . . . . . 73
Gradient projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
I
interpolation cubique. . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Intervalle de scurit . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
K
Kuhn et Tucker - interprtation gomtrique. . . . . 138
L
La mthode de Newton projete. . . . . . . . . . . . . . . . 156
Lagrangien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . . . . . . 120
Linarisation du lagrangien . . . . . . . . . . . . . . . . . . . . 171
M
Mthode dArrow et Hurwicz . . . . . . . . . . . . . . . . . . 187
Mthode dUzawa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Mthode de directions ralisables . . . . . . . . . . . . . . 160
Mthode de Fletcher-Reeves et variante de Polak-Ribire
76
mthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Mthode de Wilson . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
Mthode de Wilson (contraintes dingalit) . . . . . 174
Mthode du gradient pas optimal . . . . . . . . . . . . . . 60
Mthode du gradient simple . . . . . . . . . . . . . . . . . . . . 59
Matrice Hessienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Mise jour de lapproximation du hessien . . . . . . 106
Mise sous forme standard. . . . . . . . . . . . . . . . . . . . . . . . 6
P
Pnalisation externe . . . . . . . . . . . . . . . . . . . . . . . . . . 164
Pnalisation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
Point-col . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
Prconditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Principe des mthodes de descente . . . . . . . . . . . . . . 56
Problme avec contraintes dgalit . . . . . . . . . . . . 124
Problme avec contraintes dingalit. . . . . . . . . . . 134
problme de moindres carrs . . . . . . . . . . . . . . . . . . . . . 8
problme dual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
190
Problme standard (avec contraintes) . . . . . . . . . . . 123
Programme quadratique (exemple) . . . . . . . . . . . . . 143
Proprit de minimisation . . . . . . . . . . . . . . . . . . . . . . 69
Pseudo-inverse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
R
Rgle dArmijo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Rgle de Goldstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Rgle de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Rduction de lintervalle, principe . . . . . . . . . . . . . . . 95
Recherche linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Relation de quasi-Newton . . . . . . . . . . . . . . . . . . . . . 105
T
Thorme de Lagrange. . . . . . . . . . . . . . . . . . . . . . . . 131
U
Unicit (lien avec la convexit) . . . . . . . . . . . . . . . . . . 36
Sommaire
Concepts
Notions
Exemples
Exercices
Documents
191
Index des notions
C
continuit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
contraintes dgalit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
contraintes dingalit . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
E
enveloppe convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
G
gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
J
jacobienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
P
pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Aide 1, Exercice I.4
Utiliser lexpression de f(x) donne lexercice prcdent.
Retour lexercice

Opti Very Important

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Opti Very Important

Transféré par

Droits d'auteur :

Formats disponibles

RO04/TI07 - Optimisation non-linaire

On considre un problme didentication des paramtres a, b, c et c dun signal du type

, ainsi que la fonction u

(a)h +|h| (h), (I.3.2)

(a) drive de f au point a.

(a)h doit tre prise au sens f

(a) applique h. Cette notation devient assez naturelle

(a) par sa matrice dans les bases canoniques de R

(a)h +[t[ |h| (th), do

(a)h est appelle communment drive directionnelle de f au point a dans la direction h.

(a) et les drives partielles de f au point a :

(a) par sa matrice

(a) est obtenue en appliquant f

(a) la matrice jacobienne de f au point a. Lorsque m = 1 on adopte une notation et

(x) 0,x K et strictement convexe si et seulement si f

(x) > 0,x K (sauf

(t) 0, t. On aura donc f convexe si et seulement si

minimum local de f, sil existe > 0 tel que

est un minimum local de f.

x o A est une matrice symtrique 2 2 dnie positive.

x o A est une matrice carre symtrique n n. On a

Considrons un ensemble de points du plan x

x o A est une matrice carre symtrique. Puisque

x o A est une matrice n n. Montrer que lon a

x o A est une matrice n n. Montrer que lon a

t > 0 tel que

x avec A > 0 et on note (t) = f(x

x la mthode du gradient simple peut scrire

x la mthode du gradient pas optimal peut scrire

Ay dnit un produit scalaire et

x, est valable pour tout n.

x sur le sous espace x

x comme le montre la proposition suivante

x une forme quadratique dnie positive et x = A

A(x x) = f(x) +c,

les valeurs propres de p(A) sont donnes par les nombres p(

(0)t, alors t convient.

(0)t, alors t est trop grand.

(0)t, alors t est trop petit.

(0)t, alors t est trop grand.

(0)t (t) (0) +m

(0)t, alors t convient

(0)t +(0), a > 0,

(0)/a. On a donc (exercice)

(t), elle est donc en thorie plus coteuse que la rgle de

(0)t, alors t est trop grand.

(0), alors t est trop petit.

(0), alors t convient.

(t) a sufsamment augment.

> 0. Dans le cas o f est une forme quadratique,

. Il existe donc un vecteur tel que

x(0) = 0 pour toute courbe admissible x(t).

y = 0. On considre la courbe x(t) donne par

h( x +ty +h( x)u),

telle que le vecteur

, ces deux sous-espaces tant complmentaires dans R

d sera maximal pour

= Ker A. Dans ce cas la matrice de la projection orthogonale sur Ker A scrit

et donc quil existe tel que

pour obtenir par rsolution du systme linaire

est toujours lextrieur (au sens large) de K comme le

) < 0, i on a par dnition x

tend vers une

nest jamais dans K (sauf cas particulier) : cela peut