Optim

Rsum du cours doptimisation.
L. HALPERN
13 septembre 2005
2
Table des matires
I Rsultats thoriques 5
1 Rsultats dexistence 7
1.1 Thorme de Weierstrass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Cas convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Rappels de calcul diffrentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Drives premires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Drives secondes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3 Formules de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Caractrisation des extrema 11
2.1 Equation dEuler, cas gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Inquation dEuler, cas convexe . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Multiplicateurs de Lagrange, cas gnral . . . . . . . . . . . . . . . . . . . . . . 13
2.3.1 contraintes galits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.2 contraintes ingalits . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Lagrangien et point selle 15
3.1 Point selle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Thorie de Kuhn et Tucker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
II Algorithmes 19
4 Mthodes de descente. Problmes sans contraintes 21
4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2 Mthode de relaxation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.3 Mthode du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.1 Mthode pas variable . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.2 Mthode pas optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.4 Estimations et convergence dans le cas quadratique . . . . . . . . . . . . . . . . 23
4.4.1 Mthode pas optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.4.2 Mthode de gradient pas constant . . . . . . . . . . . . . . . . . . . . 24
4.5 Mthode du gradient conjugu . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.5.1 Principe de la mthode . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.5.2 Ecriture comme algorithme de descente . . . . . . . . . . . . . . . . . . 24
4.5.3 Analyse de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5 Mthodes pour les problmes avec contraintes 27
5.1 Mthode de gradient projet pas variable . . . . . . . . . . . . . . . . . . . . . 27
5.2 Algorithme dUzawa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3
4
Premire partie
Rsultats thoriques
5
6
Chapitre 1
Rsultats dexistence
Sommaire
1.1 Thorme de Weierstrass . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Cas convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Rappels de calcul diffrentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Drives premires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Drives secondes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3 Formules de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Soit V un espace de Hilbert (sur R), K une partie de V , J une fonction dnie sur V valeurs
dans R . On dit que u est minimum local de J sur K si u appartient K et sil existe un voisinage
U de u dans K tel que
v U, J(u) J(v) (1.1)
Si la relation prcdente est vraie pour tout v dans K, on dit que u est minimum global de J sur
K. On dnit un problme de minimisation sur K par
_
u K,
J(u) = inf
vK
J(v)
(1.2)
On dit alors que u est solution optimale du problme de minimisation sur K. Le problme de
minimisation est dit sans contrainte si V = K, avec contraintes si V ,= K.
Bien videmment, on dnit un problme de maximisation, en remplaant par dans (1.1)
et inf par sup dans (1.2). On parlera en gnral de problme doptimisation. On passe de lun
lautre en dnissant la fonctionnelle oppose. Dans ce cours tous les rsultats sont tablis sur les
problmes de minimisation.
1.1 Thorme de Weierstrass
Thorme 1.1 . Si K est un compact non vide et si J est continue sur K, le problme de minimi-
sation (1.2) admet une solution.
Remarque 1.1 . Cest un thorme dexistence, mais il ne donne pas de rsultat dunicit.
Remarque 1.2 . Dans les problmes doptimisation, les ensembles de contraintes sont en gnral
ferms borns, mais pas forcment compacts. Par contre ils sont souvent convexes.
7
1.2 Cas convexe
On rappelle quune partie K de V est convexe si
(x, y) K, [0, 1], x + (1 )y K (1.3)
Une fonction J dnie sur un convexe K est dite
convexe si
(x, y) K, [0, 1], J(x + (1 )y) J(x) + (1 )J(y), (1.4)
strictement convexe si
(x, y) K, x ,= y, ]0, 1[, J(x + (1 )y) J(x) + (1 )J(y), (1.5)
convexe si
(x, y) K, [0, 1], J(x + (1 )y) J(x)+(1 )J(y)

2
(1 )[[x y[[
2
.
(1.6)
Thorme 1.2 . Si J est convexe, tout minimum local est global, et lensemble des solutions opti-
males est convexe.
Thorme 1.3 . Si J est strictement convexe, la solution optimale, si elle existe, est unique.
Thorme 1.4 ( Thorme fondamental) . Soit K un convexe ferm non vide, J une fonction
dnie sur K valeurs dans R convexe continue. On suppose que J est innie linni (i.e.
J(v) +lorsque [[v[[ +) ou que K est born. A lors le problme de minimisation admet
une solution.
Corollaire 1.1 . Soit K un convexe ferm non vide, J une fonction dnie sur K valeurs dans
R, -convexe continue. Alors le problme de minimisation admet une solution et une seule. De
plus toute suite minimisante converge vers u.
1.3 Rappels de calcul diffrentiel
Soit J une fonctionnelle dnie sur un Hilbert V valeurs dans R. On note V

le dual de V ,
i.e. lespace vectoriel des applications linaires continues sur V valeurs dans R.
1.3.1 Drives premires
Dnition 1.1 (Diffrentiabilit) J est diffrentiable (au sens de Frchet) en u V sil existe l
u
dans V

telle que,
w V, J(u + w) = J(u) + l
u
(w) + (w)|w|, lim
0
(w) = 0 (1.7)
l
u
est la drive de J et se note J
(u). On crira J
(u) v = l
u
(v).
Remarque 1.3 Par le thorme de Riesz puisque J
(u) est dans V

, il existe un unique lment
de V not J(u) tel que pour tout v dans V on ait
J
(u) v = (J(u), v)
8
Exemples de base
1. Les formes linaires J(u) = (c, u), o c est un vecteur donn dans V . Alors J
(u).v =
(c, v), J(u) = c.
2. Les fonctions J(u) = a(u, u), o a est une forme bilinaire continue sur V . Alors J
(u).v =
a(u, v) + a(v, u), et si a est symtrique J
(u).v = 2a(u, v).

3. Si V = R
n
, J
(u) = (
J
x
1
(u), ,
J
xn
(u)) et J
(u).v =
n
i=1
J
x
i
(u)v
i
.
1.3.2 Drives secondes
Si J : V R, J
: V V

admet une diffrentielle J
et pour tout u, J
(u) L(V, V

),
espace des applications linaires continues de V dans V

. Cet espace sidentie L
2
(V ), espace
des applications bilinaires continues de V V dans R. On notera J(u) v w.
Exemples de base
1. J(u) = (c, u), J(u) = 0.
2. J(u) = a(u, u), alors J
(u).v.w = a(v, w) + a(w, v), et si a est symtrique J
(u).v.w =
2a(v, w). Si V = R
n
, J(u) =
1
2
(Au, u) o A est une matrice symtrique, alors J(u) = A
pour tout u.
3. Si V = R
n
, J
(u) est la matrice des drives partielles secondes

2
J
x
i
x
j
(u).
1.3.3 Formules de Taylor
Taylor Mac-Laurin ordre 1 Si J : V R est dnie et continue sur [u, v], diffrentiable sur
]u, v[, il existe ]0, 1[ tel que
J(v) = J(u) + J
(u + (v u)) (v u)
Taylor Mac-Laurin ordre 2 Si J : V R est dnie et continue sur [u, v], 2 fois diffrentiable
sur ]u, v[, il existe ]0, 1[ tel que
J(v) = J(u) + J
(u) (v u) +
1
2
J
(u + (v u)) (v u) (v u)
Taylor Young Si J : V R
p
est dnie et continue sur [u, v], de classe (
1
sur [u, v], 2 fois
diffrentiable dans un voisinage de u,
J(v) = J(u) + J
(u) (v u) + (v u)|v u|, lim

0
(v u) = 0
Thorme 1.5 (caractrisation des fonctions convexes) . J est convexe si et seulement si lune
des conditions suivantes est vrie :
1. Si J est diffrentiable, le graphe de J est au-dessus de lhyperplan tangent, i.e.
u, v V, J(v) J(u) + J
(u) (v u) (1.8)
2. Si J est diffrentiable, J
est un oprateur monotone, i.e.

u, v V, (J
(v) J
(u)) (v u) 0 (1.9)
3. Si J est deux fois diffrentiable, J
est un oprateur non ngatif, i.e.

u, w V, J
(u)w.w 0 (1.10)
9
Pour une fonction -convexe, on a :
Thorme 1.6 (caractrisation des fonctions -convexes) . J est - convexe si et seulement si
lune des conditions suivantes est vrie :
1. Si J est diffrentiable,
u, v V, J(v) J(u) +J
(u) (v u) +

2
| v u |
2
, (1.11)
2. Si J est diffrentiable,
u, v V, (J
(v) J
(u)) (v u) | v u |
2
, (1.12)
3. Si J est deux fois diffrentiable,
u, w V, J
(u)w.w | w |
2
. (1.13)
En particulier les fonctionnelles de la forme J(u) = a(u, u), o a est une forme bilinaire sym-
trique continue sur V sont -convexes si et seulement si
u V, 2a(w, w) |w|
2
Si lon est dans R
n
, avec J(u) =
1
2
(Au, u), ceci revient
u V, (Aw, w) |w|
2
La matrice A tant symtrique, elle diagonalise en base orthonorme, A = PDP
T
, o D est la
matrice des valeurs propres d
i
et P la matrice des vecteurs propres. On a alors
(Aw, w) =
n
i=1
d
i
((Pw)
i
)
2
(min
1in
d
i
)
n
i=1
((Pw)
i
)
2
(Aw, w) (min
1in
d
i
)|Pw|
2
= (min
1in
d
i
)|w|
2
car, puisque P est orthogonale, |Pw| = |w|. Si A est dnie positive, a fonctionnelle est
min
1in
d
i
-convexe.
10
Chapitre 2
Caractrisation des extrema
Sommaire
2.1 Equation dEuler, cas gnral . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Inquation dEuler, cas convexe . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Multiplicateurs de Lagrange, cas gnral . . . . . . . . . . . . . . . . . . . 13
2.3.1 contraintes galits . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.2 contraintes ingalits . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1 Equation dEuler, cas gnral
Thorme 2.1 (condition ncessaire) . Si u est minimum local de J dans V , alors
1. Si J est diffrentiable, J
(u) = 0,
2. Si J est deux fois diffrentiable, on a de plus w V, J
(u)w.w 0.
Thorme 2.2 (condition sufsante) . Soit J une fonction diffrentiable dans V et u un point de
V tel que J
(u) = 0.
1. Si J est deux fois diffrentiable dans un voisinage de u et sil existe un voisinage de u tel
que v , w V, J
(v)w.w 0, alors u est minimum local de J.

2. Si J est deux fois diffrentiable,et sil existe > 0 tel que
w V, J
(u)w.w | w |
2
,
alors u est minimum local strict pour J.
2.2 Inquation dEuler, cas convexe
Dans cette section on considre le problme de minimisation avec contraintes. On suppose que
K est un convexe ferm non vide et que J est diffrentiable.
Thorme 2.3 . Si u est solution optimale on a linquation dEuler
_
u K
v K, J
(u).(v u) 0.
(2.1)
Rciproquement si on a linquation d Euler en u et si de plus J est convexe, alors u est solution
optimale.
11
Corollaire 2.1 [Projection sur un convexe ferm]. Soit K une partie convexe ferme non vide
dun espace de Hilbert V , et w un point de V nappartenant pas K. alors il existe un unique
point de K, not P
K
w tel que
_
P
K
w K,
|w P
K
w| = inf
vK
|w v|
(2.2)
Il est caractris par
v K, (P
K
w w, v P
K
w) 0 (2.3)
Les cas particuliers sont trs importants.
1. K = V On a le
Thorme 2.4 . Si J est convexe diffrentiable, alors u ralise le minimum de J sur V si et
seulement si J
(u) = 0.
Remarque 2.1 . En particulier si J est -convexe, il existe une unique solution optimale,
caractrise par J
(u) = 0.
2. K sous-espace afne engendr par lespace vectoriel ferm E, i.e. K = u
0
+ v, v E,
alors
(2.1)
_
u K
w K, J
(u).w = 0
(2.4)
Si E est dni par m contraintes, E = w V, (a
i
, w) = 0, 1 i m, alors
(2.1)
_
_
u K
1
, ..,
m
, J(u) +
m
i=1
i
a
i
= 0
(2.5)
Remarque 2.2 Si lon dnit les fonctions afnes F
i
(w) = (w u
0
, a
i
), alors K = w
V, F
i
(w) = 0, et (2.5) se rcrit
(2.1)
_
_
u K
1
, ..,
m
, J(u) +
m
i=1
i
F
i
= 0.
(2.6)
3. K cône convexe ferm de sommet u
0
. On note K
0
le c^ one de sommet O qui lui est parallle.
Alors
(2.1)
_
_
u K
J
(u).(u
0
u) = 0
w K
0
, J
(u).w 0.
(2.7)
Pour M c^ one convexe ferm de sommet O, on dnit le c^ one dual par
M
= c V, v M, (c, v) 0 (2.8)
Si M est engendr par un nombre ni de vecteurs, alors on peut dcrire M
:
Thorme 2.5 (Lemme de Farkas) .
Si M = c V, i 1, .., m, (c, a
i
) 0, alors c M
si et seulement si c ap-
partient au c^ one convexe engendr par les a
i
, i.e. il existe
1
, ..,
m
tous 0 tels que
c =
m
i=1
i
a
i
.
12
Intressons nous maintenant au cas o K
0
est dni par m contraintes, K
0
= w
V, (a
i
, w) 0, 1 i m. Alors la troisime ligne dans (2.7) exprime que J
(u)
est dans K
0
, et donc (??) se rcrit
(2.1)
_
_
u K
J
(u).(u
0
u) = 0
(
1
, ,
m
) 0, J(u) +
m
i=1
i
a
i
= 0
(2.9)
Remarquons comme dans le cas prcdent que K se dnit ici comme K = w V, F
i
(w)
0, 1 i m, et (2.9) scrit
(2.1)
_
_
u K
J
(u).(u
0
u) = 0
(
1
, ,
m
) 0, J(u) +
m
i=1
i
F
i
= 0
(2.10)
2.3 Multiplicateurs de Lagrange, cas gnral
Le lemme de Farkas va nous permettre de trouver des conditions ncessaires doptimalit dans
le cas gnral.
Pour K ferm non vide, pour tout v dans K, nous dnissons le c^ one des directions admissibles
K(v). Cest un c^ one ferm de sommet O, dni par
K(v) = 0 w V,
v
k
kN
K lim
k+
v
k
= v, v
k
,= v pour tout k, lim
k+
v
k
v
[[v
k
v[[
=
w
[[w[[
(2.11)
Thorme 2.6 . Si J a un minimum local en u K et si J est diffrentiable en u, alors J
(u)
K(u)
.
Remarque 2.3 . Si K et J sont convexes, alors cest une condition ncessaire et sufsante.
2.3.1 contraintes galits
K = v V, F(v) = 0 (2.12)
o F est une fonction (
1
de V dans R
m
, ses coordonnes sont F
1
, .., F
m
.
Dnition 2.1 . Les contraintes sont rgulires en u K si les F
i
(u) sont linairement indpen-
dantes. On dit alors que u est un point rgulier.
On peut alors caractriser le c^ one des directions admissibles :
Lemme 2.1 . Si les contraintes sont regulires en u K, alors
K(u) = w V, F
i
(u).w = 0, 1 i m (2.13)
et en dduire lexistence de multiplicateurs de Lagrange :
Thorme 2.7 . Si u K, u rgulier, est minimum local pour J, il existe m rels p
1
, .., p
m
tels
que
J
(u) +
m
i=1
p
i
F
i
(u) = 0. (2.14)
13
Remarque 2.4 . Si K et J sont convexes, alors cest une condition ncessaire et sufsante.
Remarque 2.5 . Introduisons le lagrangien dni sur V R
m
valeurs dans R par
L(v, q) J(v) +
m
i=1
q
i
F
i
(v), (2.15)
alors
L
v
(v, q)
L
v
(v, q) = J
(v) +
m
i=1
q
i
F
i
(v)
L
q
(v, q)
L
q
(v, q) = F(v)
(2.16)
et
u K q R
m
, L
v
(u, q) = 0
u minimum local p R
m
, L
q
(u, p) = 0
(2.17)
2.3.2 contraintes ingalits
K = v V, F(v) 0 (2.18)
o F est une fonction C
1
de V dans R
m
1
, .., F
m
.
Dnition 2.2 . Pour u K, on appelle I(u) lensemble des contraintes actives ou satures,
i.e.F
i
(u) = 0 si i I(u), F
i
(u) < 0 sinon. Les contraintes sont dites qualies en u si
w V, i I(u), (F
i
(u), w) < 0 ( resp. 0 si F
i
est afne). (2.19)
On peut encore caractriser le c^ one des directions admissibles :
Lemme 2.2 . Si les contraintes sont qualies en u K, alors
K(u) = w V, i I(u), F
i
(u).w 0 (2.20)
Le lemme de Farkas permet alors dtablir le
Thorme 2.8 . Si u K, o les contraintes sont qualies, est minimum local pour J, il existe
m rels p
1
, .., p
m
0 tels que
J
(u) +
m
i=1
p
i
F
i
(u) = 0
m
i=1
p
i
F
i
(u) = 0
(2.21)
Remarque 2.6 . Le lagrangien est maintenant dni sur V R
m
+
, et lon peut crire
u K solution optimale p R
m
+
,
L
v
(u, p) = L
q
(u, p).p = 0.
(2.22)
Attention, contrairement au cas des contraintes galits, on na quune condition ncessaire.Le
dveloppement dune condition ncssaire et sufsante est lobjet du chapitre suivant.
14
Chapitre 3
Lagrangien et point selle
Sommaire
3.1 Point selle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Thorie de Kuhn et Tucker . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1 Point selle
Soient V et M deux espaces de Hilbert, U une partie de V et P une partie de M. On dnit le
lagrangien comme une application de U P dans R et on le note L.
Exemple 3.1 au problme doptimisation du chapitre prcdent,
_
u K,
J(u) = inf
vK
J(v)
(3.1)
nous avons associ de faon naturelle un lagrangien dans les cas suivants :
K = v, F(v) 0 ; L : K R
m
+
R
K = v, F(v) = 0 ; L : K R
m
R
(3.2)
o F : V R
m
, et
L(v, q) = J(v) + (F(v), q) (3.3)
(.,.) dsigne le produit scalaire dans R
m
.
Lemme 3.1 .
sup
qP
inf
vU
L(v, q) inf
vU
sup
qP
L(v, q) (3.4)
Remarquons que lon ninterdit pas les valeurs +et .
Dnition 3.1 .(u, p) est point selle du lagrangien si
sup
qP
L(u, q) = L(u, p) = inf
vU
L(v, p) (3.5)
15
Lemme 3.2 . Si (u, p) est point selle du lagrangien, alors
sup
qP
inf
vU
L(v, q) = L(u, p) = inf
vU
sup
qP
L(v, q) (3.6)
On associe maintenant au lagrangien un problme primal et un problme dual. On dnit dune
part K et J par
K = v U, sup
qP
L(v, q) < +,
et pour v dans K,
J(v) = sup
qP
L(v, q).
Le problme primal associ scrit :
(T) Trouver u K tel que J(u) = inf
vK
J(v)
On dnit galement K
et G par K
= q P, inf
vU
L(v, q) > , et pour q dans K
,
G(q) = inf
vU
L(v, q). Le problme dual associ scrit :
(T
) Trouver p K
tel que G(p) = sup

qK
G(q)
Thorme 3.1 . (u, p) est point selle du lagrangien si et seulement si u est solution de (T), p est
solution de (T
), et J(u) = G(p).
3.2 Thorie de Kuhn et Tucker
On considre maintenant le problme de minimisation convexe avec contraintes ingalit :
K = v V, F(v) 0 (3.7)
o F est une fonction convexe C
1
de V dans R
m
1
, .., F
m
. On suppose J
convexe et on dnit le lagrangien sur V R
m
+
par
L(v, q) = J(v) + (F(v), q) (3.8)
On a vu au chapitre prcdent une condition ncessaire de minimum local, au moyen des
multiplicateurs de Lagrange. On va maintenant tablir une rciproque.
Dnition 3.2 . Les contraintes sont qualies si
v V, i, 1 i m, F
i
( v) < 0 (resp. 0 si F
i
est afne). (3.9)
Remarque 3.1 .
1. Si aucune des F
i
nest afne, la dnition 3.2 se rsume

K ,= . Si toutes les F
i
sont
afnes, elle signie que K ,= .
16
2. Si les contraintes sont qualies en ce sens, elles sont qualies en tout point au sens de la
dnition 2.2 du chapitre 2.
Thorme 3.2 . Sous les hypothses de qualication de la dnition 3.2, si u est solution de (T),
il existe p dans R
m
+
tel que (u, p) soit point selle du lagrangien.
Donc dans le cas convexe, avec lhypothse de qualication des contraintes de la dnition
3.2, on a le schma suivant :
u solution optimale de (1.2)
(Th 2.8)
= p R
m
+
_
_
J
(u) +
m
i=1
p
i
F
i
(u) = 0
m
i=1
p
i
F
i
(u) = 0
(Th 3.1)
= (u, p) point selle du lagrangien
(Th 3.2)
= u solution optimale de (1.2).
Thorme 3.3 (Kuhn et Tucker) . On suppose que les fonctions J et F
i
1im
sont convexes
diffrentiables et que (3.9) est vrie. Soit
K = v, F
i
(v) 0, 1 i m.
Alors u est minimum de J sur K si et seulement si il existe p dans R
m
+
tel que
_
_
J
(u) +
m
i=1
p
i
F
i
(u) = 0
m
i=1
p
i
F
i
(u) = 0
(3.10)
De plus p est solution du problme dual (T
).
17
18
Deuxime partie
Algorithmes
19
20
Chapitre 4
Mthodes de descente. Problmes sans
contraintes
Sommaire
4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2 Mthode de relaxation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.3 Mthode du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.1 Mthode pas variable . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.2 Mthode pas optimal . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.4 Estimations et convergence dans le cas quadratique . . . . . . . . . . . . . 23
4.4.1 Mthode pas optimal . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.4.2 Mthode de gradient pas constant . . . . . . . . . . . . . . . . . . . 24
4.5 Mthode du gradient conjugu . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.5.1 Principe de la mthode . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.5.2 Ecriture comme algorithme de descente . . . . . . . . . . . . . . . . . 24
4.5.3 Analyse de convergence . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1 Principe
On se place dans un espace de Hilbert V , et on cherche calculer numriquement un x (qui
nest pas forcment unique) tel que
y V, J(x) J(y) (4.1)
Le principe est de construire un algorithme itratif de la forme
x
k+1
= x
k
k
d
k
(4.2)
d
k
est la direction de descente,
k
est le pas. Il est, soit x, ventuellement le même pour toutes
les tapes (on parle alors de mthode pas variable), soit calcul chaque tape de faon
minimiser J dans la direction d
k
(on parle alors de mthode pas optimal).
4.2 Mthode de relaxation
On se place en dimension nie, i.e. V = R
n
. Pour passer de x
k
x
k+1
, on minimise successi-
vement dans les n directions de la base canonique.
21
1. x
k,1
est dni par
J(x
k,1
) = inf
R
J(x
k
e
1
)
ou encore
x
k,1
= (x
k
1

1
, x
k
2
, .., x
k
n
)
On note x
k+1
1
= x
k
1

1
2. ltape i on a
x
k,i
= (x
k+1
1
, .., x
k+1
i
, x
k
i
, .., x
k
n
)
x
k,i+1
est maintenant dni par
J(x
k,i+1
) = inf
J(x
k,i
e
i+1
)
3. x
k+1
= x
k,n
Thorme 4.1 . Si J est -convexe (
1
sur R
n
, lalgorithme de relaxation est bien dni et
converge vers la solution optimale.
Remarque 4.1 . Dans le cas o J est quadratique, i.e. J(v) =
1
2
(Av, v) (b, v), on retrouve
lalgoritme de Gauss-Seidel ou S.O.R. pour la rsolution du systme linaire Ax = b.
4.3 Mthode du gradient
Ici on choisit chaque tape d
k
= J(x
k
).
4.3.1 Mthode pas variable
On se donne le pas
k
, il peut être diffrent dune tape lautre.
Thorme 4.2 . Si J est -convexe drivable sur V , si J est uniformment lipschitzien de
constante de Lipschitz M, lalgorithme de gradient pas variable converge vers la solution
optimale pour 0 < a
k
b <
2
M
2
.
Remarque 4.2 . Si J est 2 fois diffrentiable, lhypothse est
sup
vV
[[D
2
J(v)[[ M
4.3.2 Mthode pas optimal
Ici on choisit chaque tape
k
de faon que
J(x
k
k
J(x
k
)) = inf
R
J(x
k
J(x
k
)) (4.3)
constante de Lipschitz M, lalgorithme de gradient pas optimal est bien dni et converge vers
la solution optimale.
Remarque 4.3 . Les directions de descente sont orthogonales, i.e.
J(x
k
).J(x
k+1
) = 0.
22
4.4 Estimations et convergence dans le cas quadratique
Ici la fonctionnelle J est quadratique sur R
n
:
J(v) =
1
2
(Av, v) (b, v)
o la matrice A est symtrique dnie positive. La solution x du problme de minimisation
vrie Ax = b. On appellera rsidu ltape k la quantit r
k
= Ax
k
b
4.4.1 Mthode pas optimal
On prend ici une direction de descente d
k
quelconque dans R
n
, non orthogonale r
k
. A chaque
tape, la valeur du paramtre optimal
k
est donne par
k
=
(r
k
, d
k
)
(Ad
k
, d
k
)
(4.4)
et lon a (r
k+1
, d
k
) = 0.
Notons E(v) =
1
2
(A(v u), v u), on a alors
E(x
k+1
) = (1
k
)E(x
k
) (4.5)
avec
k
=
1
2
(r
k
, d
k
)
2
(Ad
k
, d
k
)(A
1
r
k
, r
k
)
. (4.6)
Puisque la quantit
k
est par construction telle que 0
k
1, on a lestimation suivante :
si la direction de descente est telle que
_
r
k
[[r
k
[[
,
d
k
[[d
k
[[
_
2
> 0 (4.7)
alors
k
=

K(A)
(o K(A) est le conditionnement de A, cest--dire le rapport de la
plus grande la plus petite valeur propre), et donc
E(x
k+1
) (1 )E(x
k
) (4.8)
On dit que la mthode converge linairement.
Dans le cas particulier de la mthode du gradient, grâce lingalit de Kantorovitch on peut
crire
E(x
k
)
_
K(A) 1
K(A) + 1
_
2k
E(x
0
) (4.9)
Remarque 4.4 . Plus la matrice est bien conditionne (i.e. K(A) proche de 1), plus la conver-
gence est rapide. Plus la matrice est mal conditionne (i.e. K(A) 1), plus la convergence est
lente.
23
4.4.2 Mthode de gradient pas constant
On choisit chaque tape
k
= . On a alors lestimation
[[x
k
x[[
2

_
max
1in
[1
i
[
k
[[x
0
x[[
2
(4.10)
On en dduit que la mthode converge si et seulement si <
2
n
o
n
est la plus grande
valeur propre de A. Ici encore, la convergence est linaire.
Remarque 4.5 Comparer avec le thorme gnral 4.2.
4.5 Mthode du gradient conjugu
On se place ici dans le cas o la fonctionnelle J est quadratique sur R
N
: J(v) =
1
2
(Av, v)
(b, v), la matrice A tant symtrique dnie positive. La solution x du problme de minimisation
vrie Ax = b.
4.5.1 Principe de la mthode
Les (k + 1) premires itres x
0
, .., x
k
tant donnes, on cherche x
k+1
, non plus dans la
direction du gradient, mais dans lespace vectoriel engendr par tous les gradients prcdents. On
note
L
k
= vectJ(x
0
), .., J(x
k
) (4.11)
et on dnit x
k+1
par :
J(x
k+1
) = inf
L
k
J(x
k
+ ) (4.12)
Ceci dnit x
k+1
de manire unique (cf Corollaire 1.1, Partie I) et
Thorme 4.4 . On a les proprits suivantes :
1. Les J(x
k
) forment un systme orthogonal (donc libre),
2. lalgorithme converge en au plus N itrations.
La premire proprit traduit lquation dEuler (2.4, Partie I). Ce thorme nous dit que la
mthode du gradient conjugu est en fait une mthode directe. La forme (4.12) nest pas pratique,
aussi allons nous rcrire lalgorithme sous forme dun algorithme de descente.
4.5.2 Ecriture comme algorithme de descente
Thorme 4.5 . Lalgorithme du gradient conjugu scrit sous la forme
_
_
x
k+1
= x
k
k
d
k
d
k
= J(x
k
) +
[[J(x
k
)[[
2
[[J(x
k1
)[[
2
d
k1
k
=
[[J(x
k
)[[
2
(Ad
k
, d
k
)
(r
k+1
, d
k
) = 0
(4.13)
24
Il suft de se donner d
0
= J(x
0
).
N peut être trs grand, on peut alors compter le nombre doprations ncessaires pour raliser
lalgorithme : une itration ncessite 2cN oprations lmentaires, o c est le nombre moyen de
coefcients non nuls par ligne de A. Si bien que pour une matrice pleine, le nombre doprations
lmentaires pour N itrations est 2N
3
. Cela risquerait de disqualier la mthode par rapport
Cholewski (
N
3
3
oprations lmentaires), si lon ne faisait une
4.5.3 Analyse de convergence
On introduit lespace de Krylov
/
k
= vectr
0
, Ar
0
, .., A
k
r
0
(4.14)
et on a le
Thorme 4.6 . Si r
j
,= 0 pour j k, alors /
k
L
k
On en dduit une premire estimation de lerreur
Thorme 4.7
E(x
k
) = inf
PP
k1
max
1iN
[1 +
i
P(
i
)]
2
E(x
0
) (4.15)
o les
i
sont les valeurs propres de A.
et par un calcul assez long sur les polyn^ omes de Tchebycheff,
Corollaire 4.1 . On a lestimation derreur
E(x
k
) 4
_
_
K(A) 1
_
K(A) + 1
_
2k
E(x
0
) (4.16)
De nouveau, la convergence est linaire. Cette estimation est comparer avec lestimation
derreur (4.9) pour lalgorithme du gradient pas optimal :
E(x
k
)
_
K(A) 1
K(A) + 1
_
2k
E(x
0
)
Par exemple, daprs ces estimations pour K(A) = 100, pour obtenir une erreur de 10
6
,
il faudrait 340 itrations du gradient pas optimal et seulement 34 itrations du gradient conju-
gu ! Comme les itrations sont comparables, ces performances font de cet algoritme le favori de
tous les gens qui font des calculs de grande taille. De nombreuses extensions ont t proposes :
BiCGSTAB, GMRES, etc, pour des problmes non symtriques, coefcients complexes, etc..
25
26
Chapitre 5
Mthodes pour les problmes avec
contraintes
Sommaire
5.1 Mthode de gradient projet pas variable . . . . . . . . . . . . . . . . . . 27
5.2 Algorithme dUzawa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.1 Mthode de gradient projet pas variable
Soit le problme de minimisation avec contraintes
_
u K,
J(u) = inf
vK
J(v)
(5.1)
o K est un convexe ferm non vide de lespace de Hilbert V . On rappelle que si J est
convexe, il existe un minimum unique (corollaire 1.1, Partie I), caractris dans le cas diffren-
tiable par (2.1, Partie I) :
_
u K
v K, J
(u).(v u) 0.
(5.2)
On dnit alors la suite des approximations u
k
par la relation de rcurrence
u
k+1
= P
K
(u
k
k
r
k
) (5.3)
o r
k
est le rsidu ltape k, i.e. r
k
= J(u
k
), et P
K
dsigne la projection sur le convexe
ferm K (Partie I,2.1).
constante de Lipschitz M, lalgorithme de gradient projet pas variable converge vers la so-
lution optimale pour 0 < a
k
b <
2
M
2
. De plus il existe une constante < 1 telle
que
|u
k
u|
k
|u
0
u| (5.4)
27
En gnral, on ne peut pas expliciter la projection, sauf quand V = R
n
, et
K = v V, i, 1 i n, v
i
0, (5.5)
auquel cas
(P
K
w)
i
= max(w
i
, 0), 1 i n. (5.6)
Si K est le pav
n
i=1
[a
i
, b
i
], alors
(P
K
w)
i
=
_
_
_
a
i
si w
i
a
i
w
i
si a
i
w
i
b
i
b
i
si w
i
b
i
(5.7)
5.2 Algorithme dUzawa
Soit un problme de minimisation avec contraintes ingalits
K = v, F(v) 0 (5.8)
o F : V R
m
. On a dni un lagrangien
L(v, q) = J(v) + (F(v), q); L : K R
m
+
R (5.9)
et le problme dual :
K
= q P, inf
vU
L(v, q) > (5.10)
et pour q dans K
, G(q) = inf
vU
L(v, q). Le problme dual associ scrit :
(T
) Trouver p K
tel que G(p) = sup

qK
G(q)
Lide est dutiliser le problme dual : si K
= R
m
+
(ce qui est le cas pour des contraintes af-
nes), on peut mettre en uvre un algorithme de gradient projet sur le multiplicateur de Lagrange
p. Pour q dans K
, on a dni u
q
comme la solution du problme
inf
vV
L(v, q) = L(u
q
, q) (5.11)
Lalgorithme se dcrit alors comme suit :
p
k
u
k
= u
p
k
p
k+1
= P
K
(p
k
+ G(p
k
)) (5.12)
Thorme 5.2 . On suppose que V = R
n
et K = v V, Cv d. Alors K
= R
m
+
et u
k
u,
unique solution de (T) . De plus si rgC = m, p
k
converge vers lunique solution de (T
).
28

Optim

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Optim

Transféré par

Droits d'auteur :

Formats disponibles

Rsum du cours doptimisation.

(u) est dans V

(u).v = 2a(u, v).

(u).v.w = a(v, w) + a(w, v), et si a est symtrique J

(u) est la matrice des drives partielles secondes

(u) (v u) + (v u)|v u|, lim

est un oprateur monotone, i.e.

est un oprateur non ngatif, i.e.

(v)w.w 0, alors u est minimum local de J.

tel que G(p) = sup

tel que G(p) = sup

Vous aimerez peut-être aussi