Vous êtes sur la page 1sur 31

Optimisation Différentiable

Théorie et Algorithmes
Partie I

Exemple de résumé du cours

J. Ch. G ILBERT

12 septembre 2018
Informations pratiques
Plan du cours I
r 14 séances, échappatoire possible à mi-parcours.

r Objectif du cours : l’optimisation 1. Introduction : optimisation et analyse convexe


– aspects théoriques : convexité, CO, dualité, . . . , TD1 (rappels, concepts de base)
– aspects pratiques : algorithmes.
2. Conditions d’optimalité I : méthode et outils
r Organisation : TP1
– Partie I : 7 séances, dont 1/2 pour l’examen. 3. Conditions d’optimalité II : égalités et inégalités
– CM : 6 séances d’1h15++, TD2 (conditions d’optimalité)
– TD + TP : 4+3 séances d’2h00--,
– TP : projet d’optimisation (Matlab/Scilab), 4. Conditions d’optimalité III : CO2 égalités et
– travail personnel. Méthode de descente : RL
TP2
r Supports de cours
5. Méthodes newtoniennes : N et qN
– syllabus [site] : ne pas voir les sections avec ⊖,
TD3 (recherche linéaire, moindres-carrés)
– planches [pdf] : points importants du cours [§],
– notes manuscrites [SP] : 1 document par séance, 6. Dualité
– exercices : en TD (+sol), dans le syllabus (−sol). TD4 (dualité)
r Contrôle des connaissances 7. Contrôle des connaissances
– TP : rapport et code incrémental à remettre, TP3
– Séance 7 : résolution de problèmes (1h30).

3 4
I Introduction On dit que x∗ est solution de (PX ) si
r x∗ ∈ X,
Vocabulaire de l’optimisation (§ 1.1) r ∀ x ∈ X: f (x∗ ) 6 f (x).

On dit aussi minimum ou minimiseur.


Le problème à résoudre :
On note l’ensemble des solutions
(PX ) inf f (x).
x∈X Sol(PX ) ou arg min f (x).
x∈X
Quelques définitions et conventions :
r f : X → R est appelée critère ou fonction-coût ou On dit que x∗ est solution stricte de (PX ) si
fonction-objectif, r x∗ ∈ X,
r X est appelé ensemble admissible, r ∀ x ∈ X \ {x∗ }: f (x∗ ) < f (x).
r un point de X est dit admissible,
Si X topologique, on dit que x∗ est solution locale de (PX ) s’i
r val(PX ) := inf x∈X f (x) est la valeur optimale,
existe un voisinage V de x∗ tel que
r (PX ) est dit réalisable si X 6= ∅,
r convention : inf x∈∅ f (x) = +∞,
r x∗ ∈ X,
r (PX ) est dit non borné si val(PX ) = −∞, i.e.,
r ∀ x ∈ X ∩ V : f (x∗ ) 6 f (x).
∃{xk } ⊂ X telle que f (xk ) → −∞.
Si X topologique, on dit que x∗ est solution locale stricte de
Si X 6= ∅, il existe une suite minimisante {xk } : (PX ) s’il existe un voisinage V de x∗ tel que
r {xk } ⊂ X, r x∗ ∈ X,
r f (xk ) → val(PX ). r ∀ x ∈ (X ∩ V ) \ {x∗ }: f (x∗ ) < f (x).

5 6
Unicité de solution (§ 3.1)
Existence de solution (§ 1.2)

Le problème à résoudre (f : X → R ∪ {+∞}) :


 r Soient X un convexe de E et f : X → R.
 inf f (x)
(PX )
 x ∈ X. Définitions : f est convexe sur X si pour tout
x, y ∈ X, x 6= y, et t ∈ ]0, 1[ :
On dit que f est fermée si (epi f ) est fermé.
f ((1−t)x + ty) 6 (1−t)f (x) + tf (y).
Si q f est fermée sur X,
q X est compact et non vide, f est strictement convexe si on a inégalité stricte
ci-dessus.
alors (PX ) a (au moins) une solution.
r Le problème à résoudre :
En dimension finie (c’est notre cas) : 
r X compact ⇐⇒ X fermé borné.  min f (x)
(PX )
r On peut remplacer l’hypothèse  x ∈ X.

X compact Si q X est convexe,


q f est strictement convexe sur X,
par
X fermé et f coercive sur X. alors (PX ) a au plus une solution.

7 8
Différentiabilité première (§§ C.1, C.2.1) Différentiabilité seconde (§ C.2.2)

Soient E et F deux espaces normés, Ω un ouvert de E et


f : Ω → F. Supposons que f : Ω → F soit 2 fois différentiable (pour
une définition rigoureuse, voir le syllabus).
1. Différentiabilité directionnelle suivant h ∈ E :
′ 1  Propriétés :
f (x; h) := lim f (x + th) − f (x) existe.
t→0+ t
r f ′′ (x) · (h, k) est la dérivée directionnelle de
2. Différentiabilité au sens de Gâteaux : x 7→ f ′ (x) · h dans la direction k:
– f ′ (x; h) existe pour tout h ∈ E et
1 ′
– h→ 7 f ′ (x; h) est linéaire (continue). f ′′ (x) · (h, k) = lim (f (x + tk) · h − f ′ (x) · h)
t→0+ t
On note f ′ (x) l’application linéaire (continue).
r l’application
3. Différentiabilité au sens de Fréchet : il existe
L : E → F, linéaire (continue) : (h, k) 7→ f ′′ (x) · (h, k)

f (x + h) = f (x) + Lh + o(khk). est bilinéaire symétrique.

On note f ′ (x) := L (même opérateur qu’en 2).


Soit h·, ·i un produit scalaire sur E et F = R. On définit l
hessien de f en x comme l’unique opérateur linéaire
Soit h·, ·i un produit scalaire sur E et F = R. On définit le
symétrique ∇2 f (x) sur E tel que
gradient de f en x comme l’unique vecteur ∇f (x) ∈ E:
h∇2 f (x)h, ki = f ′′ (x) · (h, k), ∀(h, k) ∈ E2 .
h∇f (x), hi = f ′ (x) · h, ∀h ∈ E.

9 10
II Analyse convexe

Ensemble convexe (§ 2.1)

Soit E un espace vectoriel.


r Dfn. Soient x, y ∈ E. Un segment de E :
Aspects topologiques (§ 2.3)
[x, y] := {(1−t)x + ty : t ∈ [0, 1]}.
r Dfn. Un ensemble C ⊂ E est convexe si
r Dfn. L’enveloppe affine d’une partie P ⊂ E est le
∀ x, y ∈ C =⇒ [x, y] ⊂ C.
plus petit espace affine contenant P . On le note
\
aff P = {A : A = espace affine contenant P }.
x

y r Dfn. L’intérieur relatif d’une partie P ⊂ E est son


x y
intérieur dans aff A (muni de la topologie induite de
celle de E). On le note
convexe non convexe
intr P ou P−

.

x y

convexe non convexe

11 12
Projection sur un convexe fermé (§ 2.5.2)
Polyèdre convexe (§ 2.4)

E muni d’un produit scalaire h·, ·i = k · k2 .


Soient E et F des espaces vectoriels (E = Rn et F = Rm
Si C ⊂ E convexe fermé non vide et x ∈ E,
parfois).
alors le problème
r Dfn. Description primale d’un polyèdre convexe :
min {ky − xk : y ∈ C} (1)
P := co{x1 , . . . , xp } + cone{y1 , . . . , yq },
a une unique solution.
où les xi et yj ∈ E.
Description duale d’un polyèdre convexe :
r Dfn : l’unique solution de (1) est appelée
P := {x ∈ E : Ax 6 b}, projection/projeté de x sur C et est notée PC x.

où A : F → F linéaire et b ∈ F. r Prop : Soit x̄ ∈ C. Alors

r Prop. x̄ = PC x ⇐⇒ ∀y ∈ C, hy − x̄, x̄ − xi > 0

Si P polyèdre convexe et L : F → F linéaire, ⇐⇒ ∀y ∈ C, hy − x̄, y − xi > 0

alors L(P ) polyèdre convexe. ⇐⇒ ∀y ∈ C, hy − x, x̄ − xi > kx̄ − xk2

13 14
Séparation des convexes (§ 2.5.4) Cône dual (§ 2.5.6)

E muni d’un produit scalaire h·, ·i.


E muni d’un produit scalaire h·, ·i.
r Dfn : On peut séparer C1 , C2 ⊂ E s’il existe ξ ∈ E
r Dfn : Le cône dual de P ⊂ E est défini par
non nul tel que
P + := {y ∈ E : hy, xi > 0, ∀x ∈ P }.
sup hξ, x1 i 6 inf hξ, x2 i .
x1 ∈C1 x2 ∈C2
C’est un cône, convexe, fermé, non vide.
La séparation est stricte si l’inégalité ci-dessus est
stricte (alors ξ est nécessairement non nul). r Lemme de Farkas (généralisé)
r Théor (Hahn-Banach) :
Si q E et F deux espaces euclidiens,
Si q C1 et C2 convexes, non vides, disjoints, q K un cône convexe 6= ∅ de E,
q dim E < ∞, q A : E → F linéaire,
alors on peut séparer C1 et C2 . alors {y ∈ F : A∗ y ∈ K + }+ = A(K).

Si q C1 et C2 convexes, non vides, disjoints, r Cas particulier : Soit A une matrice. Alors
q C1 ou C2 est d’intérieur non vide,
alors on peut séparer C1 et C2 . {Ax : x > 0} = cône, convexe, fermé, 6= ∅
{y : A⊤y > 0}+ = {Ax : x > 0}.
Si q C1 et C2 convexes, non vides, disjoints,
q l’un est fermé, l’autre est compact, (·)+ = dual pour le produit scalaire euclidien.
alors on peut séparer C1 et C2 strictement. [c’est une généralisation de N (A⊤)⊥ = R(A)]

15 16
Fonction convexe (§ 3.1)

Différentiabilité directionnelle (§ 3.3.2)


Soient E un espace vectoriel et f : E → R.

r Dfn. Le domaine de f est l’ensemble Soient f ∈ Conv(E), x ∈ dom f et d ∈ E.

domf := {x ∈ E : f (x) < +∞}.


1) t ∈ ]0, +∞[ 7→ f (x+td)−f
t
(x)
est croissante,
On peut avoir f (x) = −∞ pour x ∈ dom f .
2) f ′ (x; d) existe dans R,
r Dfn. L’épigraphe de f est l’ensemble 3) f ′ (x; d) = +∞ ⇐⇒ f (x + td) = +∞, ∀ t > 0,
4) f ′ (x; −d) > −f ′ (x; d),
epif := {(x, α) ∈ E × R : f (x) 6 α}.
5) f ′ (x; ·) est convexe,


r Dfn. f est convexe ⇐⇒ epi f est convexe.  f (x; ·) ∈ R,


6) x ∈ (dom f )− ◦
=⇒ f ′ (x; ·) Lipschitz,

f est convexe ⇐⇒ ∀ x, y ∈ dom f , ∀ t ∈ ]0, 1[ :

 ′
f (x; ·) ∈ Conv(E).
 
f (1−t)x + ty 6 (1−t)f (x) + tf (y).

17 18
Reconnaître une fonction convexe
par ses dérivées (§ 3.3.3)

Enveloppe supérieure (§ 3.4.2) Soient X un convexe de E et f : X → R.


r Si f est 1 fois dérivable et X ouvert
r Enveloppe supérieure d’une famille de fi : E → R,
i ∈ I (quelconque) : Les propriétés suivantes sont équivalentes :
    – f est convexe sur X
sup fi (x) := sup fi (x) . [resp. strictement convexe],
i∈I i∈I
– ∀x, y ∈ X, x 6= y :
T
q epi (supi∈I fi ) = i∈I (epi fi ) . f (y) > f (x) + f ′ (x) · (y − x)
q fi convexes =⇒ supi∈I fi convexe.
[resp. >],
q fi fermées =⇒ supi∈I fi fermée.
– ∀x, y ∈ X, x 6= y :

(f ′ (y) − f ′ (x)) · (y − x) > 0

[resp. >].

19 20
r Si f est 2 fois dérivable et X ouvert :
– f est convexe sur X ⇐⇒
∀x ∈ X, ∀h ∈ E, f ′′ (x) · h2 > 0,
– f est strictement convexe sur X ⇐=
∀x ∈ X, ∀h ∈ E non nul, f ′′ (x) · h2 > 0.

Contre-exemple: f (x) = x4 .

21
CO sans contrainte (rappel, § 4.2)
III Conditions d’optimalité (CO)
Le problème à résoudre :

Le problème à résoudre :  min f (x)
  x ∈ E.
 min f (x)
(PX )
 x ∈ X, On note ∇f (x) et ∇2 f (x) les gradient et hessien de f
en x pour h·, ·i.
où X ⊂ E (espace euclidien, produit scalaire h·, ·i).
r But. L’optimalité s’exprime par un nombre infini de r CN1 :
conditions x∗ ∈ X et ∀ x ∈ X : f (x∗ ) 6 f (x). Peut-on ∇f (x∗ ) = 0.
exprimer cela avec un nombre fini de conditions ?
r Qu’est-ce ? Des = et 6 décrivant les solutions de (PX ). (Si f est convexe, c’est une CS1 globale.)
r Utilité des CO : r CN2 : 
– donner des renseignements sur (PX ),  ∇f (x ) = 0

– vérifier qu’un point est solution,
 ∇2 f (x∗ ) < 0.
– calculer la solution analytiquement (parfois),
– définir des algorithmes de résolution.
r Il y a des CO nécessaires (notées CN) r CS2 pour un minimum local strict :
et des CO suffisantes (notées CS). 
r Il y a des CO du 1er ordre (CN1, CS1)  ∇f (x ) = 0

et des CO du 2ième ordre (CN2, CS2).  ∇2 f (x∗ ) ≻ 0.

23 24
CN1 de Peano-Kantorovitch (§ 4.1)

Prop
r Tx X est fermé.
Le problème à résoudre :
 r X convexe et x ∈ X =⇒ Tx X convexe.
 min f (x)
(PX )
 x ∈ X. Conditions d’optimalité

r CN1 de Peano-Kantorovitch. On exprime plus ou moins


Dfn. Cône tangent : d ∈ Tx X ⇐⇒ le fait que f croît si on se déplace “vers l’intérieur” de X :
xk − x
∃ {xk } ⊂ X, ∃ {tk } ↓ 0 : → d. f ′ (x∗ ) · d > 0, ∀d ∈ Tx∗ X, (2
tk
où Tx∗ X est le cône tangent à X en x∗ , ce qui s’écrit aus

X2 ∇f (x∗ ) ∈ (Tx∗ X)+ , (3


X1
x2

x1 r CN1. Lorsque X est convexe, la relation (2) se simplifie


Tx1 X1 en :

Nx2 X2
f ′ (x∗ ) · (x − x∗ ) > 0, ∀x ∈ X. (4

r CS1. Si X est convexe, f est convexe et (4), alors x∗ est u


0 0 Tx2 X2
minimum global.
Nx1 X1

25 26
CO avec contraintes d’= (§ 4.3)

Le problème en x ∈ E (e.v. euclidien) à résoudre :



 min f (x) r CN2 : si x∗ minimum local et c′ (x∗ ) est surjective,
(PE ) alors il existe λ∗ tel que
 c(x) = 0 ∈ F (e.v. euclidien).

Le lagrangien du problème :  ∇x ℓ(x∗ , λ∗ ) = 0


c(x∗ ) = 0
ℓ(x, λ) = f (x) + hλ, c(x)i . 
∇2xx ℓ(x∗ , λ∗ ) < 0 sur N (c′ (x∗ )).


r CN1 : si c′ (x∗ ) est surjective, il existe λ∗ ∈ F,
unique, tel que

 ∇ ℓ(x , λ ) = 0
x ∗ ∗
r CS2 : si (x∗ , λ∗ ) vérifie
(5)
 c(x∗ ) = 0. 
 ∇x ℓ(x∗ , λ∗ ) = 0


(Si c affine, λ∗ existe, pas néc. unique.) c(x∗ ) = 0
(Si f est convexe et c est affine, ce sont des CS1

 2
∇xx ℓ(x∗ , λ∗ ) ≻ 0 sur N (c′ (x∗ )),

globales.)
alors x∗ est un minimum local strict.
Si F = Rm , la première condition de (5) s’écrit
m
X
∇f (x∗ ) + (λ∗ )i ∇ci (x∗ ) = 0.
i=1

27 28
CO avec contraintes d’= et d’6 (§ 4.4) Qualification des contraintes (§ 4.4.3)

r Dfn : on dit que les contraintes de (PEI ) sont qualifiées en


Le problème à résoudre en x ∈ E :
 x si
 min f (x)

 Tx X = T′x X, (6
(PEI ) cE (x) = 0 ∈ RmE où


cI (x) 6 0 ∈ RmI .

T′x X := {d : c′E (x) · d = 0, c′I 0 (x) (x) · d 6 0}.
Le lagrangien du problème (c := (cE , cI )) :
On a toujours : Tx X ⊂ T′x X.
ℓ(x, λ) = f (x) + λ⊤c(x).
r Conditions suffisantes de qualification des contraintes.
0
On note I (x) := {i ∈ I : ci (x) = 0}. Régularité + l’une des conditions suivantes :
(QC-A) cE∪I 0 (x) est affine dans un voisinage de x.
r CN1 : si les contraintes sont qualifiées en x∗ , il existe
(QC-S) cE est affine,
λ∗ ∈ Rm tel que
cI 0 (x) convexe,
∃ x̌ ∈ X tel que cI 0 (x) (x̌) < 0.

 ∇x ℓ(x∗ , λ∗ ) = 0


(QC-IL) les gradients {∇ci (x)}i∈E∪I 0 (x)
(KKT) cE (x∗ ) = 0

 sont linéairement indépendants.
0 6 (λ∗ )I ⊥ cI (x∗ ) 6 0.

(QC-MF) i∈E∪I 0 (x) αi ∇ci (x) = 0 et αI 0 (x) > 0
P
=⇒
αE∪I 0 (x) = 0.
(Si f et cI sont convexes et cE est affine, ce sont des (QC-MF’) c′E (x) surjective et ∃ d ∈ E tel que c′E (x) · d = 0 et
CS1 globales.) c′I 0 (x) · d < 0.
x

29 30
Signification des multiplicateurs optimaux (§ 4.6.1)

Démarche suivie pour obtenir (KKT) r Problème perturbé : pour p ∈ Rm , on définit



 min f (x)


p
r On part de (2) (PEI ) cE (x) + pE = 0


[i.e., f croît de x∗ vers l’intérieur de X]. cI (x) + pI 6 0.

r Dfn. La fonction valeur associée à (P p ) est


r On suppose que les contraintes sont qualifiées en x∗ EI
v : p ∈ R → R définie par
m
(on a (6) avec x = x∗ ). Dès lors
+ v(p) = inf p f (x),
∇f (x∗ ) ∈ T′x∗ X . (7) x∈X
p
où X p est l’ensemble admissible de (PEI ).
r Lemme de Farkas :
(PEI ) convexe =⇒ v convexe.
Données : A : E → F linéaire et K cône de E.

{y ∈ F : A∗ y ∈ K + }+ = A(K). r Cas différentiable régulier.

C’est une généralisation de N (A)⊥ = R(A⊤). Si q (x∗ , λ∗ ) solution PD de (PEI ),


p
· (x̄(p), λ̄(p)) solution PD de (PEI ),
r Le lemme de Farkas permet d’exprimer (7) · p 7→ x̄(p) différentiable en 0, x̄(0) = x∗ ,
autrement : ∃λ∗ ∈ Rm tel que l’on ait (KKT). · p 7→ λ̄(p) continue en 0, λ̄(0) = λ∗ ,
alors λ∗ = ∇v(0) = ∇(f ◦ x̄)(0).

31 32
r On note
Λ := {λ ∈ Rm : λI > 0}. r CN et CS d’existence de solution PD globale.
r Dfn. On dit que (x∗ , λ∗ ) ∈ Rn × Λ est un point-selle
de ℓ sur Rn × Λ, si ∀(x, λ) ∈ Rn × Λ :
CN d’optimalité (cas convexe non diff.).
ℓ(x∗ , λ) 6 ℓ(x∗ , λ∗ ) 6 ℓ(x, λ∗ ). Si q (PEI ) convexe (avec f et c finies),
q (Slater) : c′E surjective, ∃x̂ ∈ X t.q. cI (x̂) < 0,
r Cas convexe non différentiable. q x∗ solution de (PEI ),
alors 1) v est loc. lipschitzienne dans un vois. de 0,
Si q x∗ est solution de (PEI ),
2) ∂v(0) 6= ∅.
q v ∈ Conv(Rm ),
alors
CS d’optimalité globale.
∂v(0) Peu de chance d’être applicable si (PEI ) non convexe
= {λ∗ : (x∗ , λ∗ ) est point-selle de ℓ sur Rm × Λ}. Si q (x∗ , λ∗ ) ∈ Rn × Λ est un point-selle de ℓ sur R
alors x∗ solution (globale) de (PEI ).
Remarque : Ci-dessus, ∂v(0) peut être vide ! Avec
qualification de Slater : ∂v(0) 6= ∅.

33 34
IV Méthodes à directions de descente Exemples d’algorithmes à DD (§ 6.2)

Schéma des algorithmes (§ 6.1) On note gk := ∇f (xk ).


r Algorithme du gradient.
r Dfn : d est direction de descente de f en x si
dk = −gk .
f ′ (x) · d < 0.
r Algorithme du gradient conjugué.
=⇒ f décroît en x le long de d. 
r Algorithme à directions de descente : il génère une
 −g
1 si k = 1
dk =
 −gk + βk dk−1 si k > 2.
suite {xk } ⊂ E comme suit
– Calcul d’une direction de descente dk ; r Algorithme de Newton.
– Recherche linéaire : on détermine un pas αk > 0
le long de dk ; dk = −∇2 f (xk )−1 gk .
– Nouvel itéré : xk+1 := xk + αk dk . r Algorithme de quasi-Newton.

dk dk = −Mk−1 gk .
xk+1
xk+2 r Algorithme de Gauss-Newton
dk+1 pour f (x) = 21 kr(x)k22 et J(x) := r ′ (x) injective :
dk+2 −1
xk dk = − (J(xk )∗ J(xk )) J(xk )∗ r(xk ).

35 36
La recherche linéaire (§ 6.3)

Deux techniques souvent utilisées : RL d’Armijo et RL de r RL de Wolfe (0 < ω1 < 12 , ω1 < ω2 < 1)
Wolfe.
hk (αk ) 6 h(0) + ω1 αk h′k (0),
Soient dk une direction de descente et
h′k (αk ) > ω2 h′k (0).
hk (α) := f (xk + αdk ).
r RL d’Armijo (0 < ω1 < 21 , 0 < τ < 1)
pas de Wolfe hk (α)
ik
hk (αk ) 6 h(0) + ω1 αk h′k (0), αk = τ ,
0 α
où ik est le plus petit dans {0, 1, 2, . . .}.
pente ω1 h′k
pas d’Armijo hk (α) pente
4 3 2
τ τ τ τ 1 h′k (0)
0 α

pente ω1 h′k (0) pente ω2 h′k (0)


pente
h′k (0)
Valeurs typiques : ω1 = 10−4 et ω2 = 0.99.

Valeurs typiques : ω1 = 10−4 et τ = 21 .

37 38
Convergence avec la RL de Wolfe (§ 6.3.4)

– Dfn :
− hgk , dk i
cos θk := .
kgk k kdk k
– Théor :

Si q f ∈ C 1,1 ,
q RL de Wolfe
q ∃ C, ∀ k > 0, f (xk ) > C,
alors
X
kgk k2 cos2 θk < +∞.
k>0

– Convergence :
∗ Algo du gradient : θk = 0, donc gk → 0.
∗ Plus généralement : cos θk > c > 0, donc gk → 0.

39
V Méthodes newtoniennes pour équations
σk = nombre de chiffres significatifs corrects.
Vitesse de convergence des suites (§ 5.1.1)
superlinéaire quadratique

Soit {xk } une suite convergeant vers x∗ ∈ E. k xk σk xk σk


1 2.00000000000000 0 2.00000000000000 0
On suppose que xk 6= x∗ , pour tout k > 1.
2 1.50000000000000 0 0.86666666666667 1
3 0.61224489795918 1 -0.32323745064862 1
4 -0.16202797536640 1 -0.92578663808031 1
r Convergence linéaire : il existe une norme k · k, un 5 -0.92209500449059 1 -0.82332584261905 2
indice k0 et τ ∈ [0, 1[ tels que ∀ k > k0 : 6 -0.78540447895661 1 -0.81774699537697 5
7 -0.81609056319699 3 -0.81773167400186 9
kxk+1 − x∗ k 8 -0.81775774021392 5 -0.81773167388682 15
6 τ.
kxk − x∗ k 9 -0.81773165292101 8
10 -0.81773167388656 13
11 -0.81773167388682 15
r Convergence superlinéaire :
kxk+1 − x∗ k
→ 0. 
kxk − x∗ k ∃σ > 0, ∀k grand :
Linéaire =⇒
σk+1 − σk > σ.
r Convergence quadratique : il existe une constante
Superlinéaire =⇒ σk+1 − σk → ∞.
C > 0 telle que ∀ k > 1 : σk+1
Quadratique =⇒ lim inf > 2.
k→∞ σk
kxk+1 − x∗ k
6 C.
kxk − x∗ k2

41 42
Algorithme de Newton pour systèmes non linéaires

(§ 9.1.1)

Soit F : E → F, avec dim E = dim F < ∞. On cherche à r Propriétés de l’algorithme de Newton.


résoudre en x :
F (x) = 0. ⊕⊕ Convergence quadratique locale :
r Algorithme de Newton. De xk à xk+1 :
Si q x∗ vérifie F (x∗ ) = 0,
– Résoudre en dk l’équation de Newton : q F est C 1,1 dans un voisinage de x∗ ,
q F ′ (x∗ ) est inversible,
F ′ (xk ) dk = −F (xk ). (8)
alors il existe un voisinage V de x∗ tel que si x1
– Nouvel itéré : l’algorithme de Newton (8) est bien défini et gén
xk+1 = xk + dk . suite {xk } ⊂ V qui converge quadratiqueme
r Exemple 1D. x∗ .

5
3
⊖ En général ne converge pas si x1 n’est pas proche
1+x+x /3

4 d’une solution.
3

2 ⊖ Il faut calculer les dérivées premières de F .


1

x x x x
4 3 2 1
−1
−1.5 −1 −0.5 0 0.5 1 1.5 2 2.5

43 44
Globalisation de l’algorithme de Newton
par recherche linéaire (§ 9.3.1)

r Dfn : « globaliser » = forcer la convergence lorsque


x1 n’est pas voisin d’une solution. r Un résultat de convergence :

r Une solution miracle ? Si {F ′ (xk )} et {F ′ (xk )−1 } sont bornées,


alors l’algorithme de Newton avec une RL « conve
Si F (x) 6= 0, la direction de Newton en x, ble » converge vers un point stationnaire de
∇f (xk ) → 0.
d N = −F ′ (x)−1 F (x),

est une direction de descente de r Cette approche ne converge pas toujours !


1 C’est la raison pour laquelle on a inventé la techniqu
f (x) = kF (x)k22 .
2 des régions de confiance (voir un cours plus avancé)
On a f ′ (x) · d N = −kF (x)k22 < 0.

r RL sur f le long de d N : x+ := x + αd N , avec α > 0


tel que (ici ω1 ∈ ]0, 12 [)

f (x+ ) 6 f (x) + α ω1 f ′ (x) · d N .

45 46
V’
r Le problème quadratique osculateur.
Méthodes newtoniennes en optimisation (§ 9.1.2)
Soit le problème Le pas de Newton dk est aussi un point stationnaire
min f (x). du problème quadratique
x∈E
 
1
r On se déclare satisfait avec x∗ vérifiant min f (xk ) + ∇f (xk )⊤d + d⊤∇2 f (xk )d .
d∈E 2
∇f (x∗ ) = 0.

La relation F = ∇f permet d’adapter l’algorithme f=1+x+x2/2+x4/12

de Newton (F ′ (x) = ∇2 f (x) est symétrique).

r Algorithme de Newton. De xk à xk+1 :

– Résoudre en dk l’équation de Newton :

∇2 f (xk ) dk = −∇f (xk ). (9)


x x x x
– Nouvel itéré : 4 3 2 1

xk+1 = xk + dk .

47 48
Algorithmes de quasi-Newton (§§ 10.1.1, 10.2.1, 10.2.2

r Propriétés de l’algorithme de Newton.


Soit le problème
min f (x).
⊕⊕ Convergence quadratique locale : x∈Rn

r Les algorithmes de qN génèrent 2 suites :


Si q x∗ vérifie ∇f (x∗ ) = 0,
{xk } ⊂ Rn et {Mk } ⊂ Rn×n sym. dfn. pos.
q f est C 2,1 dans un voisinage de x∗ ,
q ∇2 f (x∗ ) est inversible, 1) dk := −Mk−1 gk ;
alors il existe un voisinage V de x∗ tel que si x1 ∈ V , 2) αk > 0 par recherche linéaire;
l’algorithme de Newton est bien défini et génère 3) xk+1 := xk + αk dk ;
une suite {xk } ⊂ V qui converge quadratique- 4) Mk+1 := U (Mk , yk , sk ),
ment vers x∗ . où yk := gk+1 − gk et sk := xk+1 − xk .

⊖ En général ne converge pas si x1 n’est pas proche d’un r Mise à jour de Mk . On cherche à ce que Mk+1 soit
point stationnaire.
proche de Mk (stabilité), tout en vérifiant :
⊖ Pas de distinction entre min, max, point stationnaire. – l’équation de qN : yk = Mk+1 sk ;
– la symétrie : Mk+1

= Mk+1 ;
⊖ Les directions ne sont pas nécessairement de descente.
– la définie positivité : Mk+1 ≻ 0.
⊖ Il faut calculer les dérivées secondes de f . Cela conduit à la formule de BFGS.
yk y⊤ Mk sk s⊤Mk
Mk+1 = Mk + ⊤ − ⊤ k
k
.
yk sk sk Mk sk

49 50
Moindres-carrés linéaire (§ 17.1)

VI Problèmes de moindres-carrés
r Problème : on cherche une solution de

r Ce sont des problèmes de la forme min kAx − bk2 , (10


x∈Rn

minn kF (x)k, où A est m × n et b ∈ Rm .


x∈R
r Équation normale : x est solution ssi
où F : R → R . En général m ≫ n.
n m

A⊤Ax = A⊤b. (11


r Exemple : la régression linéaire.
r Existence de solution :
3

◦ Le problème (10) a toujours une solution.


2.5

◦ Solution unique ⇐⇒ A est injective.


2

◦ Ensemble des solutions = xp + N (A).


1.5

1 r Méthodes numériques :
0.5
– Factorisation de Cholesky de A⊤A.
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 – GC sur (11).
– Factorisation QR de A.
– Factorisation SVD de A.

51 52
Moindres-carrés non linéaire (§ 17.3)

r Problème : on cherche une solution de


 1 2

min f (x) := kr(x)k2 , (12)
x∈Rn 2
r Algorithme de Levenberg-Marquardt (révisé) : RC
où r : R → R est non linéaire (les résidus).
n m
avec le modèle quadratique
Jacobienne J ≡ J(x) ≡ r ′ (x), qui est m × n.
1
ϕk (s) := kr(xk ) + J(xk )sk22 .
r Algorithme de Gauss-Newton : RL le long de 2
1
dkGN ∈ arg min kr(xk ) + J(xk )dk22 . Résultat de convergence :
d∈Rn 2
On a f ′ (xk ) · dkGN 6 0 (< 0 si ∇f (xk ) 6= 0).
Si {J(xk )} est bornée,
alors l’algorithme de Levenberg-Marquardt avec R
Résultat de convergence :
converge vers un point stationnaire de f (c’est
dire J(xk )⊤r(xk ) → 0).
Si {J(xk )} est bornée et unif. injective, i.e.,

∃C > 0, ∀k > 1, ∀v ∈ Rn :
Ckvk2 6 kJ(xk )vk2 6 C −1 kvk2 ,

alors l’algorithme de Gauss-Newton avec RL con-


verge vers un point stationnaire de f (c’est-à-
dire J(xk )⊤r(xk ) → 0).

53 54
VII Dualité min-max (§ 13.1)
Dualité (§ 13)
r Un premier problème :
Soient X un ensemble, f : X → R et
x2

 inf x2

 X (P ) inf f (x).
x∈X
(P ) x∈X

 r Récriture du problème primal.
x1 = 0. x̄

On suppose que
x1

r Un second problème : f (x) = sup ϕ(x, y),


x2 y∈Y
X
pente −λ
(D) sup δ(λ) où ϕ : X × Y → R. Donc
λ∈R

δ(λ) pente −λ̄ (P ) inf sup ϕ(x, y) = val(P ).


x∈X y∈Y
x1

r (P) et (D) sont duaux l’un de l’autre. r Le problème dual : on inverse l’inf et le sup
r Intérêts de la dualité :
(D) sup inf ϕ(x, y) = val(D).
– obtenir des propriétés sur un problème à partir des y∈Y x∈X
propriétés d’un pbl dual (e.g., une borne sur la valeur
On peut aussi l’écrire inf y∈Y δ(y), où
optimale);
– construire des pbls duaux équivalents au pbl primal, δ(y) := − inf ϕ(x, y). (13
x∈X
mais plus faciles à résoudre;
– algorithmique : recherche de point-selle, du ◦ δ ≡ fonction duale,
multiplicateur optimal. ◦ (13) ≡ problème interne en y ∈ Y .

55 56
Liens entre (P) et (D)

r Dualité faible :

val(D) 6 val(P ).

Saut de dualité := val(P ) − val(D) > 0. Dualisation de contraintes fonctionnelles (§ 13.5)

r Dfn : On dit que (x̄, ȳ) est un point-selle de ϕ sur


On cherche à écrire un problème dual du problème
X × Y , si ∀x ∈ X et ∀y ∈ Y
d’optimisation avec contraintes :
ϕ(x̄, y) 6 ϕ(x̄, ȳ) 6 ϕ(x, ȳ). 


 min f (x)

 x∈X

r Théor : (x̄, ȳ) est un point-selle de ϕ sur X × Y SSI (PX,EI )

 cE (x) = 0
1) x̄ est solution de (P ),



 c (x) 6 0.
I
2) ȳ est solution de (D),
3) il n’y a pas de saut de dualité. où X ⊂ E, sans qu’il y ait de saut de dualité.

r Coroll : Si ϕ a un point-selle et ȳ ∈ Sol(D) :

∅ 6= Sol(P ) ⊂ arg min ϕ(x, ȳ).


x∈X

57 58
Dualité lagrangienne
(problèmes convexes)
r Relaxation lagrangienne (Uzawa)

On prend pour ϕ, le lagrangien (ici y ≡ λ) On passe de λk à λk+1 par :


1. xk ∈ arg minx∈E ℓ(x, λk ),

ϕ(x, λ) ≡ ℓ(x, λ) = f (x) + λ c(x), 2. arrêt si (xk , λk ) est satisfaisant,
X ⊂ E et Y := RmE × Rm 3. λk+1 = PY [λk + αk c(xk )].
+ .
I

r Problème primal : Explications de la formule de mise à jour de λk


(algorithme du gradient avec projection) :
(PX,EI ) ≡ inf sup ℓ(x, λ). ◦ PY est le projecteur orthogonal sur Y (permet de
x∈X λ∈Y
maintenir les λk dans Y ),
r Problème dual :
◦ αk > 0 est déterminé de manière à faire croître δ
sup inf ℓ(x, λ). ◦ −c(xk ) est un sous-gradient de δ.
λ∈Y x∈X

r Résultat de dualisation : Résultat de convergence :


Si q X = E, Si q f fortement convexe, cE affine et cI convexe,
q (PX,EI ) est « convexe » q (x̄, λ̄) vérifie (KKT),
q αk > 0 « petit »,
(i.e., f et cI convexes et cE affine),
q (x̄, λ̄) vérifie (KKT), alors xk → x̄.
alors (x̄, λ̄) est point-selle de ℓ sur E × Y .

59 60
Dualité lagrangienne augmentée
(problèmes non convexes)

On prend pour ϕ, le lagrangien augmenté


Xh r i
ℓr (x, λ) = f (x) + λi ci (x) + ci (x)2
i∈E 
2
 
X −λi
+ λi max , ci (x) +
i∈I
r
r
 
−λi
2 # r Relaxation lagrangienne augmentée (méthode des
max , ci (x) .
2 r multiplicateurs)
r Problème primal : On passe de (λk , rk ) à (λk+1 , rk+1 ) par :
inf sup ℓr (x, λ). 1. xk ∈ arg minx∈E ℓrk (x, λk ),
x∈X λ∈Rm 2. arrêt si (xk , λk ) est satisfaisant,
r Problème dual : 3. λk+1 = PY [λk + rk c(xk )]
(pas besoin de RL !),
sup inf ℓr (x, λ).
λ∈Rm x∈X 4. adapter rk y rk+1 (heuristique).
r Résultat de dualisation :
Si q X = E,
q (x̄, λ̄) vérifie les CS2,

alors il existe un voisinage V de x̄ et un seuil r0 > 0


tels que, pour tout r > r0 , (x̄, λ̄) est point-selle
de ℓr sur V × Rm .

61 62