Vous êtes sur la page 1sur 57

2 Optimisation sans contraintes Max CERF

2.2 Méthode de Newton


2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Résolution d’équations

Principes

Méthode de Newton

Méthode de quasi-Newton

239
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Résolution d’équations


Système d’équations non linéaires

g(x) 0 avec g : Rn Rn système de n équations à n inconnues

Principe de la méthode de Newton


• Linéariser g au point initial x0 fonction modèle linéaire ĝ « proche » de g
• Résoudre le système linéaire ĝ(x)=0 nouveau point x1
• Itérer jusqu’à vérifier g(x)=0 solution x*

Initialisation Point initial Fonction modèle


x0 xk ĝ k (x)

Solution Nouveau point Résolution


x* xk+1 ĝ k (x) 0

240
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Méthode de Newton


Fonction modèle
• Développement de Taylor à l’ordre 1 de g en xk
g(x) g(x k ) g(x k ) T (x x k ) o x x k
• Modèle linéaire de g en xk :
ĝ k (x) g(x k ) G k (x x k ) avec G k Rn n

Choix de la matrice Gk
• Méthode de Newton Gk = g(xk)T = matrice jacobienne de g en xk
• Méthode de quasi-Newton Gk = approximation de g(xk)T

Résolution

• Système linéaire : ĝ k (x) 0 g(x k ) G k (x x k ) 0

• Itération : xk 1 x k G k1g(x k ) si Gk inversible

• Condition d’arrêt : g(x k ) ε

241
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Méthode de Newton


Illustration à une variable
• Equation non linéaire : g(x) = 0
• Point initial : x0, y0 = g(x0) Tangente en x0 : y = y0 +g’(x0)(x - x0 )
y0
• Intersection axe x : y 0 x1 x0
g' (x 0 )
• Nouveau point : x1, y1 = g(x1)

x*
x2 x1 x0
242
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Méthode de Newton


Modèle linéaire de g en xk

ĝ k (x) g(x k ) G k ( x x k ) avec G k g(x k ) T

Erreur de linéarisation
M = constante de Lipschitz sur le gradient majorant de la courbure
1 2
g(x) ĝ k (x) M x xk erreur quadratique
2
Vitesse de convergence
Hypothèses sur la solution x* : g(x * ) inversible
g(x * ) 1
η
1
Suite (xk) : x k 1 x k G k g(x k )

• (xk) converge vers x* si x0 est « assez proche » de x* : r 0 / x0 x* r lim x k x*


k
2
• La convergence est quadratique xk 1 x* Mη x k x*

243
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Exemples
Exemple 1
• Fonction : g(x) x 2 1
Iteration x(k) g(x)=x**2-1 g'(x)=2x Erreur
• Dérivée : g' (x) 2x
0 4,00000000 1,5E+01 8,0000 3,0E+00
• Solution : x = 1 g’(1) = 2
1 2,12500000 3,5E+00 4,2500 1,1E+00
2 1,29779412 6,8E-01 2,5956 3,0E-01
g(x) 3 1,03416618 6,9E-02 2,0683 3,4E-02
4 1,00056438 1,1E-03 2,0011 5,6E-04
5 1,00000016 3,2E-07 2,0000 1,6E-07
6 1,00000000 2,5E-14 2,0000 1,3E-14

1 x Convergence quadratique
g’(x*) inversible

244
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Exemples
Exemple 2
• Fonction : g(x) ( x 1) 2 Iteration x(k) g(x)=(x-1)**2 g'(x)=2(x-1) Erreur
• Dérivée : g' (x) 2(x 1) 0 4,00000000 9,0E+00 6,0000 3,0E+00
• Solution : x = 1 g’(1) = 0 1 2,50000000 2,3E+00 3,0000 1,5E+00
2 1,75000000 5,6E-01 1,5000 7,5E-01
3 1,37500000 1,4E-01 0,7500 3,8E-01
g(x) 4 1,18750000 3,5E-02 0,3750 1,9E-01
5 1,09375000 8,8E-03 0,1875 9,4E-02
6 1,04687500 2,2E-03 0,0938 4,7E-02
7 1,02343750 5,5E-04 0,0469 2,3E-02
8 1,01171875 1,4E-04 0,0234 1,2E-02
9 1,00585938 3,4E-05 0,0117 5,9E-03
10 1,00292969 8,6E-06 0,0059 2,9E-03
15 1,00009155 8,4E-09 0,0002 9,2E-05
20 1,00000286 8,2E-12 0,0000 2,9E-06

1 x Convergence lente
g’(x*) non inversible
245
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Exemples
Exemple 3
• Fonction : g(x) Arc tan(x ) Iteration x(k) g(x)=Arctan(x) g'(x)=1/(1+x**2) Erreur
0 1,300 0,915 0,372 1,3E+00
1 1 -1,162 -0,860 0,426 -1,2E+00
• Dérivée : g' (x)
1 x2 2 0,859 0,710 0,575 8,6E-01
3 -0,374 -0,358 0,877 -3,7E-01
• Solution : x = 0 g’’(1) = 0 4 0,034 0,034 0,999 3,4E-02
5 0,000 0,000 1,000 -2,6E-05
6 0,000 0,000 1,000 1,2E-14

g(x)
Convergence

Iteration x(k) g(x)=Arctan(x) g'(x)=1/(1+x**2) Erreur


0 1,500 0,983 0,308 1,5E+00
1 -1,694 -1,038 0,258 -1,7E+00
2 2,321 1,164 0,157 2,3E+00
x1 x0 x2 x 3 -5,114 -1,378 0,037 -5,1E+00
0 4 32,296 1,540 0,001 3,2E+01
5 -1575,317 -1,570 0,000 -1,6E+03
6 3894976,008 1,571 0,000 3,9E+06

Divergence
246
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Méthode de Newton


Intérêt de la méthode de Newton
• Convergence quadratique au voisinage de la solution très rapide et précise
• Méthode à privilégier dans les algorithmes d’optimisation

Difficultés
• Calcul explicite du gradient g(xk) à chaque itération coûteux (n appels fonctions)
• Convergence non garantie même près de la solution

Adaptations
• Méthodes de quasi-Newton Gk = approximation du gradient g(xk)
construite à partir des itérations précédentes
sans calcul explicite du gradient

• Techniques de globalisation Contrôle du point xk+1 (meilleur que xk ?)


g(x k 1 ) g(x k )

Si le point xk+1 n’est pas satisfaisant Méthodes de recherche linéaire


ou région de confiance
2
pour minimiser g(x)

247
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Méthode de quasi-Newton


Méthode de Broyden
On cherche à définir la matrice Gk à partir de la matrice Gk-1 de l’itération précédente.
Les matrices Gk-1 et Gk doivent être « proches » au sens de la norme matricielle.

Variation de modèle
• Modèle linéaire de g en xk-1 : ĝ k -1 (x) g(x k -1 ) G k -1 ( x x k -1 )

• Modèle linéaire de g en xk: ĝ k (x) g(x k ) G k (x x k )

• Différence entre les modèles en xk-1 et xk


car g(x k ) g(x k -1 ) G k (x k x k -1 )
ĝ k (x) g(x k ) G k (x xk ) par définition de G k
g(x k -1 ) G k ( x k x k -1 ) G k (x xk )
g(x k -1 ) G k (x x k -1 )
ĝ k -1 (x) G k -1 ( x x k -1 ) G k (x x k -1 ) car ĝ k -1 (x) g(x k -1 ) G k -1 ( x x k -1 )
par définition de ĝ k -1
ĝ k -1 (x) (G k G k -1 )( x x k -1 )

ĝ k (x) ĝ k -1 (x) (G k G k -1 )(x x k -1 )

248
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Méthode de quasi-Newton


Objectif
Conserver un modèle linéaire de g en xk
ĝ k (x) g(x k ) G k ( x x k ) avec G k g(x k ) T
sans calculer explicitement Gk

Equation de la sécante
On choisit une matrice Gk Rn n vérifiant :

g(x k ) g(x k -1 ) G k (x k x k -1 ) y k -1 G k d k -1 d k -1 x k x k -1
avec
y k -1 g(x k ) g(x k -1 )
équation de la sécante entre xk-1 et xk

Choix de G
Il existe une infinité de matrices G vérifiant l’équation de la sécante :
n2 inconnues (composantes de G Rn n )
n équations
Chaque ligne de G définit un hyperplan de Rn passant par xk-1 et xk
infinité d’ hyperplans possibles

249
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Méthode de quasi-Newton


Illustration à une variable
• Equation non linéaire : g(x) = 0
• Points initiaux : x0, y0 = g(x0)
y1 y 0
x1, y1 = g(x1) Sécante en x1 : y y0 (x x 0 )
x1 x 0
x1 x 0
• Intersection axe x : y 0 x2 x0 y0
y1 y 0
• Nouveau point : x2, y2 = g(x2)

x*
x2 x1 x0
250
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Méthode de quasi-Newton


Mise à jour de Broyden
L’écart entre les modèles ĝ k -1 (x) et ĝ k (x) est minimal en choisissant Gk solution de
d k -1 x k x k -1
minn n G G k -1 sous y k 1 G dk 1 avec y k -1 g(x k ) g(x k -1 )
G R

yk 1 G k -1d k 1 d Tk 1
Formule de Broyden : G k G k -1 solution optimale
d Tk 1d k 1

Convergence
• La matrice G ne converge pas forcément vers g ne compromet pas la convergence

• Les méthodes de quasi-Newton et de Newton peuvent converger vers des solutions différentes.

• La méthode de quasi-Newton converge généralement moins vite que la méthode de Newton,


mais nécessite beaucoup moins d’appels de la fonction g (pas de calcul de gradient).

Peu de résultats théoriques


Méthode efficace en pratique, comportement à vérifier et adapter au cas par cas

251
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.1 Résolution d’équations
Techniques d’optimisation 2018

2.2.1 Exemple
Comparaison Newton Quasi-Newton
• Fonction : g(x) x 2 1
• Dérivée : g' (x) 2x
• Solution : x = 1

Quasi - Newton Newton

Iteration x(k) g(x)=x**2-1 dg/dx Erreur Iteration x(k) g(x)=x**2-1 g'(x)=2x Erreur
5,00000000 2,4E+01 4,0E+00 0 4,00000000 1,5E+01 8,0000 3,0E+00
0 4,00000000 1,5E+01 9,0000 3,0E+00 1 2,12500000 3,5E+00 4,2500 1,1E+00
1 2,33333333 4,4E+00 6,3333 1,3E+00 2 1,29779412 6,8E-01 2,5956 3,0E-01
2 1,63157895 1,7E+00 3,9649 6,3E-01 3 1,03416618 6,9E-02 2,0683 3,4E-02
3 1,21238938 4,7E-01 2,8440 2,1E-01 4 1,00056438 1,1E-03 2,0011 5,6E-04
4 1,04716672 9,7E-02 2,2596 4,7E-02 5 1,00000016 3,2E-07 2,0000 1,6E-07
5 1,00443349 8,9E-03 2,0516 4,4E-03 6 1,00000000 2,5E-14 2,0000 1,3E-14
6 1,00010193 2,0E-04 2,0045 1,0E-04
7 1,00000023 4,5E-07 2,0001 2,3E-07
8 1,00000000 2,3E-11 2,0000 1,1E-11

252
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Minimisation

Principes

Méthode de Newton

Méthode de quasi-Newton

Méthode BFGS

Méthode DFP

Méthode SR1

Comparaison

Extensions BFGS

253
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Problème de minimisation


Problème sans contrainte
minn f(x) gradient : g(x) = f(x)
x R 2f(x)
hessien : H(x) =

Condition nécessaire de minimum local


g(x*) 0
x* minimum local
H(x*) 0 (hessien semi-défini positif)

Recherche des points stationnaires


Application de la méthode de Newton au système d’équations non linéaires : g(x) = 0
g(x k ) f(x k )
Modèle linéaire de g en xk : ĝ k (x) g(x k ) G k ( x x k ) avec
Gk g(x k ) T 2
f(x k ) H k

• Méthode de Newton : G=H calcul explicite du hessien à chaque itération


• Méthode de quasi-Newton : G = approximation de H
construite à partir des itérations précédentes
sans calcul explicite du hessien

254
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Méthode de Newton


Modèle linéaire de g= f en xk
g(x k ) f(x k )
ĝ k (x) g(x k ) G k ( x x k ) avec
Gk g(x k ) T 2
f(x k ) Hk
2 1
• Itération : xk 1 xk f(x k ) f(x k ) équations de Newton
• Condition d’arrêt : f(x k ) ε

Difficultés
• Calcul explicite et inversion du hessien 2f(xk) à chaque itération coûteux
• Convergence non garantie même près de la solution
mêmes difficultés que pour la résolution d’équations

• 1ère condition nécessaire de minimum : f(x*)=0


point stationnaire x* = minimum local, maximum local ou point selle
2ème condition nécessaire de minimum à vérifier : 2f(x*) 0

Adaptations
• Méthodes de quasi-Newton Gk = approximation du hessien 2f(x
k)
• Techniques de globalisation Contrôle de la décroissance de f

255
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Méthode de Newton


Modèle quadratique de f en xk
• Développement de Taylor à l’ordre 2 de f en xk
1 2
f(x) f(x k ) f(x k ) T (x x k ) (x x k ) T 2 f(x k )(x x k ) o x x k
2
• Modèle quadratique en xk
1
f̂ k (x) f k (x k ) g Tk (x x k ) (x x k ) T H k (x x k )
2
• Lien entre le modèle de f et le modèle de g = f
f̂ k (x) gk H k (x x k ) ĝ k (x)

Minimisation du modèle de f en xk
f̂ k (x*) ĝ k (x*) 0
• Conditions suffisantes de minimum local : min f̂ k (x) 2
x R n
f̂ k (x*) H k 0
• Si le hessien de f en xk est défini positif : 2f(xk) > 0
Minimisation du modèle quadratique de f en xk
Méthode de Newton en xk pour résoudre f(x)=0

• Sinon la méthode de Newton n’est pas directement applicable pour une minimisation
256
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Exemple
Méthode de Newton
• Fonction : f ( x ) x 4 12 x 3 47 x 2 60 x

• Dérivée : f ' ( x ) 4x 3 36x 2 94x 60 3 zéros


1 minimum local, 2 maxima locaux

20,0

15,0

10,0

5,0

0,0
0,0 1,0 2,0 3,0 4,0 5,0 6,0
-5,0

-10,0

-15,0

-20,0

257
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Exemple
Méthode de Newton
2
• Modèle quadratique en x0 = 3 : f̂ 0 ( x ) 7 x 48x 81

• Itération de Newton en x0 = 3 : min f̂ 0 ( x ) 24 Meilleur que x0


x1
x 7 f(x1) = 1.32 < 0 = f(x0)
1,50

1,25

1,00

0,75

0,50

0,25
x0 x1
0,00
2,50 2,75 3,00 3,25 3,50 3,75 4,00 4,25 4,50
-0,25

-0,50

-0,75

-1,00

-1,25

-1,50

258
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Exemple
Méthode de Newton
2
• Modèle quadratique en x0 = 4 : f̂ 0 ( x ) x 4x

• Itération de Newton en x0 = 4 : min f̂ 0 ( x ) x1 2 Moins bon que x0


x
f(x1) = 12 > 0 = f(x0)
5,00

4,00

3,00

2,00

1,00

0,00
x1 x0
1,00 1,50 2,00 2,50 3,00 3,50 4,00 4,50 5,00
-1,00

-2,00

-3,00

-4,00

-5,00
259
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Exemple
Méthode de Newton
• Modèle quadratique en x0 = 5 : f̂ 0 ( x ) 17 x 2 160x 375
80
• Itération de Newton en x0 = 5 : min f̂ 0 ( x ) x1 Moins bon que x0 (maximise f)
x 17 f(x1) = 1.513 > 0 = f(x0)
2,00

1,50

1,00

0,50
x1 x0
0,00
4,00 4,25 4,50 4,75 5,00 5,25 5,50
-0,50

-1,00

-1,50

-2,00

-2,50

-3,00
260
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Méthode de quasi-Newton


Objectif
Conserver un modèle quadratique de f en xk
1
f̂ k (x) f k (x k ) g Tk (x x k ) (x x k ) T H k (x x k ) avec H k 2
f(x k )
2
sans calculer explicitement Hk

Mise à jour de Broyden


On peut appliquer la méthode de Broyden à la résolution de g(x)= f(x)=0.
yk H k -1d k 1 d Tk d k -1 x k x k -1
Hk H k -1 1 1 avec
d Tk 1d k 1 y k -1 g(x k ) g(x k -1 )

Inconvénients
• Hk n’est pas forcément symétrique
• Hk n’est pas forcément positive
2
Modifications de la méthode si l’on souhaite avoir H k f(x k )
Formules BFGS, DFP ou SR1

261
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Méthode BFGS


Equation sécante
Pour la résolution d’équations, on cherche la matrice Hk
• vérifiant l’équation sécante H k d k 1 y k 1
• la plus « proche » possible de Hk-1 formule de Broyden
• sans condition particulière sur la forme de la matrice

Pour une minimisation, on impose de plus à la matrice Hk d’être


• symétrique
formule BFGS
• définie positive

Méthode de résolution
La matrice Hk-1 issue de l’itération précédente est symétrique, définie positive.
• On part de la factorisation de Cholesky de Hk-1 : H k -1 L k -1LTk -1
• On cherche la matrice Hk à partir de Hk-1 sous la forme : H k A k A Tk

Il faut exprimer la matrice Ak en fonction de Lk-1.


On décompose l’équation sécante en 2 équations.
Hkdk 1 yk 1 A k A Tk d k 1 y k 1 x A Tk d k 1
Ak x yk 1

262
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Méthode BFGS


Méthode de résolution de l’équation sécante

Hkdk yk A k A Tk d k yk x A Tk d k 1
1 1 1 1
Ak x yk 1

1. Pour x donné, on cherche Ak la plus « proche » possible de Lk-1 vérifiant : A k x y k 1


2. On détermine ensuite x en reportant l’expression de Ak dans : x A Tk d k 1
3. On obtient H k A k A Tk que l’on exprime en fonction de Hk-1.

Résolution
Notations sans indices : L = Lk-1, A = Ak
y = yk-1 , d = dk-1
( y Lx) x T
1. En appliquant la formule de Broyden à L on obtient A en fonction de x : A L
xTx
T T x ( y Lx) T T ( y Lx) T d
2. En reportant : x A d Ld d Ld x
xTx xTx

T ( y Lx) T d
Il faut résoudre x Ld x pour trouver x.
xTx
263
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Méthode BFGS


Résolution de l’équation sécante
( y Lx) T d
On cherche x Rn vérifiant : x LT d x
xTx
• Pour qu’une solution existe, le vecteur LTd doit être colinéaire à x.
x LT d xTx 2 T
d Hd
T
( y Lx) d T yTd
• En reportant dans l’équation : LT d LT d 2 T
Ld 2
LT d
d Hd d T Hd
1 yTd
• Pour qu’une solution existe, on doit avoir yTd > 0 A L yd T L Hdd T L
On obtient Hk : H k A k A Tk yTd T
d Hd

Formule BFGS
y k 1 y Tk -1 H k -1d k 1d Tk 1H k -1 d k -1 x k x k -1
• Mise à jour de Hk : Hk H k -1 avec
y Tk -1d k 1 d Tk 1H k -1d k 1 y k -1 g(x k ) g(x k -1 )

• Mise à jour symétrique, de rang 2


• Mise à jour définie positive si y Tk -1d k 1 0
• Initialisation : H0 = I ou H0 = I avec >0
264
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Méthode BFGS


Méthode de quasi Newton BFGS
• Le déplacement correspondant à une itération de la méthode de Newton est solution de
Hkdk f (x k ) dk H -1k f ( x k )
La matrice utile pour l’itération de Newton est l’inverse de Hk.

• On inverse les 2 membres de la formule BFGS pour obtenir Hk-1 en fonction de Hk-1-1.
d k 1 y Tk -1 -1 y k 1d Tk -1 d k 1d Tk -1 d k -1 x k x k -1
H -k1 I H I si y Tk -1d k 0 avec
d Tk -1 y k 1
k -1
d Tk -1 y k 1 d Tk -1 y k 1
1 y k -1 g(x k ) g(x k -1 )

• Méthode élaborée par Broyden, Fletcher, Goldfarb, Shanno à la fin des années 1960
reconnue comme l’une des plus efficaces en pratique

Limitations
• Si la condition yTd > 0 n’est pas vérifiée, on ne fait pas de mise à jour.
• Si le hessien n’est pas défini positif, la méthode BFGS ne converge pas vers le hessien.
cas d’un hessien indéfini à l’optimum, ou non défini positif loin de l’optimum
cas d’optimisation avec contraintes (hessien réduit du lagrangien positif hessien complet)

265
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Méthode BFGS


Algorithme BFGS
• Direction de descente à l’itération k : u k 1 H -1k -1g( x k 1 )
u H -1k -1g( x k 1 )
• Minimisation dans la direction uk-1 : xk xk 1 su k 1 avec s k 1
min f x k 1 su k 1
s

• Mise à jour de l’inverse du hessien


-1 d k 1 y Tk -1 -1 y k 1d Tk -1 d k 1d Tk -1 d k -1 x k x k -1
H k I H k -1 I si y Tk -1d k 1 0 avec y k -1 g(x k ) g(x k -1 )
d Tk -1 y k 1 d Tk -1 y k 1 d Tk -1 y k 1
Propriété 1
T
La mise à jour BFGS donne une matrice définie positive si d k -1 y k 1 0
Cette condition est réalisée si xk est obtenu par minimisation exacte dans la direction H -1k -1g( x k 1 )

Propriété 2
1 T
Pour une fonction f quadratique : f ( x ) x Qx c T x
2
u i Q 1u j 0 , 0 i j k
l’algorithme BFGS donne des directions successives vérifiant :
H k 1Q 1 u i u i , 0 i k
directions conjuguées par rapport à Q 1
convergence en n itérations avec à l’itération n : H n Q
266
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Méthode DFP


Méthode de résolution
• Résolution de l’équation sécante sous la forme « inverse » : H k d k 1 yk 1 H -1k y k 1 dk 1

• Mêmes principes que BFGS appliqués à l’équation sécante inverse pour obtenir Hk-1
• Première méthode quasi-Newton élaborée par Davidon dans les années 1950

Formule DFP

-1 -1 d k 1d Tk -1 H -1k -1 y k 1 y Tk 1H -1k -1 d k -1 x k x k -1
• Mise à jour de l’inverse : H H avec
k k -1
d Tk -1 y k 1 y Tk 1H -k1-1 y k 1 y k -1 g(x k ) g(x k -1 )

y k 1d Tk -1 d k 1 y Tk -1 y k 1 y Tk -1
• Mise à jour du hessien : Hk I H k -1 I
y Tk -1d k 1 y Tk -1d k 1 y Tk -1d k 1

Comparaison DFP BFGS


• Formules identiques en permutant dk 1 et yk 1 pour mettre à jour le hessien ou l’inverse
• Mise à jour symétrique, de rang 2
• Mise à jour définie positive si d Tk -1 y k 1 0 condition similaire à BFGS
• Méthode DFP en général moins efficace que BFGS

267
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Méthode DFP


Algorithme DFP
• Direction de descente à l’itération k : u k 1 H -1k -1g( x k 1 )
u H -1k -1g( x k 1 )
• Minimisation dans la direction uk-1 : xk xk 1 su k 1 avec s k 1
min f x k 1 su k 1
s

• Mise à jour de l’inverse du hessien


-1 -1 d k 1d Tk -1 H -1k -1 y k 1 y Tk 1H -1k -1 d k -1 x k x k -1
H k H k -1 avec
d Tk -1 y k 1 y Tk 1H -k1-1 y k 1 y k -1 g(x k ) g(x k -1 )
Propriété 1
T
La mise à jour DFP donne une matrice définie positive si d k -1 y k 1 0
Cette condition est réalisée si xk est obtenu par minimisation exacte dans la direction H -1k -1g( x k 1 )

Propriété 2
1 T
Pour une fonction f quadratique : f ( x ) x Qx c T x
2
u i Qu j 0 , 0 i j k
l’algorithme DFP donne des directions successives vérifiant :
H k1Qu i u i , 0 i k
directions conjuguées par rapport à Q
convergence en n itérations avec à l’itération n : H n Q
268
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Méthode SR1


Equation sécante
La méthode SR1 construit une solution Hk de l’équation sécante H k d k 1 yk 1
• Symétrique, de rang 1 (i.e. dépendante d’un seul vecteur u de Rn)
• Non nécessairement définie positive.

Méthode de résolution
• On cherche la matrice Hk à partir de Hk-1 sous la forme
Hk H k -1 uu T addition d’une matrice symétrique de rang 1
• Equation sécante : yk 1 Hkdk 1 H k -1d k 1 uu T d k 1 yk 1 H k -1d k 1 u T d k 1u
1 1
• On pose : u Tdk 1 yk 1 H k -1d k 1 u u yk 1 H k -1d k 1

1 1
• On reporte u pour obtenir : (yk 1 H k -1d k 1 ) T d k 1 d Tk -1 ( y k 1 H k -1d k 1 ) 2

• On exprime uuT en fonction de dk-1, yk-1, Hk-1


u yk 1 H k -1d k 1 uu T 2
(yk 1 H k -1d k 1 )( y k 1 H k -1d k 1 ) T
1 (yk H k -1d k 1 )( y k 1 H k -1d k 1 ) T
2
d Tk -1 ( y k 1 H k -1d k 1 ) uu T 1

d Tk -1 ( y k 1 H k -1d k 1 )
269
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Méthode SR1


Formule SR1
(yk H k -1d k 1 )( y k 1 H k -1d k 1 ) T d k -1 x k x k -1
• Mise à jour de Hk : H k H k -1 1
avec
d Tk -1 ( y k 1 H k -1d k 1 ) y k -1 g(x k ) g(x k -1 )

• Mise à jour symétrique, de rang 1


• Mise à jour non nécessairement définie positive
Méthode alternative à la méthode BFGS (cas d’un hessien indéfini)

Limitations
• La formule SR1 peut donner des matrices Hk non définies positives,
même si le hessien de la fonction est défini positif.
• Le dénominateur peut devenir petit empêche la mise à jour et la convergence

Propriété 1 T
Pour une fonction f quadratique : f ( x ) x Qx c T x
2
la formule SR1 donne après n déplacements suivant des directions indépendantes dk : H n Q
ne nécessite pas de minimisation suivant dk

270
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Comparaison
Méthodes de quasi-Newton BFGS DFP SR1

BFGS DFP SR1

Matrice mise à jour Hessien Hk Inverse hessien Hk-1 Hessien Hk

Equation résolue Sécante Inverse sécante Sécante

Méthode Broyden Broyden Résolution directe

Forme solution Symétrique AAT Symétrique AAT Symétrique uuT


Rang 2 Rang 2 Rang 1
Définie positive Définie positive Indéfinie
Minimisation dk Précision moyenne Précision forte Précision faible

Fonction quadratique Hessien exact : Hn=Q Hessien exact : Hn=Q Hessien exact : Hn=Q
Directions conjuguées Q-1 Directions conjuguées Q
Limitations Hessien de f indéfini Hessien de f indéfini Matrices Hk
Précision minimisation non définies positives

Méthode BFGS réputée la plus efficace


271
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Exemple
Méthode de quasi-Newton à une variable
Les formules BFGS et SR1 se simplifient pour une fonction à une variable.
• Fonction f(x) , x R
y k 1 y Tk -1 H k -1d k 1d Tk 1H k -1
• Mise à jour BFGS : H k H k -1
y Tk -1d k 1 d Tk 1H k -1d k 1
yk 1
H k -1 H k -1
dk 1
yk 1 g(x k ) g(x k -1 )
Hk
dk 1 x k x k -1

(yk H k -1d k 1 )( y k 1 H k -1d k 1 ) T


• Mise à jour SR1 : Hk H k -1 1

d Tk -1 ( y k 1 H k -1d k 1 )
y k 1 H k -1d k 1
H k -1
dk 1
yk 1 g(x k ) g(x k -1 )
Hk
dk 1 x k x k -1

On retrouve la formule de la sécante appliquée au gradient de f.


272
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Exemple
Comparaison Newton Quasi-Newton
0,25
• Fonction : f ( x ) x 4 12 x 3 47 x 2 60 x
0,00
2,75 3,00 3,25 3,50 3,75 4,00 4,25
• Dérivée : f ' ( x ) 4x 3 36 x 2 94 x 60 -0,25

-0,50
f ' ( x k ) f ' ( x k -1 )
• Quasi-Newton : h k -0,75
x k x k -1
-1,00
• Point initial : x0 = 3 convergence
-1,25
Autres points divergence
ou maximum de f -1,50

Quasi - Newton Newton

Itération x(k) f(x) f'(x) h(k) Erreur Itération x f(x) f'(x) f''(x) Erreur
0 3,00000000 0,00000000 -6,00E+00 1,000 -4,56E-01 0 3,00000000 0,00000000 -6,00E+00 14,000 -4,56E-01
1 2,99900000 0,00600700 -6,01E+00 14,000 -4,57E-01 1 3,42857143 -1,31945023 -3,15E-01 11,796 -2,70E-02
2 3,42857155 -1,31945027 -3,15E-01 13,267 -2,70E-02 2 3,45526446 -1,32368574 -3,74E-03 11,513 -3,25E-04
3 3,45230465 -1,32362420 -3,79E-02 11,672 -3,28E-03 3 3,45558935 -1,32368635 -5,77E-07 11,509 -5,01E-08
4 3,45554876 -1,32368634 -4,68E-04 11,527 -4,06E-05 4 3,45558940 -1,32368635 -5,68E-14 11,509 -4,88E-15
5 3,45558934 -1,32368635 -7,27E-07 11,509 -6,32E-08
6 3,45558940 -1,32368635 -1,40E-11 11,509 -1,22E-12
7 3,45558940 -1,32368635 -5,68E-14 11,462 -4,44E-15
273
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Exemple
Méthode DFP à 2 variables 1 4x1 2x 2
• Minimisation de f ( x ) x 1 x 2 2x 12 2x1x 2 x 22 g( x )
1 2x1 2x 2
• Point initial : x0 = (0 0)
0 1 0 1 1
• Itération 1 : x 0 H 01 g0 u1 H 0 1g 0
0 0 1 1 1
s 1 1
x1 x 0 su 1 min F(s) s2 2s s 1 x1 g1
s s 1 1
• Mise à jour DFP de H-1

d0 x1 x 0 1 2
d0 , y0
y0 g(x1 ) g(x 0 ) 1 0
d 0 d T0 H -1 T -1
0 y0 y0 H0
1 0 1 1 1 1 4 0 1 1 1
H1-1 H -01
d T0 y 0 y T0 H -01 y 0 0 1 2 1 1 4 0 0 2 1 3

4 2 1 1 1 1
• Comparaison au vrai hessien : H( x ) H
2 2 2 1 2
274
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Exemple
Méthode DFP à 2 variables
1 1 1 1 1 0
• Itération 2 : x 1 H1-1 g1 u2 H 1 1g 1
1 2 1 3 1 1

1 1 1 0
x2 x 1 su 2 min F(s) 1 3(1 s) (1 s) 2 s x2 g2
1 s s 2 1.5 0

1
• On obtient le minimum en 2 itérations (fonction quadratique) : x*
1.5
• Mise à jour DFP de H-1

d1 x 2 x1 0 1
d1 , y1
y1 g(x 2 ) g(x1 ) 0.5 1

d1d1T H1-1 y1 y1T H1-1 1 1 1 1 0 0 0 0 1 1 1


H -21 H1-1
d1T y1 y1T H1-1 y1 2 1 3 2 0 1 0 1 2 1 2

4 2 1 1 1 1
• Comparaison au vrai hessien : H( x ) H
2 2 2 1 2
275
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Exemple
Méthode DFP à 2 variables
On vérifie les propriétés de la méthode DFP appliquée à une fonction quadratique.
T T
2 2 1 x1 4 2 x1 1 x1 4 2
f ( x) x1 x 2 2x 1 2x1x 2 x 2 Q
2 x2 2 2 x2 1 x2 2 2

• Le minimum est obtenu en 2 itérations.

• Les directions successives u1 et u2 sont conjuguées par rapport à Q


T T
T 0 4 2 1 0 2
u Qu1
2 0
1 2 2 1 1 0
• On vérifie également :
1 1 1 4 2 1 1 2 0 1 1
H1 1Qu1 u1
2 1 3 2 2 1 2 2 4 1 1
1 1 1 4 2 0 1 0 0 0
H 21Qu 2 u2 avec H 21 Q 1

2 1 2 2 2 1 0 1 1 1

276
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Extensions BFGS


Initialisation BFGS
• En pratique, le hessien n’est pas nécessairement défini positif partout.
Pour assurer la convergence, il est nécessaire de réinitialiser périodiquement H0 :
- par évaluation du hessien (différences finies) → coûteux
- par un multiple positif de l’identité → H0 = I avec > 0

• On peut réinitialiser H0 à partir du dernier déplacement de xk 1 à xk : d xk xk 1


y g( x k ) g( x k 1 )
yT y 1
H0 I avec H -01 I pour initialiser H -10
yTd

• Justification
On note H le hessien en xk 1 g( x k ) g( x k 1 ) H( x k xk 1)
y H( x k x k 1 ) Hd

H défini positif → admet une base orthonormée de vecteurs propres (vi)i=1à n avec H = ivi
En notant m la plus grande valeur propre, on a approximativement :
d i vi m vm yT y 2 2
m m
m
→ approximation de m
y Hd i i vi m m vm
yTd 2
m m

277
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Extensions BFGS


Méthode damped BFGS
• La méthode BFGS supposent que les matrices Hk restent définies positives.
Cette condition n’est pas nécessairement réalisée
- pour une optimisation sans contrainte loin de l’optimum
- pour une optimisation avec contrainte (hessien du lagrangien non nécessairement positif)
Hdd T H yyT H Hk d xk xk 1
• BFGS standard : H' H avec 1 et
d T Hd dT y H' H k y g( x k ) g( x k 1 )
La matrice H représente une approximation
- du hessien de f pour un problème sans contrainte → y x f (x k ) xf (x k 1 )
- du hessien de L pour un problème avec contrainte → y x L( x k , k ) x L( x k 1 , k )

• La matrice courante H est par hypothèse définie positive.


La nouvelle matrice H’ doit rester définie positive.

• La mise à jour prend en compte la courbure suivant la direction de déplacement d.


- le terme dTHd vient de la matrice courante H → par hypothèse > 0
T
- le terme d y vient de la variation du gradient → non nécessairement > 0
à modifier

278
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Extensions BFGS


Méthode damped BFGS
• La méthode damped BFGS (BFGS « amorti ») consiste à pondérer la mise à jour si dTy < 0.

On remplace la variation y par z : z y (1 )Hd avec 0 ≤ ≤1


T T T
d z d y (1 )d Hd
terme positif
T T
Hdd H zz
La mise à jour BFGS « amortie » est : H' H → avec z au lieu de y
d T Hd dTz
Pour que la nouvelle matrice H’ soit définie positive, il suffit que dTz soit positif.

• On choisit la pondération pour vérifier la condition : d T z d T Hd avec 0.2

Si dTy dTHd , on prend : z = y (BFGS standard) 1


T (1 )d T Hd
Si dTy < dTHd , on impose : d z d T y (1 )d T Hd d T Hd
d T Hd d T y
• La matrice H’ est une interpolation entre : la matrice H initiale (obtenue pour = 0)
la matrice BFGS standard (obtenue pour = 1).

279
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Extensions BFGS


Méthode L BFGS
• Pour un problème de grande dimension, on ne peut pas stocker les matrices Hk en mémoire.
La méthode L-BFGS (« Limited Memory ») est basée sur la mise à jour factorisée.

-1 d k 1 y Tk -1 -1 y k 1d Tk -1 d k 1d Tk -1 dk 1 xk xk 1
H k I H k -1 I avec
d Tk -1 y k 1 d Tk -1 y k 1 d Tk -1 y k 1 yk 1 g( x k ) g( x k 1 )

1
• On note pour simplifier : j T et Vj I j y jd Tj H -1j 1 VjT H -1jVj j d jd Tj
d yj
j

• On considère m itérations successives à partir de la matrice H0.


H1-1 V0T H -10V0 dd T
0 0 0

H -12 V1T H1-1V1 dd T


1 1 1 V1T V0T H -10 V0 V1 0 V1T d 0 d T0 V1 dd T
1 1 1

H -1m VmT-1H -1m-1Vm-1 d d T


m 1 m -1 m -1 VmT-1 V1T V0T H -10 V0 V1 Vm-1 0 VmT-1 V1T d 0 d T0 V1 Vm-1

1 VmT-1 V2T d1d1T V2 Vm-1

T
d d
m 1 m -1 m -1
280
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Extensions BFGS


Méthode L BFGS
• Le déplacement à l’itération m est : dm s m H -1mg m avec g m f (x m )
sm = pas de déplacement

On peut évaluer la direction de déplacement H -1mg m sans calculer explicitement la matrice Hm


en utilisant les vecteurs dj et yj des m itérations précédentes (j = 0 à m 1).

H -1mg m VmT-1 V1T V0T H -10 V0 V1 Vm-1 g m avec Vj I j y jd Tj

0 VmT-1 V1T d 0 d T0 V1 Vm-1 g m


1 VmT-1 V2T d1d1T V2 Vm-1 g m

T
d d g
m 1 m -1 m -1 m

• On obtient le vecteur H -1mg m en réalisant 2 boucles successives.


- une première boucle de j = m 1 à 0 pour calculer les termes de droite Vj Vm-1 g m
- une deuxième boucle de j = 0 à m 1 pour multiplier à gauche par VmT-1 VjT et sommer

Ces opérations ne manipulent que des vecteurs, sans stockage de matrice.

281
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Extensions BFGS


Méthode L BFGS
• Rappel de l’expression de H -1mg m
H -1mg m VmT-1 V1T V0T H -10 V0 V1 Vm-1 g m avec Vj I j y jd Tj
VmT-1 V1T d 0 0 d T0 V1 Vm-1 g m

VmT-1 VjT 1 d j jd Tj Vj 1 Vm-1 g m → j=0àm 1

T
d m-1 d g
m 1 m -1 m

• La première boucle de j = m 1 à 0 calcule les termes j j d Tj Vj 1 Vm-1 g m

m 1
T
d
m 1 m 1 m q avec q m gm j j d Tj q j 1
pour j m 1 à 0
qm 1 qm m 1y m 1 qj qj 1 jy j

• On obtient à la fin de cette boucle : q 0 V0 Vm-1 g m


et les termes : 0 , … , m 1

282
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Extensions BFGS


Méthode L BFGS
• Rappel de l’expression de H -1mg m
H -1mg m VmT-1 V1T V0T H -10q 0 avec VjT I j d j y Tj et q 0 V0 Vm-1 g m
T
VmT-1 V1T d 0 0 j jd j Vj 1 Vm-1 g m

VmT-1 VjT 1 d j j → j=0àm 1

d m-1 m 1

• La deuxième boucle de j = 0 à m 1 consiste à multiplier à gauche par VmT-1 VjT 1 d j

0 0 y T0 r0 avec r0 H 0 1q 0 j j y Tj rj
pour j 0 à m 1
r1 r0 d 0 0 d0 0 rj 1 rj d j j dj j

-1 -1
• Le premier terme de H m g m est issu de r0 H 0 q 0 .
Les termes suivants sont issus des j stockés lors de la première boucle.

On obtient à la fin de cette boucle la direction de déplacement : rm H -1mg m


283
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.2 Minimisation
Techniques d’optimisation 2018

2.2.2 Extensions BFGS


Méthode L BFGS
A l’itération numéro k, la direction de déplacement est construite à partir :
- d’une matrice initiale
- des m déplacements précédents (dj , yj)j=k m à k 1
y Tk 1d k
• On choisit la matrice initiale de la forme : H -0,1k I avec 1
y Tk 1 y k 1

→ 1 est une approximation de la plus grande valeur propre

• On construit la direction de déplacement par les 2 boucles successives rk H -1kg k


et le nouveau point avec un pas de déplacement sk dk s k H -1kg k

• La liste des m déplacements stockés est mise à jour :


- on supprime en début de liste le déplacement numéro k m (à partir des itérations k m)
- on ajoute en fin de liste le nouveau déplacement (dk , yk)

• Remarque
Pendant les m 1 premières itérations, la méthode L BFGS est équivalente à BFGS
-1 -1
si l’on conserve la même matrice initiale H 0,k H 0 .

284
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.3 Globalisation
Techniques d’optimisation 2018

2.2.3 Globalisation

Convergence de la méthode de Newton

Méthodes de globalisation

Fonction mérite

Filtre

Point de Newton et de Cauchy

Méthode d’homotopie

285
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.3 Globalisation
Techniques d’optimisation 2018

2.2.3 Convergence
Sensibilité au point initial
La méthode de Newton est très sensible au point initial.
Une modification du point initial peut conduire à une solution différente ou à une divergence.
instabilité numérique (comportement chaotique)
bassins d’attraction en présence de plusieurs solutions

Exemple
• On cherche à résoudre l’équation complexe : z3 = 1

z3 1 rei
3
1 r 3ei.3 1 r 3 sin (3 ) 0 3 k
r 3 cos(3 ) 1 r 1
• Les solutions sont les 3 racines complexes de l’unité : u2

1 3 1 3
u1 1 , u 2 , u3
2 2 u1
• On applique la méthode de Newton à partir d’un point initial z0.
z 3k 1 2z 3k 1 u3
zk 1 zk
3z 2k 3z 2k

286
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.3 Globalisation
Techniques d’optimisation 2018

2.2.3 Convergence
Bassin d’attraction
• Le bassin d’attraction d’une racine u est l’ensemble des points initiaux z0
pour lesquels la méthode de Newton converge vers u.

• On observe dans le plan complexe


les bassins d’attraction de u1, u2, u3.

• Les contours sont mal délimités.


aspect fractal
sensibilité au point initial

• La convergence est imprédictible


à partir de certains points initiaux.

287
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.3 Globalisation
Techniques d’optimisation 2018

2.2.3 Globalisation
Techniques de globalisation
• La convergence d’une méthode de (quasi) Newton n’est pas garantie même près de la solution.
Il faut évaluer et si besoin modifier le point xN issu de l’itération de (quasi) Newton.

• Méthode d’évaluation d’une solution


- fonction mérite → agrégation des objectifs avec pondérations
- filtre → acceptation des solutions non dominées

• Méthode d’exploration locale


- recherche linéaire → suivant la direction du point de Newton xN
- région de confiance → à l’intérieur d’une sphère centrée sur le point initial
en utilisant les points de Newton xN et de Cauchy xC

Objectifs simultanés
Le nouveau point doit minimiser simultanément plusieurs objectifs.

• Résolution d’équations : g( x ) 0 min g1 ( x ) , , g m (x)


x

• Minimisation sous contrainte : min f ( x ) sous c( x ) 0 min f ( x ) , c1 ( x ) , , cm (x)


x x

288
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.3 Globalisation
Techniques d’optimisation 2018

2.2.3 Fonction mérite


Principe
• On cherche à minimiser simultanément plusieurs fonctions : min c1 ( x ) , , cm (x)
x

• On définit une fonction mérite F(x) permettant de comparer différentes solutions.

Une solution x est meilleure qu’une solution y si F( x ) F( y)

• La fonction mérite agrège les différents objectifs avec des pondérations (ou pénalisations).
Le choix des coefficients permet de privilégier certains objectifs.

Exemples de fonctions mérites


• Résolution d’équations : g( x ) 0 F( x ) g( x ) → norme 1, 2, …
F( x ) i gi (x) → pénalisations i

• Minimisation sous contrainte : min f ( x ) sous c( x ) 0


x

- critère augmenté F( x ) f ( x ) c( x )

- lagrangien augmenté F( x ) L( x , ) c( x )
T
f (x) c( x ) c( x )
289
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.3 Globalisation
Techniques d’optimisation 2018

2.2.3 Filtre
Principe
• On cherche à minimiser simultanément plusieurs fonctions : min c1 ( x ) , , cm (x)
x

• On définit une relation de dominance permettant de comparer différentes solutions.


c1 ( x ) c1 ( y)
Une solution x domine une solution y si → améliore tous les objectifs
c m ( x ) c m ( y)
• Le front de Pareto est l’ensemble des solutions non dominées.

c2(x) c2
front de Pareto
solutions non dominées solutions dominées
par x par x
x
x

solutions dominant x solutions non dominées y


par x

c1(x) c1
290
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.3 Globalisation
Techniques d’optimisation 2018

2.2.3 Filtre
Filtre
• Le filtre est la liste des solutions non dominées obtenues au cours des itérations.
→ approximation du front de Pareto

• Evaluation d’un nouveau point


- Le nouveau point est accepté s’il n’est dominé par aucun élément du filtre.
- Le filtre est mis à jour en ajoutant le nouveau point et en éliminant les éléments dominés.

c2

Région de solutions dominées points du filtre


x1 → rejetées par le filtre

x2
x3

x4
Région de solutions non dominées
→ acceptées par le filtre

c1 291
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.3 Globalisation
Techniques d’optimisation 2018

2.2.3 Exemple
Exemple
On cherche à résoudre par la méthode de Newton le système d’équations :
1 x1 1
c( x 1 , x 2 ) 0 → solution x *
10( x 2 x12 ) 1
• Le déplacement de Newton est : d N c Tc
T
1 20x1 1 x1 1 10 0 1 x1 1 x1
dN
0 10 10( x 2 x12 ) 10 20x1 1 10( x 2 x12 ) x1 ( 2 x1 ) x 2

• On applique une recherche linéaire dans la direction de Newton : x ' x sd N

x '1 x1 1 x1
s
x '2 x2 x1 ( 2 x1 ) x 2

• On compare l’évaluation par fonction mérite et par filtre à partir du point initial x 0 0
0
La fonction mérite est : F( x1 , x 2 ) c( x 1 , x 2 ) 1 1 x1 10( x 2 x12 )

292
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.3 Globalisation
Techniques d’optimisation 2018

2.2.3 Exemple
Fonction mérite
• Le déplacement est accepté si la fonction mérite décroît.

F( x1 , x 2 ) c( x 1 , x 2 ) 1 1 x1 10( x 2 x12 ) avec F(0,0) 1 → nécessite x 2 x12 à 0.1 près

Itération Pas s x1 x2 F(x1,x2) c1 c2 x2


0 0,0000 0,0000 0,0000 1,0000 1,0000 0,0000 1,0
1 0,0625 0,0625 0,0000 0,9766 0,9375 -0,0391
0,8 proche de la courbe
2 0,0625 0,1211 0,0076 0,9499 0,8789 -0,0710
x2=x1²
3 0,0625 0,1760 0,0213 0,9207 0,8240 -0,0967
0,6
4 0,1250 0,2790 0,0588 0,9117 0,7210 -0,1907
5 0,1250 0,3691 0,1115 0,8789 0,6309 -0,2481
0,4
6 0,1250 0,4480 0,1728 0,8312 0,5520 -0,2792
7 0,2500 0,5860 0,3034 0,8139 0,4140 -0,3999 0,2
8 0,2500 0,6895 0,4347 0,7175 0,3105 -0,4070
9 0,5000 0,8448 0,6691 0,5998 0,1552 -0,4445 0,0
0,0 0,2 0,4 0,6 0,8 1,0 x1
10 1,0000 1,0000 0,9759 0,2410 0,0000 -0,2410
11 1,0000 1,0000 1,0000 0,0000 0,0000 0,0000

• La solution est obtenue en 11 itérations à partir du point initial x 0 0


0
293
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.3 Globalisation
Techniques d’optimisation 2018

2.2.3 Exemple
Filtre
• Le déplacement est accepté si au moins l’une des composantes de c décroît.
1 x1
c( x 1 , x 2 ) 0
10( x 2 x12 )

Itération Pas s x1 x2 F(x1,x2) c1 c2 x2


0 0 0,0000 0,0000 1,0000 1,0000 0,0000 1,0

1 1 1,0000 0,0000 10,0000 0,0000 -10,0000


0,8
2 1 1,0000 1,0000 0,0000 0,0000 0,0000

0,6

• Le déplacement de Newton (s=1) est accepté à l’itération 1 0,4

car la composante c1 décroît.


0,2

L’évaluation par fonction mérite aurait rejeté le pas s=1 0,0


x1
car la fonction mérite augmente de 1 à 10. 0,0 0,2 0,4 0,6 0,8 1,0

• La solution est obtenue en 2 itérations à partir du point initial x 0 0


0
294
2 Optimisation sans contraintes Max CERF
2.2 Méthode de Newton
2.2.3 Globalisation
Techniques d’optimisation 2018

2.2.3 Point de Newton et de Cauchy


Points particuliers
Deux points particuliers sont définis à partir du modèle quadratique de f en xk :
1 gk f k (x k )
f̂ k (x) f k (x k ) g Tk (x x k ) (x x k ) T H k (x x k ) avec 2
2 Hk f k (x k )
• Point de Newton
points utiles dans les algorithmes de globalisation
• Point de Cauchy

Point de Newton
Le point de Newton xN de f en xk minimise le modèle quadratique en xk.
xN n’existe que si 2f(xk) est définie positive.
2
xN xk d N avec f(x k )d N f(x k ) dN solution des équations de Newton

Point de Cauchy
Le point de Cauchy xC de f en xk minimise le modèle quadratique en xk dans la direction gk.

xC xk α C g k solution de min f(x k αg k ) minimum suivant la plus forte descente


α 0
g Tk g k
Si f est convexe suivant –gk : α C
g Tk H k g k
295

Vous aimerez peut-être aussi