PNL

Chapitre 2
Optimisation non linéaire

sans contraintes
Master de Mécanique 3M
Rafic YOUNES
Plan
• Méthodes de descente
• Choix de la direction
• Choix du pas : minimisation / Approximation
• Convergence / Critères d’arrêt
• Méthode de Newton
• Résolution d’une équation non linéaire à une inconnue
• Résolution d’un système d’équations à plusieurs inconnues
• Optimisation par la Méthode de Newton
• Minimisation
• Convergence globale
• Méthodes sécantes ou quasi-Newton
• Minimisation à une seule variable
• Minimisation à plusieurs variables
11/12/2005 Rafic Younès 2
Méthodes de descente
• Problème :
min f : IRn → IR
f continûment différentiable
• Idée :
• On démarre d’un point x0
• On génére des vecteurs x1, x2,… tels que
la valeur de f décroit à chaque itération :
f(xk+1) < f(xk) k=1,2,…
Méthodes de descente
f(x)=c1
x3
x4 x1
x2
x0
f(x)=c2 < c1
f(x)=c3 < c2
Directions de descente
• Soit x ∈ IRn tel que ∇f(x) ≠ 0.

• Considérons la demi-droite
xα = x – α ∇f(x)
• Théorème de Taylor (1er ordre)
f(x+s) = f(x) + ∇f(x)Ts + o(¦¦s¦¦)
avec s = xα-x
f(xα) = f(x) + ∇f(x)T(xα-x) + o(¦¦xα-x¦¦)
= f(x) – α ¦¦∇f(x)¦¦2 + o(α¦¦∇f(x)¦¦)
= f(x) – α ¦¦∇f(x)¦¦2 + o(α)
f(xα) = f(x) – α ¦¦∇f(x)¦¦2 + o(α)

• Si α est petit, on peut négliger o(α)
• Donc, pour α positif mais petit, f(xα) < f(x)
Théorème :
• Il existe δ tel que, pour tout α ∈ ]0,δ[
f(x- α∇f(x)) < f(x)
• Gradient = plus forte pente
Question : y a-t-il d’autres directions de descente que
-∇f(x) ?
Appliquons le même raisonnement avec d ≠ 0.
• Considérons la demi-droite
xα = x + α d
• Théorème de Taylor (1er ordre)
f(x+s) = f(x) + ∇f(x)Ts + o(¦¦s¦¦)
avec s = xα-x
f(xα)= f(x) + ∇f(x)T(xα-x) + o(¦¦xα-x¦¦)
= f(x) + α ∇f(x)Td + o(α ¦¦d¦¦)
= f(x) + α ∇f(x)Td + o(α)
f(xα) = f(x) + α ∇f(x)Td + o(α)

• Si α est petit, on peut négliger o(α)
• Pour avoir f(xα) < f(x), il faut
∇f(x)Td < 0
Théorème :
• Soit d tel que ∇f(x)Td < 0. Il existe δ
tel que, pour tout α ∈ ]0,δ[
f(x+αd) < f(x)
Définition :
Soit f:IRn→IR, une fonction continûment
différentiable, et x un vecteur de IRn. Le vecteur d ∈
IRn est appelé direction de descente de f en x ssi
∇f(x)Td < 0
Algorithme de base :
Soit x0 ∈ IRn. Poser k=0.
• Tant que ∇f(xk) ≠ 0
• Choisir dk tel que ∇f(xk)Tdk < 0
• Choisir αk > 0
• Poser xk+1 = xk + αk dk
Choix de la direction
• Beaucoup de choix possibles. On choisit αk tel que

f(xk+αkdk) < f(xk)
Aucune garantie de convergence.
• Ecrivons dk = -Dk ∇f(xk) où Dk est une matrice n x n
• La condition ∇f(xk)Tdk < 0 s’écrit
∇f(xk)T Dk∇f(xk) > 0
• Si Dk est définie positive, cette condition est
toujours vérifiée.
• Le choix de la direction revient donc au choix d’une
matrice définie positive.
Quelques exemples souvent utilisés :

• Méthode de la plus forte pente
• Dk = I
• xk+1 = xk – αk ∇f(xk)
Attention: il faut
• Méthode de Newton que ∇2f(xk) soit
inversible et
• Dk = (∇2f(xk))-1 déf. pos.
• xk+1 = xk – αk (∇2f(xk))-1 ∇f(xk)
• Mise à l’échelle diagonale

- dki > 0 pour tout i
 ∂ 2 f ( xk ) 
−1
- Dk =
- Exemple : dki =  
 ∂x i 
2
• Méthode de Newton modifiée :

Dk = (∇2f(x0))-1
• xk+1 = xk – αk (∇2f(x0))-1 ∇f(xk)
• etc…

Choix du pas : minimisation
Règle de minimisation
• Choisir αk qui minimise la fonction le long de
dk, c’est-à-dire tel que
f(xk+αdk)
• Minimisation à une variable

min g(α)=f(xk+αdk), α ∈ [a0,b0]
• Algorithme de la section d’or
• Hypothèse :
• g est unimodale dans [a0,b0] ssi :
• g possède un et un seul minimum global α*
dans [a0,b0]
• Soient α1 et α2 ∈ [a0,b0]
• Si α1 < α2 < α*, alors g(α1) > g(α2) > g(α*)
• Si α*< α1 < α2, alors g(α*) < g(α1) < g(α2)
a0 a0b 0 b0 a0 a 0 b b0
0
Si f(a 0) < f(b 0) Alors Si f(a 0) > f(b 0) Alors

α*∈[a0,b 0] α*∈[a 0,b0]
[a1,b1] = [a0,b 0] [a1,b1] = [a 0,b0]

Algorithme de la section d’or
a0 0 0 b0
a1 1 1 b1
• Itération 0 : a’0-a0=b0-b’0=ρ(b0-a0)
• Itération 1: a’1-a1=b1-b’1=ρ(b1-a1)
a’1-a0=b’0-a’0= ρ(b’0-a0)
• On montre que
ρ = (3-√5)/2 ≈ 0.382
• Notes : anciens Grecs

• Section d’or :
A M B
a0 0 0 b0
(1-ρ)(b0-a0)=(1-ρ)λ ρ(b0-a0)= ρλ
AB AM 1 1-ρ
AM
= MB 1-ρ
= ρ

Algorithme de la section d’or
• Soient g(α) unimodale sur [a0,b0],
ε ∈ IR et ρ = (3-√5)/2
Pour k=1,2,…
• Si bk-ak < ε, alors α*=(ak+bk)/2 STOP
• a’k = ak+ρ(bk-ak)=(1-ρ)ak+ρbk
• b’k = bk-ρ(bk-ak) = ρak+(1-ρ)bk
• Si g(a’k)≤g(b’k), alors ak+1=ak, bk+1=b’k
• Si g(a’k)> g(b’k), alors ak+1=a’k, bk+1=bk
Exemple :
• min g(α)=α4 - 14α3 + 60α2 - 70α
α ∈ [0,2] k a a' b' b k α* g(a' )
k k k k g(b'k)
1 0.0000 0.7639 1.2361 2.0000 1.0000 -24.3607 -18.9582
2 0.0000 0.4721 0.7639 1.2361 0.6180 -21.0985 -24.3607
3 0.4721 0.7639 0.9443 1.2361 0.8541 -24.3607 -23.5925
4 0.4721 0.6525 0.7639 0.9443 0.7082 -23.8374 -24.3607
5 0.6525 0.7639 0.8328 0.9443 0.7984 -24.3607 -24.2879
6 0.6525 0.7214 0.7639 0.8328 0.7426 -24.2579 -24.3607
7 0.7214 0.7639 0.7902 0.8328 0.7771 -24.3607 -24.3669
8 0.7639 0.7902 0.8065 0.8328 0.7984 -24.3669 -24.3495
9 0.7639 0.7802 0.7902 0.8065 0.7852 -24.3696 -24.3669
10 0.7639 0.7740 0.7802 0.7902 0.7771 -24.3681 -24.3696
Choix du pas
Règle de minimisation
§ Méthode de la section d’or
§ Minimisation prend du temps
§ Section d’or nécessite l’unimodalité
§ A-t-on besoin du minimum exact ?
§ Idée : Règle d’approximation
Choisir un pas qui diminue suffisamment
la valeur de la fonction.

Choix du pas : approximation
f(xk)+αβ1∇f(xk)Tdk
β1 ∈ ]0,1[
α
f(xk)+α∇f(xk)Tdk
• Conditions d’Armijo-Goldstein
f(xk+αkdk) ≤ f(xk)+αkβ1∇f(xk)Tdk
β1 ∈ ]0,1[
Choix du pas : approximation
Algorithme de recherche linéaire

• Soient g(α), β1,λ ∈ ]0:1[, β2∈]β1:1[, α0 > 0
• Pour k=1,2,…
• Si f(xk+αkdk) ≤ f(xk)+αkβ1∇f(xk)Tdk alors
α*=αk STOP
• αk+1 = λ αk

Convergence / Critères d’arrêt
• Démarche:
• Voyons d’abord ce que sont de « mauvais »
pas.
• Déterminons des règles empêchant les
« mauvais » pas.
• Prenons
• f(x) = x2
• x0 = 0
x0
x1
x2
x3
•
x4
x5
x6
x7
§ Lorsque k est grand § Lorsque k est grand

dk = -1 dk = (-1)k+1
αk ≈ 0 αk ≈ 2
xk ≈ 1 xk ≈(-1)k
Théorème :
• Si (dk) est en relation-gradient avec
(xk)
• Si le pas est choisi
• soit par la règle de minimisation
• soit par la règle d’Armijo-Goldstein
• Alors tous les points limites de (xk)
sont stationnaires.

• En général, ces méthodes ne permettent pas
de trouver la solution en un nombre fini
d’itérations.
• Quand arrête-t-on les itérations ?
Critère 1:
¦¦∇f(xk)¦¦ < ε, avec ε > 0 petit.
• Problèmes :
• Supposons ε=10-3, et f(x)∈[10-7,10-5]. Il est
probable que toutes les valeurs de x
vérifieront la condition d’arrêt.
• Par contre, si f(x) ∈[105,107], cela
n’arrivera peut-être jamais.
Critère 2 :
¦¦r(x)¦¦∞ ≤ ε, avec ε > 0 petit,
avec r(x)i = (∇f(x)i xi) / f(x).
r(x) est le gradient relatif en x.
Ce critère est indépendant de changement d’unités
en f et en x. Attention si f ou x est proche de 0.
• Critère 3 :
Où ε > 0 est petit. txi est une valeur typique de xi. tf

est une valeur typique de f.
Vitesse de convergence
Méthode de la plus forte pente
xk+1 = xk – αk ∇f(xk)
• Supposons que
• f(x) = ½ xTQx est quadratique
• Q est définie positive
• f est minimisé par x* = 0
• f(x*)=0
• Donc :
• ∇f(x) = Qx ∇2f(x) = Q
• xk+1 = xk – αk Qx

Vitesse de convergence
La représentation n’est pas à l’échelle
f ( x, y ) =
1 2 9 2
⋅x + ⋅y
2 2
La direction du
gradient est
perpendiculaire aux
courbes de niveaux
Plan
• Minimisation
Equation à une inconnue
Problème :
• Soit f:IR→IR continûment dérivable. Trouver x tel que
f(x) = 0.
Exemple :
f(x) = x2 – 3
x0 = 1
∆x
x0
∆y
x1
x1 = x0 + ∆x
f’(x0) = ∆y / ∆x
∆x = ∆y / f’(x0) = - f(x0) / f’(x0)
x1 = x0 - f(x0) / f’(x0)
• Méthode de Newton :
xk+1 = xk – f(xk) / f’(xk)
k x f(x) f'(x) err
0 1.00000000 -2.00000000 2.00000000 0.73205081
1 2.00000000 1.00000000 4.00000000 0.26794919
2 1.75000000 0.06250000 3.50000000 0.01794919
3 1.73214286 0.00031888 3.46428571 0.00009205
4 1.73205081 0.00000001 3.46410162 0.00000000
• A chaque itération, on remplace la fonction non-

linéaire par un modèle local facile à calculer.
M(x) = f(x0) + f’(x0)(x-x0)
• Ce modèle est : linéaire, M(x0) = f(x0), tel que M’(x0)
= f’(x0)
Convergence locale
• Si f(x) n’est pas trop non-linéaire
• Si x0 est suffisament bon
• Alors convergence rapide
Si f’(x*)=0, la méthode de Newton converge beaucoup plus lentement.
x* = 1 f1(x)=x2-1 k f2(x)=x2-2x+1
2 0 2
f1 (x*)=2 1.25 1 1.5
f2 (x*)=0 1.025 2 1.25
1.000304878 3 1.125
1.000000046 4 1.0625
1 5 1.03125
Note : Lorsque f est linéaire,
1 6 1.015625
la méthode de Newton pour 1 7 1.0078125
la résolution d’équations 1 8 1.00390625
converge en une seule itération. 1 9 1.001953125
1 10 1.000976563
Système d’équations à plusieurs variables
• La méthode de Newton peut être

utilisée pour résoudre un système de n
équations à n inconnues.
g(x) = 0
où g:IRn→IRn est une fonction
continûment différentiable.
La méthode est alors
xk+1 = xk – (∇g(xk)T)-1 g(xk)
1) Il existe δ tel que, si x0 ∈ Sδ, la suite

(xk) générée par
xk+1 = xk – (∇g(xk)T)-1 g(xk)
• est bien définie,
• est contenue dans Sδ,
• converge vers x*.
Notes :
• L est la constante de Lipschitz
• La condition
¦¦∇g(x)-∇g(y)¦¦ ≤ L¦¦x-y¦¦
impose que la fonction « ne soit pas trop non
linéaire »
• La condition
¦¦ (∇g(x)T)-1¦¦ ≤ M
impose que le problème « ne soit pas trop
mal conditionné »
Plan
• Minimisation
Minimisation à une variable
• Appliquer la méthode de Newton à l’équation

f’(x) = 0.
• Cela donne : xk+1 = xk – f’(xk)/f’’(xk)
• A chaque itération, on remplace la fonction
non-linéaire par un modèle local facile à
calculer.
mk(x) = f(xk) + f’(xk)(x-xk)+½ f’’(xk)(x-xk)2
• Ce modèle est : quadratique, mk(xk) = f(xk),
mk’(xk) = f’(xk) et mk’’(xk) = f’’(xk)
m(x)=7x2-48x+81
f(x)=-x4+12x3-47x2+60x
m(x)=x2-20x+48
m(x)=-17x2+160x-375
f(x)=-x4+12x3-47x2+60x
Minimisation multi- variables
• Appliquer la méthode de Newton à l’équation

∇f(xk)= 0
• Cela donne : xk+1=xk–∇2f(xk)-1∇f(xk)
• A chaque itération, on remplace la fonction
non-linéaire par un modèle local facile à
calculer.
mk(x) = f(xk) + ∇f(xk)(x-xk)+½ ∇2f(xk)(x-xk)2
• Ce modèle est : quadratique, mk(xk) = f(xk),
mk’(xk) = f’(xk) et mk’’(xk) = f’’(xk)
Convergence globale
Problèmes de la méthode de Newton pure :

• La matrice ∇2f(xk) peut ne pas être définie
positive.
• Elle peut ne pas être inversible.
• La méthode peut produire des itérés tels que
f(xk+1) > f(xk).
• La méthode se contente de résoudre ∇f(x)=0.
Elle peut donc converger vers des points
critiques qui ne sont pas des minima.

Convergence globale
Idée :
• modifier la méthode de Newton pour
garantir la convergence globale,
• mais conserver sa forme pure près de
la solution afin de maintenir sa
rapidité.
• N.B. : Un algorithme globalement convergent

est un algorithme qui converge vers un
minimum local à partir de (presque)
n’importe quel point de départ x0.
Convergence globale
Idée de Cauchy :
• Lorsque le pas de Newton n’est pas
défini, ou ne fait pas diminuer la valeur
de la fonction, préférer la direction de la
plus forte pente.
• A. Cauchy (1847) Analyse mathématique. Méthode générale
pour la résolution des systèmes d équations simultanées.
Comptes Rendus de l’Académie des Sciences de Paris.
• Désavantages de la plus forte pente.

Convergence globale
Recherche linéaire
• Newton « pur » :
xk+1 = xk – ∇2f(xk)-1∇f(xk)
• Considérer la direction :
dk = – ∇2f(xk)-1∇f(xk)
• Si ∇2f(xk)-1 n’est pas déf. pos. :
dk = – (∇2f(xk)+λI)-1∇f(xk)
Tel que dk est direction de descente
Convergence globale
Recherche linéaire
• Algorithme de descente :
xk+1 = xk + αk dk
• On essaie d’abord αk=1.
• Si cela ne marche pas, on essaie des
pas plus courts.
• Règle d’Armijo-Goldstein
Plan
• Minimisation
Méthodes quasi-Newton
f(xk)+f (xk)(x-xk)
hk
xk xk+hk
f(xk)+ak(x-xk) Question : que se passe-t-il lorsque la dérivée n’est pas disponible ?
ak=(f(xk+hk)-f(xk))/hk Idée : on remplace le modèle linéaire tangent par un modèle linéaire
sécant.

f(xk+hk)-f(xk)
• Pente de la sécante : ak =
hk
• Le pas « quasi-Newton » est
xk+1 = xk – f(xk)/ak
• Comment choisir hk ?
• Si hk → 0, alors ak → f’(xk)
• Si hk est choisi suffisamment petit, ak est appelée
une approximation de f’(xk) par différence finie.
• cela exige une évaluation supplémentaire de la
fonction. On préfère choisir :
hk = xk-1 – xk
Notes :
• La méthode fonctionne bien. Le modèle linéaire :
f(xk-1)-f(xk)
• Mk(x)=f(xk) + (x-xk)
xk-1-xk
Vérifie : Mk(xk-1)=f(xk-1) et Mk(xk)=f(xk).
Minimisation à plusieurs variables

• On remplace : F(x) par ∇f(x) & ∇F(x) par ∇2f(x)
Attention : le hessien doit être symétrique défini positif.
xk+1 = xk − αkHk∇f(xk)
Mise à jour de Powell
• dk = xk-xk-1 yk = ∇f(xk)- ∇f(xk-1)
• On génère la suite suivante :
yk – H2idk
• H2i+1 = H2i + d kT
dkTdk
• H2i+2 = ½ (H2i+1 + H2i+1T)
• Mise à jour suivante :
ykykT Hk-1dkdkTHk-1
Hk=Hk-1+ −
ykTdk dkTHk-1dk
dk = xk-xk-1 yk = ∇f(xk)- ∇f(xk-1)
Broyden- Fletcher-Goldfarb-Shanno
Résumé : xk+1 = xk − αkDk∇f(xk)

• Plus forte pente : Dk = I
• Newton : Dk = ∇2f(xk)-1
• Newton pure :
αk = 1 -> pas globalement convergent
• Règle d’approximation : Armijo-Goldstein

Résumé :
• xk+1 = xk − αkDk∇f(xk)
• Newton : Dk = – (∇2f(xk)+λI)-1
• Newton pure :
αk = 1 -> pas globalement convergent

Résumé :
• xk+1 = xk − αkDk∇f(xk)
• quasi-Newton : Dk = Hk
• H0 arbitraire, symétrique définie positive
ykykT Hk-1dkdkTHk-1
• Hk=Hk-1+ y Td − d TH d
k k k k-1 k
Exemples : quadratique
1 2 9 2
f(x) = x + x
Newton 2 1 2 2

BFGS avec H0=I Plus forte pente
Exemples : fonction «gentille»

f(x) = (x 1 - 2)4 + (x 1 - 2)2 x 22 + (x 2 + 1)2

Newton Plus forte pente
BFGS avec H0=I (plus large) BFGS avec H0=∇2f(x0)

Exemples : Rosenbrock ou « fonction
banane »
f(x) = 100(x2 - x 21 )2 + (1- x 1)2
Plus forte pente Plus forte pente (zoom)

Plus forte pente (autre point de départ)
Plus forte pente (zoom)
BFGS avec H0=∇2f(x0) Newton

BFGS avec H0=I
BFGS avec H0=I (zoom)

PNL

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

PNL

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 2

Optimisation non linéaire

11/12/2005 Rafic Younès 3

• Soit x ∈ IRn tel que ∇f(x) ≠ 0.

11/12/2005 Rafic Younès 5

f(xα) = f(x) – α ¦¦∇f(x)¦¦2 + o(α)

11/12/2005 Rafic Younès 7

f(xα) = f(x) + α ∇f(x)Td + o(α)

• Beaucoup de choix possibles. On choisit αk tel que

Quelques exemples souvent utilisés :

• Mise à l’échelle diagonale

• Méthode de Newton modifiée :

11/12/2005 Rafic Younès 12

11/12/2005 Rafic Younès 13

Choix du pas : minimisation

• Minimisation à une variable

Si f(a 0) < f(b 0) Alors Si f(a 0) > f(b 0) Alors

11/12/2005 Rafic Younès 15

Choix du pas : minimisation

• Notes : anciens Grecs

Choix du pas : minimisation

11/12/2005 Rafic Younès 19

11/12/2005 Rafic Younès 20

Choix du pas : approximation

Algorithme de recherche linéaire

11/12/2005 Rafic Younès 22

Convergence / Critères d’arrêt

§ Lorsque k est grand § Lorsque k est grand

11/12/2005 Rafic Younès 25

Convergence / Critères d’arrêt

Où ε > 0 est petit. txi est une valeur typique de xi. tf

11/12/2005 Rafic Younès 28

11/12/2005 Rafic Younès 29

11/12/2005 Rafic Younès 31

Equation à une inconnue

11/12/2005 Rafic Younès 33

Equation à une inconnue

• A chaque itération, on remplace la fonction non-

11/12/2005 Rafic Younès 35

Système d’équations à plusieurs variables

• La méthode de Newton peut être

1) Il existe δ tel que, si x0 ∈ Sδ, la suite

11/12/2005 Rafic Younès 37

Système d’équations à plusieurs variables

Minimisation à une variable

• Appliquer la méthode de Newton à l’équation

Minimisation à une variable

• Appliquer la méthode de Newton à l’équation

Problèmes de la méthode de Newton pure :

11/12/2005 Rafic Younès 44

• N.B. : Un algorithme globalement convergent

11/12/2005 Rafic Younès 46

11/12/2005 Rafic Younès 50

Minimisation à plusieurs variables

• On génère la suite suivante :

• Mise à jour suivante :

dk = xk-xk-1 yk = ∇f(xk)- ∇f(xk-1)

Résumé : xk+1 = xk − αkDk∇f(xk)

• Règle d’approximation : Armijo-Goldstein

• Règle d’approximation : Armijo-Goldstein

11/12/2005 Rafic Younès 56

• Règle d’approximation : Armijo-Goldstein

11/12/2005 Rafic Younès 57

11/12/2005 Rafic Younès 58