Vous êtes sur la page 1sur 9

Algorithmes d’optimisation

Soit le problème de minimisation suivant :

(𝑃) min 𝐽(𝑥)


𝑥∈𝑋

où 𝑋 est un sous ensemble non vide de ℝ𝑛 et 𝐽: ℝ𝑛 → ℝ. Les résultats d’existence de solutions que
nous connaissons, ne sont d’aucune aide pour trouver une solution du problème (𝑃). Ce qu’il nous
faut, c’est une caractérisation analytique de l’optimalité (un ensemble d’équations ou/et
d’inéquations qui pourront être résolues par les algorithmes).

Cette partie est consacré à l’écriture des conditions d’optimalité associées aux différents problèmes
d’optimisation. On présente dans la suite une condition nécessaire d’optimalité du problème (𝑃)
dans les cas suivants :

• 𝑋 un ouvert de ℝ𝑛
• 𝑋 un ouvert de ℝ𝑛
• 𝑋 défini par des égalités et/ou des inégalités fonctionnelles :

𝑋 = {𝑥 ∈ ℝ𝑛 𝑡𝑒𝑙 𝑞𝑢𝑒 𝜑𝑖 (𝑥) = 0, 𝑔𝑗 (𝑥) ≤ 0, 𝑖 = 1, … , 𝑝 𝑒𝑡 𝑗 = 1, … 𝑞}

Cas où l’ensemble des contraintes est convexe


Théorème (CN et CS en présence de convexité) : soit 𝑓 : ℝ𝑛 → ℝ une application différentiable et 𝑋
un sous ensemble convexe de ℝ𝑛 . Si 𝑥 ∗ est un minimum local de (𝑃) alors

∀𝑥 ∈ 𝑋, 〈∇𝑓(𝑥 ∗ ), 𝑥 − 𝑥 ∗ 〉 ≥ 0

Si 𝑓 est convexe sur le convexe 𝑋, alors la condition précédente est suffisante pour que 𝑥 ∗ soit un
point de minimum global de 𝑓 sur 𝑋.

Cas différentiable sans contraintes


On suppose que 𝑋 est un ouvert de ℝ𝑛

Proposition soit 𝑓 : ℝ𝑛 → ℝ supposée différentiable et 𝑋 ouvert de ℝ𝑛 . Si 𝑥 ∗ est un minimum local


de (𝑃) alors

∇𝑓(𝑥 ∗ ) = 0

On retrouve ainsi la condition nécessaire d’optimalité du premier ordre d’optimisation sans


contraintes. Ainsi un problème d’optimisation sur un ouvert doit être traité comme un problème
d’optimisation sans contrainte et les contraintes vérifiées à posteriori.

Théorème (rappel des conditions nécessaires du premier et du second ordre pour un problème
d’optimisation différentiable sans contrainte)

• Conditions nécessaires d’optimalité locale


✓ Si 𝑥 ∗ ∈ ℝ𝑛 réalise un minimum local de (resp. maximum local) 𝑓 alors :
❖ ∇𝑓(𝑥 ∗ ) = 0 (CN d’optimalité du 1er ordre)

1
❖ H𝑓(𝑥 ∗ ) est semi-définie positive (CN d’optimalité du 2e ordre)
(Resp. H𝑓(𝑥 ∗ ) est semi-définie négative)
• Condition suffisante d’optimalité locale
Soit 𝑋 un ouvert de ℝ𝑛 et 𝑥 ∗ ∈ ℝ𝑛 . Si :
✓ ∇𝑓(𝑥 ∗ ) = 0 et H𝑓(𝑥 ∗ ) est définie positive resp. définie négative) alors 𝑥 ∗ est un
point de minimum local (resp. maximum local) de 𝑓 sur 𝑋.
• Condition suffisante d’optimalité globale Supposons que ∇𝑓(𝑥 ∗ ) = 0
✓ Si 𝑓 est convexe, alors 𝑥 ∗ est un point minimum global de 𝑓.
✓ Si 𝑓 est strictement convexe, alors 𝑥 ∗ est l’unique point minimum global de 𝑓.

Cas différentiable avec contraintes fonctionnelles


Nous nous intéressons maintenant plus particulièrement à la résolution de problèmes d’optimisation
dont le domaine des contraintes 𝑋 est défini par des égalités et/ou des inégalités :

𝑋 = {𝑥 ∈ ℝ𝑛 𝑡𝑒𝑙 𝑞𝑢𝑒 𝜑𝑖 (𝑥) = 0, 𝑔𝑗 (𝑥) ≤ 0, 𝑖 = 1, … , 𝑝 𝑒𝑡 𝑗 = 1, … 𝑞}

Noté vulgairement

𝑋 = {𝑥 ∈ ℝ𝑛 / 𝜑(𝑥) = 0, 𝑔(𝑥) ≤ 0}

où les fonctions 𝜑: ℝ𝑛 → ℝ𝑝 et 𝑔: ℝ𝑛 → ℝ𝑞 sont supposées différentiables sur : ℝ𝑛 . A partir de la


partie suivante, nous travaillons toujours à partir d’un problème d’optimisation écrit sous sa forme
standard :

min 𝐽(𝑥)
𝑥∈ℝ𝑛
(𝑃) { 𝜑𝑖 (𝑥) = 0, 𝑖 = 1, … , 𝑝
𝑠. 𝑐 {
𝑔𝑗 (𝑥) ≤ 0, 𝑗 = 1, … 𝑞

Proposition Le problème (𝑃) est dit convexe si ℎ est affine, 𝑔 convexe et si la fonction objectif 𝐽 est
convexe sur 𝑋.

Problème avec contraintes égalité


Considérons un problème avec contraintes uniquement d’égalité :

min 𝐽(𝑥)
(𝑃𝐸 ) { 𝑥∈ℝ𝑛
𝜑𝑖 (𝑥) = 0, 𝑖 = 1, … , 𝑝

Etape 1 : Qualification des contraintes


Définition (contraintes régulières) Soit 𝑥 ∈ 𝑋. Supposons que 𝜑 de classe 𝐶 1 au voisinage de 𝑥. On
dit que les contraintes du problème (𝑃𝐸 ) sont régulières en 𝑥 ∈ 𝑋, ou que 𝑥 ∈ 𝑋 est régulier, si la
jacobienne 𝐻𝜑(𝑥) des contraintes est surjective

Proposition Le point 𝑥 ∈ 𝑋 est régulier si et seulement si les vecteurs ∇𝜑𝑖 (𝑥), 𝑖 = 1, … , 𝑝, sont
linéairement indépendants.

Proposition (CS de qualification des contraintes) Soit 𝑥 ∈ 𝑋. Si 𝑥 est régulier, alors les contraintes
égalité sont qualifiées au point 𝑥.

2
Etape 2 : Condition nécessaire d’optimalité
Théorème (Lagrange, CN du 1er ordre) Soit 𝐽: ℝ𝑛 → ℝ et 𝜑: ℝ𝑛 → ℝ𝑝 différentiable en 𝑥 ∗ . Supposons
la contrainte 𝜑(𝑥) = 0 qualifiée en 𝑥 ∗ ∈ 𝑋. Si 𝑥 ∗ est un point de minimum local de 𝐽 sur 𝑋, alors il
existe des réel 𝜆1∗ , … , 𝜆∗𝑝 tel que :
𝑝

∇𝐽(𝑥 ∗)
+ ∑ 𝜆∗𝑖 ∇𝜑𝑖 (𝑥 ∗ ) = 0
𝑖=1

𝑇
Le vecteur 𝜆∗ = (𝜆1∗ , … , 𝜆∗𝑝 ) est appelé multiplicateur de Lagrange et est déterminer de façon
unique.

Vocabulaire

• Le vecteur 𝜆∗ est aussi appelé solution duale du problème (𝑃𝐸 ), 𝑥 ∗ solution primale de (𝑃𝐸 )
et (𝑥 ∗ , 𝜆∗ ) solution primale-duale de (𝑃𝐸 ).
• On appelle point stationnaire du problème (𝑃𝐸 ) tout point 𝑥̅ vérifiant les conditions
nécessaires d’optimalité du premier ordre :
𝑝
∇𝐽(𝑥̅ ) + ∑𝑖=1 𝜆̅∇𝜑𝑖 (𝑥̅ ) = 0
𝜑(𝑥̅ ) = 0

Pour un certain multiplicateur 𝜆̅ ∈ ℝ𝑝

Réécriture des conditions d’optimalité à l’aide du Lagrangien

En pratique, on retrouve les conditions d’optimalité du problème (𝑃𝐸 ) en introduisant le Lagrangien


du problème (𝑃𝐸 ) :

𝐿(𝑥; 𝜆) = 𝐽(𝑥) + ∑ 𝜆𝑖 𝜑𝑖 (𝑥) , 𝑥 ∈ ℝ𝑛 , 𝜆 ∈ ℝ𝑝


𝑖=1

Sous l’hypothèse de qualification des contraintes, les conditions d’optimalité de (𝑃𝐸 ) s’écrivent
alors :

∇𝑥 𝐿(𝑥; 𝜆) = 0
{
𝜑(𝑥) = 0

Problème avec contraintes égalité et inégalité


On s’intéresse aux problèmes d’optimisation avec contraintes égalités et inégalités :

min 𝐽(𝑥)
𝑥∈ℝ𝑛
(𝑃) { 𝜑𝑖 (𝑥) = 0, 𝑖 = 1, … , 𝑝
𝑠. 𝑐 {
𝑔𝑗 (𝑥) ≤ 0, 𝑗 = 1, … 𝑞

On note 𝑋 = {𝑥 ∈ ℝ𝑛 𝑡𝑒𝑙 𝑞𝑢𝑒 𝜑𝑖 (𝑥) = 0, 𝑔𝑗 (𝑥) ≤ 0, 𝑖 = 1, … , 𝑝 𝑒𝑡 𝑗 = 1, … 𝑞}, les contraintes sont


dites qualifiées au point 𝑥 ∈ 𝑋 si chacun est qualifiée au sens des définitions vues précédemment à
savoir :

3
Proposition (CS de qualification des contraintes) Les contraintes du problème (𝑃) sont qualifiées au
point 𝑥 ∈ 𝑋 si les gradients des contraintes actives en 𝑥 :

{∇𝜑𝑖 (𝑥), 𝑖 = 1, … , 𝑝} ∪ {∇𝑔𝑖 (𝑥), 𝑖 = 1, … , 𝑞, active}, sont linéairement indépendants

On introduit le Lagrangien du problème (𝑃) :

𝑝 𝑞

𝐿(𝑥; 𝜆) = 𝐽(𝑥) + ∑ 𝜆𝑖 𝜑𝑖 (𝑥) + ∑ 𝜇𝑗 ∇𝑔𝑗 (𝑥) , 𝑥 ∈ ℝ𝑛 , 𝜆 ∈ ℝ𝑝 , 𝜇 ∈ ℝ𝑞


𝑖=1 𝑗=1

Théorème (Lagrange, CN de Karush-Kuhn-Tucker -1951) Soit 𝑥 ∗ ∈ 𝑋 un point admissible du problème


(𝑃) . Supposons que 𝐽: ℝ𝑛 → ℝ et 𝑔: ℝ𝑛 → ℝ𝑝 et 𝜑: ℝ𝑛 → ℝ𝑝 différentiable en 𝑥 ∗ et les contraintes
qualifiées au point 𝑥 ∗ . Si 𝑥 ∗ est un point de minimum local de 𝐽 sur 𝑋, alors il existe 𝜆∗ ∈ ℝ𝑝 et 𝜇∗ ∈
ℝ𝑞 tel que :

∇𝑥 𝐿(𝑥 ∗ ; 𝜆∗ , 𝜇∗ ) = 0
𝜑𝑖 (𝑥 ∗ ) = 0, 𝑖 = 1, … , 𝑝
𝜇𝑗∗ 𝑔𝑗 (𝑥 ∗ ) = 0, 𝑗 = 1, … , 𝑞

{ 𝜇𝑗 ≥ 0, 𝑗 = 1, … , 𝑞

Si de plus le problème (𝑃) est convexe, alors les conditions de KKT sont suffisantes pour que 𝑥 ∗ soit
un point de minimum global de 𝑓 sur 𝑋.

Remarque Le signe des multiplicateurs associés aux contraintes d’inégalités peut changer si le
problème n’est pas sous sa forme standard.

Algorithmes d’optimisation sans contraintes


Méthodes du gradient
L’algorithme du gradient (ou de descente) consiste à minimiser une fonction 𝐽 en partant d’un
« point » de départ 𝑥0 . Pour construire l’itéré suivant 𝑥1 , il faut penser à se rapprocher du minimum
de 𝐽 c'est-à-dire 𝐽(𝑥1 ) < 𝐽(𝑥0 ). On cherche ainsi 𝑥1 tel que 𝑥1 = 𝑥0 + 𝜌1 𝑑1 où 𝑑1 est un vecteur non
nul de ℝ𝑛 qui est la direction de descente et 𝜌1 ∈ ℝ∗+ le pas de descente.

Les deux paramètres 𝜌1 et 𝑑1 peuvent être fixés ou modifiés à chaque itération. Le schéma général
de descente est :

𝑥0 ∈ ℝ𝑛
{ , 𝑑 ∈ ℝ𝑛 \{0} 𝑒𝑡 𝜌𝑘 ∈ ℝ∗+
𝑥𝑘+1 = 𝑥𝑘 + 𝜌𝑘 𝑑𝑘 𝑘

où 𝜌𝑘 et 𝑑𝑘 sont choisis tel que 𝐽(𝑥𝑘 + 𝜌𝑘 𝑑𝑘 ) < 𝐽(𝑥𝑘 ).

Idée
Une idée naturelle pour trouver une direction de descente est de faire un développement de Taylor à
l’ordre 1 de 𝐽 entre les itérés 𝑥𝑘+1 𝑒𝑡 𝑥𝑘

4
ℎ ′ (ℎ)→0
dans ℝ, 𝑓(𝑎 + ℎ) = 𝑓(𝑎) + 𝑓 (𝑎) + 𝑅𝑛 (ℎ) où 𝑅𝑛ℎ→0
1!

dans ℝ𝑛 ,

𝜀(𝑤) → 0
𝐽(𝑥𝑘 + 𝑤) = 𝐽(𝑥𝑘 ) + D(𝐽(𝑥𝑘 )). 𝑤 + ‖𝑤‖𝜀(𝑤) 𝑜ù
𝑤→0

𝐽(𝑥𝑘 + 𝑤) = 𝐽(𝑥𝑘 ) + 〈∇𝐽(𝑥𝑘 ), 𝑤〉 + ‖𝑤‖𝜀(𝑤)

On souhaite que 𝐽(𝑥𝑘 + 𝜌𝑘 𝑑𝑘 ) − 𝐽(𝑥𝑘 ) < 0 ↔ 〈∇𝐽(𝑥𝑘 ), 𝑤〉 < 0 et w=𝜌𝑘 𝑑𝑘 avec 𝜌𝑘 > 0

Le meilleur choix est 𝑑𝑘 = −∇𝐽(𝑥𝑘 )

ainsi l’algorithme de la méthode du gradient est :

𝑘=0
𝐼𝑛𝑖𝑡𝑖𝑎𝑙𝑖𝑠𝑎𝑡𝑖𝑜𝑛 {𝑥0 ∈ ℝ𝑛 𝑓𝑖𝑥é
𝜌0 > 0
𝐵𝑜𝑢𝑐𝑙𝑒 𝑖𝑡é𝑟𝑎𝑡𝑖𝑜𝑛 𝑥𝑘+1 = 𝑥𝑘 − 𝜌𝑘 ∇𝐽(𝑥𝑘 )
𝐶𝑟𝑖𝑡è𝑟𝑒 𝑑′𝑎𝑟𝑟ê𝑡 ‖𝑥𝑘+1 − 𝑥𝑘 ‖ < 𝜀 𝑜𝑢 𝑘 > 𝑁

Avantages et Inconvénients
Cette méthode a pour avantage d’être facile à implémenter mais les conditions de convergences sont
assez lourdes et c’est une méthode assez lente.

Choix du pas et convergence


Pas optimal
La MG à pas optimal propose un pas qui rend 𝐽 minimal le long de la direction choisie, c'est-à-dire 𝜌𝑘
réalise un minimum sur ℝ+ de la fonction 𝜙𝑘 définie par :

𝜙𝑘 (𝜌) = 𝐽(𝑥𝑘 − 𝜌𝑘 ∇𝐽(𝑥𝑘 ))

Théorème

Si 𝑓: ℝ𝑛 → ℝ est elliptique alors la MG à pas optimal converge.

Pas constant et pas variable


Ce sont des stratégies moins couteuses en termes d’opérations élémentaires mais conduisent
généralement à un plus grand nombre d’itérations.

Théorème

Soit 𝑓: ℝ𝑛 → ℝ de classe 𝐶 1 , coercive et strictement convexe, on suppose qu’il existe 𝑀 > 0 tel que

‖∇𝑓(𝑥) − ∇𝑓(𝑦)‖ ≤ 𝑀‖𝑥 − 𝑦‖; ∀ 𝑥, 𝑦 ∈ ℝ𝑛 × ℝ𝑛

alors si on choisit
2
le pas 𝜌𝑘 ∈ [𝛽1 , 𝛽2 ] tel que 0 < 𝛽1 < 𝛽2 < 𝑀 alors la MG converge vers le minimum de 𝑓

5
Méthodes du gradient conjugué
La méthode du gradient conjugué est utilisée pour résoudre les problèmes d’optimisation non
linéaires sans contraintes et aussi pour résoudre les grands systèmes linéaires.

Elle repose sur le concept des directions conjuguées parce que les gradients successifs sont
orthogonaux entre eux et aux directions précédentes.

On va étudier cette méthode dans le cas où 𝐽 est une fonctionnelle quadratique tel que 𝐽(𝑥) =
1
〈𝐴𝑥, 𝑥〉 + 〈𝑏, 𝑥〉 + 𝑐 où 𝐴 ∈ ℳ𝑛 (ℝ) symétrique définie positive, 𝑥, 𝑏 ∈ ℝ𝑛 et 𝑐 ∈ ℝ
2

Définition

Soit 𝐴 ∈ ℳ𝑛 (ℝ) symétrique définie positive. On dit que deux vecteurs (directions) 𝑥 et 𝑦 de ℝ𝑛 sont
𝐴 − 𝑐𝑜𝑛𝑗𝑢𝑔𝑢é𝑠 (ou conjugués par rapport à 𝐴 s’il vérifie 〈𝐴𝑥, 𝑦〉 = 0 𝑜𝑢 𝑥 𝑇 𝐴𝑦 = 0

Important On notera par la suite 〈𝐴𝑥, 𝑦〉 = (𝑥, 𝑦)𝐴

Définition

La méthode du gradient conjugué est définie de la manière suivante :

𝑥0 ∈ ℝ𝑛 𝑓𝑖𝑥é
{
𝑥𝑘+1 = 𝑥𝑘 + 𝛼𝑘 𝑑𝑘

où 𝛼𝑘 est optimal (c’est-à-dire minimise 𝐽 dans la direction 𝑑𝑘 (vu précédemment avec la méthode
du gradient à pas optimal)) et 𝑑1 , 𝑑2 , … , 𝑑𝑛 des directions qui possèdent la propriété d’être
mutuellement conjuguées par rapport à la fonction quadratique.

On note 𝑔𝑘 = ∇𝐽(𝑥𝑘 ) = 𝐴𝑥𝑘 + 𝑏

Calcul de 𝒅𝒌

A chaque étape 𝑘, la direction 𝑑𝑘 est obtenue comme combinaison linéaire du gradient en 𝑥𝑘 et de la


direction précédente, c'est-à-dire :

𝑑𝑘+1 = −∇𝐽(𝑥𝑘+1 ) + 𝛽𝑘+1 𝑑𝑘

Les coefficients 𝛽𝑘+1 étant choisis de telle manière que 𝑑𝑘 soit conjuguée avec toutes les directions
précédentes, autrement dit :

〈𝐴𝑑𝑘+1 , 𝑑𝑘 〉 = 0 ↔ 〈𝐴(−∇𝐽(𝑥𝑘+1 ) + 𝛽𝑘+1 𝑑𝑘 ), 𝑑𝑘 〉 = 0 ↔ −〈𝐴𝑔𝑘+1 , 𝑑𝑘 〉 + 〈𝐴𝛽𝑘+1 𝑑𝑘 , 𝑑𝑘 〉 = 0

↔ −〈𝐴𝑔𝑘+1 , 𝑑𝑘 〉 + 𝛽𝑘+1 〈𝐴𝑑𝑘 , 𝑑𝑘 〉 = 0

〈𝐴𝑔𝑘+1 , 𝑑𝑘 〉
↔ 𝛽𝑘+1 =
〈𝐴𝑑𝑘 , 𝑑𝑘 〉

Calcul de 𝜶𝒌

𝛼𝑘 réalise un minimum sur ℝ+ de la fonction 𝑓𝑘 définie par : 𝑓𝑘 (𝜌) = 𝐽(𝑥𝑘 + 𝛼𝑑𝑘 ).

6
1
on a 𝐽(𝑥𝑘 + 𝛼𝑑𝑘 ) = 𝐽(𝑥𝑘 ) + 𝛼 2 〈𝐴𝑑𝑘 , 𝑑𝑘 〉 + 𝛼〈𝐴𝑥𝑘 + 𝑏, 𝑑𝑘 〉, une brève étude de fonction nous
2
montre alors que la fonction attient son minimum

〈𝐴𝑥𝑘 +𝑏,𝑑𝑘 〉
𝛼𝑘 = − 〈𝐴𝑑𝑘 ,𝑑𝑘 〉
or 𝑑𝑘 = −∇𝐽(𝑥𝑘 ) = −(𝐴𝑥𝑘 + 𝑏)

‖𝑑 ‖2
ainsi 𝛼𝑘 = 〈𝐴𝑑 𝑘
𝑘 ,𝑑𝑘 〉

Méthode de Newton
Cette méthode n’est pas une méthode d’optimisation mais c’est celle de recherche de racine
d’équation non linéaire cependant, elle est applicable dans notre cas. La suite itérative définie par
Newton est :

𝑓(𝑥𝑘 )
𝑥𝑘+1 = 𝑥𝑘 − sur ℝ
𝑓 ′ (𝑥𝑘 )

On remarque que non seulement, il faut assurer la convergence de la suite (𝑥𝑘 )𝑘∈ℕ vers 𝑥 ∗ mais
aussi montrer que cette suite est bien définie c'est-à-dire montrer que 𝑓 ′ (𝑥𝑘 ) ≠ 0 ∀𝑥𝑘 .

En généralisant sur ℝ𝑛 , pour une fonction 𝐹: ℝ𝑛 → ℝ, on suppose que 𝐹(𝑥) = 0 possède au moins
une solution 𝑥 ∗ et que la matrice jacobienne ∇2 𝐹(𝑥 ∗ ) est inversible. Le développement de Taylor à
l’ordre 1 de 𝐽 entre les itérés 𝑥𝑘+1 𝑒𝑡 𝑥𝑘

𝜀(𝑤) → 0
𝐽(𝑥𝑘 + 𝑤) = 𝐽(𝑥𝑘 ) + D(𝐽(𝑥𝑘 )). 𝑤 + ‖𝑤‖𝜀(𝑤) 𝑜ù
𝑤→0

∇𝐽(𝑥𝑘 + 𝑤) = ∇𝐽(𝑥𝑘 ) + ∇2 𝐽(𝑥𝑘 ). 𝑤

𝑤 = −[∇2 𝐹(𝑥𝑘 )]−1 ∇𝐽(𝑥𝑘 )

Le schéma itératif est :

𝑥𝑘+1 = 𝑥𝑘 − [∇2 𝐹(𝑥𝑘 )]−1 ∇𝐽(𝑥𝑘 )

cela revient à résoudre [∇2 𝐹(𝑥𝑘 )]−1 ∇𝐽(𝑥𝑘 ) = 𝛿𝑘 ↔ ∇2 𝐹(𝑥𝑘 )𝛿𝑘 = ∇𝐽(𝑥𝑘 ) puis 𝑥𝑘+1 = 𝑥𝑘 − 𝛿𝑘

ainsi l’algorithme de la méthode de Newton est :

𝑘=1
𝐼𝑛𝑖𝑡𝑖𝑎𝑙𝑖𝑠𝑎𝑡𝑖𝑜𝑛 {
𝑥1 ∈ ℝ𝑛 𝑓𝑖𝑥é
𝐵𝑜𝑢𝑐𝑙𝑒 𝑖𝑡é𝑟𝑎𝑡𝑖𝑜𝑛 𝑥𝑘+1 = 𝑥𝑘 − [∇2 𝐹(𝑥𝑘 )]−1 ∇𝐽(𝑥𝑘 )
𝐶𝑟𝑖𝑡è𝑟𝑒 𝑑′𝑎𝑟𝑟ê𝑡 ‖∇𝐽(𝑥𝑘 )‖ < 𝜀

Avantages

Si le point de départ 𝑥1 est assez proche de la solution optimale 𝑥 ∗ tel que ∇2 𝐹(𝑥 ∗ ) soit définie
positive, alors l’algorithme de Newton converge de façon quadratique vers la solution 𝑥 ∗ c'est-à-dire
que l’on a :

‖𝑥𝑘+1 − 𝑥 ∗ ‖ ≤ 𝛾‖𝑥𝑘 − 𝑥 ∗ ‖2 ∀ 𝛾 > 0

Inconvénients

7
• Cette méthode fonctionne très bien pour les problèmes de petites dimensions 1 ≤ 𝑛 ≤ 10,
lorsqu’on peut calculer facilement la matrice Hessienne H et son inverse. Ce calcul nécessite
des itérations plus nombreuses et couteuses dans les problèmes de grandes tailles.
• Comme 𝑥𝑘+1 = 𝑥𝑘 − [∇2 𝐹(𝑥𝑘 )]−1 ∇𝐽(𝑥𝑘 ), on voit bien que le successeur 𝑥𝑘+1 de 𝑥𝑘 n’est
pas toujours bien défini.
• Même si [∇2 𝐹(𝑥𝑘 )]−1 = 𝐻𝐹(𝑥𝑘 )−1 existe la direction 𝛿𝑘 = −[∇2 𝐹(𝑥𝑘 )]−1 ∇𝐽(𝑥𝑘 ) n’est pas
toujours une direction de descente.
• Si on choisit le point de départ 𝑥0 « assez proche » de 𝑥 ∗ , alors l’algorithme converge vers 𝑥 ∗ .
Ce qui est impossible, dans la pratique, on essaie de s’approcher de 𝑥 ∗ par une méthode de
type gradient puis on applique Newton grâce à sa rapidité.

Théorème

Soit 𝐹: ℝ𝑛 → ℝ de classe 𝐶 2 et 𝑥 ∗ un zéro de 𝐹. On suppose que ce zéro est isolé et que ∇2 𝐹(𝑥 ∗ ) est
inversible, alors il existe une boule 𝐵 fermée centré en 𝑥 ∗ tel que pour tout point 𝑥0 ∈ 𝐵, la suite
(𝑥𝑘 )𝑘∈ℕ converge vers 𝑥 ∗ , il existe 𝛽 ∈ ]0,1[ tel que

‖𝑥𝑘 − 𝑥 ∗ ‖ ≤ 𝛽 𝑘 ‖𝑥0 − 𝑥 ∗ ‖ ∀ 𝑘 > 0

Perspectives
Pour éviter les multiples inconvénients de cette méthode, il existe d’autres méthodes inspirées de
celle de Newton comme la méthode quasi-Newton

Algorithmes d’optimisation avec contraintes


Méthode du gradient projeté
Rappelons le problème de minimisation sous contraintes :

(𝑃) min 𝑓(𝑥)


𝑥∈𝑋

La méthode du gradient projeté s’inspire des méthodes de gradient décrites dans la section
précédente. L’idée de base de cette méthode consiste à suivre la direction de la plus grande descente
comme dans le cas sans contrainte :

𝑥𝑘+1 = 𝑥𝑘 − 𝑠𝑘 ∇𝑓(𝑥𝑘 )

où 𝑠𝑘 > 0 est choisi de sorte que 𝑓(𝑥𝑘+1 ) < 𝑓(𝑥𝑘 ). Toutefois, si 𝑥𝑘 ∈ 𝑋, rien ne garantie que 𝑥𝑘+1
appartient également à 𝑋. Dès que l’on obtient un point non admissible, on projette celui-ci sur
l’ensemble de contraintes 𝑋.

Théorème (Projection sur un convexe) Soit 𝑋 un convexe fermé, non vide de ℝ𝑛 . La projection d’un
point 𝑥 ∈ ℝ𝑛 sur 𝑋, notée 𝑝𝑋 (𝑥), est obtenue comme solution du problème d’optimisation suivant :

1
(𝑃𝑝 ) Minimiser ‖𝑥 − 𝑦‖22 sous la contrainte 𝑦 ∈ 𝑋
2
1
Comme la fonctionnelle 𝑔: 𝑦 ∈ ℝ𝑛 → 2 ‖𝑥 − 𝑦‖22 est convexe et ∇𝑔(𝑦) = 𝑦 − 𝑥, une condition
nécessaire et suffisante (vu précédemment) pour que 𝑥 ∗ = 𝑝𝑋 (𝑥) soit la solution de (𝑃𝑝 ) :

8
∀ 𝑦 ∈ 𝑋, 〈∇𝑔(𝑥 ∗ ), 𝑦 − 𝑥 ∗ 〉 ≥ 0 ↔ 〈𝑥 ∗ − 𝑥, 𝑦 − 𝑥 ∗ 〉 ≥ 0

On remarque en particulier que si 𝑥 ∈ 𝑋, alors nécessairement 𝑥 ∗ = 𝑥.

Remarque

Il est important de remarquer que le calcul du projeté sur 𝑋, peut parfois être aussi difficile que le
problème initial. En effet, 𝑦𝑘 est obtenu en résolvant le problème :

1
min ‖𝑥𝑘 − 𝑠∇𝑓(𝑥) − 𝑦‖22 𝑠. 𝑐. 𝑥 ∈ 𝑋
𝑦∈ℝ𝑛 2

Il s’agit donc de résoudre un problème d’optimisation sur un convexe, avec une fonction objectif
convexe. Lorsque le domaine 𝑋 des contraintes est simple, c’est faisable. Dès que les contraintes ne
le sont pas, le calcul de la projection devient beaucoup plus délicat.

Vérifions que la direction 𝑑𝑘 = 𝑥𝑘+1 − 𝑥𝑘 , si elle est non nulle, est bien une direction de descente de
𝑓 en 𝑥𝑘 .

Lemme soit 𝑓: ℝ𝑛 → ℝ supposé différentiable et 𝑋 ⊂ ℝ𝑛 un convexe fermé, non vide. Notons 𝑥𝑘


l’itéré courant et :

𝑑(𝑠) = 𝑝𝑋 (𝑥𝑘 − 𝑠∇𝑓(𝑥𝑘 ) − 𝑥𝑘 ), 𝑠 > 0

Si 𝑑(𝑠) est non nulle, alors 𝑑(𝑠) est une direction de descente pour tout 𝑠 > 0.

Remarque

La direction 𝑑(𝑠) possède les propriétés suivantes :

• Si 𝑑(𝑠) = 0, alors 𝑝𝑋 (𝑥𝑘 − 𝑠∇𝑓(𝑥𝑘 )) = 𝑥𝑘 . Cela signifie que la direction choisie par
l’algorithme est orthogonale à l’ensemble 𝑋 des contraintes en 𝑥𝑘 . Le point 𝑥𝑘 est alors un
point stationnaire car la condition nécessaire d’optimalité est satisfaite.
• Supposons 𝑑(𝑠) ≠ 0, alors 𝑥𝑘 et 𝑝𝑋 (𝑥𝑘 − 𝑠∇𝑓(𝑥𝑘 )) sont des points admissibles du problème
(𝑃). La convexité de 𝑋 nous garantit alors : ∀ 𝛼 ∈ [0,1], 𝑥𝑘 + 𝛼𝑑(𝑠) ∈ 𝑋.