Asset-V1 MinesTelecom+04006+Session09+Type@Asset+Block@Télécom FBD S4 AnalysePartie2 V2

Analyse 2: Algorithme pour l'optimisation sans
Analyse 2: Algorithme pour
l'optimisation sans contrainte contrainte
Algorithme de
minimisation Joseph Salmon
Algorithme du premier ordre

Choix du pas
Algorithme du second ordre
Septembre 2014
Joseph Salmon
Fondamentaux pour le Big Data c Télécom ParisTech 1/14
Plan du cours
l'optimisation sans contrainte Algorithme de minimisation

Algorithme de Choix du pas

minimisation Algorithme du second ordre
Choix du pas
Joseph Salmon
La descente de gradient : intuition
I Enjeu : minimiser f (dans Rd ) en trouvant un nouveau point

pour lequel f diminue le plus.
I Approximation du premier ordre :
l'optimisation sans contrainte
f (x) ≈ f (x0 ) + h∇f (x0 ), x − x0 i

Algorithme de
minimisation I Solution : il faut s'aligner avec la direction opposée au
Algorithme du premier ordre 0
gradient x − x0 = −α∇f (x )
Choix du pas
Algorithme du second ordre α>0 contrôle la vitesse avec laquelle on progresse dans la
direction. Ce paramètre est appelé le pas de la méthode.
Joseph Salmon
La descente de gradient : algorithme
Data: initialisation x0 , nb max. d'itérations T , critère d'arrêt ε, pas α
Result: un point xT proche du minimum de la fonction f
for 1 ≤ t ≤ T do
xt+1 ← xt − α∇f (xt )
STOP si critère d'arrêt inférieur à ε
end
Algorithme de
minimisation Critères d'arrêts possibles :
Algorithme du premier ordre I k∇f (xt )k ≤ ε
Choix du pas
Algorithme du second ordre I f (xt+1 ) − f (xt ) ≤ ε
kxt+1 −xt k
I kxt+1 − xt k ≤ ε ou
kxt k ≤ε
Joseph Salmon
xt+1 ← xt − α∇f (xt )
end
Algorithme de
Choix du pas
kxt+1 −xt k
kxt k ≤ε
Joseph Salmon
xt+1 ← xt − α∇f (xt )
end
Algorithme de
Choix du pas
kxt+1 −xt k
kxt k ≤ε
Joseph Salmon
xt+1 ← xt − α∇f (xt )
end
Algorithme de
Choix du pas
kxt+1 −xt k
kxt k ≤ε
Joseph Salmon
xt+1 ← xt − α∇f (xt )
end
Algorithme de
Choix du pas
kxt+1 −xt k
kxt k ≤ε
Joseph Salmon
xt+1 ← xt − α∇f (xt )
end
Algorithme de
Choix du pas
kxt+1 −xt k
kxt k ≤ε
Joseph Salmon
Attention au choix du pas (cas 1D)
xt+1 = xt − α∇f (xt )

α : paramètre crucial pour obtenir la convergence vers un
minimum
Algorithme de
minimisation
Choix du pas
Divergence : pas beaucoup trop grand
Joseph Salmon
xt+1 = xt − α∇f (xt )

minimum
Algorithme de
minimisation
Choix du pas
Convergence lente : pas trop grand
Joseph Salmon
xt+1 = xt − α∇f (xt )

minimum
Algorithme de
minimisation
Choix du pas
Convergence rapide : bon pas
Joseph Salmon
xt+1 = xt − α∇f (xt )

minimum
Algorithme de
minimisation
Choix du pas
Convergence lente : pas trop petit
Joseph Salmon
xt+1 = xt − α∇f (xt )

minimum
Algorithme de
minimisation
Choix du pas
Trop grand pas Trop petit pas
Joseph Salmon
Recherche linéaire I
Parfois, il faut choisir le pas à chaque itération : αt évolue avec

les itérations. On note d
t = −∇f (xt ) une direction de descente

Règle de la minimisation
Minimisation sur l'amplitude : il faut résoudre le problème 1D :

Algorithme de
minimisation f (xt + αt dt ) = min f (xt + αdt )
Algorithme du premier ordre α≥0
Choix du pas
Algorithme du second ordre Rem: Pour cela il faut que le problème 1D soit simple à résoudre
Joseph Salmon
Recherche linéaire II
Règle d'Armijo (ou du backtracking géométrique)
En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

αt = β mt s : où mt est le premier entier non nul tel que
f (xt + β m sdt ) − f (xt ) ≤ σβ m sh∇f (xt ), dt i = −σβ m sk∇f (xt )k2
Algorithme de
minimisation
Choix du pas
Joseph Salmon

Algorithme de
minimisation
Choix du pas
Joseph Salmon

Algorithme de
minimisation
Choix du pas
Joseph Salmon

Algorithme de
minimisation
Choix du pas
Joseph Salmon

Algorithme de
minimisation
Choix du pas
Joseph Salmon

Algorithme de
minimisation
Choix du pas
Joseph Salmon

Algorithme de
minimisation
Choix du pas
Joseph Salmon
Recherche linéaire III

Règle d'Armijo (ou du backtracking )
l'optimisation sans contrainte En pratique on fait souvent les choix, cf. Bertsekas (1999) :
I s=1
Algorithme de β = 1/2 β = 1/10
minimisation ou
I
Algorithme du premier ordre I σ∈ [10−5 , 10−1 ]

Choix du pas
Joseph Salmon
Détour par la méthode de Newton
Objectif : la méthode de Newton (ou Newton-Raphson) sert à

trouver les zéros d'une fonction, i.e., résoudre f (x) = 0
Analyse 2: Algorithme pour L'idée : approximation locale par une fonction ane
f (x) ≈ f (x0 ) + f 0 (x0 )(x − x0 )

Algorithme de
minimisation La règle de mise à jour est donc :

Choix du pas f (xt )
xt+1 ← xt −
f 0 (xt )
Joseph Salmon
Détour par la méthode de Newton II
Data: point initial x0 , nombre max. d'itérations T , critère d'arrêt ε
for 1 ≤ t ≤ T − 1 do
f (xt )
xt+1 ← xt − f 0 (xt )
end
Algorithme de
minimisation
Choix du pas
Joseph Salmon
for 1 ≤ t ≤ T − 1 do
f (xt )
xt+1 ← xt − f 0 (xt )
end
Algorithme de
minimisation
Choix du pas
Joseph Salmon
for 1 ≤ t ≤ T − 1 do
f (xt )
xt+1 ← xt − f 0 (xt )
end
Algorithme de
minimisation
Choix du pas
Joseph Salmon
for 1 ≤ t ≤ T − 1 do
f (xt )
xt+1 ← xt − f 0 (xt )
end
Algorithme de
minimisation
Choix du pas
Joseph Salmon
for 1 ≤ t ≤ T − 1 do
f (xt )
xt+1 ← xt − f 0 (xt )
end
Algorithme de
minimisation
Choix du pas
Joseph Salmon
Méthode de Newton pour la minimisation
Localement, en un point x0 une fonction deux fois diérentiable
ressemble à :
1
f (x) ≈ f (x∗ ) + h∇f (x∗ ), x − x∗ i + (x − x∗ )> ∇2 f (x∗ )(x − x∗ )
2
l'optimisation sans contrainte I Enjeu : minimiser en x l'approximation (quadratique)

précédente
Algorithme de I Solution : CNO
minimisation
Algorithme du premier ordre ∇f (x∗ ) + ∇2 f (x∗ )(x − x∗ ) = 0
Choix du pas
I Nouvelle règle de mise à jour :
xt+1 ← xt − (∇2 f (xt ))−1 ∇f (xt )
Rem: C'est donc la méthode de Newton appliquée à la recherche

de zéros d'une approximation du gradient de f
Joseph Salmon
Méthode de Newton : algorithme
for 1 ≤ t ≤ T − 1 do
xt+1 ← xt − (∇2 f (xt ))−1 ∇f (xt )
end
Algorithme de
minimisation
Choix du pas
Joseph Salmon
for 1 ≤ t ≤ T − 1 do
xt+1 ← xt − (∇2 f (xt ))−1 ∇f (xt )
end
Algorithme de
minimisation
Choix du pas
Joseph Salmon
for 1 ≤ t ≤ T − 1 do
xt+1 ← xt − (∇2 f (xt ))−1 ∇f (xt )
end
Algorithme de
minimisation
Choix du pas
Joseph Salmon
for 1 ≤ t ≤ T − 1 do
xt+1 ← xt − (∇2 f (xt ))−1 ∇f (xt )
end
Algorithme de
minimisation
Choix du pas
Joseph Salmon
for 1 ≤ t ≤ T − 1 do
xt+1 ← xt − (∇2 f (xt ))−1 ∇f (xt )
end
Algorithme de
minimisation
Choix du pas
Joseph Salmon
Références I

D. P. Bertsekas.
Nonlinear programming.
Algorithme de Athena Scientic, 1999.
minimisation
Choix du pas
Joseph Salmon

Asset-V1 MinesTelecom+04006+Session09+Type@Asset+Block@Télécom FBD S4 AnalysePartie2 V2

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Asset-V1 MinesTelecom+04006+Session09+Type@Asset+Block@Télécom FBD S4 AnalysePartie2 V2

Transféré par

Droits d'auteur :

Formats disponibles

Analyse 2: Algorithme pour l'optimisation sans

Analyse 2: Algorithme pour

l'optimisation sans contrainte contrainte

Algorithme du premier ordre

Analyse 2: Algorithme pour

l'optimisation sans contrainte Algorithme de minimisation

Algorithme de Choix du pas

I Enjeu : minimiser f (dans Rd ) en trouvant un nouveau point

f (x) ≈ f (x0 ) + h∇f (x0 ), x − x0 i

xt+1 = xt − α∇f (xt )

l'optimisation sans contrainte

Divergence : pas beaucoup trop grand

xt+1 = xt − α∇f (xt )

l'optimisation sans contrainte

Convergence lente : pas trop grand

xt+1 = xt − α∇f (xt )

l'optimisation sans contrainte

Convergence rapide : bon pas

xt+1 = xt − α∇f (xt )

l'optimisation sans contrainte

Convergence lente : pas trop petit

xt+1 = xt − α∇f (xt )

l'optimisation sans contrainte

Trop grand pas Trop petit pas

Parfois, il faut choisir le pas à chaque itération : αt évolue avec

l'optimisation sans contrainte

Minimisation sur l'amplitude : il faut résoudre le problème 1D :

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

l'optimisation sans contrainte

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

l'optimisation sans contrainte

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

l'optimisation sans contrainte

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

l'optimisation sans contrainte

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

l'optimisation sans contrainte

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

l'optimisation sans contrainte

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

l'optimisation sans contrainte

Analyse 2: Algorithme pour

Algorithme du premier ordre I σ∈ [10−5 , 10−1 ]

Objectif : la méthode de Newton (ou Newton-Raphson) sert à

f (x) ≈ f (x0 ) + f 0 (x0 )(x − x0 )

Algorithme du premier ordre

l'optimisation sans contrainte I Enjeu : minimiser en x l'approximation (quadratique)

xt+1 ← xt − (∇2 f (xt ))−1 ∇f (xt )

Rem: C'est donc la méthode de Newton appliquée à la recherche

Analyse 2: Algorithme pour

l'optimisation sans contrainte

Vous aimerez peut-être aussi

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir

En xant s > 0, σ ∈]0, 1[, et β ∈]0, 1[, il s'agit de choisir