Yannick Privat
(yannick.privat@math.cnrs.fr)
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 1 / 18
Plan de la séance
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 2 / 18
Rappels de la séance précédente
Sommaire
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 3 / 18
Rappels de la séance précédente
∂f ∂f
où ∇f (x0 ) est le gradient de f en x0 , i.e. le vecteur ( ∂x (x0 ), · · · , ∂xn
(x0 )).
! Supposons que f est deux fois différentiable en x . Alors, pour tout h ∈ R ,
1
n
0
1
f (x0 + h) − f (x0 ) = h∇f (x0 ), hi + hHessf (x0 )h, hi + o (khk2 )
2 h→0
où Hess f (x0 ) est la matrice de taille n × n des dérivées secondes de f évaluées en
x0 , i.e. 2
∂ f
Hess f (x0 ) = (x0 )
∂xi ∂xj 1≤i,j≤n
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 4 / 18
Rappels de la séance précédente
Existence de solutions
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 5 / 18
Rappels de la séance précédente
f est dite strictement convexe si l’inég. ci-dessus est stricte pour x 6= y , t ∈]0, 1[.
f : Rn −→ R
x 7−→ f (x) = 12 hAx, xi − hb, xi + c,
avec A ∈ Sn (R), b ∈ Rn et c ∈ R.
On montre que f est convexe si, et seulement si A est semi-définie positive, et
strictement convexe si, et seulement si A est définie positive.
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 6 / 18
Rappels de la séance précédente
Caractérisation de la convexité
Deux théorèmes à savoir utiliser
Unicité en optimisation
Théorème.
Soit le problème inf f (x) avec f et K convexes (éventuellement de dimension infinie).
x∈K
Alors,
1 tout minimum local est un minimum global.
2 si f est strictement convexe, il y a au plus un minimum.
f : Rn −→ R
x 7−→ f (x) = 12 hAx, xi − hb, xi + c,
avec A ∈ Sn (R), b ∈ Rn et c ∈ R.
1) Montrer que f est coercive et strictement convexe sur Rn .
2) En déduire que le problème
infn f (x)
x∈R
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 8 / 18
Rappels de la séance précédente
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 9 / 18
Conditions d’optimalité à l’ordre 2
Sommaire
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 10 / 18
Conditions d’optimalité à l’ordre 2
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 11 / 18
Conditions d’optimalité à l’ordre 2
Comme précédemment, on remplace h par εh, h quelconque, ε petit, puis on divise par ε2
et on fait tendre ε vers 0.
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 11 / 18
Conditions d’optimalité à l’ordre 2
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 12 / 18
Conditions d’optimalité à l’ordre 2
Remarque
Le caractère “semi-défini positif” de la hessienne en x ∗ ne suffit pas pour conclure,
comme en atteste l’exemple f (x) = x 3 . En revanche, le caractère “défini-positif” de la
hessienne n’est pas nécessaire, comme en témoigne l’exemple f (x) = x 4 .
On rappelle qu’un point critique qui n’est pas un extremum local porte le nom de point
selle.
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 12 / 18
Conditions d’optimalité à l’ordre 2
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 12 / 18
Conditions d’optimalité à l’ordre 2
Lorsque N = 1, la formule de Taylor Mac-Laurin coı̈ncide avec la formule des accroissements finis
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 12 / 18
Conditions d’optimalité à l’ordre 2
Exemple
On peut caractériser les points critiques (min local/max local/point selle) de la fonction
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 12 / 18
Conditions d’optimalité à l’ordre 2
Exercices
f (x, y ) = x 4 + y 4 − 2(x − y )2 .
3 Même question avec la fonction g définie sur R3 par
g (x, y , z) = x 4 + y 2 + z 2 − 4x − 2y − 2z + 4
4 Même question avec la fonction h définie sur R3 par
h(x, y , z) = x 4 + 2y 2 + 3z 2 − yz − 23y + 4x − 5.
5 Etudier les extrema locaux de la fonction k définie sur R3 par
y2 z2 2
k(x, y , z) = x + + + .
4x y z
,→ On commencera par déterminer les points critiques de ces fonctions.
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 13 / 18
Algorithmes pour l’optimisation SANS contrainte
Sommaire
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 14 / 18
Algorithmes pour l’optimisation SANS contrainte
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 15 / 18
Algorithmes pour l’optimisation SANS contrainte
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 16 / 18
Algorithmes pour l’optimisation SANS contrainte Le cas de la dimension un
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 16 / 18
Algorithmes pour l’optimisation SANS contrainte Le cas de la dimension un
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 16 / 18
Algorithmes pour l’optimisation SANS contrainte Le cas de la dimension un
Méthode de Newton
f (xn )
xn+1 = xn −
f 0 (xn )
converge vers α à vitesse quadratique (i.e. il existe
C > 0 telle que pour tout n,
|xn+1 − α| ≤ C |xn − α|2 ).
La méthode de Newton n’est pas à proprement parler une méthode d’optimisation. C’est une
méthode de recherche de zéros d’une fonction f : R → R.
J : Rn → R, x (k) ∈ Rn et d (k) ∈ Rn .
On résout q 0 (ρ) = 0.
Pour appliquer la méthode de Newton, on utilisera le fait que
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 16 / 18
Algorithmes pour l’optimisation SANS contrainte Méthodes de type gradient
Méthodes de gradient
Le principe
choisir x (0) ∈ Rn
avec d (k) ∈ Rn∗ et ρ(k) > 0.
calculer x (k+1) = x (k) + ρ(k) d (k)
J(x (k+1) ) = J(x (k) + ρ(k) d (k) ) = J(x (k) ) + ρ(k) ∇J(x (k) ) · d (k) + o(ρ(k) ).
Puisque l’on désire avoir J(x (k+1) ) < J(x (k) ), on est conduit à choisir
d (k) = −∇J(x (k) ), de sorte que
2
J(x (k+1) ) − J(x (k) ) = −ρ(k)
∇J(x (k) )
+ o(ρ(k) ).
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 17 / 18
Algorithmes pour l’optimisation SANS contrainte Méthodes de type gradient
Méthodes de gradient
Choix des critères d’arrêt
Lorsque l’on travaille sur une résolution numérique d’un problème, on se donne en général
deux critères d’arrêt :
on s’arrête lorsque
x (k+1) − x (k)
≤ ε.
(concrètement, tant que
x (k+1) − x (k)
> ε, on calcule l’itéré suivant)
puisque la convergence n’est pas toujours assurée, une règle de base est de fixer un
nombre maximum d’itérations k max .
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 17 / 18
Algorithmes pour l’optimisation SANS contrainte Méthodes de type gradient
Méthodes de gradient
La méthode obtenue avec le choix d (k) = −∇J(x (k) ) est appelée méthode du gradient.
poser k = 0
choisir x (0)
tant que (
x (k+1) − x (k)
≥ ε) et (k ≤ k max ) faire
Même si ces méthodes sont conceptuellement très simples et qu’elles peuvent être pro-
grammées directement, elles sont souvent lentes dans la pratique.
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 17 / 18
Algorithmes pour l’optimisation SANS contrainte Méthodes de type gradient
Méthodes de gradient
Choix du pas
En résumé :
Gradient à pas fixe Gradient à pas constant
ρ > 0 est fixé. 0
x est donné.
0
x est donné. x n+1 = x n + ρn d n
x n+1 = x n + ρd n d n = −∇f (x n )
n
d = −∇f (x n ) ρn = min Jn (x n + ρ.d n ).
ρ∈R
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 17 / 18
Algorithmes pour l’optimisation SANS contrainte Méthodes de type gradient
Méthodes de gradient
Cas des fonctions quadratiques
J : Rn −→ R
x 7−→ f (x) = 12 hAx, xi − hb, xi + c,
avec A ∈ Sn (R), b ∈ Rn et c ∈ R.
Rappelons que ∇J(x) = Ax − b.
Gradient à pas fixe : Supposons que la matrice A est symétrique définie positive. La
méthode de gradient à pas fixe est convergente, sous réserve que le pas de descente
ρ vérifie
2
0<ρ< ,
λmax
avec λmax la plus grande valeur propre de A.
Gradient à pas optimal : Si la matrice A est symétrique définie positive, alors la
méthode de gradient à pas optimal est convergente.
De plus, le pas optimal a pour expression
kd (k) k2
ρ(k) = , où d (k) = Ax (k) − b.
hAd (k) , d (k) i
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 17 / 18
Algorithmes pour l’optimisation SANS contrainte Méthodes de type gradient
Méthodes de gradient
La méthode du gradient conjugué pour une fonction quadratique
Ceci signifie que ces deux vecteurs sont orthogonaux pour le produit scalaire associé à la matrice
A, défini par (x, y )A = Ax · y , ∀(x, y ) ∈ Rn × Rn .
Imaginons que l’on soit capable de trouver n directions conjuguées {d (0) , ..., d (n−1) }. Alors,
{d (0) , ..., d (n−1) } est une base de Rn et on a le résultat suivant.
Proposition.
Le point x (k) est le minimum de J sur le sous-espace affine passant par x (0) engendré par
les vecteurs {d (0) , ..., d (k−1) }.
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 17 / 18
Algorithmes pour l’optimisation SANS contrainte Méthodes de type gradient
Méthodes de gradient
sinon
si (k = 0) alors poser d (k) = r (k)
sinon
(r (k) , d (k−1) )A
calculer α(k) = − 2
et poser d (k) = r (k) + α(k) d (k−1)
kd (k−1) kA
fin si
(r (k) , d (k) )
calculer ρ(k) = − 2
et poser x (k+1) = x (k) + ρ(k) d (k)
kd (k) kA
calculer r (k+1) = Ax (k+1) − b
poser k = k + 1
fin si
fin tant que
Un exemple numérique
1.5
0.5
−0.5
−1
−1.5
−2
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2
Y. Privat (CNRS & Univ. Paris 6) ENSEM (2015) - Séance 3 Séance 3, mars 2015 18 / 18