Académique Documents
Professionnel Documents
Culture Documents
ECC
Abdelilah Hakim
17/10/2022
J ′ (u) = 0
Proposition
Soit ϕ(l, d) = J (un + ld). On suppose J ′ (un ) ̸= 0.
J ′ (un )
et ce minimum est atteint pour d = − .
∥J ′ (un )∥
Preuve
On note que ϕ′ (0, d) = (J ′ (un ) , d). On a, alors
′
ϕ (0, d) ≥ −
d
||J ′ (un )
Théorème
Soit J une fonctionnelle α-convexe sur un espace de Hilbert V , telle que J ′
est uniformément continue sur tout borné.
u n+1 = u n − µn J ′ (u n ) ,
Preuve
L’agorithme de gradient à pas optimal est défini par la suite
u n+1 = u n − µJ ′ (u n )
ϕ′ (µ) = − J ′ u n − µJ ′ (u n ) , J ′ (u n ) .
effet
J ′ u n − µ1 J ′ (u n ) − J ′ u n − µ2 J ′ (u n ) , u n − µ1 J ′ (u n ) − u n + µ2 J ′ (u
≥ α∥u n − µ1 J ′ (u n ) − u n + µ2 J ′ (u n ) ∥2
2
= α (µ2 − µ1 )2
J ′ (u n )
.
On a alors
2
ϕ′ (µ1 ) − ϕ′ (µ2 ) , µ1 − µ2 ≥ α (µ2 − µ1 )2
J ′ (u n )
d’où l’ α-convexité de ϕ.
Ainsi
′ n
J ′ (u n ) − J ′ u n+1
.
J (u )
≤
On a alors
′ n
2 12 q
u n − u n+1
≤
J (u )
≤ C
C J (u n ) − J (u n+1 ).
α
Par la coercivité on a
J ′ (u n ) − J ′ (u), u n − u ≥ α ∥u n − u∥2 .
α ∥u n − u∥2 ≤
J ′ (u n )
· ∥u n − u∥
ce qui implique
1
J ′ (u n )
∥u n − u∥ ≤
α
donc 1
n 1 2 2
q
||u − u∥ ≤ C J (u n ) − J (u n+1 )
α α
et donc la suite u n converge vers u.
avec m > 0.
On remarque que ces conditions sont telles que iii) → ii) → i).
Ce résultat provient de l’uniforme continuité sur un compact d’une
fonctionnelle continue en dimension finie.
(FSTG) Quelques algorithmes en Optimisation sans contraintes 17/10/2022 13 / 59
Cas d’une fonction quadratique elliptique
Preuve
On utilise le fait que ∇J (uk ) et ∇J (uk+1 ) sont orthogonaux.
On a alors
⟨∇J (u + 1) , ∇J (uk )⟩ = 0
= ⟨A (uk − µk (Ak − b)) − b, Auk − b⟩
Remarque
Si J n’est pas α-convexe :
Itérations : pour n ≥ 0
u n+1 = u n − µJ ′ (u n ) ,
Théorème
On suppose que J est α-convexe, différentiable et que J ′ est Lipschitzien
sur V : il existe L > 0 tel que
′
J (v ) − J ′ (w )
≤ L∥v − w ∥
∀v , w ∈ V .
Preuve
On écrit u n+1 − u n = −µJ ′ (u n )
Remarque
Si J est C 2 , alors α-convexité est équivalente à
J ′′ (u)(w , w ) ≥ α∥w ∥2 pour tout u, w ∈ V
min J(x ),
x ∈E
On peut identifier E à Rd .
∇J (xk )⊤ (xk − x⋆ )
1
gk⊤ (xk − x⋆ ) = (xk − xk+1 )⊤ (xk − x⋆ ) . (4)
γ
K −1 −1
γ KX 1
gk⊤ (xk − x⋆ ) = ∥gk ∥2 + ∥x0 − x⋆ ∥2 − ∥xK − x⋆ ∥2
X
k=0
2 k=0 2γ
−1
γ KX 1
≤ ∥gk ∥2 + ∥x0 − x⋆ ∥2
2 k=0 2γ
(FSTG) Quelques algorithmes en Optimisation sans contraintes 17/10/2022
(6)
24 / 59
Taux de convergence
D’après (3) :
J (xk ) − J (x⋆ ) ≤ gk⊤ (xk − x⋆ )
on obtient
K −1 −1
γ KX 1
∥gk ∥2 + ∥x0 − x⋆ ∥2
X
(J (xk ) − J (x⋆ )) ≤ (7)
k=0
2 k=0 2γ
On suppose que :
H1) J est minorée c.a.d il existe f0 ∈ R tel que J(x ) ≥ f0 pour tout x ∈ E.
Théorème
Sous les hypothèses (H1) et (H2) la suite (xk )k≥0 ⊂ E vérifie les propriétés
suivantes :
2) Pour tout K
q 1
min ∥∇J (xk )∥ ≤ 2L (J (x0 ) − f0 ) √
0≤k≤K −1 K
3) Les points d’accumulation de J, s’ils existent, vérifient :
.
(FSTG) Quelques algorithmes en Optimisation sans contraintes 17/10/2022 27 / 59
Fonctions convexes à gradient Lipschitsienne
Preuve
1 ∇J (x ).
Soit uk = L k
L
J (xk+1 ) = J (xk − uk ) ≤ J (xk ) − ⟨∇J (xk ) , uk ⟩ + ∥uk ∥2 .
2
Ce qui donne :
1 L 1 1
J (xk )−J (xk+1 ) ≥ ∥∇J (xk )∥2 − 2 ∥∇J (xk )∥2 = ∥∇J (xk )∥2 .
L 2L 2L
Ce qui montre que la suite ( J (xk ) ) est décroissante.
Ce qui montre que la série du terme général ∥∇J (xk )∥2 converge.
D’où
∥∇J (xk )∥2 → 0
On suppose que x est un point d’accumulation de la suite (xk )
Il existe alors une sous suite, (xkℓ ) de (xk ) qui converge vers x .
Remarque
p √
La quantité 2L (J (x0 ) − f0 )/ K est indépendante de la dimension
de E.
Ce qui explique qu’on peut utiliser ces algorithmes pour des
problèmes d’optimisation de grande taille.
Par exemple en machine learning où la dimension est de l’ordre des
millions voir des milliard.
Preuve
D’après l’inéquation ( 7), on a
K −1
X γ 2 1 2
(J (xk ) − J (x⋆ )) ≤ B K+ R ,
k=0
2 2γ
γ 2 R2
B K+
q(γ) =
2 2γ
√ √
Ce qui donne q(R/(B K )) = RB K . Pour avoir le résultat on divise
par K .
R 2B2
K≥
ε2
2) Itération k
xk+1 = xk − ρk ∇J (xk ) ;
3) Critère d’arrêt : Si ∥xk+1 − xk ∥ ≤ ε STOP
Sinon, on pose k = k + 1 et on retourne à 2 .
xk+1 = xk − ρk ∇J (xk )
J (xk )
xk+1 := xk − , k ≥ 0. (8)
J ′ (xk )
Exemple : Soit J(x ) = x 2 − R, où R ∈ R+ .
√ √
La fonction J a deux racines , R and − R.
√
Si par exemple on prend x0 = R, On souhaite converger vers R
rapidement. Dans ce cas (8) s’écrit ;
xk2 − R 1 R
xk+1 = xk − = xk + . (9)
2xk 2 xk
(FSTG) Quelques algorithmes en Optimisation sans contraintes 17/10/2022 37 / 59
Convergence de la suite
√ √ 2K 1 2K
xK − R ≤ x0 − R < , K ≥ 0. (12)
2
√
1
Pour avoir xK − R < ε on a besoin de K = log log ε étapes.
Soit
1
J(x) = x⊤ Mx − q⊤ x + c
2
où M ∈ Rn×n est une matrice symetrique inversible et q ∈ Rn , c ∈ R.
∇J (xk ) + ∇2 J (xk ) (x − xk ) = 0
−1
ce qui donne x = xk − ∇2 J (xk ) ∇J (xk )
l’inversion du Hessien de J en xk .
(FSTG) Quelques algorithmes en Optimisation sans contraintes 17/10/2022 43 / 59
Algorithme de la méthode de Newton
Remarque
Nécessite d’inverser un système linéaire de matrice J ′′ (xk ).
Les zéros de J ′ peuvent être des minima, des maxima ou des points
selle.
Théorème
Soit x ∈ Rn 7→ J(x ) ∈ R deux fois différentiable, possédant un unique
minimum global x ∗
En utilisant ∇J (x ∗ ) = 0,on a
C ∗
∇ J (x ∗ ) (x ∗ − xk+1 )
≤ ∥x − xk ∥2 + C ∥x ∗ − xk ∥ ∥xk+1 − x ∗ ∥
2
2
(16)
C ∗
λ ∥x ∗ − xk+1 ∥ ≤ ∥x − xk ∥2 + C ∥x ∗ − xk ∥ ∥xk+1 − x ∗ ∥ (17)
2
On a ∥xk − x ∗ ∥ ≤ 3C
2λ
. Pour tous les indices p > k suivants on a
∗ 2λ
encore ∥xp − x ∥ ≤ 3C .
C
(λ − C ∥xk − x ∗ ∥) ∥xk+1 − x ∗ ∥ ≤ ∥xk − x ∗ ∥2
2
d’où ∥xk+1 − x ∗ ∥ ≤ 2λ
3C .
3C
∥xk+1 − x ∗ ∥ ≤ ∥xk − x ∗ ∥2 (18)
2λ
En prenant le logarithme de l’inégalité précédente, on obtient
3C
ln ∥xk+1 − x ∗ ∥ ≤ ln + 2 ln ∥xk − x ∗ ∥
2λ
En prenant le logarithme de l’inégalité précédente, on obtient
3C
ln ∥xk+1 − x ∗ ∥ ≤ ln + 2 ln ∥xk − x ∗ ∥
2λ
wk = gk + αk wk−1 ,
2) Itération k
a) Si gk = 0 STOP ;
g0 si k=0 (g ,Awk−1 )
b) wk = avec αk = − Awk ,w .
gk + αk wk−1 si k≥1 ( k−1 k−1 )
(gk ,wk )
ρk = (Awk ,wk )
xk+1 = xk − ρk wk ,
gk+1 = Axk+1 − b.
c) k = k+1
(FSTG) Quelques algorithmes en Optimisation sans contraintes 17/10/2022 56 / 59
Gradient conjugué : Cas linéaire
Théorème
La méthode du gradient conjugué trouve le minimum d’une fonction
quadratique J, où A est symétrique, définie positive, en au plus n
itérations où n est l’ordre de A.
Remarque
Montrons que
Cette méthode est très stable même pour des matrices mal
conditionnées. Elle demande 2n3 opérations dans le cas d’une matrice
pleine et de n itérations. Pour une matrice creuse, le nombre
d’opérations diminue beaucoup.
1. Initialisation
k = 0 : choix de x0 dans Rn , de ε > 0 et calcul de g0 = ∇J (x0 )
2. Itération k
(a) Si ∥gk ∥ ≤ ε, STOP ;
(b) Sinon
( :
g0 si k = 0 2
wk = avec αk = ∥g∥gk ∥∥2 .
gk + αk wk−1 si k ≥ 1 k−1
5. xk+1 = xk − ρk wk , k = k + 1.