Académique Documents
Professionnel Documents
Culture Documents
2.1 Introduction
Dans ce chapitre nous allons étudier les problèmes d’optimisation dans le cas où S = Rn
muni du produit scalaire usuel et lorsqu’il n’y a pas de contraintes : on effectue la minimisation
de la fonction f sur tout l’espace.
Soit f : S → R une fonction continûment différentiable, avec S ⊆ R . n
Définition 2.1
On appelle problème de minimisation sans contraires le problème (P ) suivant :
(P ) min f (x) : x ∈ Rn .
Définition 2.2
1. On dit que x∗ est un minimum global(resp un maximum global) de f sur S si
2. On dit que x∗ est un minimum global strict (resp un maximum global strict
) de f sur S si
4. On dit que x∗ est un minimum local strict (resp un maximum local strict )
de f sur S, s’il existe r > 0 tel que
B(r, x ) = {x ∈ R : kx − x k ≤ r}
∗ n ∗
31
2.1. INTRODUCTION 32
k.k, désigne la norme de R . Nous donnons dans les figures au dessus une illustration des
n
différents cas.
On s’intéressera essentiellement à la recherche des points réalisant des minima car la re-
cherche des maxima peut se ramener à celle des minima comme le montre la proposition sui-
vante :
Proposition 2.1
Si x∗ réalise un maximum (local ou global) de f sur S, x∗ réalise un minimum (local ou
global) de −f sur S. Plus précisément
Démonstration. Donnons la preuve pour un maximum global : c’est exactement la même pour
un maximum local.
Soit x∗ tel que f (x∗ ) = max {f (x), x ∈ S}. On a donc
La convexité est une condition suffisante assurant que tout minimum local est aussi global.
Théorème 2.1
Soient S un ensemble convexe de Rn et f une fonction convexe de S dans R. Alors, tout
minimum local de f est aussi global.
Démonstration. Soit x∗ un minimum local. Raisonnons par absurde et supposons que x∗ n’est
pas un minimum global, donc
∃x ∈ S : f (x) < f (x ) .
∗
(2.1)
On peut donc choisir un λ suffisamment petit dans ]0, 1[ tel que y = x∗ + λ (x − x∗ ) soit dans
B (r, x∗ ). De la convexité de f on déduit que
f (y) = f (x∗ + λ (x − x∗ )) ≤ (1 − λ) f (x∗ ) + λf (x) ,
de la relation (2.1), on aura
f (y) < (1 − λ) f (x∗ ) + λf (x∗ ) = f (x∗ ) .
Ceci étant en contradiction avec le fait que x∗ est un minimum local.
2.2.1 Existence
Nous voyons dans cette section deux conditions suffisantes d’existence d’extrema globaux :
la compacité du domaine et la coercivité de la fonction.
Pour une fonction f et un ensemble S quelconques, la solution du problème (2.2) peut
ne pas existée. Cependant, si S est un sous ensemble propre de Rn . le théorème classique de
Weierstrass ci-dessous donne une condition suffisante assurant l’existence de la solution.
Théorème 2.2. [Weierstrass](Compacité du domaine)
Soient S un compact (i.e fermé et borné ) de Rn et f : S −→ R. Si f est continue alors
f atteint ces bornes (i.e f admet un minimum ainsi qu’un maximum global sur S) c.à.d
et
∃x∗∗ ∈ S : sup f (x) = max f (x) = f (x∗∗ ) .
x∈S x∈S
Démonstration. L’image d’un compact par une application continue est un compact. Ainsi f (S)
est un compact de R, c’est - à- dire un fermé borné. Puisque f (S) est borné il admet une borne
inférieure LB ainsi qu’une borne supérieure U B. Par définition il existe une suite de points de
f (S) convergeant vers U B, puisque f (S) est fermé, U B ∈ f (S). La même raisonnement montre
que LB ∈ f (S). Donc f −1 ({LB}) est non vide, et tous ses éléments sont des minima globaux
de f sur S, et de même f −1 ({U B}) est non vide et tous ses points sont des maxima globaux
de f sur S.
Ce résultat n’est utile que face à un problème d’optimisation sous contraintes, car dans ce
cas le domaine est toujours un fermé de Rn et c’est le seul cas où il peut être borné.
Exemple 2.1. Soit f : R2 −→ R une application continue et soit C = {(x1 , x2 ) ∈ R2 : x21 +x22 =
1} le cercle unité. Alors f admet au moins un maximum et un minimum sur C. En effet C est
un compact de R2 : d’une part c’est un fermé puisque c’est la pré image du fermé {1} de R
par l’application continue (x1 , x2 ) −→ x21 + x22 , d’autre part c’est un borné puisque la norme de
(x1 , x2 ) ∈ C est uniformément majoré (égale à 1 pour la norme k.k2 ).
est dit problème d’optimisation sans contraintes. Le théorème de Weierstrass ne peut s’appli-
qué dans cette situation, vue la non compacité de S. La notion de fonction coércive devient
primordiale.
Définition 2.3. [Fonction Coercive]
Soit f : Rn −→ R, f est dite coercive si
3. (x1 , x2 ) 7→ −2
x1 n’est pas coercive. En effet, si on considère la suite ∀n, xn = (0, n),
x2 ,
2
Démonstration. On pose
infn f (x) = d,
x∈R
comme f prend ces valeurs dans R,
d < +∞.
On a (
∀ε > 0, ∃x (ε) : f (x) − ε < d
∀n > 0, ∃xn : f (xn ) − n1 < d,
alors
1
d < f (xn ) < d + .
n
On a construit une suite (xn )n∈N (appelée suite minimisante) tel que
lim
n→∞
f (x n ) = d. (2.4)
La suite (xn )n∈N est bornée. En effet, raisonons par absurde et supposons que (xn )n∈N n’est pas
bornée, en déduit que limn→∞ kxn k = +∞, la coércivité de f , implique que limn→∞ f (xn ) =
+∞, ceci étant en contradiction avec (2.3) , la bornétude de (xn )n∈N s’ensuit. On peut extraire
de (xn )n∈N une sous suite convergente
(xnk )nk / nlim
→∞
x nk = x ∗
,
k
d’où
lim f (xnk ) = f (x ) = d.
∗
nk →∞
2.2.2 Unicité
Démonstration. Raisonnons par absurde et supposons qu’ils existent deux solutions pour (2.3)
x1 , x2 avec x1 6= x2 et f (x1 ) = f (x2 ) = d. Comme f est strictement convexe et en particulier
1
pour λ = 2 , on aura
1 1 1 1
f x1 + x2 < f (x1 ) + f (x2 ) = d,
2 2 2 2
ceci étant en contradiction avec le fait que d est le minimum. Donc x1 = x2 .
Définition 2.4. [Fonction Elliptique]
Soit f : R −→ R, avec f ∈ C . On dit que f est elliptique de constante α > 0 si
n 1
2
∀x, y ∈ R : h∇f (x) − ∇f (y) , x − yi ≥ α kx − yk .
n
Théorème 2.5
Toute fonction elliptique et coércive est strictement convexe, en particulier le pro-
blème (2.3) admet une et une seule solution.
1. Attention tout ceci n’est valable que dans l’intérieur du domaine (ou autrement dit sur un domaine ouvert)
Figure 2.8 – Illustration en deux dimensions de la direction admissible : d1 est une direction
admissible, d2 n’est pas une direction admissible,
1. Pour x = (1, 0) , l’ensemble des directions admissibles au point x est l’ensemble D (x) =
T
{d = (d1 , d2 ) ∈ R2 : d2 ≥ 0}.
2. Pour x = (0, 2) , l’ensemble des directions admissibles au point x est l’ensemble D (x) =
T
{d ∈ R2 : d1 ≥ 0} .
3. Pour x = (2, 3) , l’ensemble des directions admissibles au point x est l’ensemble D (x) =
T
R2 .
Proposition 2.2
Si x ∈ int S, alors D (x) = R .
n
Démonstration. Pour un x ∈ int S , il existe r > 0 tel que B (x, r) ⊂ S. Soit le vecteur d ∈ Rn ,
alors on peut trouvez t > 0 suffisamment petite tel que x + td ∈ B (x∗ , r). En prenant α0 = t,
on a pour tout α ∈ [0, α0 ], le vecteur x + αd ∈ S, d’où d ∈ D (x).
Si l’ensemble S est convexe, l’ensemble D (x), n’est rien d’autre que la translaté de S. Afin
de vérifier ceci, nous aurons besoin de la définition suivante
Définition 2.6. [Cône]
On dira que Ω ⊂ R est un cone si ∀x ∈ Ω, ∀β > 0 : βx ∈ Ω.
n
Remarque 2.1. Une autre façon pour montrer que D (x ) = Ω − x est de monter D (x ) ⊆
∗ ∗ ∗
Ω − x∗ et D (x∗ ) ⊇ Ω − x∗ .
Exemple 2.5. R+ est un cone.
Proposition 2.4
D (x∗ ) est un cône si et seulement si D (x∗ ) = Ω − x∗ .
=⇒
α h∇f (x ) , di + o (α) ≥ 0,
∗
h∇f (x∗ ) , di ≥ 0.
La figure (2.9) est une illustration de Condition Nécessaire d’optimalité du premier Ordre
(CN1).
Remarque 2.2. Lorsque la fonction n’est pas convexe, on ne peut donner qu’une condition
nécessaire et suffisante d’optimalité locale.
On va maintenant regarder de plus près le cas où S = Rn , c’est à dire le problème sans
contraintes (??).
Théorème 2.7
Si S = Rn dans le problème (2.5), f est différentiable et si x∗ est un minimum local pour
f , alors ∇f (x∗ ) = 0.
Figure 2.9 – Illustration de CN1 : x1 ne vérifie pas la CN1, mais x2 vérifie la CN1.
Définition 2.7
Un point x∗ de Rn vérifiant ∇f (x∗ ) = 0 est appelé point critique ou point stationnaire
.
Démonstration. Raisonnons par l’absurde. Supposons qu’il existe d admissible au point x∗ tel
que hd, ∇f (x∗ )i = 0 et hd, ∇2 f (x∗ ) di < 0. On a
2 D E
α
f (x∗ + αd) = f (x∗ ) + α hd, ∇f (x∗ )i + d, ∇2 f (x∗ ) d + o α2 ,
2
Université de Hassiba Benbouali–Chlef 2022-2023 Rachid BELGACEM
2.3. CONDITIONS D’OTPIMALITÉ 40
donc,
2 D E
α
f (x∗ + αd) − f (x∗ ) = α hd, ∇f (x∗ )i + d, ∇2 f (x∗ ) d + o α2 ,
2
pour α assez petit, on obtient
f (x∗ + αd) − f (x∗ ) < 0.
c’est une contradiction avec le fait que x∗ minimum local.
◦
Corollaire 2.1. [x∗ ∈ S]
Soit f ∈ C 2 , x∗ minimum local pour ( ) alors
(
∇f (x∗ ) = 0
hd, ∇2 f (x∗ ) di ≥ 0, ∀d ∈ Rn .
On a
1 D
2
E
2
f (x + d) − f (x ) = hd, ∇f (x )i +
∗ ∗ ∗
d, ∇ f (x ) d + o kdk ,
∗
2
quand d est trop petit
f (x∗ + d) > f (x∗ ) ,
donc x∗ est un minimum local strict.
Corrigé 2.1
alors
−f (x) ≤ −f (x∗ ) , ∀x ∈ S,
= max −f (x) = − min f (x) .
x∈S x∈S
D’où le résultat.
Corrigé 2.2
Corrigé 2.3
" # " #
0 0
4. Pour x =∗
, D (x∗ ) = {d = (d1 , d2 ) ∈ R2 : d1 , d2 ≥ 0} et ∇f (x∗ ) = . On a :
0 3
h∇f (x∗ ) , di = 3d2 ≥ 0, alors x∗ vérifie la CN1.
1. La fonction F est F (B) = f (B, 0) = 120B − 8B 2 . Sa dérivée est F 0 (B) = 120 − 16B
15 00 15 15
elle s’annule en B = et F ( ) = 120 > 0, on a donc un maximum local en .
2 2 2
Ce maximum est global car F est une fonction polynôme du second degré. Le rendement
15
maximum vaut alors ) = 540 .
2
2. On annule les dérivées partielles de f
∂f
= 120 − 16B + 4N = 0,
∂B
∂f
= 4B − 4N = 4(B − N ) = 0.
∂N
La deuxième équation donne B = N . En reportant dans la première équation on trouve
120 − 12B = 0 donc le point critique est (B, N ) = (10, 10). La matrice Hessienne est
La forme quadratique associée est q(x, y) = −16x2 + 8xy − 4y 2 − (4x − y)2 − 3y 2 . La
forme q est donc définie négative, et le point critique correspond à un maximum de f. Le
rendement en ce point vaut f (10, 10) = 600. Le rendement est donc amélioré.
2 2 2
Exercice 2.5. Soit la fonction f (x) = 100 (x2 − x1 ) + (1 − x1 ) et les points
a = (1, 1) et b = (−1, 2) .
> >
Corrigé 2.5
2. ∇f (a) = 0 =⇒ a peut être un point extrême. ∇f (b) 6= 0 =⇒ b ne peut pas être un point
extrême.
3. d = a − b = (2, −1) =⇒ h∇f (b), di = 592 > 0. Ça veut dire que d est une direction pas
>
descente en b.
1. On a : !2
x1 + x2 x21 x22 x21 x22 1 2
g(x1 , x2 ) = √ + + ≥ + = k(x1 , x2 )k ,
2 2 2 2 2 2
et la fonction donc est coercive.
!
2 1
2. La matrice hessienne de g en tout point x ∈ R est égale à 2
. Cette matrice est
1 2
définie positive (par le critère de Sylvester par exemple) et donc g est strictement convexe.
3. g est continue et coercive donc possède au moins un minimum sur R2 . De plus, g est
strictement convexe donc ce minimum est unique. Ce minimum est à rechercher parmi
les points critiques : (
2x1 + x2 = 0
x1 + 2x2 = 0,
soit x1 = x2 = 0. Il s’agit donc un minimum de g.
Exercice 2.7. On se place dans R2 , et on note x = (x1 , x2 ) . On considère la fonction f de R2
dans R définie par :
1 1 2 2
f (x) = hx, Bxi + hx, bi = x1 + αx2 + x1 ,
2 2
où B et une matrice symétrique 2 × 2, b un vecteur de R2 et α ∈ R.
1. Préciser B et b, calculer ∇f (x).
2. Donner une condition nécessaire pour que x soit minimum (lacal) de f.
(a) Si α = 0, montrer que f possède un minimum et qu’il y a une infinité de x réalisant
ce minimum.
(b) Si α 6= 0, quel est l’élément x∗ pouvant éventuellement réaliser le minimum ?
(c) Si α > 0, x∗ réalise-t-il le minimum de f ? pourquoi ?
(d) Si α < 0, montrer que f ne possède pas de minimum.
Corrigé 2.7
1. Précisions B et b : !
x1 +1
1 0
∇f (x1 , x2 )= , ∇ f (x1 , x2 )=
2
,
αx2 0 α
! ! !
1 0 x1 x1
(x1 , x2 ) = (x1 , x2 ) = x21 + αx22 .
0 α x2 αx2
Donc, f (x1 , x2 ) = 21 h(x1 , x2 ) , H (x1 , x2 )i + h(x1 , x2 ) , (1, 0)i.
!
1 0
D’où, B = H = et b = 10 .
0 α
(
x1 = −1
2. ∇f (x) = 0 ⇐⇒
αx2 = 0
(
x1 = −1
(a) Si α = 0 =⇒ il y a une infinité de solutions.
∀x2
(
x1 = −1
(b) Si α 6= 0 =⇒ =⇒ x∗ = (−1, 0).
x2 = 0
(
x1 = −1
(c) Si α > 0 =⇒ =⇒ x∗ = (−1, 0) est un minimum local strict, car H est
x2 = 0
définié positive.
(d) Si α < 0, f ne possède pas de minimum car :la matrice H n’est pas semi définié
positive.
Exercice 2.8. Soit
f (x, y) = x3 + y 3 − 3xy
1. Trouver tous les points (xb, yb) ∈ R tels que ∇f (xb, yb) = (0, 0) .
2 T
2. Parmi les points (x, y ) ∈ R tels que ∇f (x, y ) = (0, 0) , trouvez ceux qui sont des
b b 2 b b T
solutions optimales locales strictes et celles qui ne sont pas des solutions optimales locales
strictes. Justifiez votre réponse.
Corrigé 2.8
Les solution de ce système sont (xb1 , yb1 ) = (0, 0) et (xb2 , yb2 ) = (1, 1) .
!
6x −3
2. On a : ∇ f (x, y) =
2
,
−3 6y
(a) pour (xb1 , yb1 ) = (0, 0) , on a
!
2 0 −3
∇ f (xb1 , yb1 ) = est semi définie positive.
−3 0
Donc (0, 0) n’est pas une solution maximale locale et n’est pas une solution minimale
locale.
(b) pour (xb2 , yb2 ) = (1, 1) , on a
!
2 6 −3
∇ f (xb2 , yb2 ) = est définie positive.
−3 6
Donc (1, 1) est une solution minimale locale stricte.
Exercice 2.9. Soit f : R2 −→ R telle que f ∈ C 2 (R2 ) et (x, y) ∈ R2 .
1. On suppose que ∇f (x, y) = (0, 0) et
T
" # " #2
∂ 2f ∂ 2f ∂ 2f ∂ 2f
2
(x, y) . 2 (x, y) − (x, y) >0 et 2
(x, y) > 0.
∂x ∂y ∂x∂y ∂x
" # " #2
∂ 2f ∂ 2f ∂ 2f ∂ 2f
2
(x, y) . 2 (x, y) − (x, y) >0 et 2
(x, y) < 0.
∂x ∂y ∂x∂y ∂x
" # " #2
∂ 2f ∂ 2f ∂ 2f
(x, y) . (x, y) − (x, y) <0 .
∂x2 ∂y 2 ∂x∂y
Montrez que (x, y) n’est pas une solution minimale locale stricte et (x, y) n’est pas une
solution maximale locale stricte.
Corrigé 2.9
Dans tout cet exercice, on applique la condition suffisante d’optimalité suivante : Si ∇f (x, y) = T
(0, 0) et ∇2 f (x, y) est semi définie positive, alors (x, y) est une solution minimale locale stricte.
Puisque ∇f (x, y) = (0, 0) , étudions la définie positivité ou la définie négativité de ∇2 f (x, y) .
T
∂2f ∂2f
2 ∂x2
(x, y) (x, y)
∇ f (x, y) = ∂2f
∂x∂y
∂2f
∂x∂y
(x, y) ∂y 2
(x, y)
Corrigé 2.10
1. On calcul le gradient de g :
!
2x1 x22 + 2x1 + 2ax2
∇g (x1 , x2 ) = .
2x1 x2 + 2x2 + 2ax1
2
Dans ce chapitre, nous présenterons les principes de base de certains algorithmes qui per-
mettent de calculer (de manière approchée) la ou les solution du problème d’optimisation sans
contraintes (3.1).
Il existe deux grandes classes de méthodes :
— Les méthodes dites “directes” ou bien “de descente”, qui cherchent à construire une suite
minimisante, c.à.d une suite (x(k) )k∈N telle que :
— Les méthodes basées sur l’équation d’Euler, qui consistent à chercher une solution de
l’équation ∇f (x) = 0 (ces méthodes nécessitent donc que f soit dérivable).
Nous nous intéressons ici à une classe d’algorithmes qui sont basés sur la notion de direction
de descente, nous allons donc commencer par quelques définitions :
Définition 3.1. U
algorithme de résolution est définie par une application A : Rn → Rn qui permet, a
partir d’un point initial x(0) , de génération d’une suite d’éléments x(0) , x(1) , ..., x(k) , ... de
Rn par la formule :
(
(Initailisation) : x(0) donné, k = 0
(itération k) : x(k+1) = A (x(k) ) , k = k + 1.
Définition 3.2. O
dit qu’un algorithme est globalement convergent si, quel que soit le point initial x(0) choisi,
la suite {x(k) } engendre par x(k+1) ∈ A (x(k) )(ou une sous suite) converge vers un point
satisfaisant les conditions nécessaires d’optimalité (ou solution optimale).
48