Vous êtes sur la page 1sur 8

Rappels.

Outils mathématiques pour l’optimisation

Soit n ∈ N∗ . Dans tout ce cours on se place dans Rn (espace euclidien canonique de dimen-
sion n) muni de la base canonique (ej )1≤j≤n . Dans cette base, pour x ∈ Rn , on utilisera souvent
la notation : x = (x1 , . . . , xn ) pour :
 
x1 n
 ..  X
x =  .  , i.e. x = xj ej = x1 e1 + · · · + xn en .
xn j=1

L’espace Rn est un espace vectoriel normé. Il existe de nombreuses normes sur Rn . On rap-
pelle les définitions des normes usuelles k k1 , k k2 et k k∞ : pour x ∈ Rn ,
v
n
u n 2
X uX
kxk1 = |xj |, kxk2 = t xj , kxk∞ = max |xj |.
j=1,...,n
j=1 j=1

Sauf mention du contraire, l’écriture “hx, yi” désignera toujours le produit scalaire usuel de
n
R à savoir : n
X
hx, yi = xj yj = x> y = y > x.
j=1

La norme 2 lui est associée : p √


kxk22 = hx, xi = x> x,
et k · k la norme 2 associée Rappelons pour terminer l’inégalité bien connue (et très utile) de
Cauchy-Schwartz :
∀(x, y) ∈ Rn × Rn , |hx, yi| ≤ kxkkyk.

1
2 0.1. Rappels d’algèbre linéaire

0.1 Rappels d’algèbre linéaire


Commençons par quelques rappels élémentaires sur les vecteurs de Rn .

Définition 0.1 (Indépendance linéaire) Soit x1 , . . . , xm un ensemble de vecteurs de Rn .


Les vecteurs x1 , . . . , xm sont dits linéairement indépendants si :
m
X
λi xi = 0 =⇒ ∀i = 1, . . . , m, λi = 0.
i=1

Définition 0.2 (Espace engendré par un ensemble de vecteurs) Soit x1 , . . . , xm un en-


semble de vecteurs de Rn . L’espace engendré par les vecteurs x1 , . . . , xm et noté
V ect(x1 , . . . , xm ), est défini par :
( m )
X
V ect(x1 , . . . , xm ) = λi xi ; λi ∈ R, i = 1, . . . , m .
i=1

Ces notions vont nous permettre de définir le rang d’une matrice. La notation A ∈ Rm×n
désigne une matrice A à coefficients réels à m lignes et n colonnes.

Définition 0.3 (Rang d’une matrice) Soit A ∈ Rm×n . Le rang de A, noté rg(A), est le
nombre maximum de colonnes (lignes) linéairement indépendantes. La matrice A est dite
de rang plein si : rg(A) = min(m, n).

Définition 0.4 (Valeurs propres d’une matrice carrée) Soit A ∈ Rn×n . Le scalaire λ ∈
C est valeur propre de A s’il existe un vecteur v 6= 0 tel que :

Av = λv.

Proposition 0.1 Les valeurs propres de A sont les racines du polynôme caractéristique
associé à A et défini par :
PA (λ) = det(A − λIn ).

Propriétés remarquables liées aux valeurs propres :


• Les valeurs propres d’une matrice triangulaire sont égales à ses éléments diagonaux (le
démontrer !).
• Les valeurs propres de la matrice (cIn + A) sont : c + λ1 , . . . , c + λn où λ1 , . . . , λn sont
les valeurs propres de A.
• Les valeurs propres de Ak sont λk1 , . . . , λkn .
• Les valeurs propres de A> sont égales aux valeurs propres de A.
3

Définition 0.5 (Matrice symétrique) Soit A une matrice carrée d’ordre n. La matrice A
est symétrique ssi A> = A.

On rappelle que les matrices symétriques réelles sont diagonalisables et présentent des pro-
priétés remarquables : soit A une matrice carrée symétrique d’ordre n. On note λ1 , . . . , λn les
valeurs propres de A :
1. Les valeurs propres λ1 , . . . , λn de A sont réelles.
2. Les vecteurs propres associés à des valeurs propres distinctes sont orthogonaux.
3. Une base orthogonale de Rn peut être formée à partir des vecteurs propres de A.
4. Si l’on normalise les vecteurs propres xi associés aux λi (i.e. kxi k = 1), alors :
n
X
A= λ i xi x>
i .
i=1

Définition 0.6 (Matrice symétrique (semi-) définie positive) Soit A ∈ Rn×n une ma-
trice carrée symétrique (A> = A).
• A est dite semi-définie positive si :

∀x ∈ Rn , hx, Axi ≥ 0

• A est dite définie positive si :

∀x ∈ Rn , x 6= 0, hx, Axi > 0

Proposition 0.2 (Caractérisation des matrices symétriques (semi-)définies positives)


Soit A ∈ Rn×n une matrice carrée symétrique (A> = A).
• A est dite semi-définie positive si toutes ses valeurs propres sont positives ou nulles.
• A est dite définie positive si toutes ses valeurs propres sont strictement positives.

Proposition 0.3 (Propriétés des matrices semi-définies positives) Soit A ∈ Rm×n .


Alors la matrice A> A est symétrique semi-définie positive. Si, de plus, rg(A) = n, alors
la matrice A> A est définie positive.

0.2 Rappels de calcul différentiel


Notations de Landau
Soit f : R → R une fonction. Rappelons les notations de Landau dont nous aurons besoin
pour définir la notion de différentiabilité.
4 0.2. Rappels de calcul différentiel

• La notation f (x) = o(xp ) signifie que f (x) tend vers 0 plus vite que xp , i.e. :

f (x)
lim = 0.
x→0 xp

• La notation f (x) = O(x) signifie que f (x) tend vers 0 au moins aussi vite que x, i.e.
qu’il existe K > 0 tel que :
f (x)
≤ K.
x

Notion de différentiabilité

Définissons maintenant la notion de différentiabilité pour les fonctions à plusieurs variables :

Définition 0.7 (Différentiabilité) Soit x ∈ Rn . Une fonction f : Rn → Rp est dite dif-


férentiable au point x s’il existe une application linéaire L continue de Rn dans Rp telle
que :
∀h ∈ Rn , f (x + h) = f (x) + L(h) + O(h)
L’application L, notée df (x), est appelée différentielle de f au point x.

La formule de différentiation des fonctions composées est donnée par la formule de Leibniz :

Proposition 0.4 Si f : Rn → Rp et g : Rp → R sont différentiables respectivement en x


et f (x), alors g ◦ f est différentiable en x et pour tout h dans Rn :

d[g ◦ f ](x).h = dg(f (x)).[df (x).h]

Un résultat facile à montrer mais surprenant est que la différentielle d’une application linéaire
est elle-même.

Exercice 0.2.1 Montrer que les applications suivantes sont différentiables sur Rn et calculer
leurs différentielles :
1. f : x ∈ Rn (x) 7→ Ax + b, A ∈ Rp×n , b ∈ Rp .
2. f : x ∈ Rn (x) 7→ kxk2 .

0.2.1 Cas des fonctions de Rn dans Rp : matrice Jacobienne


Comme les espaces considérés ici sont de dimension finie et en se donnant une base de Rn
et une base de Rp , on peut écrire l’application linéaire df (x) dans ces bases, et on obtient une
matrice appelée Jacobienne de f au point x et notée Jf (x).
5

Définition 0.8 (Matrice jacobienne) Soit f : Rn → Rp différentiable. La matrice jaco-


bienne de f au point x ∈ Rn est l’unique matrice Jf (x) de Rp×n vérifiant :

∀h ∈ Rn , f (x + h) = f (x) + Jf (x)h + o(khk).

On a alors :
∀h ∈ Rn , df (x)(h) = Jf (x)h.

Remarque 0.1 Il est important de noter que la Jacobienne dépend du choix des bases et que des
choix différents entraînent des matrices différentes (avec les formules usuelles de changement de
base).

Plus précisément, la matrice jacobienne de f : Rn → Rp a n colonnes et p lignes et si f est


donnée dans les bases considérées par
 
f1 (x)
f (x) =  ...  , x = (x1 , · · · , xn )
 
fp (x)
Alors la matrice Jacobienne est donnée par :
∂f1 ∂f1
 
∂x1
... ∂xn
Jf (x) =  ... .. ..
 
. . 
∂fp ∂fp
∂x1
... ∂xn

La formule de Leibniz devient


J(g◦f ) (x) = Jg (f (x)) × Jf (x),
avec × le produit des matrices, on peut vérifier (le faire) que les tailles des matrices correspondent
et que ce produit est toujours faisable.

0.2.2 Cas des fonctions de Rn dans R : gradient et matrice hessienne


Soit f : Rn → R une fonction supposée différentiable en n’importe quel point de Rn . On
peut alors introduire la notion de gradient :

Définition 0.9 (Gradient) Soit f : Rn → R différentiable. Le gradient de f au point


x ∈ Rn est l’unique vecteur a de Rn vérifiant :

∀h ∈ Rn , f (x + h) = f (x) + ha, hi + o(khk).

On note : a = ∇f (x). On a alors :

∀h ∈ Rn , df (x)(h) = h∇f (x), hi.


6 0.2. Rappels de calcul différentiel

En pratique, lorsqu’on dispose d’une expression explicite de f en fonction des coordonnées


xi de la variable x, il est plus simple de se placer (par exemple) dans la base canonique de Rn , et
de définir le gradient comme le vecteur des dérivées partielles de f au point x :

∂f
 
(x)
 ∂x1 

∇f (x) =  .. 
.
 . 
 ∂f 
(x)
∂x1

Remarque 0.2 Attention ! Il faut garder en mémoire que si on change le produit scalaire, alors
on change le gradient.

La formule de dérivation des fonctions composées s’écrit dans ce cas :

∇(g ◦ f )(x) = ∇f (x)∇g(f (x)).

Remarquons que le gradient peut être vu comme une application, notée ∇f , définie de Rn
dans Rn . Si ∇f est différentiable en x alors on peut calculer sa matrice jacobienne. La matrice
jacobienne du gradient est appelée matrice hessienne de f et est définie de la façon suivante :
dans une base orthonormée (x1 , . . . , xn ) de Rn , on a

∂f
(Hf (x))ij =
∂xi xj

La Hessienne est donc une matrice symétrique. La formule de Taylor à l’ordre 2 est donnée par :

Proposition 0.5 Soit f : Rn −→ R une fonctionnelle de classe C 2 , les formules de Taylor


s’écrivent :
1
hh, Hf (x) hi + O khk2 .

f (x + h) = f (x) + h∇f (x), hi + (1)
2

Si n = 1 alors on peut écrire la formule usuelle

h2 00
f (x + h) = f (x) + hf 0 (x) + f (x) + O h2 .

(2)
2

Remarque 0.3 Soit f : Rn → Rp . On note f = (f1 , . . . , fp ). Alors :


 
∇f1 (x)>
Jf (x) =  ..
.
 
.
>
∇fp (x)
7

0.2.3 Lien avec la dérivation des fonctions de R dans R


Soient f : R → R et x ∈ R. La question que l’on se pose dans ce paragraphe est : quel est le
lien entre la dérivée de f en x et la différentielle de f en x ? On démontre simplement le résultat
suivant :

Proposition 0.6 Soit f : R → R et x ∈ R. La fonction f est différentiable au point x ssi


f est dérivable au point x. Dans ce cas, on a :

∀x ∈ R, f 0 (x) = df (x)(1).

La formule de dérivation des fonctions composées s’écrit dans ce cas :

(g ◦ f )0 (x) = g 0 (f (x))f 0 (x).

0.3 Notions de minimum, maximum, infimum, supremum


On distinguera les notions de minimum et de maximum des notions d’infimum et de su-
premum. Ces notions sont des prérequis pour les démonstrations des résultats d’existence et
d’unicité d’extrema d’une fonction donnée.

Définition 0.10 (Minorant/Majorant) Soit E un sous-ensemble de R.


• m ∈ R ∪ {−∞, +∞} est un minorant de E ssi m est inférieur ou égal à tous les
éléments de E.
• M ∈ R ∪ {−∞, +∞} est un majorant de E ssi il est supérieur ou égal à tous les
éléments de E.
Ainsi

(m minorant ⇐⇒ ∀x ∈ E m ≤ x) et (M majorant ⇐⇒ ∀x ∈ E M ≥ x).

Si E admet un minorant (resp. majorant) fini alors il est dit minoré (resp. majoré).

Définition 0.11 (Infimum/Supremum) Soit E ⊂ R.


• L’infimum inf(E) ∈ R ∪ {−∞, +∞} de E est le plus grand des minorants.
• Le supremum sup(E) ∈ R ∪ {−∞, +∞} de E est le plus petit des majorants.
On les note respectivement

inf(E) = inf (x) et sup(E) = sup(x).


x∈E x∈E

Par définition, on autorise les minorants ou les majorants, à être infinis. Se pose la question
de savoir si l’infimum (resp. le supremum) est infini. La réponse à cette question est donnée par
la proposition suivante.
8 0.3. Notions de minimum, maximum, infimum, supremum

Proposition 0.7 Soit E ⊂ R, alors inf(E) ∈ R (resp. sup(E) ∈ R) si et seulement si E


est minoré (resp. majoré).

Nous avons parlé d’infimum et de supremum, nous les relions maintenant aux définitions
classiques de minimum et de maximum.

Définition 0.12 (Minimum, maximum) Soit E ⊂ R.


• L’infimum de E est appelé minimum ssi inf(E) ∈ E.
• Le supremum de E est appelé maximum ssi sup(E) ∈ E.
Dans ce cas, on les note respectivement min(E) et max(E).

Exercice 0.3.1 Donner les infimum, supremum, minorants, majorants de E =]0, 1].

Vous aimerez peut-être aussi