Vous êtes sur la page 1sur 118

Mathématiques pour la Mécanique I

Licence de Mécanique-2ème année


Aix-Marseille Université, 2022-2023

Uwe Ehrenstein

5 septembre 2022
TABLE DES MATIÈRES

Table des matières

1 Fonctions de plusieurs variables réelles 3


1.1 Définition et notion de continuité . . . . . . . . . . . . . . . . . . 3
1.2 Dérivée d’une fonction à une et à plusieurs variables . . . . . . . 7
1.2.1 Rappels pour le cas n = 1 . . . . . . . . . . . . . . . . . 7
1.2.2 Dérivées partielles et dérivée directionnelle . . . . . . . . 13
1.2.3 Définition de la dérivée pour n > 1 . . . . . . . . . . . . . 15
1.2.4 Dérivée en tant qu’application linéaire et représentation
matricielle . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.5 Dérivée d’une fonction composée . . . . . . . . . . . . . 18
1.2.6 Quelques applications dans R3 . . . . . . . . . . . . . . . 22
1.2.7 Dérivées partielles d’ordre supérieur à 1, formule de Taylor 28
1.2.8 Application : extremum d’une fonction de plusieurs vari-
ables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2 Intégrales multiples 37
2.1 Rappels sur l’intégrale définie dans R . . . . . . . . . . . . . . . 37
2.1.1 Théorème de la moyenne, primitive et changement de vari-
able . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2 Intégration dans Rn (n = 2, 3) . . . . . . . . . . . . . . . . . . . . 43
2.2.1 Définition générale . . . . . . . . . . . . . . . . . . . . . 43
2.2.2 Changement de variables dans des intégrales multiples . . 49
2.2.3 Intégrale de surface, flux d’un champ de vecteur . . . . . 55

3 Produit scalaire, bases orthonormées, transformations orthogonales 61


3.1 Définition du produit scalaire dans Rn , espace euclidien . . . . . . 61
3.2 Vecteurs orthogonaux, bases orthonormées . . . . . . . . . . . . . 64
3.2.1 Procédure d’orthonormalisation de Gram-Schmidt . . . . 66
3.2.2 Sous-espaces vectoriels orthogonaux . . . . . . . . . . . 67
3.2.3 Transformations et matrices orthogonales . . . . . . . . . 69

1
TABLE DES MATIÈRES

4 Formes réduites de matrices 75


4.1 Valeurs et vecteurs propres d’une matrice . . . . . . . . . . . . . 75
4.2 Diagonalisation d’une matrice . . . . . . . . . . . . . . . . . . . 83
4.3 La forme de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.3.1 Construction de la base de Jordan . . . . . . . . . . . . . 87

5 Applications des formes réduites de matrices 95


5.1 Formes bilinéaires symétriques . . . . . . . . . . . . . . . . . . . 95
5.2 Formes quadratiques . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2.1 Signature d’une forme quadratique . . . . . . . . . . . . . 98
5.3 Diagonalisation d’une forme bilinéaire symétrique dans un espace
euclidien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.4 Résolution de systèmes d’équations différentielles linéaires au-
tonomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.4.1 Calcul pratique de etA . . . . . . . . . . . . . . . . . . . 108
5.4.2 Procédure de résolution . . . . . . . . . . . . . . . . . . . 111
5.4.3 Cas d’une seule équation différentielle d’ordre n . . . . . 114
5.4.4 Systèmes d’équations différentielles linéaires non homogènes116

2
Chapitre 1

Fonctions de plusieurs variables


réelles

1.1 Définition et notion de continuité


Jusqu’à présent (dans le cursus de l’apprentissage des mathématiques incluant
la première année de Licence) les fonctions d’une seule variable réelle ont surtout
été considérées, c’est-à-dire des applications f , qui font correspondre à un point
x de R un point de R noté f (x). Il a été vu que ces fonctions peuvent être définies
sur R tout entier, ou sur une partie de R, par exemple un intervalle, ou alors sur R
hormis un ensemble de points, afin d’éviter notamment les points où la fonction
prend la valeur +∞ ou −∞. Par exemple f (x) = sin(x) est définie sur R entier ;
f (x) = 1/x est définie sur R − 0 (ce qui signifie pour tout point de R sauf en
x = 0) ; f (x) = tan(x) = sin(x)/ cos(x) est définie pour tout point x 6= π/2 + kπ (k
nombre entier), car cos(π/2 + kπ) = 0.
Les notions de limite et de continuité pour une fonction d’une seule variable
ont été notamment abordées et sont brièvement rappelées. Soit f une fonction
définie au voisinage (un intervalle) autour d’un point a (sauf éventuellement en
a), alors on dit que f admet une limite, notée l, en a, s’il est possible de rendre la
différence en valeur absolue entre f (x) et l (c’est-à-dire | f (x) − l|) arbitrairement
petite, quitte à choisir x suffisamment proche de a, c’est-à-dire si a tout nombre
ε > 0 on peut associer un nombre η > 0, tel que pour tout x vérifiant 0 < |x−a| < η
on ait | f (x) − l| < ε. On écrira alors

lim f (x) = l,
x→a

c’est-à-dire la limite de f (x) quand on fait tendre x vers a est le nombre l. Si la


fonction f est définie en a (donc f (a) est un nombre fini), alors la fonction f est
dite continue en a, si la limite de f (x) quand x tend vers a est précisément f (a),

3
Fonctions de plusieurs variables réelles

c’est-à-dire
lim f (x) = f (a).
x→a
Il est évident qu’afin de décrire la grande majorité des phénomènes de la
mécanique il faut faire appel à des fonctions de plusieurs variables réelles. Imag-
inons par exemple l’écoulement autour d’un objet tridimensionnel dans un dis-
positif expérimental du type soufflerie : même si la vitesse du flux d’air entrant
est uniforme avant de heurter l’objet, il subit des accélération et des décélération
lorsqu’il contourne l’objet et la vitesse de l’écoulement à chaque instant dépend
des trois variables d’espace que l’on notera (x, y, z) dans un repère de R3 .

Considérons d’une manière générale l’espace Rn (n entier > 0) qui a déjà


été rencontré en tant qu’espace vectoriel de dimension n. Il s’agit de ce qu’on
appelle un ensemble ordonné de n nombres réels xi , i = 1, · · · , n et chaque élément
de Rn est noté (x1 , x2 , · · ·, xn ). En pratique n = 2 ou n = 3, selon la dimension
de l’espace que l’on considère (la dimension n = 2 est par exemple judicieuse
pour des phénomènes évoluant indépendamment d’une troisième direction dans
l’espace R3 ), et alors les “points” sont notés (x, y) pour R2 et (x, y, z) pour R3 . On
adoptera par la suite l’écriture

~x = (x1 , · · · , xn )

pour les “points” de Rn , que l’on écrit donc sous le symbole d’un vecteur (car
ce sont bien des éléments, c’est-à-dire vecteurs, d’un espace vectoriel), afin de
distinguer les éléments ~x de Rn des points x de R. Bien sûr, les règles quant à
l’addition des vecteurs s’appliquent, c’est-à-dire la somme de ~x = (x1 , · · · , xn ) et
~y = (y1 , · · · , yn ) s’écrit

~x +~y = (x1 + y1 , x2 + y2 , · · · , xn + yn )

et si λ est un nombre de réels, le produit avec un vecteur s’écrit

λ~x = (λx1 , λx2 , · · · , λxn ).

On remarquera d’ores et déjà que l’on écrira souvent~x = (x, y) et ~x = (x, y, z) pour
n = 2 et n = 3 respectivement, et pour distinguer deux points par exemple dans
R3 , ~x1 = (x1 , y1 , z1 ) et ~x2 = (x2 , y2 , z2 ).
Une fonction f à valeurs réelles de n variables associe donc à chaque point
(x1 , · · · , xn ) (là où la fonction est définie) un point f (x1 , · · · , xn ) de R. On dira que
f est définie sur ce qui est appelé un domaine (ou ensemble) de Rn . Les intervalles
(ouverts et fermés) sont les ensembles naturels de R et par généralisation on peut
définir ce qui est appelé un pavé (ouvert ou fermé) de Rn qui est en fait un produit
cartésien de n intervalles.

4
Définition et notion de continuité

Définition 1 Un produit cartésien de n intervalles fermés [Ai , Bi ], i = 1, · · · , n, (Ai ,


Bi , i = 1, · · ·, n étant des nombres réels), appelé pavé fermé, est l’ensemble des
points ~x = (x1 , · · ·, xn ) de Rn , tels que Ai ≤ xi ≤ Bi , i = 1, · · ·, n. Un pavé ouvert
est bien sûr défini de la même manière en remplaçant les inégalités larges par des
inégalités strictes.

Remarque : on voit aisément qu’en dimension n = 2 il s’agit de rectangles et en


dimension n = 3 de parallélépipèdes rectangles.
Pour mesurer les distances de Rn il est naturel d’introduire un ensemble qui
est appelée “boule” définie comme suit.

Définition 2 Soit ~a = (a1 , · · ·, an ) un point de Rn et r > 0 un nombre réel donné.


On appellera une boule fermée centrée en ~a de Rn , l’ensemble des points ~x =
(x1 , · · · , xn ), tels que s
n
∑ (xi − ai)2 ≤ r.
i=1

On parlera d’une boule ouverte, lorsque l’inégalité est stricte, c’est-à-dire l’ensem-
ble des points ~x = (x1 , · · · , xn ), tels que
s
n
∑ (xi − ai)2 < r.
i=1

Bien sûr, en dimension 2 et 3 il s’agit de l’intérieur d’un disque et d’une sphère,


respectivement (dans le cas de boules fermées le cercle délimitant le disque et la
sphère elle-même sont inclus). On reconnaı̂t ici la définition de la distance eucli-
dienne (ou la norme euclidienne) que le lecteur a probablement déjà rencontrée
par ailleurs. On notera par la suite pour tout vecteur noté ~x
s
n
||~x|| = ∑ x2i (1.1)
i=1

qui est bien une mesure de la “longueur” d’un vecteur ||~x|| car plus les coor-
données xi du vecteur sont grandes en valeur absolue, plus ||~x|| sera grand en tant
que nombre réel positif. Aussi, il est facile de voir que ||~x|| = 0, si et seulement
si tous les coefficients xi = 0, i = 1, · · ·, n. En fait, il s’agit d’une norme et on
reviendra plus tard dans le cours sur la notion d’espaces vectoriels munis d’une
norme.
On pourra donc écrire les deux inégalités ci-dessus sous la forme ||~x −~a|| ≤ r
et ||~x −~a|| < r respectivement.

5
Fonctions de plusieurs variables réelles

Comme pour les fonctions d’une variable réelle, on peut définir la notion de
continuité pour une fonction de plusieurs variables, c’est-à-dire une application
de Rn dans R.

Définition 3 Soit f une fonction de n variables à valeurs réelles et ~a un point de


Rn où f (~a) est définie. Si a tout nombre ε > 0 on peut associer un nombre η > 0,
tel que pour tout ~x vérifiant 0 < ||~x −~a|| < η on ait | f (~x) − f (~a)| < ε, alors f est
continue en ~a.
Cette définition est bien entendu la généralisation de la définition de continuité
pour des fonctions d’une variable réelle. On dira plus simplement qu’une fonction
de n variables et définie sur un domaine contenant ~a est continue en ~a, si
f (~x) → f (~a) quand ~x → ~a.
Il convient de remarquer ici que~x →~a signifie bien sûr que chaque composante
xi → ai , i = 1, · · · , n. L’étude de la continuité d’une fonction de plusieurs variables
n’est pas toujours aisée.

Exemples
1. Soit la fonction de deux variables (x, y) défini par
xy
f (x, y) = 2 si (x, y) 6= 0.
x + y2
On peut se demander s’il est possible de définir la fonction en (x, y) = (0, 0) de
façon à ce qu’elle devienne continue pour la valeur (0, 0). On observe que si on
fixe y = 0, alors f (x, 0) = 0 et de même pour x = 0 on a f (0, y) = 0. Il est donc
tentant de définir la fonction en (0, 0) par f (0, 0) = 0. Mais f (x, y) ne sera pas
continue en (0, 0). Car soit par exemple la droite x = y dans R2 : sur cette droite
f (x, y) = 1/2 et ce nombre est différent de 0 (quel que soit le point sur cette droite,
donc aussi lorsque (x, y) tend vers (0, 0) sur cette droite).
2. Soit maintenant
x3 + y3
g(x, y) = si (x, y) 6= 0 et g(0, 0) = 0.
x2 + y2
On peut majorer la valeur absolue de g(x, y) en majorant le numérateur et
|x3 + y3 | ≤ |x|3 + |y|3 ≤ max(|x|, |y|)(x2 + y2 )
où max(|x|, |y|) signifie la valeur la plus grande des deux valeurs |x| et |y|. Di-
visant par le dénominateur de g(x, y), on conclut que |g(x, y)| ≤ max(|x|, |y|) et
clairement max(|x|, |y|) → 0 si (x, y) → (0, 0) et alors g(x, y) tend aussi vers 0. On
conclut que g(x, y) est continue en (0, 0).

6
Dérivée d’une fonction à une et à plusieurs variables

1.2 Dérivée d’une fonction à une et à plusieurs vari-


ables
1.2.1 Rappels pour le cas n = 1
D’abord on passe rapidement en revue les résultats essentiels quant à la notion
de dérivée d’une fonction f (x) d’une seule variable réelle x. Soit donc un point a
dans un intervalle ouvert noté I où f (x) est définie. La fonction f (x) est dérivable
au point a, si la fonction
f (x) − f (a)
x−a
définie sur I − a admet une limite finie l lorsque x tend vers a et cette limite est
noté f ′ (a). Donc, on peut définir la dérivée comme
f (x) − f (a) f (a + h) − f (a)
f ′ (a) = lim = lim . (1.2)
x→a x−a h→0 h
On remarquera qu’il est équivalent d’écrire que x → a ou d’écrire x = a + h et de
dire alors h → 0.
Remarque : Une fonction dérivable en a est nécessairement continue en a, car si
limx→a f (x) 6= f (a), alors la limite des quotients ci-dessus ne peut pas être finie,
car le dénominateur tend vers zéro, tandis que le numérateur tend vers une limite
6= 0. La réciproque n’est cependant pas vraie, c’est-à-dire une fonction continue
n’est pas forcément dérivable.
Une interprétation géométrique est donnée par la figure 1.1. Pour x 6= a on peut
considérer la droite qui relie le point (a, f (a)) noté M et le point (x, f (x)) noté P
et la pente de se segment MP est précisément ( f (x) − f (a))/(x − a) qui tend vers
la dérivée f ′ (a), à savoir la pente de la droite tangente à la fonction f au point M,
l’équation de la droite tangente étant y = f (a) + f ′ (a)(x − a).
On peut énoncer de manière suivante la condition de dérivabilité d’une fonc-
tion à une variable.
Proposition 1 Pour que f ′ (a), la dérivée de f en a, existe, il faut et il suffit qu’il
existe une fonction ε telle que

f (x) = f (a) + (x − a) f ′ (a) + (x − a)ε(x, a), lim ε(x, a) = 0. (1.3)


x→a

Remarque : Si l’on pose x = a + h dans (1.3), d’une façon équivalente, f est


dérivable en a, s’il existe ε(h) telle que

f (a + h) = f (a) + h f ′ (a) + hε(h), lim ε(h) = 0. (1.4)


h→0

7
Fonctions de plusieurs variables réelles

F IGURE 1.1 – Interprétation géométrique de la dérivée.

On peut en déduire un certain nombre de conséquences bien connues et dont la


connaissance est indispensable en analyse.

Proposition 2
1. La dérivation est une opération linéaire, c’est-à-dire pour toutes fonctions
u et v dérivables en a, (u + v) ′ (a) = u ′ (a) + v′ (a) et pour tout nombre réel
λ, (λu) ′ (a) = λu ′ (a).
2. Soit uv le produit de deux fonctions dérivables au point a, alors

(uv) ′ (a) = u ′ (a)v(a) + u(a)v ′(a).

3. Soient u, v dérivables en a avec v(a) 6= 0, alors


u′ v(a)u ′ (a) − u(a)v ′(a)
(a) = .
v v2 (a)

Ces propriétés ont été vues lors des années d’apprentissage des mathématiques
antérieures et se démontrent à l’aide de la relation (1.3).
On s’attardera maintenant un instant sur la dérivée d’une fonction composée.
Soit donc I un intervalle de R et f fonction définie sur I ainsi qu’un intervalle J
et g une fonction définie sur J. On suppose que pour tout x ∈ I, f (x) ∈ J et on
considère la fonction composée g( f (x)) que l’on écrit aussi (g ◦ f )(x) et qui est

8
Rappels pour le cas n = 1

définie sur I. On suppose que f ′ (a) existe et que g ′ ( f (a)) existe. On peut donc
écrire d’après (1.3)

f (x) = f (a) + (x − a) f ′ (a) + (x − a)ε1(x, a)

et
g(y) = g( f (a)) + (y − f (a))g ′( f (a)) + (y − f (a))ε2(y, f (a))
avec
lim ε1 (x, a) = 0 et lim ε2 (y, f (a)) = 0.
x→a y→ f (a)

Posons alors y = f (x) et tenant compte de l’expression de f (x), on obtient

g( f (x)) = g( f (a)) + (x − a)g ′( f (a)) f ′ (a)


 
+(x − a) g ′ ( f (a))ε1(x, a) + f ′ (a)ε2( f (x), f (a)) + ε1(x, a)ε2( f (x), f (a))

que l’on peut encore écrire

g( f (x)) = g( f (a)) + (x − a)g ′( f (a)) f ′ (a) + (x − a)ε3(x, a) (1.5)

avec

ε3 (x, a) = g ′ ( f (a))ε1(x, a) + f ′ (a)ε2( f (x), f (a)) + ε1(x, a)ε2( f (x), f (a))

Or, si x → a, alors f (x) → f (a) (car f est dérivable donc continue en a et il s’ensuit
que limx→a ε3 (x, a) = 0. On observe que la relation (1.5) est bien de la forme de
la proposition 1 et on peut énoncer le résultat suivant.

Théorème 1 Sous les hypothèses ci-dessus, c’est-à-dire que la fonction f est


dérivable au point a et la fonction g dérivable au point f (a), la fonction com-
posée (g ◦ f )(x) = g( f (x)) est dérivable au point a et

(g ◦ f ) ′ (a) = g ′ ( f (a)) f ′ (a). (1.6)

Ce résultat est extrêmement précieux et on donne un petit exemple.

Exemple : la fonction g(x) = xn est bien sûr dérivable et g ′ (x) = nxn−1 . Soit f (x)
une fonction dérivable en a alors g( f (x)) = F(x) = [ f (x)]n est dérivable en a et
d’après le théorème ci-dessus,

F ′ (a) = n[ f (a)]n−1 f ′ (a).

Lors des cours d’analyse antérieurs, la notion de fonctions inverses a été abordée.
Par exemple la fonction inverse de sin(x) est la fonction arcsin(x), c’est-à-dire

9
Fonctions de plusieurs variables réelles

arcsin(sin(x)) = x, tout au moins là où cette fonction est définie (pour x ∈] −
π/2, π/2[). Soit donc f une fonction et on suppose que la fonction inverse notée
f −1 existe. Soit
F(x) = ( f −1 ◦ f )(x) = f −1 ( f (x)) = x.
On suppose que f (x) est dérivable en a et que f −1 est dérivable en f (a). On peut
donc écrire ′
F ′ (a) = 1 = f −1 ( f (a)) f ′ (a).
On remarque que nécessairement f ′ (a) 6= 0. Dans cette relation, en divisant par
f ′ (a) on obtient l’expression de la dérivée de la fonction inverse, ce qui s’énonce
comme suit.
Théorème 2 On suppose que f est une fonction qui admet une fonction inverse
f −1 , c’est-à-dire il existe un intervalle I tel que pour tout x de I, f −1 ( f (x)) = x.
On suppose que f est dérivable au point a de I et f ′ (a) 6= 0. Alors
′ 1
f −1 ( f (a)) = (1.7)
f ′ (a)

ou encore, en écrivant X = f (a) et a = f −1 (X ),


′ 1
f −1 (X ) = ′ ( f −1 (X ))
. (1.8)
f
Il convient ici de traiter un petit exemple.
Exemple :
1. La fonction arcsin(x) étant la fonction inverse de sin(x), on peut écrire
1 1
arcsin ′ (sin(x)) = ′ = ,
sin (x) cos(x)
ou alors
1 1
arcsin ′ (X ) = ′ = ,
sin (arcsin(X )) cos(arcsin(X ))
q
Or, cos(y) = 1 − sin2 (y) et posant y = arcsin(X ) on déduit (en écrivant x à la
place de X )
1
arcsin ′ (x) = √ .
1 − x2
sin(x)
2. Soit la fonction tan(x) = cos(x) et bien sûr tan ′ (x) = 1
cos2 (x)
. Soit la fonction
inverse arctan(x) et donc
1
arctan ′ (x) = = cos2 (arctan(x)).
tan ′ (arctan(x))

10
Rappels pour le cas n = 1

Il faut alors exprimer le carré du cos en fonction de tan, à savoir

sin2 (y) 1 − cos2 (y)


tan2 (y) = =
cos2 (y) cos2 (y)

et donc
1
cos2 (y) = .
1 + tan2 (y)
On en déduit l’expression bien connue (en remplaçant y par arctan(x))

1
arctan ′ (x) = .
1 + x2

Avant d’aborder la formule de Taylor d’une fonction à une variable, il convient


d’énoncer le théorème de Rolle.

Théorème 3 Soit l’intervalle I = [a, b] et f fonction continue pour tout x dans I.


On suppose que f est dérivable pour tout x ∈]a, b[ et que f (a) = f (b). Alors il
existe au moins un point c ∈]a, b[ tel que f ′ (c) = 0.

Pour la démonstration de ce résultat, le plus simple est de faire un dessin


comme celui de la figure 1.2 : en effet, nous avons vu que la droite tangente en
tout point (x, f (x)) a une pente égale à f ′ (x), et pour que la courbe reprenne au
point b la valeur qu’elle a au point a, il est nécessaire que cette tangente soit hori-
zontale en au moins un point. Il est clair qu’il n’a aucune raison que ce point c où
la dérivée s’annule soit unique (sur le dessin il y en a deux par exemple).

F IGURE 1.2 – Illustration du théorème de Rolle.

11
Fonctions de plusieurs variables réelles

Ce théorème permet par exemple de prouver le théorème des accroissements


finis pour une fonction dérivable. Soit l’intervalle [a, b] et f continue dans cet
intervalle et dérivable en tout point. Soit
g(x) = f (x) − f (a) − K(x − a).
On observe que g(a) = 0 et on peut choisir K nombre réel tel que g(b) = 0. Alors
g(a) = g(b) et il existe donc c ∈]a, b[, tel que g ′ (c) = 0. Dérivant donc cette fonc-
tion g(x), on trouve K = f ′ (c). D’où le théorème des accroissements finis.
Théorème 4 Si f est continue sur I = [a, b] et dérivable en tout point de I, alors
il existe c ∈]a, b[ tel que
f (b) − f (a) = (b − a) f ′ (c). (1.9)
Evidemment, si on considère maintenant la dérivée f ′ d’une fonction et si
cette nouvelle fonction est dérivable, on obtient après dérivation de cette fonction
la dérivée seconde f ′ ′ et si on peut à nouveau dériver la dérivée troisième f ′ ′ ′
et ainsi de suite, étant précisé qu’en général à partir de p = 4 on note la dérivée
pème sous la forme f (p) . Aussi, les dérivées pour une fonction à une variable x
sont souvent notées
d f d2 f
, , ... etc
dx dx2
Afin de terminer ces rappels du calcul différentiel pour une seule variable, on
énonce la formule de Taylor.

La formule de Taylor pour n = 1


On considère une fonction f ainsi que ses dérivées f (q) pour q = 1, · · · p qui
sont continues sur un intervalle I contenant a. On suppose en plus que la dérivée
f (p+1) existe sur l’intervalle, sans être nécessairement continue. Alors pour tout x
de I on peut écrire
(x − a)2 ′ ′ (x − a) p (p)
f (x) = f (a) + (x − a) f ′ (a) + f (a) + · · · + f (a)
2! p!
(x − a) p+1 (p+1)
+ f (c) (1.10)
(p + 1)!
avec c un point entre a et x, c’est-à-dire c = a + θ(x − a) pour 0 < θ < 1.

On ne donnera pas la preuve générale, mais de regarder le cas de p = 2 par exem-


ple permet d’imaginer aisément une démonstration générale. Soit donc pour p = 2
la fonction
(y − a)2 ′ ′
g(y) = f (y) − f (a) − (y − a) f ′ (a) − f (a) − K(y − a)3.
2!

12
Dérivées partielles et dérivée directionnelle

On observe que g(a) = 0 et il est bien sûr possible de choisir K pour que g(x) = 0.
Mais alors par Rolle (g étant une fonction continue et dérivable), il existe au moins
un c1 entre x et a tel que g ′ (c1 ) = 0. Or

g ′ (y) = f ′ (y) − f ′ (a) − (y − a) f ′ ′ (a) − K 3(y − a)2 .

Or g ′ (a) = 0 et g ′ (c1 ) = 0, donc par Rolle il existe un point c2 entre a et c1 tel que
g ′ ′ (c2 ) = 0. Or
g ′ ′ (y) = f ′ ′ (y) − f ′ ′ (a) − K 3!(y − a).
Donc, g ′ ′ (a) = 0 et par g ′ ′ (c2 ) = 0, on conclut par Rolle ( f ′ ′ étant continue et
dérivable) qu’il existe un point c3 tel que g ′ ′ ′ (c3 ) = 0. Or dérivant g ′ ′ (y) en c3 on
trouve
f ′ ′ ′ (c3 )
0 = f ′ ′ ′ (c3 ) − 3!K et donc K = .
3!
Utilisant cette valeur dans la fonction g(y) ci-dessus, qui vérifie donc que g(x) = 0,
on trouve bien la formule de Taylor pour p = 2

(x − a)2 ′ ′ (x − a)3 ′ ′ ′
f (x) = f (a) + (x − a) f ′ (a) + f (a) + f (c)
2! 3!
(notant c = c3 ).
Remarque : il est souvent commode d’écrire la formule de Taylor sous la forme

h2 ′ ′ hp h p+1 (p+1)
f (a + h) = f (a) + h f ′ (a) +f (a) + · · · + f (p) (a) + f (c)
2! p! (p + 1)!
(1.11)
avec c = a + θh, 0 < θ < 1. En effet, il suffit de poser dans (1.10) x = a + h.

1.2.2 Dérivées partielles et dérivée directionnelle


Il s’agit maintenant de généraliser la notion de dérivée à des fonctions de
plusieurs variables, en partant en quelque sorte de la définition (1.2). Soit donc une
une fonction f (~x) (avec ~x = (x1 , x2 , · · ·, xn ) dans Rn ) et soit un vecteur ~v donné.
Définition 4 La dérivée de f (~x) selon le vecteur ~v au point ~a, et notée

∂~v f

est par définition


f (~a + t~v) − f (~a)
∂~v f (~a) = lim , (1.12)
t→0 t
à condition bien sûr que cette limite existe. On parle aussi d’une dérivée direc-
tionnelle dans la direction ~v.

13
Fonctions de plusieurs variables réelles

On remarque ici que cette dérivée définie par (1.12) est une dérivée par rapport à
la variable t (en t = 0) de la fonction d’une variable
φ(t) = f (~a + t~v).
On peut donc dire, d’après (1.3), que la dérivée dans la direction ~v au point ~a
existe, s’il existe une fonction ε telle que
f (~a + t~v) = f (~a) + t∂~v f (~a) + tε(t), lim ε(t) = 0. (1.13)
t→0

On suppose que le lecteur est familiarisé avec la notion de base canonique de Rn


formée par les vecteurs (écrits comme des vecteurs lignes ici)
~e1 = (1, 0, 0, · · ·, 0),~e2 = (0, 1, 0, · · ·, 0),~en = (0, · · ·, 0, 1), (1.14)
donc toutes les composantes du vecteur ~ei , i = 1, · · ·, n, sont nulles sauf la ième
composante qui est égale à 1. La dérivée dans la direction ~ei en ~a est donc par
définition la limite
f (~a + t~ei ) − f (~a)
lim .
t→0 t
Or, (~a + t~ei ) = (a1 , a2 , · · ·, ai + t, ai+1, · · ·, an ) et on peut énoncer la définition
Définition 5 La dérivée partielle de f par rapport à xi au point ~a est la dérivée
directionnelle ∂~ei f dans la direction ~ei . Vu que ~ei est la direction associée à la
∂f
coordonnée xi , elle est notée ∂xi
et

∂f f ((a1, · · · , ai−1 , ai + t, ai+1, · · · , an )) − f (a1, a2 , · · · , an )


(~a) = lim , (1.15)
∂xi t→0 t
ou de manière équivalente, qu’il existe une fonction ε telle que
∂f
f (~a + t~ei ) = f (~a) + t (~a) + tε(t), lim ε(t) = 0. (1.16)
∂xi t→0

On peut se convaincre, d’après cette définition, que la dérivée partielle par rapport
à xi se détermine comme la dérivée habituelle par rapport à xi , en figeant (en gar-
dant constantes) les autres variables x j , j 6= i.

Exemple : Soit la fonction de deux variables f (x, y) = ex sin(y). De calculer la


dérivée partielle par rapport à x revient à garder y constant, donc de considérer
sin(y) comme une constante et de dériver par rapport à x. Pour la dérivée partielle
par rapport à y, on garde x (et donc ex ) constant et on dérive par rapport à y, ce qui
donne
∂f ∂f
= ex sin(y), = ex cos(y).
∂x ∂y

14
Définition de la dérivée pour n > 1

1.2.3 Définition de la dérivée pour n > 1


Il s’agit maintenant de déterminer en toute généralité la dérivée d’une fonction
à plusieurs variables, qui généralise la définition (1.4). Pour cela, on suppose que
f possède les dérivées partielles au point ~a par rapports à toutes les variables
xi , i = 1, · · · n.
Définition 6 Soit un domaine ouvert D de Rn (un pavé ouvert ou une boule ou-
verte) et ~a un point de D . La fonction f (x1 , x2 , · · · , xn ) est dérivable au point ~a,
si les n dérivées partielles en ~a par rapport à xi , i = 1, · · ·, n existent et s’il existe
une fonction ε(~h) (avec ~h = (h1 , · · · , hn )) telle que
n
∂f
f (~a +~h) = f (~a) + ∑ (~a)h j + ||~h||ε(~h), lim ε(~h) = 0, (1.17)
j=1 ∂x j ~h→0

||~h|| étant la norme euclidienne du vecteur ~h.


Il convient de s’attarder un peu sur cette définition. Tout d’abord, une fonction
dérivable en un point est forcément continue en ce point. En effet, si ~h → 0
(ici 0 désigne le vecteur zéro dont toutes les composantes sont égales à 0), alors
hi → 0, i = 1, · · · , n. Donc, d’après (1.17), f (~a+~h) → f (~a) quand ~h → 0, ce qui est
précisément la condition de continuité de f . Aussi, par définition, si une fonction
est dérivable, les dérivées partielles existent. La réciproque n’est pas forcément
vraie, comme le montre l’exemple dans R2 .

Exemple : Soit la fonction


xy
f (x, y) = 2 , pour (x, y) 6= (0, 0), et f (0, 0) = 0.
x + y2
Nous avons vu que cette fonction n’est pas continue en (0, 0) et elle n’est donc
pas dérivable en (0, 0) en tant que fonction de deux variables. Les dérivées par-
tielles existent cependant au point (0, 0). En effet, pour la dérivée partielles par
rapport à x, on pose y = 0 et f (x, 0) = 0. On peut conclure que ∂∂xf (0, 0) = 0, car
f (t,0)− f (0,0) ∂f
limt→0 t = 0. De même, posant x = 0, f (0, y) = 0 et donc ∂y (0, 0) = 0,
f (0,t)− f (0,0)
car limt→0 t = 0.
Il faut donc ajouter une propriété quant aux dérivées partielles, afin de pouvoir
conclure à la dérivabilité d’une fonction à partir des dérivées partielles.
Théorème 5 Soit un domaine ouvert D de Rn (un pavé ouvert ou une boule ou-
verte) et une fonction f définie en tous les points ~x de D . On dit que f est con-
tinûment dérivable en tout point de D , si et seulement si les dérivées partielles
∂f ∂f ∂f
(~x), (~x), · · · , (~x)
∂x1 ∂x1 ∂xn

15
Fonctions de plusieurs variables réelles

existent et sont continues sur D .

Sans faire la démonstration en toute généralité, on peut considérer le cas n = 2


pour montrer, de quelle façon la continuité des dérivées partielles intervient. On
écrit donc en un point (a1 , a2 )

f (a1 + h1 , a2 + h2 ) − f (a1, a2 ) = A + B

avec
A = f (a1 + h1 , a2 ) − f (a1 , a2 ).
B = f (a1 + h1 , a2 + h2 ) − f (a1 + h1 , a2 )
Par la définition des dérivées partielles, on peut écrire

∂f
A = h1 (a1 , a2 ) + h1 ε1 (h1 )
∂x1
et
∂f
B = h2 (a1 + h1 , a2 ) + h2 ε2 (h2 ).
∂x2
∂f
Or, si ∂x2 (a1 + h1 , a2 ) est continue en (a1 , a2 ), on peut écrire

∂f ∂f
(a1 + h1 , a2 ) = (a1 , a2 ) + ε3 (h1 )
∂x2 ∂x2
et il s’ensuit que

∂f ∂f
f (a1 + h1 , a2 + h2 ) − f (a1 , a2 ) = h1 (a1 , a2 ) + h2 (a1 , a2 )
∂x1 ∂x2
+ h1 ε1 (h1 ) + h2 ε2 (h2 ) + h2 ε3 (h1 ).

On peut se convaincre que les termes contenant les fonctions εi (qui tendent
vers zéro quand h1 et h2 tendent vers zéro) peuvent être regroupés sous la forme
||~h||ε(~h) avec ε(~h) une fonction qui tend vers zéro quand ~h tend vers zéro. Mais
on retrouve alors la définition de l’existence de la dérivée au point (a1 , a2 ).

1.2.4 Dérivée en tant qu’application linéaire et représentation


matricielle
Dans la définition 1.17, on écrira
n
∂f
∑ ∂xi (~a)hi = f ′(~a).~h,
i=1

16
Dérivée en tant qu’application linéaire et représentation matricielle

ce qui définira la dérivée f ′ (~a) d’une fonction à plusieurs variables comme une
application linéaire de Rn dans R, car en effet f ′ (~a) “appliquée” au vecteur ~h
donne un nombre réel noté f ′ (~a).~h.
Remarque : La dérivée d’une fonction à plusieurs variables étant déterminées
par ses dérivées partielles, on peut en effet dire que la dérivée est une opération
linéaire, car la dérivation partielle l’est (comme la dérivée par rapport une seule
variable) et donc
∂ ∂f ∂g
( f + g)(~x) = (~x) + (~x)
∂xi ∂xi ∂xi
pour tout i = 1, · · ·, n. Si l’on introduit l’écriture matricielle, une application linéaire
de Rn dans R correspond à une matrice 1 × n (une matrice ligne) et en identifiant
la dérivée à cette matrice, on écrit
 
∂f ∂f ∂f
f ′ (~a) = ∂x (~a) ∂x (~a) · · · ∂x n
(~
a) . (1.18)
1 2

Par les règles de multiplication, l’expression f ′ (~a)~h s’écrit comme le produit de


cette matrice avec le vecteur colonne dont les composantes sont hi , à savoir
 
h1
   h2  n
′ ~ ∂f ∂f ∂f   ∂f
f (~a).h = ∂x (~a) ∂x (~a) · · · ∂xn (~a)  ..  = ∑ (~a)hi . (1.19)
1 2  .  i=1 ∂xi
hn
C’est donc grâce à cette représentation matricielle que l’on peut généraliser
aisément la définition de la dérivée à des fonctions vectorielles à plusieurs vari-
ables. On les note ~f (~x), où ~f a elle-même disons m composantes, c’est-à-dire
 
f1 (x1 , · · ·, xn )
 f2 (x1 , · · ·, xn ) 
~f (~x) = 
 ..

. (1.20)
 . 
fm (x1 , · · · , xn )
Bien sûr, chaque fonction fi (x1 , · · · xn ) est une fonction à n variables et à valeurs
dans R et on peut donc appliquer composante par composante la définition (1.17),
ce qui permet d’énoncer la définition suivante.
Définition 7 Soit un domaine ouvert D de Rn (un pavé ouvert ou une boule ou-
verte) et ~a un point de D . La fonction vectorielle
 
f1 (x1 , · · · , xn )
 f2 (x1 , · · · , xn ) 
~f (~x) = 
 ..

 (1.21)
 . 
fm (x1 , · · · , xn )

17
Fonctions de plusieurs variables réelles

est dérivable au point ~a, si les n dérivées partielles en ~a par rapport à x j , j =


1, · · ·, n existent pour chaque composante fi , i = 1, · · ·, m et s’il existe une fonction
vectorielle ~ε(~h) (avec ~h = (h1 , · · · , hn )) telle que
~f (~a +~h) = ~f (~a) + ~f ′ (~a).~h + ||~h||~ε(~h), lim~ε(~h) = 0, (1.22)
~h→0

||~h|| étant la norme euclidienne du vecteur ~h. La dérivée ~f ′ (~a) est une application
linéaire de Rn dans Rm et en notation matricielle le produit ~f ′ (~a).~h s’écrit
 ∂f 
a) ∂∂xf1 (~a) · · · ∂x
∂ f1 
∂x1 (~ (~
1
n
a) h 1
2
 ∂ f2 ∂ f2 ∂ f2 
 (~a) (~a) · · · ∂xn (~ a)   h2 
~f ′ (~a).~h =  ∂x1 ∂x2  
. (1.23)
 .. .. ..   ... 

 . . .  
∂ fm
∂x1 (~a) ∂ fm (~a) · · · ∂ fm (~a)
∂x2 ∂xn
hn

La matrice de (1.23) est la représentation matricielle de ~f ′ (~a). Cette matrice est


appelée matrice jacobienne et est souvent notée J f (~a) au lieu de ~f ′ (~a).

1.2.5 Dérivée d’une fonction composée


Soit donnée une fonction ~f (~x) sur un domaine D de Rn à valeurs dans Rm et
pour tout ~x de D , ~f (~x) est dans un domaine E de Rm , où une fonction ~g(~y) est
définie à valeurs dans R p . On peut donc définir pour tout ~x de D (domaine de Rn )
la fonction composée    
~g ◦ ~f (~x) = ~g ~f (~x)

en tant qu’application de Rn dans R p . On suppose que ~f est dérivable en ~a de D


et que ~g est dérivable en ~b = ~f (~a) de E . Alors on peut énoncer le résultat suivant,
à savoir que la fonction composée est dérivable en ~a et que la dérivée s’écrit
 ′  
~
~g ◦ f (~a) = ~g f (~a) .~f ′ (~a).
′ ~
(1.24)

Le membre à droite est en fait la  composée de deux applications linéaires,


à savoir l’application linéaire ~g ′ ~f (~a) de Rm dans R p et l’application linéaire
~f ′ (~a) de Rn dans Rm . La composée des ces applications linéaires est une applica-
tion linéaire de Rn dans R p . On peut démontrer ce résultat de manière un peu sim-
ilaire que pour les fonctions composées à une variable, en partant de la définition
(1.22) de la dérivabilité. Cependant, cette démonstration est un peu technique et
elle fait notamment intervenir la notion de la norme d’une matrice (ou d’une ap-
plication linéaire), qui n’a pas encore été vue à ce niveau de l’apprentissage de
l’algèbre linéaire : la démonstration est donc omise ici.

18
Dérivée d’une fonction composée

D’après ce qui précède, on peut donner une représentation matricielle de ces


applications et de leur produit, à savoir, notant ~b = ~f (~a),
  
∂g1 ~ ∂g1 ~ ∂ f1 ∂ f1
( b) · · · ( b) (~a) · · · (~a)
 ′  ∂y1 . ..
∂ym
..   ∂x1 . .
∂xn
.. 
~
~g ◦ f (~a) =  .
. . .   .
. .
. .  . (1.25)
 
∂g p ~ ∂g p ~ ∂ fm ∂ fm
∂y (b) · · · ∂y (b)
1 m ∂x (~ a) · · · ∂xn (~a)
1

Le membre à droite est donc le produit d’une matrice p × m avec une matrice
m × n, ce qui est bien défini d’après le calcul matriciel et donne lieu à une matrice
p×n, donc une application linéaire de Rn dans R p . On peut bien sûr développer ce
produit matriciel selon les règles de produits de matrices.  Explicitons
 brièvement
~
le genre de relations que l’on obtient. On note F(~x) = ~g f (~x) et la dérivée de ~F
~
 
~
en ~a est la dérivée de la fonction composée ~g ◦ f . La matrice jacobienne de ~F
est  
∂F1 ∂F1
(~
a) · · · (~
a)
 ∂x1. ..
∂xn
.. 
 .. . . 
 
∂Fp ∂Fp
∂x1 (~a) · · · ∂xn (~a)
avec Fi (x1 , · · · , xn ), i = 1, · · ·, p les différentes composantes de ~F. Par les règles des
produits matriciels, on peut donc écrire
m
∂Fi ∂gi ~ ∂ fk
(~a) = ∑ (b) (~a) (1.26)
∂x j k=1 ∂yk ∂x j

avec ~b = ~f (~a), i = 1, · · ·, p, j = 1, · · ·, n.

Exemple : Soit comme exemple une fonction g(x, y) de R2 dans R et une fonction
~f (u, v) = ( f1 (u, v), f2(u, v)) de R2 dans R2 et on suppose que ces fonctions sont
dérivables. Soit F(u, v) = (g ◦ ~f )(u, v) = g( f1 (u, v), f2 (u, v)). Alors
∂F ∂g ∂ f1 ∂g ∂ f2
(u, v) = ( f1 (u, v), f2(u, v)) (u, v) + ( f1 (u, v), f2(u, v)) (u, v)
∂u ∂x ∂u ∂y ∂u
et
∂F ∂g ∂ f1 ∂g ∂ f2
(u, v) = ( f1 (u, v), f2(u, v)) (u, v) + ( f1 (u, v), f2(u, v)) (u, v).
∂v ∂x ∂v ∂y ∂v

Fonction inverse et changement de coordonnées


On se place dans Rn avec les système de coordonnées ~x = (x1 , · · · , xn ) qu’on
appelle des coordonnées cartésiennes. Il est alors sous-entendu, que x j , j = 1, · · ·, n

19
Fonctions de plusieurs variables réelles

sont les coordonnées du vecteur ~x dans la base canonique. Un changement de


variables consiste à donner une fonction vectorielle ~g qui relit un autre ensemble
de variables noté ~u = (u1 , · · ·, un ) précisément à ~x, à savoir
 
x1
 .. 
 .  = ~g(u1, · · · , un ). (1.27)
xn

On suppose que ~g est inversible pour ~u ∈ D , c’est-à-dire si on note E l’image de


D par ~g, alors pour tout ~u ∈ D , il existe (un unique) ~x ∈ E tel que
 
u1
 ..  −1
 .  = ~g (x1 , · · · , xn ). (1.28)
un

On a bien sûr  
u1
~g −1 (~g(u1 , · · ·, un )) =  ...  .
 
(1.29)
un
La composition ~g −1 ◦~g est donc ce qu’on peut appeler l’application identité, dont
la matrice jacobienne est égale à la matrice identité n × n notée I. On suppose que
la fonction ~g est dérivable et on cherche à établir, sous quelle condition la dérivée
de la fonction inverse ~g −1 existe.
De par la règle de dérivation de fonctions composées, on trouve donc
′
g −1 (~g(u1 , · · · , un )) .~g ′ (u1 , · · · , un ) = I

Les dérivées étant des applications linéaires, on voit que si la dérivée de ~g −1 ex-
iste, elle doit être l’inverse de la dérivée de ~g. Donc, dans ce cas la matrice jacobi-
enne Jg doit être inversible (ce qui est le cas si et seulement si son déterminant est
non nul) et on obtient pour la dérivée de la fonction inverse pour~x =~g(u1 , · · · , un ) ∈
E
Jg −1 (x1 , · · ·, xn ) = (Jg(u1, · · · , un ))−1 , (1.30)
c’est-à-dire la matrice jacobienne de l’application inverse est l’inverse de la ma-
trice jacobienne (et vice versa). Dans ce cas on parle précisément d’un change-
ment de variable.
Soit maintenant une fonction f définie sur Rn à valeurs dans R et considérons les
deux expressions

( f ◦~g) (u1 , · · · , un ), f ◦~g −1 (x1 , · · ·, xn ). (1.31)

20
Dérivée d’une fonction composée

Dérivant ces deux expressions, on obtient de par les règles de dérivation de fonc-
tions composées
( f ◦~g) ′ (u1 , · · · , un ) = f ′ (~g(u1 , · · ·, un )) .~g ′ (u1 , · · · , un )
= f ′ (x1 , · · ·, xn ).~g ′ (u1 , · · ·, un ) (1.32)
ainsi que
′  ′
f ◦~g −1 (x1 , · · ·, xn ) = f ′ ~g −1 (x1 , · · · , xn ) . ~g −1 (x1 , · · · , xn )
′
= f ′ (u1 , · · · , un ). ~g −1 (x1 , · · ·, xn ) (1.33)
Dans l’expression (1.32), ( f ◦~g) ′ (u1 , · · · , un ) est en fait la dérivée de f par rap-
port aux variables (u1 , · · · , un ) et f ′ (x1 , · · ·, xn ) la dérivée par rapport aux variables
(x1 , · · · , xn ). Sous forme matricielle (on rappelle que la dérivée de f est un vecteur
ligne, donc une matrice 1 × n) on obtient (on omet l’argument des dérivées par-
tielles de f )
   
∂f ∂f ∂f ∂f
∂u1
· · · ∂un = ∂x · · · ∂xn Jg(u1 , · · ·, u2 ) (1.34)
1
′
Dans l’expression (1.33), f ◦~g −1 (x1 , · · · , xn ) est la dérivée de f par rapport aux
variables (x1 , · · · , xn ) et f ′ (u1 , · · · , un ) est la dérivée par rapport à (u1 , · · · , un ) et
   
∂f ∂f ∂f ∂f
∂x · · · ∂xn
= ∂u · · · ∂un
Jg −1 (x1 , · · ·, x2 ) (1.35)
1 1

Dans (1.35) on peut utiliser (1.30) pour remplacer la matrice jacobiennne de la


fonction inverse par l’inverse de la matrice jacobienne.
Souvent on est amené à exprimer les dérivées partielles par rapport aux coor-
données cartésiennes (ici (x1 , · · · , xn )) en fonction des dérivées partielles par rap-
port au second ensemble de variables. Dans la matrice jacobienne de Jg, le coeffi-
cient en position (i, j) peut s’écrire formellement ∂xi /∂u j , car la ième composante
de ~g donne xi en fonction de (u1 , · · · , un ). De même, l’élément en position (i, j)
de Jg −1 peut s’écrire est ∂ui /∂x j (car la ième composante de ~g −1 donne ui en
fonction de (x1 , · · ·, xn )). Donc, on peut écrire le passage des dérivées partielles
entre les deux ensembles de variables sous la forme
 ∂x1 ∂x1 
∂u · · · ∂u n
    1
∂f ∂f ∂f ∂f  .. .. .. 
∂u · · · ∂un
= ∂x · · · ∂xn  . . .  (1.36)
1 1
∂xn ∂xn
∂u1 ··· ∂un
et bien sûr
 ∂u1 ∂u1 
    ∂x1 ··· ∂xn
∂f ∂f ∂f ∂f  .. .. .. 
∂x1 ··· ∂xn
= ∂u1 ··· ∂un  . . .  (1.37)
∂un ∂un
∂x1 ··· ∂xn

21
Fonctions de plusieurs variables réelles

1.2.6 Quelques applications dans R3


La notion de gradient
On note~x = (x, y, z) les coordonnées cartésiennes dans R3 et on considère une
fonction f (~x) à valeurs dans R. On suppose que la fonction est dérivable en ~x et
d’un point de vue mathématique, la dérivée est une application linéaire de R3 dans
R et dans la base canonique~e1 ,~e2 ,~e3 , la dérivée est donnée par une matrice 1 × 3,
à savoir (on omet le point où on calcule la dérivée)
 
f ′ = ∂∂xf ∂∂yf ∂∂zf .

En mécanique et en physique d’une manière générale cette dérivée est appelée


habituellement le gradient de f et écrit comme un vecteur
 ∂f 
∂x
~ f = ∂f 
grad  ∂y . (1.38)
∂f
∂z
Quand il est sous-entendu que ce vecteur est exprimé dans la base canonique, on
rencontre aussi souvent la notation avec le symbole “nabla”
~∇ f = grad
~ f.

Donc, grad~ f est le vecteur (colonne) dont les éléments sont ceux de la matrice
(qui est un vecteur ligne) associée à f ′ . On peut réinterpréter la dérivée en un
point ~a en direction d’un vecteur ~v de composantes vi , i = 1, 2, 3. En fait, d’après
la définition (1.12), c’est la dérivée en 0 par rapport à la variable t de la fonction
composée ( f ◦~φ)(t) = f (~φ(t)) avec ~φ(t) = ~a + t~v. Or, la dérivée de cette fonction
par rapport à t en 0 est
~φ ′ (0) =~v
et donc (en appliquant la règle du produit de la matrice f ′ (~a) et du vecteur ~v)
  ∂f ∂f ∂f
~ ′ ′ ~
∂~v f (~a) = ( f ◦ φ) (0) = f φ(0) .~v = (~a)v1 + (~a)v2 + (~a)v3 .
∂x ∂y ∂z
Or, cette expression peut aussi être interprétée comme ce qui est appelé le produit
scalaire entre deux vecteurs. On rappelle que le produit scalaire de deux vecteurs
~u (de composantes ui , i = 1, 2, 3) et ~w (de composantes wi , i = 1, 2, 3) de R3 (noté
~u · ~w) est par définition
~u · ~w = u1 w1 + u2 w2 + u3 w3 . (1.39)
Avec les définitions ci-dessus on peut écrire
~ f (~a) ·~v.
∂~v f (~a) = grad (1.40)

22
Quelques applications dans R3

Exemple de changement de coordonnées : coordonnées sphériques


Dans de nombreux problèmes de la mécanique il s’avère utile, voire nécessaire,
d’opérer des changements de coordonnées, un exemple étant les coordonnées
sphériques (voir figure 1.3). Dans un système de coordonnées cartésienne (x, y, z),

F IGURE 1.3 – Coordonnées sphériques.

et notant les trois vecteurs unitaires dans les trois direction ~ex ,~ey ,~ez , on imagine
un points M sur une sphère de rayon r et centrée en 0 l’origine du repère cartésien.
L’angle entre l’axe z et la droite reliant 0 à M est noté θ et en projetant le point
M sur le plan (x, y), on obtient un point M ′ . L’ange entre l’axe des x et la droite
reliant 0 à M ′ est noté φ. Les coordonnées (x, y, z) du point M peuvent s’exprimer
en fonction de (r, θ, φ) de la façon suivante (exercice) :

x = r sin(θ) cos(φ), y = r sin(θ) sin(φ), z = r cos(θ). (1.41)

On peut donc dire que (x, y, z) en tant que vecteur est fonction de (r, θ, φ) par la
fonction vectorielle
 
r sin(θ) cos(φ)
~g(r, θ, φ) =  r sin(θ) sin(φ)  . (1.42)
r cos(θ)

On peut montrer que cette fonction est inversible si on exclut de R3 l’axe des z,
donc en restreignant le domaine d’existence de ~g(r, θ, φ) à 0 < r < ∞, 0 < θ < π,

23
Fonctions de plusieurs variables réelles

0 ≤ φ < 2π (et en effet, on recouvre ainsi le domaine de R3 hormis l’axe des z). Il
existe alors une fonction vectorielle ~g −1 telle que
 
r
 θ  = ~g −1 (x, y, z).
φ

Il est possible d’expliciter les trois composantes de la fonction inverse, à savoir


! !
p z x
r = x2 + y2 + z2 , θ = arccos p , φ = arccos p ,
x2 + y2 + z2 x2 + y2

avec la convention que pour y ≥ 0, φ est dans l’intervalle [0, π] et si y < 0, on


choisit φ dans ]π, 2π[ (étant donné que cos(π − α) = cos(π + α)).
On observe que la fonction inverse ~g −1 a une expression plus complexe que la
fonction ~g, dont on peut aisément déterminer la matrice jacobienne Jg(r, θ, φ) qui
s’écrit (exercice)
 
sin(θ) cos(φ) r cos(θ) cos(φ) −r sin(θ) sin(φ)
Jg(r, θ, φ) =  sin(θ) sin(φ) r cos(θ) sin(φ) r sin(θ) cos(φ)  . (1.43)
cos(θ) −r sin(θ) 0

Pour déterminer la matrice jacobienne de ~g −1 , on applique la relation (1.30) qui


devient ici
Jg−1 (x, y, z) = (Jg(r, θ, φ)) −1 (1.44)
On peut sans trop de difficultés calculer le déterminant de la matrice (1.43) et on
trouve det(Jg(r, θ, φ)) = r2 sin(θ) et ce déterminant est non nul, si 0 < r < ∞ et
si 0 < θ < π. Un calcul un peu fastidieux permet d’inverser cette matrice et on
trouve
 
sin(θ) cos(φ) sin(θ) sin(φ) cos(θ)
 1 1 1
(Jg(r, θ, φ))−1 =  r cos(θ) cos(φ) r cos(θ) sin(φ) − r sin(θ)  . (1.45)

− 1r sin(φ)
sin(θ)
1 cos(φ)
r sin(θ) 0

On remarque ici que si on exprimait maintenant (r, θ, φ) en fonction de (x, y, z),


alors on aurait l’expression de la matrice jacobienne de ~g −1 dans ces variables,
ce qui n’est souvent pas nécessaire, notamment lorsqu’on souhaite exprimer par
exemple le gradient d’une fonction f en coordonnées sphériques.
Pour ce faire, on écrit pour une fonction f donnée la fonction composée

f ~g −1 (x, y, z) ,

24
Quelques applications dans R3

ce qui correspond précisément au changement de variables qui fait passer de


(x, y, z) à (r, θ, φ). Par la dérivée composée (voir (1.35)) on peut écrire, gardant
le nom f pour la fonction dont on cherche le gradient, indépendamment des coor-
données utilisées,
   
∂f ∂f ∂f ∂f ∂f ∂f
∂x ∂y ∂z = ∂r ∂θ ∂φ (Jg(r, θ, φ))−1 . (1.46)

Le membre à droite est un produit d’une matrice 1 × 3 avec une matrice 3 × 3 (en
fait la matrice (1.45)), ce qui donne bien une matrice 1 × 3 et de par l’expression
(1.45) on trouve

∂f ∂f 1 ∂ f 1 sin(φ) ∂ f
= sin(θ) cos(φ) + cos(θ) cos(φ) − ,
∂x ∂r r ∂θ r sin(θ) ∂φ
∂f ∂f 1 ∂ f 1 cos(φ) ∂ f
= sin(θ) sin(φ) + cos(θ) sin(φ) + , (1.47)
∂y ∂r r ∂θ r sin(θ) ∂φ
∂f ∂f 1 ∂f
= cos(θ) − sin(θ) .
∂z ∂r r ∂θ

Considérant les vecteurs de la base canonique, le gradient de f s’écrit

~ f = ∂ f ~ex + ∂ f ~ey + ∂ f ~ez .


grad (1.48)
∂x ∂y ∂z

Or, sur la figure 1.3 un repère ~er ,~eθ ,~eφ est dessiné, qui correspond à une base dite
mobile de coordonnées sphériques. Appliquant un peu de trigonométrie on peut
se convaincre que

~er = sin(θ) cos(φ)~ex + sin(θ) sin(φ)~ey + cos(θ)~ez ,


~eθ = cos(θ) cos(φ)~ex + cos(θ) sin(φ)~ey − sin(θ)~ez , (1.49)
~eφ = − sin(φ)~ex + cos(φ)~ey.

On remarque que ces trois vecteurs sont de norme euclidienne égale à 1. En plus,
les vecteurs sont deux à deux orthogonaux, c’est-à-dire le produit scalaire entre
deux de ces vecteurs est égal à 0. Utilisant les expressions (1.47) et l’expression
du gradient en coordonnées cartésiennes (1.48) en tenant compte de (1.49), on
obtient le gradient en coordonnées sphériques, à savoir

~ f = ∂ f ~er + 1 ∂ f ~eθ + 1 ∂ f ~eφ .


grad (1.50)
∂r r ∂θ r sin(θ) ∂φ

25
Fonctions de plusieurs variables réelles

Plan tangent à une surface de R3


Soit une surface S de R3 donnée par une relation de la forme

f (x, y, z) = 0. (1.51)

Comme exemple on peut imaginer une sphère centrée en 0 de rayon r dont l’équation
est
f (x, y, z) = 0 avec f (x, y, z) = x2 + y2 + z2 − r2 .
Imaginons une courbe de R3 tracée sur la surface, une telle courbe étant définie
par une fonction
~ϕ(t) = (x(t), y(t), z(t), t ∈ I,
avec I un intervalle (ouvert) de R (on parle d’une courbe paramétrée par t). Par la
définition de la dérivée, et considérant une valeur particulière t0 du paramètre où
la fonction ~ϕ(t) est dérivable, on peut écrire

~ϕ(t0 + h) = ~ϕ(t0) + h~ϕ ′ (t0) + h~ε(h), lim~ε(h) = 0.


h→0

On trouve ainsi la notion de la tangente à la courbe : c’est la droite qui passe


par ~ϕ(t0 ) = M0 = (x0 , y0 , z0) et qui a comme vecteur directeur ~ϕ ′ (t0) qui, quand
son origine est placée en M0 , devient le vecteur tangent noté ~T . Cette situation
est illustrée par la figure 1.4. Si l’on considère maintenant la fonction composée
( f ◦~ϕ), la courbe étant sur la surface, on peut alors affirmer que

( f ◦~ϕ)(t) = f (x(t), y(t), z(t)) = 0, t ∈ I.

La fonction composée ( f ◦~ϕ)(t) de la variable t étant identiquement égale à zéro


sur un intervalle I, on peut affirmer que sa dérivée s’annule et on aura pour tout
t0 ∈ I

0 = ( f ◦~ϕ) ′ (t0) = f ′ (~ϕ(t0))~ϕ ′ (t0 )


 
  x ′ (t0)
∂f ∂f ∂f  y ′ (t0 )  . (1.52)
= ∂x (x0 , y0 , z0 ) ∂y (x0 , y0 , z0 ) ∂z (x0 , y0 , z0 )
z ′ (t0)

~ f et d’après sa définition, le produit entre la matrice


Reprenons la notation grad
ligne et du vecteur ci-dessus peut encore s’écrire comme le produit scalaire
~ f (x0 , y0 , z0 ) ·~ϕ ′ (t0) = 0,
grad

ce produit étant égal à zéro d’après ce qui précède. Le vecteur directeur ~T de la


tangente T en M0 à la courbe sur la surface étant donné par ~ϕ ′ (t0 ) et donc pour

26
Quelques applications dans R3

F IGURE 1.4 – Surface S avec son plan tangent P au point M.

tout M = (x, y, z) sur la droite tangente, on aura pour le vecteur M~0 M

 
x − x0
M~0 M =  y − y0  = λ~ϕ ′ (t0), pour un λ ∈ R.
z − z0

Or, dans le produit scalaire ci-dessus on peut remplacer ~ϕ ′ (t0) par λ~ϕ ′ (t0) et le
résultat est toujours zéro. On obtient donc l’équation du plan tangent à S en M0 , à
savoir l’ensemble de tous les points (x, y, z) tels que

∂f ∂f ∂f
(x −x0 ) (x0 , y0 , z0 ) +(y−x0 ) (x0 , y0 , z0 ) +(z −x0 ) (x0 , y0 , z0 ) = 0. (1.53)
∂x ∂y ∂z

D’un point de vue géométrique, le fait que le produit scalaire entre deux vecteurs
est zéro signifie que les deux vecteurs forment un angle droit (π/2, c.-à-d. 90◦ )
entre eux, on dit qu’ils sont orthogonaux. Donc, par définition, le gradient de f
en tout point M0 de la surface S définie par f (x, y, z) = 0 est orthogonal au plan
tangent à S en ce point.

27
Fonctions de plusieurs variables réelles

1.2.7 Dérivées partielles d’ordre supérieur à 1, formule de Tay-


lor
Soit une fonction f (x1 , x2 , · · ·, xn ) définie sur un domaine (ouvert) de D de Rn ,
continue et dérivable et donc avec les dérivées partielles continues. On considère
la fonction
∂f
gi (x1 , · · · , xn ) = (x1 , · · · , xn )
∂xi
et en suppose que gi possède des dérivées partielles par rapport à toutes les vari-
ables et on note
∂gi ∂2 f
(x1 , · · · , xn ) = (x1 , · · ·, xn ). (1.54)
∂x j ∂x j ∂xi
Evidemment, on peut faire varier i et j et on définit ainsi les dérivées partielles
secondes
∂2 f
(x1 , · · ·, xn ), i = 1, · · ·n, j = 1, · · · , n. (1.55)
∂x j ∂xi
On peut maintenant se poser la question, si dans ces dérivées partielles d’ordre
2 l’ordre de dérivation, d’abord par rapport à xi et ensuite par rapport à x j , est
important. Prenons comme exemple la fonction f (x, y) = xm yn avec (x, y) ∈ R2 et
calculons
∂f ∂f
(x, y) = mxm−1 yn , (x, y) = nxm yn−1 ,
∂x ∂y
∂2 f ∂2 f
(x, y) = m(m − 1)xm−2 yn , (x, y) = nmxm−1 yn−1 ,
∂x2 ∂y∂x
∂2 f ∂2 f
(x, y) = mnxm−1 yn−1 , (x, y) = n(n − 1)xm yn−2 .
∂x∂y ∂y2
∂2 f ∂2 f
On constate ci-dessus pour cet exemple que ∂y∂x = ∂x∂y

En fait, on peut montrer le résultat général suivant pour f (x1 , · · · , xn ).

Théorème 6 Si les dérivées partielles d’ordre deux de f (x1 , · · · , xn ) existent et


sont continues sur D , alors

∂2 f ∂2 f
(x1 , · · · , xn ) = (x1 , · · ·, xn ). (1.56)
∂x j ∂xi ∂xi ∂x j

On se contente d’admettre le résultat assez naturel, étant donné que la démonstration


rigoureuse est un peu technique. On peut donc procéder à des dérivées partielles
d’un ordre quelconque (en prenant les dérivées partielles des dérivées partielles

28
Dérivées partielles d’ordre supérieur à 1, formule de Taylor

d’ordre deux etc.) que l’on écrit d’une manière générale pour une dérivée partielle
d’ordre p sous la forme
∂p f
p1 p p , (1.57)
∂x1 ∂x2 2 · · · ∂xn n
pour des entiers pi ≥ 0, i = 1, · · · , n avec ∑ni=1 pi = p. Alors naturellement, si toutes
les dérivées partielles possibles d’ordre p existent et sont continues, alors l’ex-
pression ci-dessus est indépendante de l’ordre par rapport auquel on prend les
dérivations partielles successives.
Soit maintenant (a1 , a2 , · · · , an ) un point de D et considérons F(t) fonction de
la variable réelle t définie par

F(t) = f (a1 + th1 , · · ·an + thn ),

qui est la fonction f composée avec la fonction vectorielle (a1 + th1, · · · , an + hn )


avec hi , i = 1, · · · , n les composantes d’un vecteur ~h donné. La dérivée de F s’écrit
d’après les règles de la dérivée d’une fonction composée (exercice)
n
∂f
F ′ (t) = ∑ hi (~a + t~h). (1.58)
i=1 ∂xi

On peut ensuite calculer la dérivée seconde de F : la dérivée étant une opération


linéaire, ceci revient à calculer la dérivée suivant t des fonctions de la somme
ci-dessus. Soit par exemple

∂f
φi (t) = (~a + t~h)
∂xi
alors
n
∂2 f
φi′ (t) = ∑ hj (~a + t~h).
j=1 ∂xi ∂x j
On en déduit, que
!
n n n n
∂2 f ∂2 f
F ′ ′ (t) = ∑ hi ∑ j ∂xi∂x j (~a + t~h)
h =∑ ∑ hi h j ∂xi ∂x j
(~a + t~h). (1.59)
i=1 j=1 i=1 j=1

De généraliser cette expression à la dérivée d’ordre 3 ne pose a priori pas de


difficultés et
n n n
∂3 f
F ′ ′ ′ (t) = ∑ ∑ ∑ hi h j hk (~a + t~h), (1.60)
i=1 j=1 k=1 ∂xi ∂x j ∂xk

cette expression faisant apparaı̂tre une triple somme.

29
Fonctions de plusieurs variables réelles

Evidemment, on peut ainsi procéder à des dérivées partielles pour des ordres
encore plus élevés. Mais arrêtons nous à l’ordre trois, en tout cas pour établir
la formule de Taylor pour une fonction à n variables. En fait, nous avons vu (et
démontré) la formule de Taylor pour une fonction à une variable (voir l’expression
1.11) que l’on peut appliquer à F(t) au point t = 0 et avec h = 1

1 ′′ 1
F(1) = F(0) + F ′ (0) + F (0) + F ′ ′′ (θ), 0 < θ < 1.
2! 3!

Or, F(1) = f (~a +~h) et bien sûr F(0) = f (~a). Posant dans les expression ci-dessus
pour la dérivée première et seconde t = 0 et pour la dérivée troisième t = θ, on
obtient la formule de Taylor au point ~a
n
∂f 1 n n ∂2 f
f (~a +~h) = f (~a) + ∑ hi (~a) + ∑ ∑ hi h j (~a)
i=1 ∂xi 2! i=1 j=1 ∂xi ∂x j
1 n n n
∂3 f
+ ∑∑∑ h i h j h k (~a + θ~h), 0 < θ < 1. (1.61)
3! i=1 j=1 k=1 ∂xi ∂x j ∂xk

Ici il convient de faire une remarque quant à l’ordre de grandeur du dernier


terme dans la formule ci-dessus. Tout d’abord, les dérivées partielles étant sup-
posées continues dans D (étant précisé que pour les vecteurs ~h considérés, ~a +~h
est dans D ). Il est donc possible de majorer par un nombre K > 0 toutes les
dérivées partielles d’ordre trois, à savoir

∂3 f
(~y) ≤ K, pour tout ~y ∈ D . (1.62)
∂xi ∂x j ∂xk

Ensuite, on peut écrire


3 !3
n n n n n
∑ ∑ ∑ hi h j hk = (h1 + h2 + · · · + hn )3 = ∑ hi ≤ ∑ |hi| . (1.63)
i=1 j=1 k=1 i=1 i=1

Nous avons introduit la norme euclidienne, à savoir


s
n
||~h|| = ∑ h2 . i
i=1

Soit donc r = maxi=1,···,n |hi |, c’est-à-dire la plus grande des composantes de ~h en


valeur absolue. Alors
n
∑ |hi| ≤ nr ≤ n||~h|| (1.64)
i=1

30
Application : extremum d’une fonction de plusieurs variables

q
car naturellement ∑ni=1 h2i ≥ r. Il s’ensuit par (1.63), et tenant compte de la
majoration (1.64), que
n n n
∑ ∑ ∑ hi h j hk ≤ n3 ||~h||3 (1.65)
i=1 j=1 k=1

On note donc
1 n n n ∂3 f
R3 (~h) = ∑ ∑ ∑ hi h j hk (~a + θ~h) (1.66)
3! i=1 j=1 k=1 ∂xi ∂x j ∂xk

et on peut donc affirmer qu’il existe une constante C > 0 telle que

R3 (~h) ≤ C||~h||3 (1.67)

(il suffit de prendre C = n3 K/3! avec K définie par la majoration (1.62)). La for-
mule de Taylor (1.61) est censée décrire le comportement de la fonction au voisi-
nage de ~x, donc notamment lorsque ||~h|| < ε avec ε “petit”. Attardons nous sur le
terme avec les dérivées partielles secondes dans la formule (1.61) et on note
n n
∂2 f
Q(~h) = ∑ ∑ hih j ∂xi∂x j (~a) (1.68)
i=1 j=1

ce qui permet d’écrire


n
∂f 1
f (~a + h) = f (~a) + ∑ hi (~a) + Q(~h) + R3 (~h).
~ (1.69)
i=1 ∂xi 2!

Notons que par exactement le même raisonnement que pour le terme avec les
dérivées partielles d’ordre 3, on peut affirmer qu’il existe une constante L telle
que
1 ~
|Q(h)| ≤ L||~h||2 . (1.70)
2
En effet ∑n ∑n hi h j ≤ n2 ||~h||2 et on peut affirmer qu’il existe une constant
i=1 j=1
∂2 f
K2 telle que ∂xi ∂x j (~y) ≤ K2 pour tout i, j et on peut choisir L = n2 K2 /2.

1.2.8 Application : extremum d’une fonction de plusieurs vari-


ables
Tout d’abord il convient de définir la notion de maximum ou minimum local
d’une fonction f en un point ~a.

31
Fonctions de plusieurs variables réelles

Définition 8 On dit que la fonction f de n variables admet un maximum local


au point ~a, si pour tout ~x dans un voisinage de ~a, c’est-à-dire pour tout ~x tel que
||~x −~a|| ≤ r pour un r > 0,
f (~x) < f (~a). (1.71)
On dit au contraire que f possède un minimum local, si pour ~x dans un voisinage
de ~a
f (~x) > f (~a). (1.72)
Afin d’établir les conditions de l’existence d’un tel minimum ou maximum local,
on utilise la formule de Taylor (1.69) ; alors ~x = ~a +~h est dans un voisinage de ~a
signifie que ||~h|| ≤ r pour un r donné. On peut énoncer le résultat suivant.
Théorème 7 Si f possède un maximum ou minimum local en ~a, alors toutes les
dérivées partielles de f s’annulent en ce point.
La démonstration est assez simple. Imaginons donc que f possède par exemple un
maximum local en~a. On aura donc pour tout~h tel que ||~h|| < r, f (~a+~h)− f (~a) < 0
et donc par la formule de Taylor (1.69)
n
∂f 1
∑ hi ∂xi (~a) + 2 Q(~h) + R3(~h) < 0. (1.73)
i=1

On fait un raisonnement par “contraposé” (on parle aussi d’une démonstration


par l’absurde), supposant qu’au moins une dérivée partielle particulière (disons
∂f
suivant x j ), ∂x j
(~a) = α 6= 0. Soit donc ~h tel que hi = 0, i 6= j et h j 6= 0, donc
l’inégalité (1.73) devient
1 ~
h jα + Q(h) + R3 (~h) < 0. (1.74)
2!
Notons qu’alors ||~h|| = |h j | et on peut choisir un ε > 0 assez petit tel que pour tout
h j avec 0 < |h j | = ||~h|| ≤ ε on obtient la majoration
1 ~ 1
Q(h) + R3 (~h) ≤ Q(~h) + R3 (~h) ≤ L||~h||2 +C||~h||3 < |α|||~h||, (1.75)
2 2
en utilisant les majorations (1.67) et (1.70). La dernière majoration stricte provient
du fait que
L||~h||2 +C||~h||3
→ 0, quand ~h → 0
|α|||~h||
et donc il existe un ε > 0 tel que pour tout 0 < ||~h|| ≤ ε,

L||~h||2 +C||~h||3
< 1.
|α|||~h||

32
Application : extremum d’une fonction de plusieurs variables

Soit donc un tel ε et par (1.75) on aura (choisissant h j tel que |h j | = ||~h|| < ε)

1 ~
h jα + Q(h) + R3 (~h) > h j α − |α|||~h||.
2!
Quel que soit le signe de α, on peut toujours choisir h j (soit positif, soit négatif),
tel que h j α−|α|||~h|| = 0, et donc h j α+ 2!
1
Q(~h)+R3 (~h) > 0 d’après ce qui précède,
ce qui est en contradiction avec (1.74). Le raisonnement pour un minimum local
est analogue et on peut conclure qu’une condition nécessaire pour l’existence d’un
extremum local en ~a est que les dérivées partielles en ce point s’annulent, donc

∂f ∂f
(~a) = 0, · · ·, (~a) = 0. (1.76)
∂x1 ∂xn
Supposons donc que ces conditions sont vérifiées et on peut écrire alors par la
formule de Taylor

1
f (~a +~h) − f (~a) = Q(~h) + R3 (~h). (1.77)
2!

On verra ultérieurement que Q(~h) (dont l’expression est donnée par (1.68)) s’ap-
pelle une forme quadratique.

Définition 9 On dit que Q(~h) est définie positive, si pour tout vecteur ~h non nul
Q(~h) > 0. On dit que Q(~h) est définie négative, si pour tout vecteur ~h non nul
Q(~h) < 0.

Si Q(~h) est par exemple définie positive, on peut affirmer qu’il existe un nombre
c > 0 tel que Q(~h) > c||~h||2 . En effet, on peut se convaincre par l’expression (1.68),
que !
1 1
Q(~h) = Q ~h
||~h||2 ||~h||
1 ~
Or la norme des vecteurs ~v = h est égale à 1. Ceci est une conséquence du fait
||~h||
que ||λ~x|| = |λ|||~x|| ce qu’on peut montrer aisément par la définition de la norme.
Il suffit alors de choisir c comme la plus petite valeur (forcément positive si Q
est définie positive) de Q(~v) appliquée à tous les vecteurs ~v de norme 1. On peut
également montrer que si Q(~h) est définie négative, alors il existe c > 0 tel que
Q(~h) < −c||~h||2 .
Par ailleurs, nous avons vu qu’il existe C > 0 tels que

|R3 (~h)| ≤ C||~h||3 .

33
Fonctions de plusieurs variables réelles

Si Q(~h) est définie positive, on pourra écrire la majoration


 
1 ~ ~ 1 ~ 2 ~ 3 1 ~ 2 2C ~
Q(h) + R3 (h) > c||h|| −C||h|| = c||h|| 1 − |h||.
2! 2 2 c

Il s’ensuit que pour ||~h|| < c/(2C), 1 ~ ~


2! Q(h) + R3 (h) > 0 et d’après (1.77),

f (~a +~h) − f (~a) > 0.

Si cependant Q(~h) est définie négative, alors


 
1 ~ 1 1 2C
Q(h) + R3 (~h) < − c||~h|| +C||~h|| = c||~h|| −1 + ||~h||.
2 3 2
2! 2 2 c

et alors pour ||~h|| < c/(2C), on aura par (1.77) l’inégalité f (~a +~h) − f (~a) < 0. On
peut donc énoncer le théorème suivant.
Théorème 8 On suppose que pour une fonction f toutes les dérivées partielles
2
en un point ~a s’annulent. Si la fonction Q(~h) = ∑ni=1 ∑nj=1 hi h j ∂x∂i ∂xf j (~a) est définie
négative, alors f possède un maximum local en ~a. Si la fonction Q(~h) est définie
positive, alors f possède un minimum local en ~a.

Illustration pour n = 1 et n = 2
Considérons d’abord le cas d’une fonction d’une seule variable. La formule
de Taylor est alors

h2 ′ ′ h3
f (a + h) − f (a) = h f ′ (a) + f (a) + f ′ ′ ′ (a + θh).
2 3!
Soit donc a tel que f ′ (a) = 0. Ici la fonction Q(h) = h2 f ′ ′ (a) et on peut donc
affirmer que la fonction f a un mimimum local en a si f ′ ′ (a) > 0 et f a un maxi-
mum local en a si f ′ ′ (a) < 0.

Traitons maintenant le cas n = 2 et soit une fonction f (x, y). On note ~h = (h, k)
et ~a = (u, v).
La formule de Taylor s’écrit alors (voir (1.61))
∂f ∂f
f (u + h, v + k) − f (u, v) = h (u, v) + k (u, v)
∂x ∂y
1 2∂ f2 1 2 ∂2 f ∂2 f
+ h (u, v) + k (u, v) + hk (u, v)
2 ∂x2 2 ∂y2 ∂x∂y
+ R3 (h, k) (1.78)

34
Application : extremum d’une fonction de plusieurs variables

2
∂ f 2
∂ f
(on a utilisé le fait que ∂x∂y = ∂y∂x ). Donc, une condition nécessaire pour l’exis-
tence d’un extremum local en (u, v) est
∂f ∂f
(u, v) = 0, (u, v) = 0. (1.79)
∂x ∂y
On suppose que ces conditions sont vérifiées et on notera

∂2 f ∂2 f ∂2 f
q11 = (u, v), q 12 = (u, v), q 22 = (u, v)
∂x2 ∂x∂y ∂y2
et donc
Q(h, k) = q11 h2 + 2q12 hk + q22 k2 .
On suppose que Q(h, k) 6= 0 si (h, k) 6= (0, 0), ce qui implique notamment que
q11 6= 0 et q22 6= 0 et alors on peut écrire (exercice)
   
q12 2 q212 2
Q(h, k) = q11 h + k + q22 − k .
q11 q11
Donc Q(h, k) est définie positive, et f possède alors un minimum locale en (u, v),
si
q2
q11 > 0 et q22 − 12 > 0,
q11
tandis que Q(h, k) est définie négative, et f possède alors un maximum locale en
(u, v), si
q2
q11 < 0 et q22 − 12 < 0.
q11
Soit donc la surface z = f (x, y) et nous allons essayer de schématiser le com-
portement au voisinage d’un point (u, v) où les dérivées partielles s’annulent. On
désigne par ≈ le fait qu’une quantité est “proche” d’une autre et donc

    !
1 q12 2 q212 2
f (u + h, v + k) ≈ f (u, v) + q11 h + k + q22 − k
2 q11 q11

d’après de ce qui précède (supposant que Q(h, k) 6= 0, si (h, k) 6= (0, 0)). On pose
q12
H = h+ k, K = k (1.80)
q11
ce qui revient à faire un changement de variable
q12
X = x+ y, Y = y, (1.81)
q11

35
Fonctions de plusieurs variables réelles

F IGURE 1.5 – Minimum local (en haut à gauche), maximum local (en haut à
droite) et point selle au voisinage de z = f (u, v).

qui ne change bien sûr rien au fait qu’il y ait un extremum en (u, v). On écrit la
fonction dans le nouveau système de coordonnées en lettres majuscules et donc
pour g(X ,Y ) = f (x(X ,Y ), y(X ,Y )) (avec x(X ,Y ) = X − qq11
12
Y, y(X ,Y ) = Y )
 
2 1 2 1 q212
g(U + H,V + K) ≈ g(U,V ) + aH + bK , a = q11 , b = q22 − (1.82)
2 2 q11

(bien sûr, z = g(U,V ) = f (u, v)). Si a > 0 et b > 0, alors il s’agit d’un minimum
local (voir dessin en haut à gauche de la figure 1.5) et si a < 0 et b < 0 on trouve
un maximum local (en haut à droite sur la figure). Supposons par exemple que
a < 0 et b > 0. On parle alors d’un point selle (ou d’un col) en z = f (u, v), illustré
par le troisième dessin de la figure. En effet, fixant Y = V on aura un maximum
local selon X et un minimum local selon Y si on fixe X = U .

36
Chapitre 2

Intégrales multiples

2.1 Rappels sur l’intégrale définie dans R


On suppose donnée une fonction f (x) de la variable réelle x et à valeurs dans
R définie sur l’intervalle [a, b]. Le graphe de la fonction, l’axe des x ainsi que les
droites d’équations x = a et x = b délimitent une surface. On partage le segment
[a, b] en n parties égales en subdivisant l’intervalle par des sous-intervalles

i(b − a)
[xi , xi+1 ], avec xi = a + , i = 0, · · ·, n. (2.1)
n
On observe qu’avec cette notation x0 = a et xn = b. Soit f (xi ), i = 0, · · ·, n les
valeurs de la fonction en ces abscisses et on peut considère pour chaque sous-
intervalle [xi , xi+1 ] deux type de rectangles dont [xi , xi+1 ] est la base : on peut
choisir un rectangle dont f (xi ) est la hauteur ou alors un rectangle dont f (xi+1 )
est la hauteur (voir les deux schémas de la figure 2.1). On observe que la longueur
de l’intervalle [xi , xi+1 ] est xi+1 − xi = (b − a)/n d’après (2.1) et que donc l’aire
de l’ensemble des rectangles dont la base est [xi , xi+1 ] et la hauteur la valeur “à
gauche” f (xi ), notée In , est égale à
n−1
b−a
In = ∑ f (xi ), (2.2)
i=0 n

tandis que l’aire choisissant la hauteur à droite f (xi+1 ) notée Jn est


n−1
b−a
Jn = ∑ f (xi+1 ). (2.3)
i=0 n

Ces sommes sont appelées des sommes de Riemann. Il est facile de se convaincre
que pour une fonction continue f (x), lorsqu’on augmente n (donc lorsque on rend

37
Intégrales multiples

F IGURE 2.1 – Schéma de la sous-division de l’aire en dessous d’un graphe donné


par f (x) par des rectangles.

la base [xi , xi+1 ] des rectangles de plus en plus petite), alors la somme des aires
des rectangles s’approchent de plus en plus de l’aire de la surface délimitée par
le graphe de la fonction et l’axe des x. Aussi, lorsque n augmente indéfiniment,
ce résultat est indépendant du fait de choisir f (xi ) ou f (xi+1 comme hauteurs des
rectangles. Ceci nous amène à la définition suivante.

Définition 10 On appelle intégrale définie de f le nombre


n−1 n−1
b−a b−a
I = lim In = lim ∑ f (xi ) = lim Jn = lim ∑ f (xi+1 ) (2.4)
i=0 n i=0 n
n→∞ n→∞ n→∞ n→∞

et on la note Z b
I= f (x) dx (2.5)
a
(et on appelle a et b respectivement la borne inférieure et la borne supérieure de
l’intégrale).

On peut observer que


b−a
Jn − In = ( f (b) − f (a))
n
(car x0 = a, xn = b) et que cette différence tend en effet vers zéro quand n → ∞
(d’où l’égalité des limites dans (2.4)). Sur le dessin de la figure 2.1, f (x) > 0 mais
la définition 10 reste bien sûr valable quel que soit le signe, ou le changement de
signe, de f (x) et l’intégrale, dont la valeur peut être positive, négative ou nulle, est
aussi appelée l’aire algébrique de la surface limitée par le graphe de la fonction,

38
Théorème de la moyenne, primitive et changement de variable

l’axe des x et les droites d’équations x = a et x = b. A partir de ces définition il est


relativement aisé d’établir un certain nombre de propriétés de l’intégrale définie.
Propriétés de l’intégrale définie dansR.
1. l’intégrale dépend linéairement de la fonction f pour un intervalle fixé [a, b],
c’est-à-dire
Z b Z b Z b
( f (x) + g(x)) dx = f (x) dx + g(x) dx
a a a

et Z b Z b
λ f (x) dx = λ f (x) dx.
a a
2.
Z a Z b Z c Z c Z b Z a
f (x) dx = 0, f (x) dx+ f (x) dx = f (x) dx, f (x) dx = − f (x) dx.
a a b a a b

On note que la dernière relation ci-dessus s’ensuit de la deuxième en posant


c = a et en tenant compte de la première.
3. Z b
a<b et f ≥0 alors f (x) dx ≥ 0
a
4. De ce qui précède, on déduit
Z b Z b
a < b et f ≥g alors f (x) dx ≥ g(x) dx.
a a

En effet, sous ces hypothèses f − g ≥ 0.


5. Si f (x) est continue, alors sa valeur absolue l’est aussi et bien sûr −| f (x)| ≤
f (x) ≤ | f (x)| et on en déduit que si a < b,
Z b Z b
f (x) dx ≤ | f (x)| dx.
a a

2.1.1 Théorème de la moyenne, primitive et changement de


variable
Une application très importante de l’intégrale est la formule de la moyenne.
Soit f (x) continue sur [a, b] et notant m sa plus petite valeur sur l’intervalle et M
sa plus grande, donc m ≤ f (x) ≤ M et d’où
Z b Z b Z b
m dx ≤ f (x) dx ≤ M dx
a a a

39
Intégrales multiples

ou encore Z
1 b
m≤ f (x) dx ≤ M
b−a a
car de manière évidente lorsque on intègre les fonctions constantes m et M on
obtient respectivement m(b − a) et M(b − a) (ce qui découle facilement de la
1 Rb
définition de l’intégrale). La quantité b−a a f (x) dx s’appelle la valeur moyenne
de la fonction sur [a, b] et elle comprise entre la valeur la plus petite et la valeur la
plus grande de f sur cet intervalle. Or, il a été vu dans des cours de mathématiques
antérieurs qu’une fonction continue sur un intervalle atteint toute valeur entre sa
valeur la plus petite et sa valeur la plus grande sur l’intervalle (ce résultat est connu
sous le nom de théorème de la valeur intermédiaire). Donc on peut énoncer le
théorème dit de la moyenne.

Théorème 9 Il existe un nombre c dans l’intervalle [a, b] tel que


Z b
1
f (x) dx = f (c).
b−a a

Avant de terminer ces rappels sur l’intégration dans R, nous abordons la notion
de la primitive d’une fonction et la question du changement de variable dans une
intégrale. Supposons maintenant que la borne supérieure de l’intégrale soit x et
écrivons (en introduisant une variable d’intégration notée t)
Z x
G(x) = f (t) dt (2.6)
a

ce qui détermine une fonction G(x). Imaginons un point x0 et d’après la définition


Z x0 +h Z x0 Z x0 +h
G(x0 + h) − G(x0 ) = f (t) dt − f (t) dt = f (t) dt
a a x0

(la dernière égalité découle de la propriété 2 ci-dessus). Or, le théorème de la


moyenne appliquée à la dernière intégrale permet d’écrire
Z x0 +h
f (t) dt = h f (x0 + θh), 0 ≤ θ ≤ 1.
x0

La fonction f est continue et donc f (x0 + θh) = f (x0 ) + ε(h) et ε(h) tend vers
zéro quand h tend vers zéro. On résume ce qui précède par

G(x0 + h) − G(x0 ) = h f (x0 ) + hε(h). (2.7)

Mais d’après la définition de la dérivée, on en déduit que G ′ (x0 ) = f (x0 ). On peut


donc énoncer le résultat suivant.

40
Théorème de la moyenne, primitive et changement de variable

Théorème 10 Soit f uneRfonction continue sur un intervalle qui contient [a, b].
Alors la fonction G(x) = ax f (t) dt est dérivable (et donc continue) sur cet inter-
valle et admet pour dérivée la fonction G ′ définie par G ′ (x) = f (x). Etant donné
que la dérivée d’une constante est zéro, la primitive n’est définie qu’à une con-
stante près, c’est-à-dire si G(x) est une primitive de f , une primitive F quelconque
de f s’exprime sous la forme F(x) = G(x) + C avec C une constante (et donc
F ′ (x) = G ′ (x) = f (x)).
Donc, d’après (2.6), il existe en particulier C telle que
Z x
F(x) −C = f (t) dt
a

et si on pose x = a, l’intégrale est zéro et donc C = F(a). Il s’ensuit, choisissant


x = b, que si F(x) est une primitive de f (x), c’est-à-dire si F ′ (x) = f (x), alors
Z b
I= f (x) dx = F(b) − F(a). (2.8)
a

On remarquera que F(b) − F(a) est souvent noté [F(x)]ba . On note bien sûr que
pour n’importe quelle autre primitive F̃(x) = F(x) + K (K constante réelle, donc
F̃ ′ (x) = F ′ (x) = f (x)) on a également I = F̃(b) − F̃(a).
Exemples : R
1. Calculer I = ab (x + c)n dx, pour n entier positif et c une constante réelle. Il est
(x+c)n+1
facile de voir que F(x) = n+1 est une primitive, car F ′ (x) = (x + c)n . D’où

(b + c)n+1 − (a + c)n+1
I = F(b) − F(a) = .
n+1
R 1/2
2 Calculer I = √ 1 dx. Il est bien connu que F(x) = arcsin(x) a pour dérivée
0 1−x2
√ 1 et donc I = arcsin(1/2) − arcsin(0) = π/6.
1−x2

On abordera maintenant la méthode de changement de variable dans une intégrale.


Soit donc une primitive F de f et posons

x = ϕ(t), ; α ≤ t ≤ β, avec ϕ(α) = a et ϕ(β) = b.


Soit la fonction composée F(x) = F(ϕ(t)) = G(t) et d’après la dérivée des fonc-
tions composées,

G ′ (t) = F ′ (x)ϕ ′ (t) = f (x)ϕ ′ (t) = f (ϕ(t))ϕ ′(t).


Or,
G(β) − G(α) = F(ϕ(β)) − F(ϕ(α)) = F(b) − F(a).

41
Intégrales multiples

R Rβ
Or, F(b) − F(a) = ab f (x) dx tandis que G(β) − G(α) = α f (ϕ(t))ϕ ′(t) dt et on
en déduit la formule de changement de variable
Z b Z β
f (x) dx = f (ϕ(t))ϕ ′(t) dt. (2.9)
a α

En fait, une façon de retenir cette formule est d’écrire dans la première intégrale
x = ϕ(t) et de constater que si x = a, alors t = α et si x = b, t = β. Ensuite
dx
= ϕ ′ (t)
dt
Or dx est un élément de longueur infinitésimal et dt également et on peut justifier
d’écrire dans la première expression de l’intégrale dx = ϕ ′ (t)dt et de remplacer x
par ϕ(t), a par α et b par β, ce qui donne la deuxième expression de l’intégrale. On
observe que si ϕ ′ (t) 6= 0, on pourrait aussi écrire dt = ϕ ′1(t) dx dans la deuxième
expression de l’intégrale, ce qui n’est rien d’autre qu’une conséquence de la règle
de la dérivée de la fonction inverse t(x) si on note x(t) = ϕ(t), et d’obtenir ainsi
la première expression de l’intégrale.
R 1/2
Exemple : Soit I = 0 √ x 2 dx. Posons t = 1 − x2 et il n’est pas nécessaire
1−x
d’exprimer explicitement x en fonction de t : en effet,
dt
= −2x
dx
1
ce qui fait qu’on peut écrire dx = − 2x dt. Si x = 0, alors t = 1 et si x = 1/2, t = 3/4.
En remplaçant ces expressions dans l’intégrale, on trouve
Z 3/4 √
1 √ 3/4 3
I=− √ dt = [− t]1 = 1 − .
1 2 t 2

Rappelons enfin la méthode d’intégration par parties. Partant de la règle de dérivation


d’un produit
(uv) ′ = u ′ v + uv ′ ,
et en observant simplement que uv est une primitive de (uv) ′ , notant du = u ′ dx et
dv = v ′ dx, on en déduit la formule d’intégration par parties
Z b Z b
u dv = [uv]ba − vdu. (2.10)
a a

Cette formule permet de résoudre des intégrales dans de nombreuses situations.


Exemple :
1. Résoudre l’intégrale
Z 1
I= arcsin(x)dx.
0

42
Intégration dans Rn (n = 2, 3)

On pose dv = dx, donc v = x et u = arcsin(x), donc du = √ 1 dx, et par la


1−x2
formule (2.10), Z 1
1 x
I = [x arcsin(x)]0 − √ dx.
0 1 − x2
2
Or, par changement
R1 x √ 1t = 1 − x dans la dernière intégrale
de variable
1
(cf. ci-dessus)
on trouve 0 √ 2 dx = [− t]0 = −1 ; ensuite [x arcsin(x)]0 = π/2 et donc I =
1−x
π/2 − 1.
2. Résoudre l’intégrale
Z π/2
I= x cos(x)dx.
0
On pose dv = cos(x)dx et donc v = sin(x) et u = x et donc du = dx, d’où
Z π/2
π/2 π
I = [x sin(x)]0 − sin(x)dx = − 1.
0 2

Jusqu’à présent, nous avons calculé les intégrales définies, donc avec des bornes
inférieures et supérieures. Or, il est souvent utile de spécifier une primitive F(x)
d’une fonction Rf (x) (qui sera déterminée à une constante près), dans la mesure
où F(x) − C = ax f (x) dx (avec ici C = F(a)). Or, si on ne spécifie par la borne
inférieure a (ni la borne supérieure x, c’est-à-dire la variable de la primitive F(x))
on écrit encore pour une constante C quelconque
Z
f (x)dx = F(x) +C. (2.11)

Exemple :
Chercher une primitive de log(x). On utilise par exemple la formule de l’intégration
par parties sans spécifier des bornes (notons cependant que x ≥ 0)
Z Z
log(x)dx = x log(x) − dx +C = x log(x) − x +C = F(x) +C

en posant dv = dx et u = log(x).

2.2 Intégration dans Rn (n = 2, 3)


2.2.1 Définition générale
On donne en un premier temps la définition générale d’une intégrale dans Rn ,
étant entendu qu’en pratique la dimension de l’espace sera n = 2 ou n = 3. La

43
Intégrales multiples

notion d’un pavé a déjà été introduite précédemment comme un objet R de Rn


formé d’un produit cartésien d’intervalles

R = J1 × J2 × · · · × Jn , Ji = [ai , bi ], i = 1, · · ·, n. (2.12)

Dans R2 on retrouve les rectangles et dans R3 les parallélépipèdes rectangles. On


notera par la suite vol(R) le volume du pavé, à savoir

vol(R) = (b1 − a1 )(b2 − a2 ) · · ·(bn − an ), (2.13)

c’est-à-dire le produit des longueurs des intervalles (on retrouve bien la surface
d’un rectangle dans R2 et le volume d’un parallélépipède dans R3 ).
On imagine une sous-division de chaque intervalle Ji en introduisant mi + 1 points
(choisis ici équidistants)
bi − ai
xi, j = ai + j , j = 0, · · ·, mi
mi
(notons que xi,0 = ai et xi,mi = bi ), donc on adopte pour chaque intervalle Ji une
sous-division similaire que celle pour la construction de l’intégrale dans R, ce qui
donne, pour chaque intervalle Ji , mi sous-intervalles

[xi, j , xi, j+1 ], j = 0, · · ·, mi − 1.

Le pavé R est ainsi sous-divisé en m1 m2 ...mn sous-pavés notés R j1 ··· jn , c’est-à-dire

R j1 ··· jn = [x1, j1 , x1, j1 +1 ] × [x2, j2 , x2, j2 +1 ] × · · · × [xn, jn , xn, jn +1 ], (2.14)


0 ≤ j1 ≤ m1 − 1, · · · , 0 ≤ jn ≤ mn − 1.

La figure 2.2 donne une illustration pour le cas R2 , où on voit que la rectangle
[a1 , b1 ] × [a2 , b2 ] est sous-divisé en des rectangles plus petits (ici au nombre de
8 · 4 = 32). On cherche bien sûr à généraliser la notion de l’intégrale définie dans
R. Soit donc une fonction f (x1 , · · · , xn ) de n variables définie et continue sur un
domaine qui contient le pavé R. Il convient donc de choisir pour chaque sous-pavé
R j1 ··· jn une valeur particulière de la fonction et on considère la borne inférieure
(c’est-à-dire la valeur la plus petite du sous-pavé) que l’on note

v j1 ··· jn = min f (x1 , x2 , · · · xn ) (2.15)


(x1 ,···,xn )∈R j1 ··· jn

et on forme la somme (qui généralise la somme de Riemann)


m1 −1 mn −1
Im1 ···mn = ∑ ··· ∑ vol(R j1··· jn )v j1 ··· jn (2.16)
j1 =0 jn =0

44
Définition générale

F IGURE 2.2 – Schéma de la sous-division d’un pavé de R2 en sous-pavés.

(le volume des sous-pavés étant bien sûr définis comme le produit des longueurs
des intervalles qui les composent). L’intégrale dans Rn sera donc la limite de cette
somme pour des sous-divisions de plus en plus fines, donc lorsque mi → ∞, i =
1, · · ·, n. On peut donc donner la définition de l’intégrale dans Rn .
Définition 11 L’intégrale n-uple (l’intégrale double pour n = 2 ou l’intégrale
triple pour n = 3) sur le pavé R et notée
Z Z
··· f (x1 , · · · , xn )dx1 · · · dxn (2.17)
| {z } R
n fois

est par définition la limite de la somme Im1 ···mn définie par (2.16) lorsque
m1 → ∞, · · · , mn → ∞
R R
(noter que · · · signifie que l’on écrit en général le symbole pour l’intégral
autant de fois, donc 2 fois pour les intégrales doubles et 3 fois pour les intégrales
triples, que la dimension de l’espace où l’intégrale est définie, pour éviter des
confusions avec l’intégrale simple dans R).
Exemple : Soit par exemple la fonction constante f (x1 , · · · xn ) = 1 et la somme
(2.16) devient
m1 −1 mn −1
Im1 ···mn = ∑ ··· ∑ vol(R j1··· jn ).
j1 =0 jn =0
On peut se convaincre que la somme des volumes des sous-pavés R j1 ··· jn ne peut
être rien d’autre que le volume du pavé R que ces sous-pavés recouvrent et
Z Z
(b1 − a1 )(b2 − a2 ) · · · (bn − an ) = vol(R) = ··· dx1 · · · dxn . (2.18)
R

45
Intégrales multiples

De la définition découlent un certain nombre de propriétés de l’intégrale n-uple.


Propriétés de l’intégrale définie sur des pavés dans Rn .
R R
1. L’application qui associe à une fonction f son intégrale · · · R f dx1 · · · dxn
est linéaire.
R R
2. Si f ≥ 0 alors · · · R f dx1 · · · dxn ≥ 0.
3. Soient Q, S des pavés de R p et Rq respectivement avec p + q = n. Alors
le produit cartésien Q × S forme un pavé R de Rn = R p × Rq . On note
(x1 , · · · , x p ) les coordonnées dans R p et (y1 , · · ·, yq ) les coordonnées dans
Rq . Soit f une fonction continue dans Rn et on note ses coordonnées (ten-
ant compte de ce que Rn = R p × Rq )

(x1 , · · ·, x p , y1 , · · ·, yq ).

Alors
Z Z
··· f (x1 , · · ·, x p , y1 , · · ·, yq ) dx1 · · · dx p dy1 · · · dyq
Q×S
Z Z Z Z 
= ··· · · · ( f (x1 , · · · , x p , y1 , · · · , yq )dy1 · · · dyq dx1 · · · dx p .
Q S

C’est en fait la troisième propriété ci-dessus qui permet de calculer explicitement


les intégrales multiples dans des pavés. En effet, pour intégrer selon toutes les
variables de Rn , on peut intégrer de proche en proche selon les différentes vari-
ables successives.
Donnons un exemple dans R2 . Soit l’intégrale double
Z Z
I= (x + y)ex+y dx dy
R

avec R le rectangle de R2 défini par 0 ≤ x ≤ 2, 1 ≤ y ≤ 2, que l’on peut donc écrire


Z 2 Z 2 
x+y
I= (x + y)e dy dx.
0 1

R
On peut donc d’abord résoudre 12 (x + y)ex+y dy en intégrant comme dans R par
rapport à la variable y. Faisant une intégration par parties (exercice), on trouve
Z 2 Z 2
(x + y)ex+y dy = [(x + y)ex+y ]21 − ex+y dy
1 1
= (x + 2)ex+2 − (x + 1)ex+1 − ex+2 + ex+1 = (x + 1)ex+2 − xex+1 .

46
Définition générale

D’où
Z 2
I = [(x + 1)ex+2 − xex+1 ]dx
0
Z 2
= [(x + 1)e x+2
− xex+1 ]20 − [ex+2 − ex+1 ]dx = 2e4 − e3 − e
0
On considère maintenant un domaine borné (donc d’étendue finie) noté K quel-
conque de Rn et on cherche à définir l’intégrale sur ce domaine (que l’on suppose
être “d’étendue” finies, on parle alors d’un domaine compact). On peut bien sûr
imaginer un pavé R tel que K soit contenu dans R. Soit alors une fonction f (~x)
(on note de nouveau ~x = (x1 , · · ·, xn )) définie sur K, alors on peut construite une
fonction f¯ définie sur R comme suit :
f¯(~x) = f (~x), si~x ∈ K et f¯(~x) = 0, si~x ∈
/ K. (2.19)
Définition 12 L’intégrale d’une fonction f définie sur K est égale à l’intégrale
de la fonction f¯ sur R, c’est-à-dire
Z Z Z Z
··· f (x1 , · · · , xn )dx1 · · · dxn = ··· f¯(x1 , · · · , xn )dx1 · · · dxn . (2.20)
K R
En particulier, le volume de K est l’intégrale de la fonction identiquement à 1 et
donc Z Z
vol(K) = · · · dx1 · · · dxn (2.21)
K
La définition ci-dessus revient à ramener l’intégrale d’une fonction f pour un
domaine quelconque K à l’intégrale sur un pavé R qui contient K, en étendant
tout simplement la définition de la fonction sur R en disant qu’elle vaut zéro en
~x, si ~x ∈
/ K. Ajoutons ici une propriété importante des intégrales multiples, dans
la situation où le domaine K de Rn est la réunion K = K1 ∪ K2 de deux domaines
disjoints, ou alors de deux domaines qui peuvent se toucher dans le sens où la
frontière commune a au moins une dimension en moins que l’espace en question.
Donc, en dimension n = 2 la frontière commune peut au plus être une courbe et en
dimension n = 3 au plus une surface. Dans ce cas on peut déduire des définition
que
Z Z
··· f (~x)dx1 · · · dxn
K1 ∪K2
Z Z Z Z
= ··· f (~x)dx1 · · · dxn + ··· f (~x)dx1 · · · dxn . (2.22)
K1 K2

Afin d’illustrer comment on peut résoudre en pratique une intégrale multiple,


prenons l’exemple d’un domaine de R2 défini par
a ≤ x ≤ b, ϕ1 (x) ≤ y ≤ ϕ2 (x),

47
Intégrales multiples

avec ϕ1 , ϕ2 des fonctions de x continues pour a ≤ x ≤ b (voir figure 2.3). Dans ce


cas, on peut écrire
Z Z Z b Z ϕ2 (x) 
f (x, y)dxdy = f (x, y)dy dx.
K a ϕ1 (x)

Si cependant le domaine K est définie par


c ≤ y ≤ d, ψ1 (y) ≤ x ≤ ψ2 (y)
(voir figure 2.3) alors
Z Z Z d Z ψ2 (y) 
f (x, y)dxdy = f (x, y)dx dy.
K c ψ1 (y)

Exemple : On considère comme K de R2 le disque centre en (0, 0) et de rayon r,

F IGURE 2.3 – Schémas de domaines d’intégration K dans R2 .

défini par x2 +y2 = r2 , on peut écrire pour le demi-cercle


donc l’intérieur du cercle√
inférieur y = ϕ1 (x) = − r2 − x2 et pour le demi-cercle supérieur y = ϕ2 (x) =

r2 − x2 et l’intégrale
Z Z Z r Z √r2 −x2 Z rp
" #
I= dxdy = √ dy dx = 2 r2 − x2 dx
K −r − r2 −x2 −r

donne la surface du disque. Dans la dernière intégrale ci-dessus on fera le change-


ment de variable x = r cos(θ) et on trouve
Z π
I = 2r2 sin2 (θ)dθ = πr2 .
0

En fait, pour l’intégrale ci-dessus on utilise la relation bien connue sin2 (θ) = 12 −
1
2 cos(2θ).

48
Changement de variables dans des intégrales multiples

2.2.2 Changement de variables dans des intégrales multiples


Tout d’abord on se place dans Rn et on donne la définition d’un bloc engendré
par n vecteurs.
Définition 13 Soient~v1 , · · · ,~vn n vecteurs de Rn . On appelle “bloc” engendré par
ces vecteurs l’ensemble des points

t1~v1 + · · · + tn~vn , 0 ≤ ti ≤ 1.

Donnons d’abord quelques exemples.


Exemples :
1. Dans R2 , il s’agit de l’intérieur du parallélogramme engendré par ~v1 et ~v2 .
Pour calculer l’aire de ce parallélogramme, on peut supposer que le vecteur ~v1
est colinéaire avec le premier vecteur ~e1 de la base canonique de R2 (quitte à
faire subir au parallélogramme une rotation appropriée). Formons la matrice M
dont les deux colonnes correspondent aux coordonnées des deux vecteurs ~v1 et
~v2 dans la base. On note v1 la longueur du segment correspondant au vecteur ~v1 ,
h la composante du vecteur ~v2 suivant ~e2 (voir dessin de la figure 2.4) et b la
composante suivant ~e1 de ~v2 . La matrice M est donc
 
v1 b
M= .
0 h

Supposant que le lecteur connaı̂t la définition du déterminant ainsi que la tech-


nique pour le calculer (au moins pour les matrices 2 × 2 et 3 × 3) , alors det(M) =
v1 h ce qui est précisément l’aire du parallélogramme.

F IGURE 2.4 – Parallélogramme engendré par deux vecteurs ~v1 et ~v2 .

2. Soit dans Rn un pavé

R = [a1 , b1 ] × · · · × [an − bn ]

et on peut dire que ce pavé est engendré par les vecteurs

~vi = (bi − ai )~ei .

49
Intégrales multiples

Formons la matrice M dont les éléments des colonnes successives sont les com-
posantes des vecteurs ~v j , donc la matrice diagonale
 
b1 − a1
 .. 
 . (0) 
M= . .
 (0) . . 
bn − an

On note det(~v1 · · · ,~vn ) le déterminant de la matrice ainsi formée (et le déterminant


d’une matrice diagonale étant le produit des éléments sur la diagonale), on obtient

det(~v1 · · · ,~vn ) = (b1 − a1 )(b2 − a2 ) · · · (bn − an )

ce qui est précisément le volume du pavé R.


On peut donc généraliser la définition du volume d’un bloc engendré par n
vecteurs de la manière suivante.

Définition 14 On définit le volume du bloc engendré par ~v1 , · · ·,~vn comme étant
la valeur absolue du déterminant de la matrice notée (~v1 , · · ·,~vn ) et dont les
éléments des colonnes successives sont les composantes des vecteurs successifs
~v j , j = 1, · · · , n, c’est-à-dire

vol(~v1 , · · · ,~vn ) = |det(~v1 , · · · ,~vn )| .

On a vu par l’exemple ci-dessus que pour R2 cette définition correspond précisément


à la notion de l’aire engendrée par deux vecteurs ~v1 et ~v2 .
Attardons-nous un instant sur R3 et considérons trois vecteurs
 
ai
~v j =  bi  , j = 1, 2, 3,
ci

et formons la matrice M dont les éléments des colonnes sont les composantes des
vecteurs et donc  
a1 a2 a3
M =  b1 b2 b3  .
c1 c2 c3
Or le déterminant de cette matrice est (exercice, en développant suivant la première
colonne)

det(v1 , v2 , v3 ) = a1 (b2 c3 − b3 c2 ) + b1 (c2 a3 − a2 c3 ) + c1 (a2 b3 − b2 a3 ). (2.23)

50
Changement de variables dans des intégrales multiples

Le produit vectoriel entre deux vecteurs de R3 est une notion qui a été vue lors
de cours antérieurs. Il est brièvement rappelé un moyen simple de retrouver son
expression. On suppose donnés deux vecteurs
   
x1 x2
~x1 =  y1  , ~x2 =  y2 
z1 z2

et on écrit formellement un tableau 3 × 3 (un peu comme une matrice)


 
~ex x1 x2
 ~ey y1 y2  .
~ez z1 z2

Pour calculer le produit vectoriel entre ~x1 et ~x2 , on fait comme si on calculait le
déterminant de cette pseudo-matrice en “développant” par rapport à la première
colonne, ce qui donne
 
y1 z2 − z1 y2
~x1 ∧~x2 = (y1 z2 − z1 y2 )~ex + (z1 x2 − x1 z2 )~ey + (x1 y2 − y1 x2 )~ez =  z1 x2 − x1 z2  .
x1 y2 − y1 x2

Appliquant ces règles aux vecteurs ~v2 et ~v3 , on trouve bien sûr
 
b2 c3 − b3 c2
~v2 ∧~v3 =  c2 a3 − a2 c3  .
a2 b3 − b2 a3

et on obtient la formule à partir de (2.23)

det(v1 , v2 , v3 ) =~v1 · (~v2 ∧~v3 ) =~v3 · (~v1 ∧~v2 ) (2.24)

(où le symbole · désigne le produit scalaire). La première expression traduit di-


rectement (2.23) tandis que la deuxième expression découle du fait, que si on
permute deux colonnes de la matrice, on multiplie le déterminant par −1 et donc
det(v1 , v2 , v3 ) = −det(v3 , v2 , v1 ) = det(v3 , v1 , v2 ). Sans vouloir aller trop en avant
dans des considérations géométriques, on peut montrer que la norme euclidienne
du vecteur ~v1 ∧~v2 correspond à l’aire du parallélogramme engendré dans R3 par
~v1 et ~v2 et le produit scalaire entre deux vecteurs est égal au produit des normes
des deux vecteurs multiplié par le cosinus de l’angle θ entre ces deux vecteurs.
Donc d’après (2.24) on peut écrire

|det(v1 , v2 , v3 )| = ||~v3 || ||~v1 ∧~v2 || cos(θ) = ||~v3 || ||~v1 || ||~v2 || sin(α) cos(θ)

51
Intégrales multiples

car on peut montrer que ||~v1 ∧~v2 || = ||~v1 || ||~v2 || sin(α) avec α l’angle (entre 0 et
π) entre ~v1 et ~v2 . La géométrie de cette configuration est esquissé sur la figure 2.5
et on peut se convaincre que det(v1 , v2 , v3 ) est bien le volume du parallélépipède
engendré par ~v1 , ~v2 et ~v3 .

F IGURE 2.5 – Parallélépipède engendré par trois vecteurs ~v1 , ~v2 et ~v3 .

On considère maintenant une matrice A dont on note ai j , i = 1, · · · , n, j = 1, · · ·, n


les éléments. On considère un pavé R engendré comme nous avons vu par les n
vecteurs~vi = (bi −ai )~ei , i = 1, · · · , n. Appliquer cette matrice aux vecteurs~vi trans-
forme le pavé en un domaine que l’on note L(R) (dans la mesure où de transformer
les vecteurs par A revient à opérer une transformation linéaire L de R) qui est en-
gendré par les vecteurs A~v1 , · · · , A~vn . On peut se convaincre (exercice) que la ma-
trice dont les colonnes sont formées par ces vecteurs est une matrice Ā dont les co-
efficients sont (b j − a j )ai j , i = 1, · · ·, n, j = 1, · · ·, n, donc obtenu à partir de la ma-
trice A en multipliant les éléments de la jème colonne par (b j − a j ), j = 1, · · ·, n.
Les règles du calcul du déterminant permette d’affirmer que

det(Ā) = (b1 − a1 ) · · · (bn − an )det(A)

et d’après la définition du volume on peut affirmer que

vol(L(R)) = vol(R) |det(A)|. (2.25)

Soit maintenant une fonction vectorielle ~g(~x) de n variables, c’est-à-dire une


application de Rn vers Rn et soit un pavé R de Rn . On suppose que cette fonction
est dérivable sur R. On considère le domaine K =~g(R), c’est-à-dire l’ensemble des
~y tel que ~y = ~g(~x),~x ∈ R. Pour que cette application s’apparente à un changement
de variables, on suppose qu’elle est inversible (donc il existe ~g−1 telle que pour
tout ~g(~x) de K, ~g−1 (~g(~x)) =~x).

52
Changement de variables dans des intégrales multiples

Lors de la construction de l’intégrale multiple, nous avons imaginé le pavé R sous-


divisé en des sous-pavés de plus en plus petits notés R j1 ··· jn , la longueur des n
intervalles composant chaque sous-pavé étant hi = 1/mi . Chaque sous-pavé est
donc transformé par ~g en un sous-domaines K j1 ··· jn et l’intégrale
Z Z
··· dy1 · · ·dyn = vol(~g(R)) (2.26)
~g(R)

est égale à la somme de toutes les intégrales sur les sous-domaines K j1 ··· jn dans
ce processus, en faisant tendre mi → ∞, i = 1, · · ·, n, c’est-à-dire on considère des
sous-pavés et donc des sous-domaines de plus en plus petits.
Or, soit un de ces sous-pavés (on omet l’indice j1 · · · jn ) et prenons un point ~a
particulier. Pour tout autre point de ~x = ~a +~h dans ce sous-domaine on aura (par
la définition de la dérivée (notant Jg(~a) la matrice jacobienne)

~g(~a +~h) −~g(~a) = Jg(~a)~h + ||~h||~ε(~h), lim~ε(~h) = 0.


~h→0

On suppose que la matrice jacobienne est inversible (ce qui est d’ailleurs la con-
dition pour que ~g définisse un changement de variable) et donc
 
~g(~a +~h) −~g(~a) = Jg(~a) ~h + Jg(~a)−1 ||~h||~ε(~h) , lim~ε(~h) = 0. (2.27)
~h→0

La relation ci-dessus montre qu’à la limite lorsque ||~h|| s’approche de zéro, l’ac-
tion de l’application ~g sur le petit pavé s’apparente à appliquer la matrice jaco-
bienne aux vecteurs qui engendrent le pavé, donc de transformer R j1 ··· jn par une
application linéaire. On conclut que

vol(~g(R j1 ··· jn )) → vol(R j1··· jn ) |det(Jg(~a j1··· jn ))|, (2.28)

d’après (2.25), où A est maintenant la matrice jacobienne associée à ~g, lorsque
mi → ∞, i = 1, · · · n. Or, la somme des vol(~g(R j1··· jn )) tend vers vol(~g(R)), donc
par définition vers l’intégrale
Z Z
··· dy1 · · · dyn .
~g(R)

En tenant compte de (2.28), on peut par conséquent énoncer le théorème fonda-


mental du changement de variable dans des intégrales multiples.
Théorème 11 Soit R un pavé dans Rn et ~g une application dérivable de Rn dans
Rn de matrice jacobienne Jg(~x)) inversible pour tout ~x ∈ R. Alors
Z Z Z Z
··· dy1 · · · dyn = ··· |det(Jg(~x)|dx1 · · · dxn . (2.29)
~g(R) R

53
Intégrales multiples

Dans la construction de l’intégrale multiple d’une fonction f continue, la valeur


(le minimum) de la fonction sur chaque sous-pavé intervient dans la somme de
Riemann (2.16). On peut donc d’après ce qui précède énoncer également le théorème
suivant.

Théorème 12 Soit R un pavé dans Rn , ~g une application de Rn dans Rn dérivable


sur R et de matrice jacobienne Jg(~x)) inversible pour tout ~x ∈ R. Soit f une fonc-
tion continue sur ~g(R). Alors f ◦~g est continue sur R et donc intégrable et
Z Z Z Z
··· f (~y)dy1 · · · dyn = ··· f (~g(~x)) |det(Jg(~x))|dx1 · · · dxn . (2.30)
~g(R) R

Donnons deux exemples d’application de ce théorème.


Exemples dans R2 et R3 .
1. On cherche à calculer l’aire du disque Dr centré en 0 et de rayon r. Pour les
points (x, y) du disque, on peut introduire les coordonnées
   
x ρ cos(φ)
= ~g(ρ, φ) = , 0 < ρ ≤ r, 0 ≤ φ < 2π.
y ρ sin(φ)

Il est aisé d’écrire la matrice jacobienne de l’application ~g, à savoir


 
cos(φ) −ρ sin(φ)
Jg(ρ, φ) =
sin(φ) ρ cos(φ)

et le déterminant est det(Jg(ρ, φ)) = ρ. Donc, l’aire du disque est


Z Z Z r Z 2π Z r
dxdy = ρ dρ dφ = 2π ρ dρ = πr2 .
Dr 0 0 0

2. On cherche à calculer le volume de la sphère Sr centrée en 0 et de rayon r.


On introduit les cordonnées sphériques (ρ, θ, φ), 0 < ρ ≤ r, 0 < θ < π, 0 < φ < 2π
(voir (1.42) et le dessin de la figure 1.3 en remplaçant r par ρ)
   
x ρ sin(θ) cos(φ)
 y  = ~g(ρ, θ, φ) =  ρ sin(θ) sin(φ) 
z ρ cos(θ)

et on peut se convaincre que ceci permet de repérer tout point à l’intérieur de la


sphère (sauf les points sur l’axe z). Il convient en effet d’exclure les points sur
l’axe des z, si on veut que ~g soit un changement de variable, c’est-à-dire pour tout
point ~x de la sphère (sauf ceux sur l’axe des z), il existe un unique point (ρ, θ, φ)
tel que~x =~g(ρ, θ, φ). On remarque ici que pour calculer le volume d’un objet dans
R3 par une intégrale, on peut toujours étendre les bords d’intégration jusqu’aux

54
Intégrale de surface, flux d’un champ de vecteur

bornes des intervalles, ce qu’on peut déduire de la définition (car le volume de


ces bords est zéro). La matrice jacobienne de ~g est donnée par (1.43) (il suffit de
remplacer r par ρ) et son déterminant est

det(Jg(ρ, θ, φ)) = ρ2 sin(θ).

Donc, le volume de la sphère est


Z Z Z Z r Z π Z 2π
dxdydz = ρ2 sin(θ) dρ dθ dφ
Sr 0 0 0
Z rZ π Z r
2 4πr3
= 2π ρ sin(θ) dρ dθ = 4π ρ2 dρ = .
0 0 0 3
Avant de terminer ce chapitre, la notion de l’intégrale de surface sera abordée.

2.2.3 Intégrale de surface, flux d’un champ de vecteur


On considère une surface S de R3 que l’on suppose paramétrée par une fonc-
tion  
ϕ1 (u, v)
~ϕ(u, v) =  ϕ2 (u, v)  (2.31)
ϕ3 (u, v)
avec (u, v) dans un domaine D de R2 . Soit un point ~a sur la surface et (u0 , v0 ) tel
que
~a = ~ϕ(u0 , v0 ).
On suppose que ~ϕ est dérivable et on peut donc écrire

∂~ϕ ∂~ϕ
~ϕ(u0 + h1 , v0 + h2 ) = ~ϕ(u0 , v0 ) + h1 (u0 , v0 ) + h2 (u0, v0 ) + ||~h||~ε(~h) (2.32)
∂u ∂v

avec ~h de composantes h1 et h2 et lim~h→0~ε(~h) = 0. Bien entendu, ∂~ϕ/∂u et ∂~ϕ/∂v


sont les vecteurs obtenus en calculant les dérivées partielles des 3 composantes de
~ϕ par rapport à u et v. Ces vecteurs engendrent un plan et on peut se convaincre
que ce plan est tangent à la surface S au point ~a. Plus haut la notion du produit
vectoriel a été rappelé et le vecteur

∂~ϕ ∂~ϕ
(u0 , v0 ) ∧ (u0 , v0 )
∂u ∂v
est normale au plan tangent et sa norme euclidienne correspond à l’aire du par-
allélogramme engendré par ∂~ϕ/∂u et ∂~ϕ/∂v. Cette situation est schématisée sur la

55
Intégrales multiples

F IGURE 2.6 – Schéma d’une surface paramétrée par ~ϕ(u, v) et aire élémentaire.

figure 2.6. On peut rendre ce parallélogramme arbitrairement petit en multipliant


ces vecteurs par h1 et h2 respectivement et

∂~ϕ ∂~ϕ ∂~ϕ ∂~ϕ


||(h1 (u0 , v0 )) ∧ h2( (u0 , v0 ))|| = |h1 | |h2 | || (u0 , v0 ) ∧ (u0 , v0 )||.
∂u ∂v ∂u ∂v
Comme pour la construction des intégrales multiples on peut parcourir la surface
et on peut sommer les aires des parallélogrammes de plus en plus petits ce qui
permet de définir ce qui est appelé l’intégrale de surface.

Définition 15 Soit une surface S de R3 paramétrée par une fonction ~ϕ(u, v) dérivable,
(u, v) étant dans un domaine D de R2 tel que ~ϕ(D) = S. Alors
Z Z
∂~ϕ ∂~ϕ
l’aire de S = || (u, v) ∧ (u, v)|| du dv. (2.33)
D ∂u ∂v
On écrit aussi
Z Z Z
∂~ϕ ∂~ϕ
dσ = || (u, v) ∧ (u, v)|| du dv. (2.34)
S D ∂u ∂v
où
∂~ϕ ∂~ϕ
dσ = ||
(u, v) ∧ (u, v)|| du dv (2.35)
∂u ∂v
désigne symboliquement “l’aire élémentaire”.

56
Intégrale de surface, flux d’un champ de vecteur

Traitons un petit exemple, à savoir la surface de la sphère de rayon r. C’est de


nouveau grâce aux coordonnées sphériques qu’on peut paramétrer la sphère par
(θ, φ), 0 < θ < π, 0 ≤ φ < 2π, à savoir
 
r sin(θ) cos(φ)
~ϕ(θ, φ) =  r sin(θ) sin(φ) 
r cos(θ)
et
   
r cos(θ) cos(φ) −r sin(θ) sin(φ)
∂~ϕ ∂~ϕ
(θ, φ) =  r cos(θ) sin(φ)  , (θ, φ) =  r sin(θ) cos(φ)  .
∂θ ∂φ
−r sin(θ) 0
Formons le produit vectoriel entre ces deux vecteurs, à savoir
 2 2 
r sin (θ) cos(φ)
∂~ϕ ∂~ϕ
(θ, φ) ∧ (θ, φ) =  r2 sin2 (θ) sin(φ)  . (2.36)
∂θ ∂φ
r2 cos(θ) sin(θ)
Prenons la norme de ce vecteur, ce qui donne (exercice)
∂~ϕ ∂~ϕ
|| (θ, φ) ∧ (θ, φ)|| = r2 sin(θ).
∂θ ∂φ
On en déduit
Z π Z 2π Z π
aire de la sphère = r2 sin(θ) dθ dφ = 2πr2 sin(θ) dθ = 4πr2 .
0 0 0

Certaines surfaces peuvent être paramétrées par


 
x
~ϕ(x, y) =  y  , (x, y) ∈ D, (2.37)
g(x, y)

pour une fonction g(x, y) dérivable.


Exemple : La sphère centrée en 0 et de rayon r a pour équation

x2 + y2 + z2 = r2

et la demi-sphère supérieure est paramétrée par


 
x
~ϕ(x, y) =  p y  , avec (x, y) tel que x2 + y2 ≤ r2
r2 − x2 − y2

57
Intégrales multiples

(donc le domaine D de (x, y) est le disque de rayon r).

Revenons à (2.37), alors on peut se convaincre (exercice) que


 
− ∂g (x, y)
∂~ϕ ∂~ϕ  ∂x
(x, y) ∧ (x, y) =  − ∂g

∂y (x, y)  (2.38)
∂x ∂y
1
et en prenant la norme on trouve
s
 2  2
∂g ∂g
dσ = 1 + (x, y) + (x, y) dx dy (2.39)
∂x ∂y
et l’intégrale
s
Z Z  2  2
∂g ∂g
1+ (x, y) + (x, y) dx dy (2.40)
D ∂x ∂y
donne l’aire de la surface en question.

Il reste à donner au moins la définition du flux d’un champ de vecteurs à travers


une surface. Soit donc une fonction ~f vectorielle des variables (x, y, z), on parle
alors souvent d’un champ de vecteur. On suppose donnée une surface S paramétrées
par ~ϕ(u, v) et il est bien connu que le produit vectoriel
∂~ϕ ∂~ϕ
(u, v) ∧ (u, v)
∂u ∂v
donne un vecteur qui est orthogonal (normal) aux deux vecteurs du produit vecto-
riel, donc ici ce produit vectoriel est normal au plan tangent en tout point ~ϕ(u, v)
de S. Soit alors ~n la normale unitaire, c’est-à-dire
1 ∂~ϕ ∂~ϕ
~n = (u, v) ∧ (u, v) (2.41)
|| ∂~ϕ (u, v) ∧ ∂~ϕ (u, v)|| ∂u
∂u ∂v
∂v

(en effet, la norme de ce vecteur est égale à 1). On peut énoncer la définition
suivante.
Définition 16 Soit un champ de vecteur ~f (x, y, z). On désigne par flux de ~f à
travers S l’intégrale
Z Z Z  
~f ·~n dσ = ~f (~ϕ(u, v)) · ∂~
ϕ ∂~
ϕ
(u, v) ∧ (u, v) du dv (2.42)
S D ∂u ∂v
ce qui est une conséquence directe de la définition (2.35) de dσ et de la normale
unitaire ~n définie par (2.41).

58
Intégrale de surface, flux d’un champ de vecteur

Bien sûr, il peut s’agir d’une normale dans une des deux directions (en partant de
la surface) et on peut inverser la direction en permutant les deux vecteurs ∂~ϕ/∂u et
∂~ϕ/∂v dont on forme le produit vectoriel. Aussi, il s’agit dans la formule ci-dessus
bien sûr d’un produit scalaire entre le vecteur résultant du produit vectoriel et le
champ de vecteur ~f . Traitons un petit exemple.
Exemple : On cherche à calculer le flux à travers la demi-sphère supérieur du
champ de vecteur  
0
~f (x, y, z) =  0  .
z
On considère de nouveau le paramétrage par les coordonnées sphériques et alors
z = r cos(θ) sur la sphère. Utilisant l’expression (2.36) et notant S1/2 la demi-
sphère supérieure (remarquons dans ce cas 0 < θ ≤ π/2) on trouve à partir de la
définition (2.42)
Z Z π/2 Z 2π Z π/2
~f ·~n dσ = r3 cos2 (θ) sin(θ) dθ dφ = r3 2π cos2 (θ) sin(θ) dθ
S1/2 0 0 0
Z 1
2π 3
= r3 2π u2 du = r
0 3
(dans l’intégrale on a fait le changement de variable u = cos(θ) et donc dθ =
du
− sin(θ) tandis que si θ = π/2, u = 0 et si θ = 0, u = 1).

59
Intégrales multiples

60
Chapitre 3

Produit scalaire, bases


orthonormées, transformations
orthogonales

3.1 Définition du produit scalaire dans Rn, espace


euclidien
Lors de l’exposé du calcul différentiel à plusieurs variables nous avons déjà
fait appel au produit scalaire et à la norme euclidienne. Dans ce chapitre nous
allons préciser ces notions. On considère l’espace vectoriel Rn , qui est en quelque
sorte l’espace vectoriel naturel en mécanique, bien que ce qui suit s’applique dans
une large mesure à n’importe quel espace vectoriel E sur R de dimension finie.

Définition 17 Un produit scalaire de Rn est une application notée < ., . >, qui
à un couple de vecteurs ~x et ~y associe un nombre réel h~x,~yi, ayant les propriétés
suivantes.
1. Cette application est symétrique, c’est-à-dire

h~x,~yi = h~y,~xi . (3.1)

2. Cette application est bilinéaire, c’est-à-dire elle est linéaire par rapport à
la première variable, et par symétrie également par rapport à la seconde
variable, c’est-à-dire

hλ~x + µ~y,~zi = λ h~x,~zi + µ h~y,~zi , (3.2)

pour tous vecteurs ~x, ~y,~z et tous nombres réels λ et µ.

61
Produit scalaire, bases orthonormées, transformations orthogonales

3. Le produit scalaire est non dégénéré, c’est-à-dire

h~x,~xi ≥ 0 et h~x,~xi = 0 si et seulement si~x = 0. (3.3)

On dit aussi que le produit scalaire est défini positif.

Un espace vectoriel muni d’un produit scalaire est appelé un espace euclidien.
Exemple : Soient deux vecteurs
   
x1 y1
~x =  ...  ,~y =  ...  ,
   
xn yn

alors le produit scalaire usuel (euclidien) est défini par


n
h~x,~yi = ∑ xi yi . (3.4)
i=1

Il est aisé de vérifier qu’il s’agit bien d’un produit scalaire selon la définition ci-
dessus.

La donnée d’un produit scalaire défini positif permet de définir une norme sur
Rn , notée ||.||, par p
||~x|| = h~x,~xi (3.5)
qui a un certain nombre de propriétés listées ci-après.

Propriétés de ||~x|| :

1.
||~x|| ≥ 0 et ||~x|| = 0 si et seulement si~x = 0. (3.6)
2. Soit λ un nombre réel, alors

||λ~x|| = |λ| ||~x|| (3.7)

3. Inégalité de Cauchy-Schwarz :

| h~x,~yi | ≤ ||~x|| ||~y|| (3.8)

4. Inégalité triangulaire :

||~x +~y|| ≤ ||~x|| + ||~y|| (3.9)

62
Définition du produit scalaire dans Rn , espace euclidien

Les propriétés 1 et 2 sont une conséquence directe de la définition. Pour prouver


l’inégalité de Cauchy-Schwarz, écrivons

hλ~x +~y, λ~x +~yi = λ2 h~x,~xi + 2λ h~x,~yi + h~y,~yi ,

avec λ nombre réel. Le membre ci-dessus à droite est un polynôme de degré 2 en


λ qui est toujours strictement positif, tant que

λ~x +~y 6= 0

par la propriété 1. Donc dans ce cas le polynôme n’a pas de racines réelles et donc
son discriminant est négatif et

4 h~x,~yi2 − 4 h~x,~xi h~y,~yi < 0

et donc
h~x,~yi2 < ||~x||2 ||~y||2
et l’inégalité de Cauchy-Schwarz s’en déduit en prenant la racine carrée. Reste le
cas où
λ~x +~y = 0
c’est-àdire le cas où les deux vecteurs sont colinéaires et ~y = −λ~x. Mais alors

h~x,~yi = h~x, −λ~xi = −λ||~x||2 .

Prenant la valeur absolue, et en observant que ||~y|| = |λ| ||~x||, l’inégalite de Cauchy-
Schwarz devient en fait une inégalité ce qui complète la preuve de la propriété 3.
Nous avons montré au passage que l’inégalité de Cauchy-Schwarz est une égalité,
si et seulement si les deux vecteurs sont colinéaires.
L’inégalité triangulaire peut se déduire aisément de l’inégalité de Cauchy-Schwarz.
En effet,

||~x +~y||2 = h~x +~y,~x +~yi = ||~x||2 + 2 h~x,~yi + ||~y||2


≤ ||~x||2 + 2| h~x,~yi | + ||~y||2 ≤ (||~x|| + ||~y||)2

(car l’inégalité de Cauchy-Schwarz permet de majorer 2| h~x,~yi | par 2||~x|| ||~y||).


Il y a une variante de l’inégalité triangulaire qui est souvent utile : écrivons

||~x|| = ||~x −~y +~y|| ≤ ||~x −~y|| + ||~y||

et d’où
||~x −~y|| ≥ ||~x|| − ||~y||.

63
Produit scalaire, bases orthonormées, transformations orthogonales

On peut faire le même raisonnement en échangeant les rôles de ~x et ~y et

||~y −~x|| ≥ ||~y|| − ||~x||.

Or, d’après la propriété 2 on a bien sûr ||~y −~x|| = ||~x −~y|| et on en déduit que

||~x −~y|| ≥ | ||~x|| − ||~y|| |. (3.10)

Bien sûr, la notion de norme a été introduite pour mesurer en quelque sorte des
longueurs de vecteurs. Si l’on prend le produit scalaire euclidien et la norme as-
sociée, on trouve alors la notion élémentaire des longueurs de vecteurs dans R2
(voir le dessin de la figure 3.1). Dans ce cas, des considérations de géométrie
élémentaire permettent d’écrire que ~x = ||~x||(cos(θx )~e1 + sin(θx )~e2 ) ainsi que ~y =
||~y||(cos(θy )~e1 + sin(θy )~e2 ) et si on développe le produit scalaire on trouve

h~x,~yi = ||~x|| ||~y||(cos(θx ) cos(θy ) + sin(θx ) sin(θy )) = ||~x|| ||~y|| cos(θy − θx )

ce qui se résume en disant que l’angle θ entre les vecteurs ~x et ~y est tel que

h~x,~yi = ||~x|| ||~y|| cos(θ).

Si nous avons ici pour R2 et le produit scalaire euclidien la notion concrète d’an-
gle, on peut par extension définir d’une manière générale un écart angulaire entre
vecteurs de Rn muni d’un produit scalaire.

Définition 18 On appelle angle (ou écart angulaire) entre deux vecteurs ~x et ~y


non nuls de Rn , le nombre réel θ ∈ [0, π], tel que

h~x,~yi
cos(θ) = (3.11)
||~x|| ||~y||

c’est-à-dire
h~x,~yi = ||~x|| ||~y|| cos(θ). (3.12)

3.2 Vecteurs orthogonaux, bases orthonormées


Soit donc Rn muni d’un produit scalaire h., .i (ce sera en général le produit
scalaire euclidien). On dira que deux vecteurs ~x et ~y sont orthogonaux, si

h~x,~yi = 0 (3.13)

64
Vecteurs orthogonaux, bases orthonormées

F IGURE 3.1 – Vecteurs dans R2 et écart angulaire.

(donc si leur produit scalaire est nul). La notion d’être “‘orthogonal” vient de la
relation (3.12), car alors (si~x et~y sont non nuls) h~x,~yi = 0 implique θ = π/2, donc
égal à “l’angle droit”. Par la suite on notera une base de Rn par

{~v1 ,~v2 , · · · ,~vn } ,

étant précisé qu’il ne s’agira pas forcément de la base canonique, pour laquelle on
réserve la notation
{~e1 ,~e2 , · · · ,~en } .

Exemple : Soit R3 , alors on montre aisément que les 3 vecteurs


     
1 0 1
~v1 =  0  , ~v2 =  1  , ~v3 =  1 
1 1 0

forment une base de R3 (exercice).

Définition 19 Une base {~v1 ,~v2 , · · · ,~vn } est dite orthonormée si elle vérifie les
conditions

||~v1 || = ||~v2 || = · · · = ||~vn || = 1 et ~vi ,~v j = 0 si i 6= j. (3.14)

Supposons que nous ayons n vecteurs qui satisfont aux conditions (3.14), alors
ces vecteurs forment forcément une base. En effet il suffit de montrer que

λ1~v1 + λ2~v2 + · · · + λn~vn = 0 (3.15)

65
Produit scalaire, bases orthonormées, transformations orthogonales

implique que λ1 = λ2 = · · · = λn = 0. Pour prouver cette assertion, formons le


produit scalaire de (3.15) avec ~vi : on trouve (par orthogonalité entre les vecteurs)
que
λi h~vi ,~vi i = λi = 0,
et ceci pour i = 1, · · ·, n.

3.2.1 Procédure d’orthonormalisation de Gram-Schmidt


Soit donc un espace euclidien (donc Rn muni d’un produit scalaire) et une
base {~v1 ,~v2 , · · · ,~vn } quelconque. A partir de cette base, on peut construire une
base orthonormée {~w1 ,~w2 , · · · ,~wn } par ce qui est appelée la procédure orthonor-
malisation de Gram-Schmidt qui s’énonce comme suit.
– D’abord on calcule ||~v1 || et
1
~w1 = ~v1 .
||~v1 ||
– On forme
~u2 =~v2 − h~v2 ,~w1 i~w1 ,
et ce vecteur~u2 est bien orthogonal à ~w1 comme on peut le vérifier aisément.
Ensuite on normalise et
1
~w2 = ~u2 .
||~u2||
– On forme
~u3 =~v3 − h~v3 ,~w1 i~w1 − h~v3 ,~w2 i~w2 ,
et on vérifie que ce vecteurs et bien orthogonal à ~w1 et ~w2 . Ensuite on nor-
malise et
1
~w3 = ~u3 .
||~u3||
On poursuit ce procédé pour obtenir la base complète.
La procédure peut se mettre sous une forme compacte.
1
~w1 = ~v1 ;
||~v1 ||
i−1
1
~ui = ~vi − ∑ ~vi ,~w j ~w j , ~wi = ~ui , i = 2, · · · n. (3.16)
j=1 ||~ui ||

On peut faire remarquer ici que si on exprime un vecteur ~x dans une base or-
thonormée {~w1 ,~w2 , · · · ,~wn } de Rn , c’est-à-dire si on écrit
n
~x = ∑ ai~wi , (3.17)
i=1

66
Sous-espaces vectoriels orthogonaux

alors
n n n
||~x||2 = h~x,~xi = ∑ ∑ aia j ~wi,~w j = ∑ a2i (3.18)
i=1 j=1 i=1

dans la mesure où

~wi ,~w j = 0, si i 6= j et h~wi ,~wi i = 1.

Soient maintenant deux vecteurs ~x et ~y qu’on exprime dans la base orthonormée,


à savoir
n n
~x = ∑ ai~wi , ~y = ∑ bi~wi . (3.19)
i=1 i=1
Alors on peut se convaincre facilement que
n
h~x,~yi = ∑ ai bi . (3.20)
i=1

3.2.2 Sous-espaces vectoriels orthogonaux


D’une manière générale, soit un sous espace vectoriel E p de dimension p < n
de Rn . Alors on définit l’espace vectoriel E p⊥ orthogonal à E p comme étant

E p⊥ = {~z ∈ Rn tel que pour tout~x ∈ E p , h~z,~xi = 0}. (3.21)

Evidemment, si h., .i est un produit scalaire de Rn , il l’est pour


 le sous espace
vectoriel E p . On peut donc construire une base othonormée ~w1 , · · ·~w p de E p
(il suffit d’appliquer le procédé d’orthonormalisation à toute base de E p ). Soit
maintenant un vecteur ~x quelconque de Rn et formons
p
~z =~x − ∑ h~x,~wi i~wi . (3.22)
i=1

On vérifie aisément que


~z,~w j = 0 (3.23)
et donc~z ∈ E p⊥ . Notons
p
~y = ∑ h~x,~wi i~wi ∈ E p (3.24)
i=1

alors d’après ce qui précède on peut écrire ~x sous la forme d’une somme

~x =~y +~z, ~y ∈ E p , ~z ∈ E p⊥ . (3.25)

67
Produit scalaire, bases orthonormées, transformations orthogonales

C’est une somme directe car si on suppose que

~x ∈ E p ∩ E p⊥ (3.26)

alors~x est forcément orthogonal à lui-même et donc h~x,~xi = 0 ce qui implique que
~x = 0. On peut donc décomposer Rn en ce qui est appelée une somme directe

Rn = E p ⊕ E p⊥ (3.27)

et un résultat général quant aux espaces vectoriels (ce résultat fait partie des cours
de base d’algèbre linéaire) permet d’affirmer que la dimension de l’espace vecto-
riel Rn (donc n) est égale à la somme des dimensions des espaces vectoriels qui
composent la somme directe. Nous avons donc le résultat suivant.

Si la dimension de E p est p, alors la dimension de E p⊥ est n − p. (3.28)

Exemple : Soit un vecteur  


a1
~a =  ... 
 
an
non nul. Ce vecteur engendre un sous-espace vectoriel E1 de dimension 1. Soit
h., .i le produit scalaire euclidien. Alors l’ensemble des vecteurs~x de coordonnées
xi , i = 1, · · ·, n, tels que
n
h~a,~xi = ∑ xi ai = 0 (3.29)
i=1

forment un sous espace vectoriel E1⊥ de dimension n − 1 qu’on appelle un hyper-


plan de Rn .

Dans une vision d’espace affine de dimension n associé à l’espace vectoriel Rn ,


cet hyperplan passe par l’origine noté O. Si on veut faire passer l’hyerplan par un
point  
p1
~ = . 
OP  .. 
pn
alors l’équation devient
n
∑ (xi − pi)ai = 0,
i=1
~ et d’après les
car on fait simplement une translation de l’origine initiale O à OP
~ = OX
relations de Chasles dans l’espace affine, PX ~ − OP~ avec OX ~ =~x.

68
Transformations et matrices orthogonales

Prenons le cas particulier de R3 , où on note les vecteurs


 
x
 y .
z

Tout plan passant par un point particulier


 
x0
 y0 
z0

a donc pour équation

a(x − x0 ) + b(y − y0 ) + c(z − z0 ) = 0

ou encore
ax + by + cz = h avec h = ax0 + by0 + cz0
pour (a, b, c) 6= (0, 0, 0).

3.2.3 Transformations et matrices orthogonales


Soit donc Rn muni d’un produit scalaire h., .i et soit une application linéaire ~f
de Rn dans lui-même.

Définition 20 L’application linéaire ~f est une transformation orthogonale, si ~f


préserve les longueurs, donc si pour tout vecteur ~x

||~f (~x)|| = ||~x||. (3.30)

A partir de cette définition on peut déduire un ensemble de conséquences.


Propriétés :
1. Une transformation orthogonale est inversible.
En effet, vu qu’il s’agit d’une application linéaire, il suffit de montrer qu’elle
est injective. Or, ||~f (~x)|| = ||~x|| = 0 implique~x = 0.
2. La composition de deux transformations orthogonales est une transforma-
tion orthogonale.
En effet, soient ~f1 et ~f2 des transformations orthogonales. Alors
   
|| ~f2 ◦ ~f1 (~x)|| = ||~f2 ~f1 (~x) || = ||~f1 (~x)|| = ||~x||.

69
Produit scalaire, bases orthonormées, transformations orthogonales

3. Soient deux vecteurs ~x et ~y alors


D E
~f (~x), ~f (~y) = h~x,~yi . (3.31)

En effet, on peut écrire


2 h~x,~yi = ||~x +~y||2 − ||~x||2 − ||~y||2
et donc aussi
D E
2 ~f (~x), ~f (~y) = ||~f (~x) + ~f (~y)||2 − ||~f (~x)||2 − ||~f (~y)||2

Mais est linéaire et donc ||~f (~x) + ~f (~y)|| = ||~f (~x +~y)||). Par définition ~f
préserve les longueurs et les seconds membres des deux équations ci-dessus
sont donc égaux. On en déduit qu’on a aussi
D E
2 ~f (~x), ~f (~y) = 2 h~x,~yi

et d’où le résultat.
4. L’application transforme une base orthonormée en une base orthonormée.
En effet, soit {~w1 , · · ·,~wn } une base orthonormée alors
D E
~f (~wi ), ~f (~w j ) = ~wi ,~w j = 0 si i 6= j
D E
~ ~
et bien sûr f (~wi ), f (~wi ) = 1.
5. La matrice A de ~f dans une base orthonormée {~w1 , · · · ,~wn } vérifie
AT A = I et notamment AT = A−1 , (3.32)
avec I la matrice identité n × n et AT la matrice transposée de A.
En effet, soit la colonne j de la matrices A, alors les coefficients de cette
colonne, que l’on note ai j , i = 1, · · · , n, sont les composantes du vecteur
~f (~w j ) dans la base orthonormée. On sait aussi que les coefficients notés
aTij de AT sont tels que
aTij = a ji ,
par la définition de la transposition d’une matrice. Donc, si l’on note (AT A)i j
les éléments de AT A, alors
n n D E  0 si i 6= j
T T ~ ~
(A A)i j = ∑ aik ak j = ∑ aki ak j = f (~wi ), f (~w j ) =
k=1 k=1
1 si i = j
(3.33)
d’après la relation du type (3.20) et la propriété 3 ci-dessus.

70
Transformations et matrices orthogonales

6. Les vecteurs colonne de la matrice A construite comme ci-dessus sont or-


thogonaux deux à deux pour le produit scalaire euclidien de Rn et de norme
1 pour ce produit scalaire.
En effet, ce résultat est équivalent à ce qui vient d’être démontré (voir
(3.33)).

Définition 21 On appelle matrice n × n orthogonale A la matrice d’une transfor-


mation orthogonale de Rn par rapport à une base orthonormée de Rn . Le pro-
duit de deux matrices orthogonales est une matrice orthogonale, ce qui est une
conséquence de la propriété 2 ci-dessus.

De la relation (3.32) on déduit que pour une matrice orthogonale,

det(AT A) = (det(A))2 = 1, donc det(A) = ±1. (3.34)

En effet, le déterminant d’un produit de matrices est le produit des déterminants


des matrices qui composent le produit ; aussi, le déterminant d’une matrice A est
égal au déterminant de la matrice transposée AT . Ce sont des propriétés qui ont
été vues dans un cours d’algèbre linéaire de base.
Les matrices orthogonales A dont le det(A) = 1 sont appelées les matrices orthog-
onales directes.

Les matrices orthogonales de R2 et R3


Soit R2 et une matrice 2 × 2
 
a b
A= .
c d

Soit une base orthonormée {~w1 ,~w2 }. Ecrivons les conditions pour que A soit une
matrice orthogonale directe. Pour que A soit une matrice orthogonale, les coeffi-
cients des vecteurs colonnes de A doivent être reliés à une transformation orthog-
onale par
~f (~w1 ) = a~w1 + c~w2 , ~f (~w2 ) = b~w1 + d~w2
D E
et ~f (~wi ), ~f (~wi ) = ||~wi ||2 = 1, i = 1, 2 implique que

a2 + c2 = 1, b2 + d 2 = 1. (3.35)

D’après la propriété 6 ci-dessus A est une matrice orthogonale si en plus

ab + cd = 0. (3.36)

71
Produit scalaire, bases orthonormées, transformations orthogonales

Et enfin, le déterminant doit être égal à 1, d’où

ad − cb = 1. (3.37)

De (3.35) on déduit

a = cos(θ), c = sin(θ), 0 ≤ θ < 2π, (3.38)

car n’importe quel élément (a, b) de R2 peut être représenté par a = r cos(θ) et
b = r sin(θ). De même,

b = cos(ϕ), d = sin(ϕ), 0 ≤ ϕ < 2π. (3.39)

De (3.36) on déduit

cos(θ) cos(ϕ) + sin(θ) sin(ϕ) = 0, d’où cos(ϕ − θ) = 0,

donc
π
ϕ = θ+ + kπ, k entier. (3.40)
2
La relation (3.37) se traduit par

cos(θ) sin(ϕ) − cos(ϕ) sin(θ) = 1, d’où sin(ϕ − θ) = 1,

donc
π
ϕ = θ++ 2lπ, l entier. (3.41)
2
Tenant compte de (3.40), on peut conclure que ϕ = θ + π/2 et par conséquent
cos(ϕ) = − sin(θ) et sin(ϕ) = cos(θ). Donc, les matrices orthogonales directes de
R2 sont des matrices de rotation
 
cos(θ) − sin(θ)
A= . (3.42)
sin(θ) cos(θ)

Dans R3 , on peut montrer que les matrices 3 × 3 orthogonales directes (donc de


déterminant = 1) sont génériquement de la forme
 
1 0 0
A =  0 cos(θ) − sin(θ)  (3.43)
0 sin(θ) cos(θ)

La matrice étant celle d’une transformation orthogonale ~f , on peut affirmer qu’il


existe ~w1 (de norme 1) tel que ~f (~w1 ) = ~w1 . En fait, ce résultat est une conséquence
du fait que det(A) = 1 et on peut en déduire (vu que c’est une matrice 3 × 3) que

72
Transformations et matrices orthogonales

A possède une valeur propre = 1. La notion de valeur propre et de vecteur propre


sera approfondie un peu plus tard dans le cours et l’assertion pourra alors être
prouvée. On complète ~w1 pour former une base orthonormée {~w1 ,~w2 ,~w3 } et soit
H le plan engendré par {~w2 ,~w3 } qui est donc orthogonal à E1 engendré par ~w1 .
Ce plan est stable par ~f car
D E D E
~f (~wi ),~w1 = ~f (~wi ), ~f (~w1 ) = h~wi ,~w1 i = 0 (3.44)

ce qui résulte de la définition d’une transformation orthogonale. Donc, ~f restreint


au plan (de dimension 2) H agit de manière équivalente comme une transforma-
tion orthogonale dans R2 . Ce qui justifie la structure de la matrice (3.43) et la
forme de la sous matrice 2 × 2 peut se déduire de ce qui précède pour les matrices
orthogonales de R2 . On peut remarquer que d’appliquer la matrice A à un vecteur
dans la base orthonormée correspond géométriquement à opérer une rotation au-
tour de l’axe ~w1 .

73
Produit scalaire, bases orthonormées, transformations orthogonales

74
Chapitre 4

Formes réduites de matrices

4.1 Valeurs et vecteurs propres d’une matrice


On considère l’espace vectoriel Rn , mais aussi l’espace vectoriel Cn , dans la
mesure où, comme nous allons le voir, les valeurs propres d’une matrice, même
à coefficients réels, peuvent être complexes. Soit une application linéaire ~f de Rn
dans Rn .

Définition 22 Un vecteur ~x 6= 0 est appelé vecteur propre de ~f associé à la valeur


propre λ ∈ C, si
~f (~x) = λ~x. (4.1)

Bien sûr, ayant choisi une base de Rn , par exemple la base canonique

{~e1 , · · · ,~en } ,

on associe à ~f une matrice n × n, que l’on note A. Les éléments des colonnes
successives de A sont bien entendu les composantes dans la base canonique des
vecteurs ~f (~e j ), j = 1, · · ·, n. Donc, si on exprime ~x dans la base canonique, la
définition (4.1) est équivalente à l’assertion, qu’il existe un vecteur ~X non nul et
un nombre λ ∈ C tels (dans le formalisme matrices-vecteurs on note désormais
les vecteurs en majuscules)
A~X = λ~X. (4.2)
On note I la matrice identité n × n, c’est-à-dire la matrice dont tous les coeffi-
cients sont nuls hormis les éléments de la diagonale qui sont égaux à 1. Bien
évidemment, I~X = ~X . L’équation ci-dessus peut encore se formuler ainsi : il ex-
iste λ ∈ C et un vecteur non nul ~X (qu’on doit supposer être dans Cn ) tels

(A − λI) ~X = 0. (4.3)

75
Formes réduites de matrices

Rappels au sujet du noyau d’une matrice :


On rappelle la notion de noyau d’une matrice n × n notée M, qui est composé de
l’ensemble des vecteurs ~X tels que
M~X = 0. (4.4)
On sait que si seul le vecteur ~X = 0 est solution de (4.4), alors la matrice est in-
versible et det(M) 6= 0. Si par contre des vecteurs non nuls ~X sont tels que (4.4) est
vérifié, alors la matrice n’est pas inversible et det(M) = 0. Aussi, on peut montrer
que l’ensemble des ~X qui vérifient (4.4) est un sous-espace vectoriel que l’on note
en général Ker(M).

De ce qui précède, on peut conclure que si (4.3) est vérifié, alors la matrice A − λI
a un noyau non nul. Elle n’est par conséquent pas inversible ce qui se traduit par
det (A − λI) = 0 (4.5)

Rappels au sujet du déterminant d’une matrice :


On rappelle la notion du déterminant d’une matrice n × n noté M. On note les
vecteurs colonnes de M par M ~ j , j = 1, · · ·, n, c’est-à-dire (en notant mi j , i = 1, · · ·, n, j =
1, · · ·, n les éléments de M)
   
m11 m1n
 m21   m2n 
~1=
M

 ..  , · · · , M ~n=  ..  .

(4.6)
 .   . 
mn1 mn1
Alors le déterminant de la matrice M (à coefficients réels) est par définition une
application
ϕ(M~ 1 , · · ·, M
~ n) ∈ R
qui est linéaire par rapport à chacun des vecteurs et alternée, c’est-à-dire ϕ prend
la valeur opposée si on permute deux vecteurs. Il a été vu, que l’on peut calculer
le déterminant de proche en proche, c’est-à-dire si l’on note Mi j la matrice (n −
1) × (n − 1) obtenue à partir de M en enlevant la i ème ligne et la j ème colonne,
alors
n
det(M) = ∑ (−1)i+ j mi j det(Mi j ) (4.7)
i=1

et on dit que l’on développe le déterminant suivant la j ème colonne. On peut de


manière équivalente développer aussi suivant la i ème ligne, ce qui donne
n
det(M) = ∑ (−1)i+ j mi j det(Mi j ). (4.8)
j=1

76
Valeurs et vecteurs propres d’une matrice

A partir de la définition du déterminant, on peut montrer que le déterminant d’une


matrice n × n est égal au déterminant de sa transposée et que le déterminant du
produit de deux matrices carrées est égal au produit des déterminants, donc

det(M T ) = det(M) et det(LM) = det(L) det(M).

Revenons sur le déterminant (4.5) et notant ai j les éléments de A, il faut calculer

a11 − λ a12 ··· a1n


a21 a22 − λ · · · a2n
.. .. ..
. . . , (4.9)
.. .. ..
. . .
an1 ··· an n−1 ann − λ

notant le déterminant d’une matrice avec des barres à gauche et à droite des termes
de la matrice comme c’est la coutume. On définit M(λ) = A−λI et si on développe
le déterminant de M(λ) par rapport à la première colonne, on obtient d’après les
formules ci dessus
n
det(M(λ)) = (a11 − λ)det(M11 (λ)) + ∑ ai1 (−1)i+1 det(Mi1 (λ)).
i=2

Or,
a22 − λ · · · a2n
det(M11 (λ)) = .
.. . .. ..
.
an2 · · · ann − λ
et on observe ici que la matrice M11 (λ) a la même structure que la matrice du
départ, avec une ligne et une colonne en moins, et avec les termes aii − λ, i =
2, · · ·n sur la diagonale. On peut se convaincre que les matrices Mi1 (λ) avec
i = 2, · · · , n n’ont cependant chacune seulement n − 2 coefficients ou λ apparaı̂t.
On peut donc affirmer (le déterminant de chaque sous-matrice Mi1 (λ) étant une
certaine combinaison linéaire de produits particuliers entre n − 1 éléments occu-
pant des positions distinctes à l’intérieur de la matrice) que
n
∑ (−1)i+1ai1det(Mi1(λ))
i=2

est un polynôme en λ de degré au plus n−2. Si on développe maintenant det(M11 (λ))


par rapport à la première colonne, le facteur (a22 − λ) va apparaı̂tre devant le

77
Formes réduites de matrices

déterminant d’une sous-matrice (n − 3) × (n − 3) etc. On peut alors se convaincre


que
det (A − λI) = (a11 − λ)(a22 − λ) · · ·(ann − λ) + R(λ) (4.10)
avec R(λ) un polynôme en λ de degré au plus n − 2.
Ceci nous conduit au résultat suivant, à savoir

det (A − λI) = p(λ) = (−1)n λn + a1 λn−1 + · · · + an−1 λ + an (4.11)

avec donc p(λ) polynôme de degré exactement n. En plus, on peut montrer que
le coefficient a1 devant λn−1 et le coefficient an ont une expression particulière, à
savoir
n
a1 = (−1)n+1 ∑ aii et an = det(A). (4.12)
i=1

En effet, d’après (4.10) le terme en λn−1 est forcément le terme en λn−1 du produit

(a11 − λ)(a22 − λ) · · ·(ann − λ),

ce polynôme pouvant s’écrire

(−1)n (λ − a11 )(λ − a22 ) · · · (λ − ann )



= (−1)n λn − (a11 + · · · + ann )λn−1 + q(λ)

avec q(λ) un polynôme de degré ≤ n − 2. L’expression de an provient du fait que


an = p(0) = det(A) d’après la définition de p(λ).
Notons que la somme ∑ni=1 aii des termes sur la diagonale de A est appelée la trace
de A (notée trace(A)).
Vérifions cette assertion pour n = 2.
Exemple n = 2 :

a11 − λ a12
= (a11 − λ)(a22 − λ) − a12 a21
a21 a22 − λ
= λ2 − (a11 + a22 )λ + (a11a22 − a12 a21 ). (4.13)

On peut énoncer ici quelques résultats fondamentaux quant aux valeurs propres
d’une matrice A, qui sont donc les zéros du polynôme p(λ) donné par (4.11) ap-
pelé polynôme caractéristique. On peut donc énoncer le résultat suivant.
Théorème 13 Soit A une matrice carré n × n à coefficients réels (ou complexes).
Alors A possède n valeurs propres, qui peuvent être réelles ou complexes, qui sont
les zéros du polynôme caractéristique det(A − λI) = p(λ), étant précisé que des
zéros multiples de p(λ) sont comptés avec leurs multiplicités.

78
Valeurs et vecteurs propres d’une matrice

Ce théorème fondamental de l’algèbre linéaire est une conséquence immédiate du


théorème fondamental de l’algèbre, à savoir qu’un polynôme de degré n à coeffi-
cients réels ou complexes a exactement n zéros complexes (dans cette terminolo-
gie, un nombre réel est un nombre complexe avec la partie imaginaire nulle). Ce
résultat correspond à l’assertion (bien sûr admise ici) que le corps des nombres
complexes est algébriquement clos. Il convient d’être conscient ici que pour une
matrice réelle, les valeurs propres peuvent être complexes.
Remarque importante :
Si l’on note λi , i = 1, · · · , n les n valeurs propres de A, alors d’après un résultat bien
connu sur les polynômes on peut factoriser le polynôme caractéristique (4.11)

p(λ) = (−1)n λn + a1 λn−1 + · · · + an−1 λ + an


= (−1)n (λ − λ1)(λ − λ2 ) · · ·(λ − λn ). (4.14)

Mais alors
n
a1 = (−1)n+1 ∑ λi , an = λ 1 λ 2 · · · λ n . (4.15)
i=1

Or, nous avons constaté plus haut que a1 = (−1)n+1 trace(A) et an = det(A), d’où
le résultat important
n n
∑ λi = ∑ aii, det(A) = λ1 λ2 · · · λn , (4.16)
i=1 i=1

c’est-à-dire la somme des valeurs propres d’une matrice A est égale à la somme
des éléments sur la diagonale de A et le produit des valeurs propres est égal au
déterminant de A.
Nous allons énoncer quelques propriétés générales des valeurs et vecteurs propres
de matrices.
Propriétés générales :
1. Soit λ valeur propre de A, alors un vecteur propre associé ~X ne peut être
défini qu’à une constante c multiplicative (réelle ou complexe) près.

En effet

A~X = λ~X implique cA~X = cλ~X et donc A(c~X) = λ(c~X).

Donc, si ~X 6= 0 est vecteur propre, c~X est aussi vecteur propre.

2. Si une matrice est inversible, alors toutes ses valeurs propres sont non nulles
et si λ est valeur propre de A, alors λ−1 est valeur propre de la matrice in-
verse A−1 .

79
Formes réduites de matrices

En effet, une matrice inversible n’a pas de noyau, c’est-à-dire Ker(A) = {0}
et donc A~X = 0~X = 0 implique ~X = 0 et 0 n’est donc pas valeur propre. Soit
donc λ valeur propre de A, de vecteur propre ~X 6= 0, c’est-à-dire

A~X = λ~X.

Appliquant A−1 aux deux membres ci-dessus et divisant par λ 6= 0, on ob-


tient bien
1
A−1~X = ~X
λ
et on déduit que ~X est vecteur propre de A−1 de valeur propre 1/λ.

3. Si λ est valeur propre de A, alors λ j est valeur propre de A j , la puissance


j ème de A. Plus généralement, soit
m
Q(A) = ∑ q jA j
j=0

un polynôme de A (avec la convention que A0 = I la matrice identité n × n),


alors les valeurs propres de Q(A) sont
m
Q(λ) = ∑ q jλ j
j=0

avec λ valeur propre de A.

Ce résultat se démontre aisément en observant tout d’abord, que si A~X = λ~x,


alors en multipliant à gauche et à droite par A on obtient

A2~X = λA~X = λ2~X, ensuite A3~X = λ2 A~X = λ3~X etc.

et donc A j ~X = λ j ~X et λ j est valeur propre de A j de vecteur propre ~X associé


à la valeur propre λ de A. On peut donc déduire (pour λ valeur propre de A
de vecteur propre ~X 6= 0)
! !
m m m
Q(A)~X = ∑ q j A j ~X = ∑ q j A j ~X = ∑ q j λ j ~X = Q(λ)~X
j=0 j=0 j=0

et on en déduit bien que Q(λ) est valeur propre de Q(A) de vecteur propre ~X .

80
Valeurs et vecteurs propres d’une matrice

4. Soit une matrice A à coefficients réels. Alors si λ = λr +iλi ∈ C, avec λi 6= 0,


est valeur propre de A de vecteur propre ~X = ~Xr +i~Xi ∈ Cn , alors le conjugué
complexe λ̄ = λr − iλi est valeur propre de A de vecteur propre ~X¯ = ~Xr − i~Xi .

En effet, prenant le conjugué complexe de A~X = λ~X, on trouve Ā ~X¯ = λ̄ ~X.


¯
Or, A étant une matrice réelle, Ā = A et la propriété s’ensuit.
Exemple :
Soit
 
1 0 0
A =  0 a −b  , avec a 6= 0, b 6= 0 des nombres réels.
0 b a
Alors
1−λ 0 0
det(A − λI) = 0 a − λ −b = (1 − λ)(λ2 − 2aλ + a2 + b2 ).
0 b a−λ
On déduit aisément que les trois valeurs propres sont

λ1 = 1, λ2 = a + i|b|, λ3 = a − i|b|.
On note ~Xi , i = 1, 2, 3 les vecteurs propres associés aux valeurs propres λi , i =
1, 2, 3 et il et facile de voir que l’on peut choisir
 
1
~X1 =  0  .
0

Pour déterminer ~X2 (dont on note les composantes x, y, z), il faut résoudre
    
1 − (a + i|b|) 0 0 x 0
(A − (a + i|b|)~X2 =  0 −i|b| −b   y  =  0  .
0 b −i|b| z 0
On en déduit que x = 0 et y, z sont solution de
−i|b|y −bz = 0 ib
et donc y = z.
by −i|b|z = 0 |b|
On peut choisir comme vecteurs propres
   
0 0
~X2 =  ib  , ~X3 =  −ib 
|b| |b|

81
Formes réduites de matrices

On revient sur le polynôme caractéristique de la matrice (4.11) d’une matrice A


carrée et on suppose que les zéros de p(λ) sont deux à deux distincts, c’est-à-dire

P(λi ) = 0, i = 1, · · · , n et λi 6= λ j si i 6= j. (4.17)

On peut alors énoncer le théorème suivant.


Théorème 14 Si les zéros λi , i = 1, · · ·n du polynôme caractéristiques p(λ) =
det(A −λI) sont deux à deux distincts, alors les vecteurs propres ~Xi 6= 0, i = 1, · · · n
associés (avec A~Xi = λi~Xi ) forment une base de Cn .
Une première remarque s’impose ici : vu que les valeurs propres, même pour une
matrice réelle, peuvent être complexes, les vecteurs propres le seront aussi et il
faut donc se placer dans Cn . Pour prouver le théorème, il faut montrer que les n
vecteurs propres sont linéairement indépendants. Soit donc d’abord ~X1 et ~X2 et il
faut montrer que
µ1~X1 + µ2~X2 = 0 (4.18)
implique µ1 = µ2 = 0. Appliquons A à la relation ci dessus alors
 
A µ1 X1 + µ2 X2 = µ1 A~X1 + µ2 A~X2 = µ1 λ1~X1 + µ2 λ2~X2 = 0
~ ~

Multipliant (4.18) par λ2 et soustrayant la dernière expression ci-dessus, on trouve

µ1 (λ2 − λ1 )~X1 = 0

et dans la mesure où λ2 − λ1 6= 0, on déduit que µ1 = 0 et par (4.18) qu’alors µ2 =


0. On peut donc déduire que ~X1 et ~X2 sont linéairement indépendants. On procède
alors par récurrence, en supposant avoir prouvé que les vecteurs ~Xi , i = 1, · · ·, m
sont linéairement indépendants. On écrit donc

µ1~X1 + · · · + µm~Xm + µm+1~Xm+1 = 0. (4.19)

On y applique la matrice A et donc

µ1 λ1~X1 + · · · + λm µm~Xm + λm+1 µm+1~Xm+1 = 0.

On multiplie (4.19) par λm+1 , on soustrait l’expression ci-dessus et trouve


m
∑ µi(λm+1 − λi)~Xi = 0.
i=1

Or, d’après l’hypothèse que les valeurs propres sont deux à eux distincts, λm+1 −
λi 6= 0, i = 1, · · ·, m et on en déduit, les vecteurs ~Xi , i = 1, · · ·, m étant linéairement

82
Diagonalisation d’une matrice

indépendants par hypothèse de récurrence, que µ1 = · · · = µm = 0. Mais alors


d’après (4.19) on a aussi µm+1 = 0. Finalement, on prouve ainsi de proche en
proche que les vecteurs propres ~Xi , i = 1, · · ·, n sont linéairement indépendants et
forment donc une base de Cn .

Le fait que les vecteurs propres ~Xi , i = 1, · · · , n sont linéairement indépendants


(lorsque les valeurs propres dont deux à deux distincts) a de nombreuses conséquences.
Prenons par exemple les coefficients du polynôme caractéristique (4.11) de la ma-
trice A et formons le polynôme de la matrice A

p(A) = (−1)n An + a1 An−1 + · · · + an−1 A + an I.

On peut donc écrire, d’après la propriété 3 ci-dessus, que

p(A)~Xi = p(λi )~Xi = 0, i = 1, · · ·n.

car p(λi ) = 0, λi étant valeur propre. Mais


n alors p(A) o est une matrice telle que si
on applique tous les vecteurs de la base ~X1 , · · ·, ~Xn , alors le résultat est zéro. Vu
que chaque vecteur ~X peut être écrit dans cette base, on en déduit que P(A)~X = 0
pour tout vecteur ~X et donc p(A) est la matrice identiquement égale à zéro. Ici,
le résultat est prouvé pour le cas où les zéros du polynôme caractéristique sont
deux à deux distincts. On peut montrer que c’est vrai même dans le cas général
(ce que l’on ne démontre pas ici), ce qui est connu sous le nom du théorème de
Cayley-Hamilton qui s’énonce comme suit.

Théorème 15 Si p(λ) = det(A −λI) est le polynôme caractéristique la la matrice


A, alors
p(A) = (−1)n An + a1 An−1 + · · · + an−1 A + an I = 0. (4.20)

4.2 Diagonalisation d’une matrice


On reprend donc le polynôme caractéristique d’une matrice A carré n × n

p(λ) = det (A − λI) = (−1)n λn + a1 λn−1 + · · · + an−1 λ + an

et on suppose que ses zéros λi , i = 1, · · · , n sont deux à deux distincts, c’est-à-dire


λ j 6= λi si j o6= i. On a vu alors que les vecteurs propres associés forment une base
n
~X1 , · · · , ~Xn . On a bien sûr

(A − λi I)~Xi = 0, ~Xi 6= 0, i = 1, · · · , n,

83
Formes réduites de matrices

donc les ~Xi engendrent les espaces vectoriels Ker(A − λi I) et dans le cas où les
valeurs propres sont deux à deux distincts chacun de ces espaces est de dimension
1. Aussi, tout vecteur ~x ∈ Cn peut alors s’écrire sous la forme
n
~x = ∑ x′j~X j (4.21)
j=1

avec les x′i , i = 1, · · · , n déterminé de manière unique. On a introduit plus haut la


notion de somme directe et de ce qui précède on peut dire que l’espace vectoriel
Cn est alors une somme directe des sous-espaces Ker(A − λi I) de dimension 1 et

Cn = Ker(A − λ1 I) ⊕ Ker(A − λ2 I) ⊕ · · · ⊕ Ker(A − λnI). (4.22)

Les vecteurs ~X j s’écrivent naturellement (dans la base canonique {~e1 , · · ·,~en })


sous la forme  
x1 j
 x2 j 
~X j =  
 ..  , j = 1, · · ·, n (4.23)
 . 
xn j

et on forme la matrice P donc les vecteurs colonnes sont les ~X j successifs, à savoir
 
x11 x12 · · · x1n
 x21 x22 · · · x2n 
 
P =  .. .. .. ..  (4.24)
 . . . . 
xn1 xn2 · · · xnn

et cette matrice est inversible (ces vecteurs colonnes étant linéairement indépendants).
Soit maintenant un vecteur~x et notant ses composantes dans la base canonique par
 
x1
 x2 
~X =  
 ..  .
 . 
xn

Alors la relation (4.21) peut s’écrire


   
x1 x′1
 x2   x′ 
 2 
~X =  ..  = P  ..  = P~X ′ et donc aussi ~X ′ = P−1~X,

(4.25)
 .   . 
xn x′n

84
Diagonalisation d’une matrice

ce qui donne les règles qui font passer des composantes ~X du vecteur ~x dans la
base canonique aux composantes du vecteur ~x dans la base des vecteurs propres
données par ~X ′ et vice versa. Ce sont des règles classiques de changement de
base avec P la matrice de passage. Or, étant donné que A~X j = λ j ~X j , on peut se
convaincre que
 
λ1

 λ2 (0) 

AP = PD avec D =  . . , (4.26)
 (0) . 
λn
c’est-à-dire D est une matrice diagonale avec les valeurs propres de A sur la di-
agonale. En effet, par les règles de multiplication matricielle, la j ème colonne de
AP est précisément A~X j et donc (~X j étant vecteur propre de valeur propre λ j ) égal
à λ j ~X j , ce qui est précisément la j ème colonne de PD. On peut donc énoncer le
théorème de la diagonalisation suivant.
Théorème 16 Si le polynôme caractéristique det(A − λI) = 0 de la matrice A a n
zéros deux à deux distincts, alors on peut construire une matrice de changement
de base P, dont les vecteur colonnes j = 1, · · ·, n sont les composantes des vecteurs
propres ~X j , j = 1, · · ·, n, telle que
P−1 AP = D (4.27)
avec D matrice diagonale dont les éléments sur la diagonale sont les valeurs
propres λ j , j = 1, · · ·, n, de A.
En effet il suffit de multiplier l’égalité AP = PD de (4.26) par P−1 .

Ce changement de base a un intérêt évident. La matrice A étant celle d’une ap-


plication linéaire exprimée dans la base canonique, l’action de cette application
linéaire sur tout vecteur ~x de l’espace vectoriel est donnée par A~X. Or d’exprimer
les composantes de ce vecteur A~X dans la base des vecteurs propres revient,
d’après (4.25), de multiplier à gauche par P−1 . On peut donc écrire
 
λ1 x′1
 λ2 x′ 
−1 ~ −1 −1~ ~ ′  2 
P AX = P APP X = DX =  ..  (4.28)
 . 
λn x′n
d’après (4.25) et (4.27). Donc l’action de l’application linéaire dans la base des
vecteurs propres revient à multiplier les composantes x′i par λi , i = 1, · · · , n.
Notons enfin que l’équation (4.27) est équivalente à
A = PDP−1 (4.29)

85
Formes réduites de matrices

Exemple :
Reprenons la matrice
 
1 0 0
A =  0 a −b  , avec a 6= 0, b 6= 0 des nombres réels.
0 b a
D’après les calculs faits plus haut, on peut construire
   
1 0 0 1 0 0
−1  0 −i 1 
P=  0 ib −ib  et donc P =  2b 2|b| 
0 |b| |b| i 1
0 2b 2|b|

et P−1 AP = D avec  
1 0 0
D =  0 a + i|b| 0 .
0 0 a − i|b|

4.3 La forme de Jordan


Dans de nombreuses situations des zéros multiples apparaissent lorsque qu’on
cherche les zéros du polynôme caractéristique det(A − λI) d’une matrice carrée
n × n.
Exemple :
Soit la matrice  
2 1 0
A =  0 1 −1  (4.30)
0 2 4
et
2−λ 1 0
0 1 − λ −1 = (2 − λ)[(1 − λ)(4 − λ) + 2]
0 2 4−λ
= (2 − λ)(λ2 − 5λ + 6) = −(λ − 2)2(λ − 3).
Donc, ici λ1 = 2 est une valeur propre double et λ2 = 3 une valeur propre sim-
ple. On sait que Ker(A − 3I) est de dimension 1. On peut donc diagonaliser A,
seulement s’il y a deux vecteurs linéairement indépendants vecteurs propres de
la valeur propre 2. Résolvons donc (A − 2I)~X = 0, c’est-à-dire (notant les com-
posantes de ~X par x, y, z)
y = 0
−y − z = 0
2y + 2z = 0

86
Construction de la base de Jordan

dont la seule solution est de forme


 
x
 0  , x 6= 0,
0

et donc dim Ker(A − 2I) = 1. On conclut que la matrice n’est pas diagonalisable.

On se place donc dans la situation où

det(A − λI) = p(λ) = (−1)n λn + a1 λn−1 + · · · + an (4.31)

a m zéros deux à deux distinct λl , l = 1, · · · , m de multiplicités respectives rl , l =


1, · · ·, m. Donc, si m < n il y a au moins un zéro multiple et si m = n les zéros sont
tous simples. Un résultat bien connu sur les polynômes permet de factoriser p(λ),
à savoir

p(λ) = (−1)n (λ − λ1 )r1 (λ − λ2 )r2 · · · (λ − λm )rm , r1 + · · · + rm = n. (4.32)

Soient donc les matrices (A − λl I)rl , l = 1, · · ·m obtenues en élevant A − λl I à la


puissance rlème . On définit les sous-espaces vectoriels

Sl = Ker ((A − λl I)rl ) , c.-à-d.


n o
Sl = ~ n rl ~
X ∈ C tels que (A − λl I) X = 0 , l = 1, · · ·, m. (4.33)

On énonce maintenant un théorème fondamental qu’on admet dans le cadre de ce


cours.

Théorème 17 La dimension de l’espace vectoriel Sl défini par (4.33) est égale


à rl , l = 1, · · · , m et Cn peut s’écrire pour toute matrice A dont le polynôme car-
actéristique est de la forme (4.32), comme une somme directe des Sl , à savoir

Cn = S 1 ⊕ S 2 ⊕ · · · ⊕ S m . (4.34)

4.3.1 Construction de la base de Jordan


La procédure de la construction d’une base de Jordan est un peu complexe, si
l’on veut en donner une présentation générale.
On observe d’abord que si ~X ∈ Sl , avec Sl défini par (4.33), alors A~X ∈ Sl . En
effet, A commutant avec toute puissance d’elle-même et avec l’identité, si ~X ∈ Sl

(A − λl )rl (A~X) = A(A − λl )rl ~X = 0. (4.35)

87
Formes réduites de matrices

Donc, si on est capable de construire une base de chaque sous-espace vectoriel Sl ,


alors par changement de base on obtient à partir de A une matrice par blocs notée
J (J comme matrice de Jordan)
 
(B1 )

 (B2 ) (0) 
J= ..  (4.36)
 (0) . 
(Bm )

où chaque bloc Bl , l = 1, · · · , m centré sur la diagonale est une matrice carrée
rl × rl .
Pour prouver cette assertion, prenons un bloc Bl associé à Sl et on note
n o
~X (l) , · · · , ~Xr(l)
1 l

la base de Sl . De par le fait que, si on applique A à un des vecteurs de Sl , le résultat


est dans Sl , on peut écrire
rl
(l) (l) (l)
A~X j = ∑ bi j ~Xi (4.37)
i=1
(l)
et les coefficients de Bl sont précisément bi j , i = 1, · · · , rl , j = 1, · · · , rl .
On peut remarquer ici que si rl = 1, alors Sl = Ker (A − λl I) et la base de Sl est
alors le vecteur propre noté ~X (l) associé à λl et

A~X (l) = λl ~X (l)

Dans ce cas, le bloc Bl est une matrice 1 × 1 et donc un nombre égal à λl sur la
diagonale de J. Si toutes les valeurs propres sont simples (rl = 1, l = 1, · · · , m),
alors m = n et dans ce cas J = D, avec D la matrice diagonale avec les valeurs
propres sur la diagonale.

Afin d’esquisser la procédure pour construire la base dite de Jordan pour un bloc
Bl , on omet pour simplifier l’écriture l’indice l et soit
n o
S = ~X ∈ Cn tels que (A − λI)r~X = 0

avec λ valeur propre de A de multiplicité r. La dimension de S est égale à r et pour


tout vecteur ~X de S,

(A − λI)r~X = 0, c.-à-d. Ker ((A − λI)r ) = S. (4.38)

On note 
Ei = Ker (A − λI)i

88
Construction de la base de Jordan

et pour simplifier les écritures on note

N(λ) = A − λI.

La construction de la base de Jordan exploite les inclusions des espaces vectoriels

{0} ⊆ E1 ⊆ E2 ⊆ · · · ⊆ Er (4.39)

En effet, si ~X ∈ Ei , alors N(λ)i~X = 0. En multipliant par N(λ), on a aussi

N(λ)N(λ)i~X = N(λ)i+1~X = 0

et donc ~X ∈ Ei+1 .
Dans (4.39), la dimension de Er est égale à r, mais il se peut, que pour j < r,
dim(E j ) = r et dans ce cas naturellement E j = Er . Soit donc j le plus petit in-
dice tel que dim(E j ) = r et on peut montrer qu’alors les inclusions jusqu’à j sont
strictes et
{0} ⊂ E1 ⊂ · · · ⊂ E j = Er (4.40)
En effet, supposons qu’il existe i < j, tel que Ei = Ei+1 , alors on aura aussi Ei+1 =
Ei+2 . Car si ~Y ∈ Ei+2 , alors

0 = N(λ)i+2~Y = N(λ)i+1N(λ)~Y ,

ce qui veut dire que N(λ)~Y ∈ Ei+1 , mais par Ei = Ei+1 on aura aussi N(λ)~Y ∈ Ei .
Par conséquent
N(λ)i N(λ)~Y = N(λ)i+1~Y = 0
et donc ~Y ∈ Ei+1 .
La conclusion est que si dans les inclusions (4.40) deux sous-espaces sont iden-
tiques, alors les sous-espaces qui suivent sont également tous égaux. C’est en
contradiction avec le fait que j est le plus petit indice tel que dim(E j ) = r et donc
ces inclusions sont strictes.
On peut faire une remarque ici : si par exemple j = 1, alors bien que la multiplicité
de la valeur propre λ soit r, l’espace Ker(A − λI) a la dimension r et il y a dans
ce cas r vecteurs propres linéairement indépendants avec la même valeur propre
λ. Le bloc B correspondant est alors une sous-matrice diagonale avec uniquement
la valeur propre sur la diagonale. Mais c’est plutôt l’exception et en général, si
r > 1, alors j > 1.

On va essayer de donner un mode d’emploi pour la construction d’une base dite


de Jordan. Observons d’abord que si ~Y ∈ Ei+1 et ~Y ∈ / Ei , pour i ≥ 1, alors ~Y et
N(λ)~Y sont linéairement indépendants. En effet, soit

a~Y + bN(λ)~Y = 0.

89
Formes réduites de matrices

Si on applique N(λ)i , on trouve (par N(λ)i+1~Y = 0), que aN i~Y = 0. Or N i~Y 6= 0


car ~Y ∈
/ Ei et donc a = 0 et ensuite b = 0, car N(λ)~Y 6= 0 si i ≥ 1).
Une première conséquence de ce résultat est que dans les inclusions strictes (4.40),
la différence entre deux sous-espaces successifs diminue ou reste égale, c’est-à-
dire
dim Ei − dim Ei−1 ≥ dim Ei+1 − dim Ei . (4.41)
En effet, si ~Y ∈ Ei+1 , et ~Y ∈
/ Ei alors

0 = N(λ)i+1~Y = N(λ)i N(λ)~Y

et donc N(λ)~Y ∈ Ei , mais N(λ)~Y ∈


/ Ei−1 , car

N(λ)i−1 N(λ)~Y = N(λ)i~Y 6= 0.

Par ailleurs si ~Y1 et ~Y2 sont deux vecteurs linéairement indépendants de Ei+1 , alors
N(λ)~Y1 et N(λ)~Y2 sont linéairement indépendants dans Ei si i ≥ 2, car

aN(λ)~Y1 + bN(λ)~Y2 = N(λ)(a~Y1 + b~Y2 ) = 0

implique a~Y1 + b~Y2 = 0 (sinon a~Y1 + b~Y2 ∈ E1 ) et donc a = b = 0.


Donc, admettons que
Ei+1 = Ei ⊕ Fi+1
et d’après ce qui précède, si on applique à une base de Fi+1 l’opérateur N(λ), alors
on obtient autant de vecteurs linéairement indépendants qui sont dans Ei mais pas
dans Ei−1 . Si on écrit
Ei = Ei−1 ⊕ Fi ,
il s’ensuit que dim(Fi ) ≥ dim(Fi+1 ).

Ces considérations permettent de procéder comme suit, étant rappelé que dans
les inclusions strictes (4.40) la dimension de E j est r.
Pour construire la base, on commence par le vecteur ~Xr (qui étant donné son in-
dice sera le dernier de la base), choisi tel que ~Xr ∈ E j , mais ~Xr ∈
/ E j−1 . Et ensuite
on définit

~Xr−1 = N(λ)~Xr , ou encore A~Xr = ~Xr−1 + λ~Xr car N(λ) = A − λI.

D’après ce qui précède, ~Xr−1 ∈ E j−1 , mais ~Xr−1 ∈


/ E j−2 . On peut donc ensuite
construire

~Xr−2 = N(λ)~Xr−1, ou encore A~Xr−1 = ~Xr−2 + λ~Xr−1

90
Construction de la base de Jordan

etc., jusqu’à ce que ~Xr− j+1 ∈ E1 et alors

N(λ)~Xr− j+1 = 0, ou encore A~Xr− j+1 = λ~Xr− j+1.

Si par exemple j = r, on aura ainsi construit une base de Er .

Si j < r il reste des vecteurs à compléter. Tout dépend maintenant des dimensions
des sous-espaces imbriqués dans (4.40). Si par exemple

E j = E j−1 ⊕ Fj

avec dim(Fj ) ≥ 2, on répète la procédure ci-dessus pour les autres vecteurs d’une
base de Fj .
Soit maintenant le plus grand i (avec i < j), tel que

Ei = Ei−1 ⊕ Fi ,

avec dim(Fi ) > dim(Fj ). Il existe donc des vecteurs dans Fi qui sont linéairement
indépendants des vecteurs de Fi obtenus en ayant appliqué j − i fois l’opérateur
N(λ) à une base de Fj selon la procédure ci-dessus. On répète alors la procédure
à partir de Ei , mais avec ces vecteurs de Fi .

On voit que de donner la procédure générale est délicat, mais dans les exem-
ples concrets la complexité des inclusions des sous-espaces (4.40) est relativement
limitée et la construction de la base de Jordan se fait assez naturellement. Le plus
simple est de donner un exemple, disons pour une valeur propre λ de multiplicité
r = 3. Si j = 3 dans les inclusions (4.40), alors la base sera telle, d’après ce qui
précède,
N(λ)~X3 = ~X2, N(λ)~X2 = ~X1 , N(λ)~X1 = 0,
n o
ce qui donne l’action de A sur la base ~X1 , ~X2, ~X3 de S, à savoir

A~X3 = ~X2 + λ~X3 , A~X2 = ~X1 + λ~X2 , A~X1 = λ~X1.

On peut alors se convaincre, que dans ce cas le bloc B correspondant de la forme


de Jordan s’écrit  
λ 1 0
B =  0 λ 1 . (4.42)
0 0 λ
Si par contre j = 2, alors dim(E2 ) = 3 et d’après (4.41), la dimension de E1 est
forcément 2. On choisit donc ~X3 ∈ E2 tel que ~X3 ∈
/ E1 et alors ~X2 = N(λ)~X3 ∈ E1 .

91
Formes réduites de matrices

Il existe alors un autre vecteur ~X1 ∈ E1 linéairement indépendant de ~X2 . On a par


conséquent
A~X3 = ~X2 + λ~X3 , A~X2 = λ~X2 , A~X1 = λ~X1
et le bloc correspondant sera de la forme
 
λ 0 0
B =  0 λ 1 . (4.43)
0 0 λ

Si maintenant j = 1, alors dim(E1 ) = 3 et il y a alors 3 vecteurs ~Xi , i = 1, 2, 3 tels


que N(λ)~Xi = 0, i = 1, 2, 3, c’est-à-dire

A~Xi = λ~Xi , i = 1, 2, 3

et le bloc est alors une matrice 3 × 3 diagonale et


 
λ 0 0
B =  0 λ 0 . (4.44)
0 0 λ

Revenons maintenant à la structure (4.36) de la matrice par blocs J et pour chaque


bloc Bl , l = 1, · · · , m on procède selon la procédure ci-dessus. Il s’ensuit que les
blocs rl × rl seront de la forme
 
λl ∗

 λl ∗ (0) 

Bl = 
 . . . . 
 , ∗ = 0 ou 1, (4.45)
. .
 
 (0) λl ∗ 
λl

c’est-à-dire sur la diagonale se trouve la valeur propre λl de multiplicité rl et juste


au-dessus de la diagonale il y aura des valeurs 0 ou 1, selon les dimensions des
sous espaces Ker (A − λl )i , comme nil a été discutéo ci-dessus. On obtient donc
(l) (l)
pour chaque sous espace Sl une base ~X , · · · , ~Xrl et on les rassemble en une
1
base de Cn , à savoir une base de Jordan, qui selon la construction ci-dessus sera
de forme n o
~X (1) , · · · , ~Xr(1) ~
1 , · · · , X1
(m) ~ (m)
, · · · , Xrm (4.46)
1

et on construit la matrice P dont les vecteurs colonnes sont précisément les vecteurs
successifs de cette base. On peut donc énoncer le théorème de la forme réduite de
Jordan.

92
Construction de la base de Jordan

Théorème 18 Pour toute matrice A carrée n×n telle que le polynôme caractérist-
ique a m zéros λl , l = 1, · · ·, m de multiplicités respectives rl , l = 1, · · · , m, il existe
une forme réduite de Jordan J qui est une matrice par blocs de la forme (4.36),
avec les blocs Bl matrices rl × rl avec une structure donnée par (4.45), et telle que
P−1 AP = J (4.47)
avec P la matrice de changement de base dont les vecteurs colonnes sont les
vecteurs de la base dite de Jordan (4.46).
Il s’agit là de la transformation optimale d’une matrice qu’on puisse faire.
Exemple :
On reprend l’exemple de la matrice (4.30), pour laquelle nous avions trouvé une
valeur propre simple λ1 = 3 et une valeur propre double λ2 = 2. Il est facile de
voir qu’on peut choisir comme vecteur propre ~X1 associé à λ1 = 3 le vecteur
 
1
~X (1) =  1  .
1
−2
Il a été montré plus haut que Ker(A − 2I) est de dimension
 1. La valeur propre
2
λ2 = 2 étant double, la dimension de Ker (A − 2I) est 2. On calcule
 
0 −1 −1
(A − 2I)2 =  0 −1 −1  .
0 2 2

Pour calculer les vecteurs du noyau de (A − 2I)2, on doit trouver (x, y, z) tels que
    
0 −1 −1 x 0
 0 −1 −1   y  =  0  .
0 2 2 z 0
On trouve comme le prévoit la théorie deux vecteurs linéairement indépendants
qui sont solutions, à savoir
   
1 0
~Y1 =  0  , ~Y2 =  1 
0 −1

Or, d’après le calcul plut haut, des deux vecteurs ~Y1 ∈ Ker(A − 2I) (et bien sûr
~Y2 ∈ (2)
/ Ker(A − 2I)). On choisit donc ~X2 = ~Y2 et
 
1
~X (2) = (A − 2I)~X (2) =  0 
1 2
0

93
Formes réduites de matrices

n o
(1) (2) (2)
Mettant donc les vecteurs ~X1 , ~X1 , ~X2 comme vecteurs colonnes dans P, à
savoir    
1 1 0 0 −1 −1
P =  1 0 1  et alors P−1 =  1 1 1 .
−2 0 −1 0 2 1
Et alors
P−1 AP = J
avec  
3 0 0
J =  0 2 1 .
0 0 2

94
Chapitre 5

Applications des formes réduites de


matrices

5.1 Formes bilinéaires symétriques


Soit l’espace vectoriel Rn .
Définition 23 On appelle forme bilinéaire sur Rn une application, notée ϕ, de
Rn × Rn dans R, qui est linéaire par rapport à chacune des variables, à savoir
ϕ(λ1~x1 + λ2~x2 ,~y) = λ1 ϕ(~x1 ,~y) + λ2 ϕ(~x2 ,~y) et (5.1)
ϕ(~x, λ1~y1 + λ2~y2 ) = λ1 ϕ(~x,~y1 ) + λ2ϕ(~x,~y2 ) (5.2)
pour tous vecteurs ~x1 ,~x2 ,~x,~y1 ,~y2 ,~y et pour tous scalaires λ1 et λ2 . La forme
bilinéaire est symétrique, si en plus
ϕ(~x,~y) = ϕ(~y,~x) (5.3)
pour tous vecteurs ~x et ~y.
Plaçons-nous maintenant dans la base canonique {~e1 , · · · ,~en } et on exprime les
vecteurs dans cette base base, c’est-à-dire
n n
~x = ∑ xi~ei , ~y = ∑ yi~ei
i=1 i=1

et par bilinéarité on obtient


! !
n n n n
ϕ(~x,~y) = ϕ ∑ xi~ei, ∑ y j~e j = ∑ xi ϕ ~ei , ∑ y j~e j
i=1 j=1 i=1 j=1
n n 
= ∑ ∑ xiy j ϕ ~ei ,~e j . (5.4)
i=1 j=1

95
Applications des formes réduites de matrices

Soit 
ai j = ϕ ~ei ,~e j (5.5)
et formant la matrice A donc les coefficients sont précisément ai j . Dans une écriture
matricielle, (5.4) s’écrit
 
y1
ϕ(~x,~y) = x1 · · · xn A  ... 
  
(5.6)
yn

ou encore, en notant en majuscules ~X et ~Y les vecteurs colonnes dont les éléments


sont les coordonnées de ~x et ~y dans la base canonique,

ϕ(~x,~y) = ~X T A~Y . (5.7)

Si la forme bilinéaire est symétrique, alors par définition


 
ai j = ϕ ~ei ,~e j = ϕ ~e j ,~ei = a ji (5.8)

et donc la matrice associée a une forme bilinéaire symétrique (dans la base canon-
ique par exemple) est symétrique et donc

AT = A. (5.9)

Abordons la question d’un changement de base pour une forme bilinéaire symétrique.
Soit donc une nouvelle base  ′
~e1 , · · · ,~en′ (5.10)
et formons la matrice S dont les vecteurs colonnes sont les coordonnées (dans
la base canonique) des vecteurs successifs de cette base. Si l’on note pour tout
vecteur ~x, les cordonnées dans la nouvelle base x′i (c’est-à-dire ~x = ∑nj=1 x′j~e ′j )
alors par le formalisme de changement de base, notant
 
x′1
~X ′ =  . 
 .. 
x′n

~X = S~X ′ (5.11)
(~X étant le vecteur colonne dont les composantes sont les coordonnées xi , i =
1, · · ·, n de ~x dans la base canonique). Ecrivons de la même manière ~Y = S~Y ′ , on
peut écrire à partir de (5.7)
 T  
ϕ(~x,~y) = S~X ′ A S~Y ′ . (5.12)

96
Formes quadratiques

Or, ici un rappel s’impose. Soit une matrice n × p notée B et une matrice p × q
notée C et on peut alors former le produit M = BC (qui est une matrice n × q) et
les coefficients de M s’écrivent
p
mi j = ∑ bik ck j , i = 1, · · ·, n, j = 1, · · ·, q.
k=1

Transposant maintenant la matrice M et notant m′i j les éléments de la matrice M T ,


alors
p
m′i j = m ji = ∑ b jk cki
k=1

d’après ce qui précède. Formant maintenant le produit CT BT et on peut se conva-


incre que les éléments de ce produit sont précisément
p
∑ ckib jk , i = 1, · · ·, q, j = 1, · · · , n
k=1

Comparant cette expression avec les coefficients m′i j ci-dessus, on conclut que

(BC)T = CT BT (5.13)

Donc, lorsqu’on transpose un produit de deux matrices, alors le résultat est le pro-
duit des transposées des deux matrices mais en permutant l’ordre du produit.

Donc, reprenons (5.12) et par


 T
S~X ′ = ~X ′T ST

on trouve 
ϕ(~x,~y) = ~X ′T ST AS ~Y ′ (5.14)
et donc, si on note A′ la matrice associée à ϕ dans la nouvelle base, alors

A′ = ST AS (5.15)

5.2 Formes quadratiques


Définition 24 On appelle forme quadratique notée Q(~x) associée à la forme bilinéaire
symétrique ϕ, l’application
Q(~x) = ϕ(~x,~x). (5.16)

97
Applications des formes réduites de matrices

On observe que

Q(~x +~y) = ϕ(~x +~y,~x +~y) = ϕ(~x,~x) + ϕ(~y,~y) + 2ϕ(~x,~y)

et donc
1
ϕ(~x,~y) =
(Q(~x +~y) − Q(~x) − Q(~y)) , (5.17)
2
c’est-à-dire de donner la forme quadratique est équivalent à donner la forme
bilinéaire symétrique.

Si on exprime ~x dans la base canonique, alors, notant A la matrice associée à ϕ,


n n n
Q(~x) = ∑ ∑ xiai j x j = ∑ aiix2i + 2 ∑ ai j xix j (5.18)
i=1 j=1 i=1 i< j

où dans l’expression ci-dessus on utilise le fait que A est symétrique, c’est-à-dire
ai j = a ji .

5.2.1 Signature d’une forme quadratique


On se donne comme objectif d’écrire une forme quadratique sous forme d’une
somme de carrés, c’est-à-dire on cherche une matrice S de changement de base
telle que
A′ = ST AS (5.19)
est diagonale. Le plus naturel et finalement le plus simple est d’appliquer un algo-
rithme dit de Gauss. On peut en effet écrire
n
Q(~x) = ∑ aii x2i + 2 ∑ ai j xi x j
i=1 i< j

sous la forme, si a11 6= 0,


 2
a12 a1n
Q(~x) = a11 x1 + x2 + · · · xn + h(x2 , · · ·xn ) (5.20)
a11 a11

et ensuite on procède de la même manière avec h(x2 , · · ·, xn ), mais à partir de x2 .


Si cependant a11 = 0, il convient d’écrire par exemple le produit x1 x2 sous forme
de deux carrés, à savoir
1  1 
x1 x2 = (x1 + x2 )2 − (x1 − x2 )2 = y21 − y22 (5.21)
4 4

98
Signature d’une forme quadratique

et on se ramène au cas précédent. En effet, notant


1 1
y1 = x1 + x2 , y2 = x1 − x2 on aura x1 = (y1 + y2 ), x2 = (y1 − y2 ) (5.22)
2 2
et on se ramène au cas précédent substituant x1 et x2 par leurs expressions en fonc-
tion de y1 et y2 et posant xi = yi , i = 3, · · ·, n.

Exemple : On se place dans R3 et on considère la forme quadratique

Q(~x) = x21 + 2x22 + x23 + 2x1 x2 − 2x2 x3 .

On peut d’abord observer que la matrice A de la forme bilinéaire symétrique as-


sociée à Q s’écrit  
1 1 0
A =  1 2 −1  .
0 −1 1
On peut se convaincre, que

Q(~x) = (x1 + x2 )2 + x22 + x23 − 2x2 x3 = (x1 + x2 )2 + (x2 − x3 )2 .

Donc, si on définit

x′1 = x1 + x2 , x′2 = x2 − x3 , x′3 = x3

la forme quadratique peut encore s’écrire sous la forme

Q = x′12 + x′22 .

On peut facilement exprimer les xi en fonction des x′i en commençant par i = 3 et


donc
x3 = x′3 , x2 = x′2 + x3 = x′2 + x′3 , x1 = x′1 − x2 = x′1 − x′2 − x′3 .
Etant donné que    ′ 
x1 x1
 x2  = S  x′ 
2
x3 x′3
la matrice S s’écrit
   
1 −1 −1 1 0 0
S= 0 1 1  et ST AS =  0 1 0  .
0 0 1 0 0 0

Revenons au cas général pour énoncer le résultat suivant.

99
Applications des formes réduites de matrices

Proposition 3 Soit Q une forme quadratique associée à ϕ forme bilinéaire symétrique.


Alors il existe une base {~e1′ , · · · ,~en′ } dans laquelle la matrice A′ associée à ϕ est
diagonale
 
α1
 .. 
 . (0) 
 
α
A′ =  r
 
 (5.23)
 0 
 .. 
 (0) . 
0
et
Q(~x) = α1 x′12 + · · · + αr x′r2 (5.24)
avec α1 , · · · , αr 6= 0. Si A est la matrice symétrique associée à ϕ dans la base
canonique, alors soit S le matrice de changement de base et

ST AS = A′ . (5.25)

On compte le nombre de coefficients αi dans (5.24) positifs et on suppose qu’il y


en a p, et il y a donc r − p coefficients négatifs. Si αi > 0, on peut écrire
√ 2
αi x′i 2 = αi x′i

et si α j < 0 on peut écrire


p 2
α j x′j2 = − −α j x′j .
√ √
En notant x̃i = αi x′i et x̃ j = −α j x′j et en ordonnant de façon à faire apparaı̂tre
d’abord les termes positifs, on peut affirmer qu’il existe une base dans laquelle la
forme quadratique s’écrit

Q(~x) = x̃21 + · · · + x̃2p − x̃2p+1 − · · · − x̃2r . (5.26)

Définition 25 Le nombre r d’éléments non nuls sur la diagonale de la matrice


diagonale A′ donnée par (5.23) est appelé le rang de la forme quadratique Q (ou
d’une manière équivalente de la forme bilinéaire symétrique associée ϕ). Soit p
le nombre d’éléments positifs alors (p, r − p) s’appelle la signature de Q (ou ϕ).
On peut montrer que la signature ne dépend pas de la base choisie pour obtenir
(5.26).

Revenons sur l’exemple traité plus haut : le rang de cette forme quadratique est
r = 2 et la signature (2, 0).

100
Diagonalisation d’une forme bilinéaire symétrique dans un espace euclidien

5.3 Diagonalisation d’une forme bilinéaire symétrique


dans un espace euclidien
On se place maintenant dans Rn muni du produit scalaire canonique (eucli-
dien)
n
h~x,~yi = ∑ xi yi .
i=1
Soit une forme bilinéaire symétrique ϕ et A la matrice associée qui est donc une
matrice symétrique. On peut dire, que de donner une matrice réelle symétrique A
équivaut à donner une forme bilinéaire symétrique ϕ, par la relation

ϕ(~x,~y) = ~X T A~Y (5.27)

d’après ce qui précède, ~X et ~Y étant les vecteurs colonnes avec les coordonnées de
~x et ~y dans la base canonique.
Remarque : il convient ici de revenir un instant sur la transposition de matrices.
Soit donc M une matrice quelconque et on identifie l’application linéaire avec
cette matrice. On note un vecteur ~x en lettre majuscule ~X pour désigner le vecteur
colonne (donc une matrice n × 1) dont les coefficients sont les coordonnées de ~x
dans la base canonique. Il s’ensuit que

h~x,~yi = ~X T~Y . (5.28)

Soit donc
h~x, M~yi = ~X T M~Y .
Le nombre ci dessus est un nombre réel (une matrice 1 × 1) et il est donc égal à
son transposé et
 T
~X T M~Y = ~Y T M T ~X = ~y, M T~x = M T~x,~y

On obtient donc la relation fondamentale

h~x, M~yi = M T~x,~y . (5.29)

Donc, en particulier, pour une matrice A symétrique et donc AT = A,

h~x, A~yi = hA~x,~yi . (5.30)

avec toujours la convention d’identifier A avec l’application linéaire associée.

101
Applications des formes réduites de matrices

Théorème 19 Soit A une matrice réelle et symétrique, alors les valeurs propres
de A sont réelles. Soient alors λ et µ deux valeurs propres distinctes de vecteurs
propres respectifs ~x 6= 0 et ~y 6= 0. Alors ces deux vecteurs propres sont orthogo-
naux, à savoir
n
h~x,~yi = ∑ xi yi = 0, (5.31)
i=1
avec xi , i = 1, · · ·, n et yi , i = 1, · · ·, n les coordonnées des vecteurs propres dans la
base canonique.
La preuve de ce résultat extrêmement important est relativement aisée. Soit donc
λ valeur propre de A et ~X 6= 0 le vecteur (colonne) propre associé. Alors a priori
λ ∈ C et ~X ∈ Cn et
A~X = λ~X.
La matrice A étant réelle, on aura aussi, en prenant la conjuguée complexe de
l’égalité ci-dessus
A~X¯ = λ̄~X¯ .
Formons
~X T A~X¯ = ~x, A~x¯ = ~x, λ̄~x¯ = λ̄ ~x,~x¯ . (5.32)
Or, d’après (5.30),
~x, A~x¯ = A~x,~x¯ = λ ~x,~x¯ . (5.33)
En observant que
n
~x,~x¯ = ∑ |xi |2 6= 0,
i=1
et les membres à droite de (5.32) et (5.33) étant identiques, on aura forcément

λ̄ = λ et donc λ ∈ R.

Soient maintenant

A~X = λ~X et A~Y = µ~Y , λ 6= µ, ~X, ~Y 6= 0.

Formons
~Y T A~X = h~y, A~x i = h~y, λ~xi = λ h~y,~x i .
De nouveau par (5.30),

h~y, A~x i = h A~y,~x i = µ h~y,~xi .

Par conséquent
(λ − µ) h~y,~xi = 0 et donc h~y,~xi = 0

102
Diagonalisation d’une forme bilinéaire symétrique dans un espace euclidien

car λ 6= µ.

Abordons maintenant la question de savoir, si une matrice réelle symétrique est


diagonalisable. Nous savons que les valeurs propres sont réelles mais elles peu-
vent être multiples. Soient donc λ1 , · · · , λm les valeurs propres (réelles) distinctes
de multiplicités respectives r1 , · · ·, rm (telles que r1 + · · · + rm = n), c’est-à-dire le
polynôme caractéristique s’écrit

p(λ) = det(A − λI) = (−1)n (λ − λ1 )r1 (λ − λ2)r2 · · · (λ − λm )rm (5.34)

On note Eλi = Ker(A − λi I) le sous-espace associé à la valeur propre λi et nous


allons démontrer que
Rn = Eλ1 + Eλ2 + · · · + Eλm , (5.35)
c’est-à-dire qu’il existe une base formée de vecteurs propres de A. En effet, sup-
posons que sous-espace vectoriel

E = Eλ1 + Eλ2 + · · · + Eλm

est strictement inclus dans Rn , donc plus petit que Rn . Au chapitre 4, il a été
montré que l’on peut écrire
Rn = E ⊕ E ⊥ . (5.36)
On suppose que dim(E ⊥ ) = q ≥ 1 et soit alors un vecteur ~Y 6= 0 de E ⊥ . On montre
qu’alors A~Y ∈ E ⊥ . En effet, soit un vecteur quelconque ~X ∈ E, alors

~X T (A~Y ) = h~x, A~y i = h A~x,~y i . (5.37)

Le vecteur ~x ∈ E étant une combinaison linéaire de vecteurs propres, A~X est


également une combinaison linéaire de vecteurs propres et A~X ∈ E. Mais alors
h A~x,~y i = 0 par définition de E ⊥ et donc par (5.37) A~Y ∈ E ⊥ .

Par la procédure d’orthonormalisation


 ′ de Gram-Schmidt on peut construire une
′ ⊥
base orthonormée ~e1 , · · ·,~eq de E . Soit ϕ la forme bilinéaire symétrique as-
socié à A et la matrice B dans cette base a pour coefficients ϕ(~ei′ ,~e ′j ), i = 1, · · ·, q, j =
1, · · ·, q et elle est donc symétrique. Plus précisément, soit U la matrice n × q dont
les vecteurs colonnes sont les vecteurs successifs de la base orthonormée de E ⊥ .
On peut observer (exercice) que

B = U T AU (5.38)

et que
U T U = I, avec I matrice identité q × q. (5.39)

103
Applications des formes réduites de matrices

La matrice B étant symétrique, elle a donc au moins une valeur propre réelle, donc
~ (avec q composantes) tel que
il existe un vecteur W
~ = λW
BW ~ ou encore U T AU W
~ = λW
~, (5.40)

d’après (5.38). Tenant compte de (5.39), on peut écrire d’après (5.40) que
~ ∈ E ⊥.
U T A~X = λU T ~X, avec ~X = U W (5.41)

Mais alors
U T (A − λI) ~X = 0. (5.42)
Or, E ⊥ étant invariant par A, (A − λI) ~X ∈ E ⊥ et (5.42) implique que

(A − λI) ~X = 0 (5.43)

car (5.42) signifie que (A − λI) ~X est orthogonal à tout vecteur de la base de E ⊥ et
donc que
(A − λI) ~X ∈ E ⊥ ∩ E = 0.
Donc, d’après (5.43), il existe au moins un vecteur propre (non nul) dans E ⊥ ce
qui est en contradiction avec (5.36), c’est-à-dire que tous les vecteurs propres de
A sont dans E. Donc, il est impossible que la dimension de E ⊥ soit ≥ 1 et donc
E ⊥ = 0 et par conséquent E = Rn .

On a vue, que des vecteurs propres associés à des valeurs propres distinctes sont
orthogonaux. Un vecteur propre étant défini à une constante multiplicative près,
on peut toujours supposer que les vecteurs propres sont de norme 1. Aussi, à
l’intérieur de chaque sous-espace propre Eλi on peut orthonormaliser les vecteurs
propres associés à λi (si la multiplicité de ri de λi est > 1). On peut donc énoncer
le théorème suivant.
Théorème 20 Soit Rn muni du produit scalaire canonique (euclidien). Alors toute
matrice n × n symétrique A peut être diagonalisée dans une base orthonormée
formée de vecteurs propres. Soit P la matrice orrthogonale dont les vecteurs
colonnes sont les éléments de cette base de vecteurs propres orthonormée. On
a PT = P−1 et
PT AP = D (5.44)
avec D matrice diagonale avec les valeurs propres réelles sur la diagonale.
On peut donc conclure, que le rang r de la matrice A est égal au nombre de valeurs
propres non nuls. Si p est le nombre de valeurs propres strictement positifs, alors
la signature de la forme quadratique Q associée à A est (p, r − p).

104
Diagonalisation d’une forme bilinéaire symétrique dans un espace euclidien

Remarque importante : On a vu qu’une matrice symétrique A est associée à


une forme bilinéaire symétrique (et donc à une forme quadratique, notée Q),
mais A en tant que matrice est aussi associée à une application linéaire (notée
~f ). Si on diagonalise cette matrice dans une base orthonormée de vecteurs pro-
pres, alors D = P−1 AP est la diagonalisation en tant qu’application linéaire et vu
que P−1 = PT on a aussi D = PT AP qui est comme il a été montré plus haut la
diagonalisation en tant que forme bilinéaire symétrique. Si on note λ j , j = 1, · · ·, n
les valeurs propres (si une valeur est multiple elle y apparaı̂t plusieurs fois) et
~X j , j = 1, · · · , n les vecteurs propres formant une base orthonormée, alors si on
écrit ~x vecteur de Rn dans cette base, c’est-à-dire ~x = ∑nj=1 x′j ~X j , d’appliquer ~f
n
~f (~x) = ∑ λ j x′j ~X j
j=1

revient à multiplier les coordonnées x′j simplement par λ j (car ~f (~X j ) = A~X j =
λ j ~X j ) et la forme quadratique s’écrit
n
Q(~x) = ∑ λ j x′j2 .
j=1

Exemple : Reprenons l’exemple ci-dessus, à savoir la matrice symétrique


 
1 1 0
A =  1 2 −1  .
0 −1 1

Un rapide calcul montre que le polynôme caractéristique est

p(λ) = −(λ − 1)(λ − 3)λ

et les valeurs propres sont λ1 = 1, λ2 = 3, λ3 = 0. On calcule les vecteurs propres


de norme un associé, à savoir
 1   1   1 
√ √ √
2 6 3
~X1 = 
 0  ~X2 = 
  √2  ~  1 
 , X3 =  − √3 
6
√1 − √1 − √13
2 6

et  1 
  √ √1 √1
1 0 0 2 6 3
2
T
P AP =  0 3 0   0
avec P =  √ − √13 
.
6
0 0 0 √1 − √1 − √13
2 6

105
Applications des formes réduites de matrices

5.4 Résolution de systèmes d’équations différentielles


linéaires autonomes
On appelle un système d’équation différentielles linéaires une équation vecto-
rielle de la forme
d~
X (t) = A~X (t) (5.45)
dt
avec A une matrice n × n à coefficients réels constants et ~X(t) un vecteur que l’on
cherche à déterminer, chaque composante xi (t), i = 1, · · ·, n de ce vecteur étant
fonction d’une variable t qu’on appellera le temps. Il ne s’agit pas d’entrer plus
avant dans la théorie des équations différentielles : il suffit de dire que l’on peut
déterminer la solution ~X(t) du système (5.45), à condition d’y ajouter une condi-
tion dite initiale en un temps t0 , à savoir
~X(t0 ) = ~X0 , ~X0 ∈ Rn donné, (5.46)

et que la solution de (5.45) devient alors unique. Supposons un instant que n = 1


et donc la matrice A = a avec a un scalaire. Alors il est bien connu que la solution
qui est alors une fonction scalaire s’écrit

x(t) = ea(t−t0 ) x0 . (5.47)

En effet, x(t0 ) = x0 et si on dérive x(t) on trouve bien


d
x(t) = a ea(t−t0 ) x0 = a x(t).
dt
Désormais on suppose que t0 = 0.
Le développement de eat en une série est bien connu et

1
eat = ∑ k! (at)k. (5.48)
k=0

Ce qui conduit à la définition de l’exponentielle d’une matrice en fonction des


produits k ème successifs de A avec elle-même, à savoir

1 2 1
e = I + A + A + · · · = ∑ Ak
A
(5.49)
2! k=0 k!

avec la convention que A0 = I la matrice identité n × n. C’est donc une série de


matrices et on admet qu’elle converge. On peut énoncer quelques propriétés de
l’exponentielle de matrices.
Propriétés de l’exponentielle de matrices :

106
Résolution de systèmes d’équations différentielles linéaires autonomes

1. Soient deux matrices carrées A et B qui commutent, c’est-à-dire AB = BA.


Alors
eA+B = eA eB .
Pour le prouver il faut développer
! !
∞ ∞
A B 1 1
e e = ∑ k! Ak ∑ l! Bl
k=0 l=0

et ce n’est que si AB = BA qu’on peut regrouper les termes de façon à ce


que le produit des deux séries devienne

1
∑ (A + B)m = eA+B
m=0 m!

comme pour l’exponentielle de scalaires.


2. Etant donné que A permute avec −A, on peut écrire (notant 0 la matrice dont
tous les coefficients sont nuls)

eA−A = e0 = I = eA e−A

et donc e−A est l’inverse de A, c’est-à-dire


 −1
−A
e = eA .

Enonçons le résultat fondamental, à savoir


d tA
e = AetA . (5.50)
dt
Pour la démonstration, considérons la série

tA tk
e = ∑ k! Ak . (5.51)
k=0

Il est possible de montrer que cette série est uniformément convergente pour t tel
que |t| < T . Pour cela, il faut introduire une mesure de l’ordre de grandeur de
la matrice, une sorte de norme de matrices qui est cependant en dehors du cadre
de ce cours de Licence 2. Il suffit de dire que l’on peut définir une norme telle
que ||A|| ≤ a avec a > 0, de façon à ce que ||Ak || ≤ ak et on peut majorer alors
la norme de ||etA || par eaT ce qui rend la série (5.51) uniformément convergente.
Pour la dériver, on peut donc dériver terme par terme sous la somme et
∞   ∞
d  tA  d tk t k−1 k
e =∑ Ak = ∑ A
dt k=0 dt k! k=1 (k − 1)!

107
Applications des formes réduites de matrices

Cette dernière somme peut encore s’écrire, posant l = k − 1


∞ ∞
tl tl
∑ l! Al+1 = A ∑ l! Al = AetA .
l=0 l=0

D’où
d  tA 
e = AetA . (5.52)
dt
et on peut énoncer le théorème suivant :

Théorème 21 La solution de l’équation (5.45) qui vérifie la condition initiale


~X(0) = ~X0 s’écrit
~X (t) = etA~X0. (5.53)

En effet, on a bien ~X (0) = e0~X0 = I~X0 = ~X0 et

d~ d  tA  ~
X (t) = e X0 = AetA~X0 = A~X(t).
dt dt
Remarque : si la condition initiale (5.46) est donnée pour t0 6= 0, alors on rem-
place simplement t dans l’exponentielle de (5.53) par t − t0 et alors

~X(t) = e(t−t0 )A~X0.

5.4.1 Calcul pratique de etA


C’est ici que les formes réduites des matrices prennent toute leur importance.
On a vu que le calcul des valeurs et vecteurs propres de la matrice permet d’écrire

A′ = P−1 AP et A = PA′ P−1 (5.54)

où A′ est une matrice diagonale avec les valeurs propres sur la diagonale si les
valeurs propres sont distinctes deux à deux et les colonnes de P sont alors les
vecteurs propres. Dans le cas général A′ est sous forme de Jordan et les colonnes
de P sont les vecteurs de la base de Jordan. Formons par exemple A2 alors
2
A2 = PA′ P−1 = PA′ P−1 PA′ P−1 = PA′ 2 P−1

etc. et bien sûr Ak = PA′ k P−1 . Vu que l’exponentielle d’une matrice est la somme
des puissances de cette matrice, on conclut que

etA = PetA P−1 (5.55)

108
Calcul pratique de etA

Cas où A′ = D
Supposons d’abord que A est diagonalisable et donc A′ = D avec
 
λ1 (0)
D=
 .. 
. 
(0) λn
et il est facile de voir que
 tk k

k! λ1 (0)
tk k  .. 
D = . 
k!
tk k
(0) k! λn

A partir de la définition (5.51) en remplaçant A par D on trouve


 
eλ1t (0)
etD = 
 .. 
(5.56)
. 
(0) eλn t

Cas où A′ = J
On suppose maintenant que A possède des valeurs propres multiples et qu’on
ne peut pas faire mieux que de mettre A sous forme de Jordan J, c’est-à-dire
la matrice par blocs (4.36), chaque bloc Bl étant une matrice rl × rl (avec rl la
multiplicité de la valeur propre λl ) de la forme (4.45). La multiplication de J avec
elle-même se faisant bloc par bloc, on peut constater (l’exponentielle étant une
k
série formée avec les termes tk! J k ) que d’après (4.36)
  
etB1 
 etB2 (0) 
tJ  
e = . .  (5.57)
 (0) . 

etBm

Il suffit donc de savoir calculer les matrices etBl , l = 1, · · ·, m. Pour simplifier


l’écriture, on omet l’indice l et on considère un bloc générique r × r de la forme
 
λ 1

 λ 1 (0) 

B=
 . . . . 
, (5.58)
. .
 
 (0) λ 1 
λ

109
Applications des formes réduites de matrices

c’est-à-dire λ est valeur propre et on suppose qu’immédiatement au-dessus de la


diagonale il y a 1 partout (dans le cas général il y a 0 ou 1). Il est clair que B peut
s’écrire sous la forme
 
0 1

 0 1 (0) 

B = λI + N avec N = 
 . . . . 
. (5.59)
. .
 
 (0) 0 1 
0

On peut se convaincre facilement que N r = 0 et que


   
0 0 1 (0) 0 0 ··· 0 1
 ..   0 0 ··· 0 
 0 0 .   
2 
N = .. .. 
,···,N r−1 
= . . . . .. 
 (5.60)
. . 1  . . .
   
 (0) 0 0   (0) 0 0 
0 0

(c’est-à-dire dans chaque puissance successive de N les nombres 1 remontent).


Les matrice λI et N commutent et on peut donc écrire

etB = etλI+tN = etλI etN (5.61)

Bien sûr, etλI est une matrice diagonale avec eλt sur la diagonale et donc

etλI = eλt I (5.62)

et par N r = 0 (et donc N s = 0, s ≥ r), la matrice etN est en fait une somme finie et

t2 2 t r−1
etN = I + tN + N +···+ N r−1 .
2 (r − 1)!

Or, d’après (5.60), on peut écrire


 
t2 t r−1
1 t 2 ··· (r−1)!
 .. .. 

 1 t . . 

etN = .. .. t2
 (5.63)

 . . 2


 (0) 1 t 
1

110
Procédure de résolution

Pour former etB il faut d’après (5.61) et (5.62) multiplier chaque élément de la
matrice ci-dessus par eλt et
 
t 2 λt t r−1 λt
eλt teλt 2e ··· (r−1)! e
 .. .. 

 eλt teλt . . 

tB
e = ..
.
..
. t 2 λt
 (5.64)
2e
 
 
 (0) eλt teλt 
eλt

Donc, la matrice etJ d’après (5.57) sera formée de blocs de la forme (5.64).

5.4.2 Procédure de résolution


On reprend le système d’équations différentielles linéaires

d~
X (t) = A ~X(t), ~X (0) = ~X0 (5.65)
dt

avec ~X0 la condition initiale donnée. On suppose avoir calculé les valeurs et vecteurs
propres de A et donc
A′ = P−1 AP
On multiplie l’équation (5.65) par P−1 et donc

d~
Y (t) = P−1 A P~Y (t) = A′ ~Y (t), ~Y (0) = ~Y0 , ~Y = P−1~X, ~Y0 = P−1~X0 , (5.66)
dt
c’est-à-dire le système ci-dessus est le système d’équations différentielles pour
la solution dans la base dont les vecteurs sont les colonnes de P. Ce système ci-
dessus peut être résolu et
~Y (t) = etA′ ~Y0 . (5.67)
Remarque : en pratique il n’est pas nécéssaire d’inverser la matrice P. En fait,

il suffit de connaı̂tre l’expression de etA et on en déduit la solution ~Y donnée
par (5.67) pour un vecteur ~Y0 a priori arbitraire que l’on note par exemple ~α de
coefficients αi , i = 1, · · ·, n. Si la matrice est diagonalisable, alors

etA = etD (5.68)

avec etD de la forme (5.56). Si A ne peut être mise que sous forme de Jordan, alors

etA = etJ (5.69)

111
Applications des formes réduites de matrices

avec etJ de la forme (5.57) où chaque bloc est de la forme (5.64). Ayant déterminé
la solution (5.67) pour un vecteur ~Y0 = ~α arbitraire à ce stade, on récupère l’ex-
pression générale de la solution, à savoir
~X(t) = P~Y (t) = P etA′ ~α. (5.70)
Si on veut satisfaire la condition initiale ~X = ~X0 alors ~α est solution du système
P~α = ~X0 (5.71)

(comme on peut le voir en prenant t = 0 dans (5.70) avec e0A = I).

Exemple : On reprend la matrice (4.30) du chapitre 4


 
2 1 0
A =  0 1 −1 
0 2 4
et on cherche à résoudre
 
a1
d~
X = A~X, avec ~X (0) =  a2  .
dt
a3
Au chapitre 4, cette matrice a été mise sous forme de Jordan, à savoir
   
1 1 0 3 0 0
P =  1 0 1  et J =  0 2 1  .
−2 0 −1 0 0 2
Il est facile de voir d’après ce qui précède que
 3t 
e 0 0
etJ =  0 e2t te2t 
0 0 e2t

et donc d’après (5.67) (en prenant comme ~Y0 le vecteur arbitraire ~α)
 
α1 e3t
~Y (t) =  α2 e2t + α3te2t 
α3 e2t
Tenant compte de l’expression ci-dessus de P on obtient l’expression générale de
~X(t), à savoir
 
α1 e3t + α2 e2t + α3te2t
~X(t) =  α1 e3t + α3 e2t . (5.72)
3t
−2α1 e − α3 e 2t

112
Procédure de résolution

Afin d’obtenir la solution en fonction de la condition initiale on pose t = 0 dans


l’expression ci-dessus et on résout le système
α1 + α2 = a 1
α1 + α3 = a 2
−2α1 − α3 = a3
et on trouve aisément α1 = −a2 − a3 , α2 = a1 + a2 + a3 et α3 = 2a2 + a3 et on
injecte ensuite ces expressions dans (5.72).

Pour résumer, dans tous les cas, on peut toujours mettre A sous forme de Jordan
et on a vu que les éléments non nuls de etJ sont de la forme
t j λl t
e , j = 0, · · ·, rl − 1. (5.73)
j!
Donc, lorsqu’on résout le système d’équations différentielles, on constate que les
composantes de ~Y (t) et ensuite ceux de ~X(t) sont des combinaisons linéaires de
ces expressions. On peut donc énoncer le théorème suivant.
Théorème 22 Notons x j (t), j = 1, · · · , n les composantes de la solution ~X de (5.65).
Ces fonctions sont de la forme
m
x j (t) = ∑ p jl (t)eλlt (5.74)
l=1

avec p jl (t), j = 1, · · ·, n des polynômes de degré ≤ rl − 1, avec rl la multiplicité


de la valeur propre λl , l = 1, · · ·, m de la matrice A. En particulier, si m = n et
qu’alors toutes les valeurs propres de A sont simples, p jl (t) = α jl avec α jl des
constantes, j = 1, · · · , n, l = 1, · · · , n.
Une dernière remarque peut être faite, au cas où il y a une valeur propre avec
une partie imaginaire non nulle, donc on suppose que pour une valeur de l, λl =
µr + iµi , µi 6= 0. Alors on sait (pour un système réel) qu’il y a aussi la valeur pro-
pre complexe conjuguée λ̄l = µr − iµi . Donc, dans les expressions (5.74) il faut
supposer que le polynôme p jl (t) en facteur de eλl t (qui est une constante si la
valeur propre complexe est simple) est à coefficients complexes. On cherche une
solution réelle et la contribution dans la somme (5.74) de cette paire de valeurs
propres complexes sera donc de la forme

p jl (t)eλlt + p̄ jl (t)eλ̄lt .
On peut se convaincre que cette expression peut s’écrire sous la forme générale

e µr t q j1 (t) cos(µit) + q j2 sin(µit)

113
Applications des formes réduites de matrices

pour des polynômes q j1 (t) et q j2 (t) à coefficients réels cette fois-ci (de degré rl −1
si la valeur propre λl avec une partie imaginaire non nulle est de multiplicité rl ),
car

eλl t = e µr t eiµit = eµr t (cos(µit) + i sin(µit)) , eλ̄l t = e µr t (cos(µit) − i sin(µit)).

5.4.3 Cas d’une seule équation différentielle d’ordre n


On considère maintenant une seule équation différentielle d’ordre n

x(n) (t) + a1 x(n−1) (t) + · · · + an−1 x ′ (t) + an x(t) = 0, (5.75)

(ai , i = 1, · · · , n des nombres réels) avec x(t) ∈ R et à laquelle on ajoute n condi-


tions initiales

x(0) = b0 , x ′ (0) = b1 , · · · , x(n−1) (0) = bn−1 . (5.76)

Pour comprendre quelle sera l’expression de la solution x(t), on écrit cette équation
sous la forme d’un système d’équations en introduisant le vecteur
   
x(t) b0
 x ′ (t)   b1 
~X(t) =  
 ..  et X0 =  .. ~  
(5.77)
 .   . 
x(n−1) bn−1

et on peut se convaincre que ~X(t) est alors solution du système (exercice)

d~
X(t) = A~X(t), ~X(0) = ~X0 (5.78)
dt
avec  
0 1

 0 1 (0) 


A= .. .. 
(5.79)
(0) . . 
 
 0 1 
−an −an−1 · · · · · · − a2 −a1
On a vu que les solutions d’un tel système s’écrivent comme des combinaisons
linéaire des fonctions eλl t (avec λl les valeurs propres de A), multipliées éventuellement
selon les cas de figure par des polynômes de degrés au plus égaux à rl − 1 (avec rl
la multiplicité de λl ). La fonction

x(t) = ceλt

114
Cas d’une seule équation différentielle d’ordre n

pour c une constante 6= 0 et λ égale à une des valeurs propres est donc une solution
possible, pour des conditions initiales appropriées. Injectant cette expression dans
(5.75) on trouve

λn + a1 λn−1 + · · · + an−1 λ + an ceλt = 0

et d’où le polynôme caractéristique

p(λ) = λn + a1 λn−1 + · · · + an−1 λ + an (5.80)

qui est donc aussi le polynôme caractéristique de (5.79).


On note donc λl , l = 1, · · ·, m les zéros distincts de p(λ) de multiplicités respec-
tives rl , l = 1, · · · , m. D’après ce qui précède, la solution x(t) de (5.75) étant la
première composante de la solution ~X(t) de (5.77), elle s’écrit

m
x(t) = ∑ pl (t)eλlt (5.81)
l=1

avec pl (t), l = 1, · · ·, m des polynômes de degré ≤ rl − 1, que l’on détermine en


fonction des conditions initiales.
Exemple : Soit l’équation différentielle

x ′ ′ (t) + 2x ′(t) + 5x(t) = 0, x(0) = b0 , x ′ (0) = b1

(avec b1 , b2 des nombres réels). Le polynôme caractéristique est

p(λ) = λ2 + 2λ + 5

et les zéros sont donc

λ1 = −1 + 2i, λ2 = λ̄1 = −1 − 2i.

D’après les remarques faites sur les valeurs propres complexes dans la résolution
d’une équation différentielle réelle, on peut écrire

x(t) = e−t (α cos(2t) + β sin(2t))

Tenant compte des conditions intiales, on trouve

x(0) = α = b0 , x ′ (0) = −α + 2β = b1 et donc β = (b0 + b1 )/2.

115
Applications des formes réduites de matrices

5.4.4 Systèmes d’équations différentielles linéaires non homogènes


Dans beaucoup d’applications on est amené à résoudre un système de la forme
(5.45) avec en plus une fonction vectorielle donnée notée ~F(t), c’est-à-dire on
cherche à trouver la solution de
d ~
X (t) = A ~X(t) + ~F(t) (5.82)
dt
toujours pour une condition initiale (on suppose en t = 0)
~X(0) = ~X0 (5.83)
(avec ~X0 donné). On peut se convaincre que maintenant ~X(t) peut s’écrire comme
une somme
~X(t) = ~Xg (t) + ~X p(t), (5.84)
avec
d ~
Xg (t) = A ~Xg (t), ~Xg(0) = ~X0 (5.85)
dt
et
d ~
X p (t) = A ~X p(t) + ~F(t), ~X p (0) = 0 (5.86)
dt
car alors
d ~   
Xg (t) + ~X p(t) = A ~Xg (t) + A ~X p(t) + ~F(t) = A ~Xg (t) + ~X p(t) + ~F(t),
dt
donc ~X(t) donnée par la somme (5.84) est bien solution de l’équation différentielle
et
~X(0) = ~Xg (0) + ~X p(0) = ~X0 .
La solution ~Xg est appelée solution générale de l’équation (5.82) et ~X p solution
particulière.
Bien sûr, la solution de (5.85) est celle discutée au-dessus, à savoir
~Xg (t) = etA ~X0 . (5.87)
Pour la solution particulière, on met en œuvre ce qui est appelé la méthode de la
variation de la constante. On écrit donc
~
~X p(t) = etA C(t) (5.88)
~ une fonction vectorielle à déterminer. Si on dérive cette fonction alors
avec C(t)
 
d~ d  tA ~  d tA ~ d~ ~ + etA d C(t)~
X p(t) = e C(t) = e C(t) + etA C(t) = A etAC(t)
dt dt dt dt dt
d~
= A ~X p(t) + etA C(t).
dt

116
Systèmes d’équations différentielles linéaires non homogènes

Si on veut que ~X p écrit comme (5.88) soit solution de (5.86), alors forcément

d~
etA C(t) = ~F(t).
dt
On sait que l’inverse de etA est égal à e−tA et on doit donc résoudre
d~ ~
C(t) = e−tA ~F(t) avec C(0) =0 (5.89)
dt
~
(car ~X p(0) = 0 implique forcément C(0) = 0, si on écrit ~X p sous la forme (5.88)).
Mais on peut alors se convaincre que la solution de cette équation différentielle
est simplement Z t
~ =
C(t) e−sA ~F(s) ds
0
~
l’intégrale étant à prendre composante par composante du vecteur e−sA F(s). En
~ ~
effet, C(0) = 0 et la dérivée de C(t) est bien e −tA ~
F(t) d’après la définition de
~
l’intégrale. On peut donc écrire en remplaçant dans (5.88) C(t) par cette expres-
sion
Z t Z t Z t
−sA tA −sA
~X p(t) = etA e ~F(s) ds = e e ~F(s) ds = e(t−s)A ~F(s) ds
0 0 0

et la solution de (5.82) s’écrit donc


Z t
~X(t) = e ~X0 +
tA
e(t−s)A ~F(s) ds. (5.90)
0

Regardons comme exemple le cas simple d’une équation scalaire


d
x(t) = a x(t) + f (t), x(0) = x0
dt
avec a 6= 0, x(t) ∈ R ( f (t) et x0 donnés). Alors la solution est
Z t
x(t) = eta x0 + e(t−s)a f (s) ds
0

(pour le calcul de l’intégrale, tout dépend alors de l’expression de f (s), pour savoir
si on peut facilement trouver une primtive de l’intégrand).

117

Vous aimerez peut-être aussi