Cours Meth Math 1 L2

Mathématiques pour la Mécanique I
Licence de Mécanique-2ème année

Aix-Marseille Université, 2022-2023
Uwe Ehrenstein
5 septembre 2022
TABLE DES MATIÈRES
Table des matières
1 Fonctions de plusieurs variables réelles 3

1.1 Définition et notion de continuité . . . . . . . . . . . . . . . . . . 3
1.2 Dérivée d’une fonction à une et à plusieurs variables . . . . . . . 7
1.2.1 Rappels pour le cas n = 1 . . . . . . . . . . . . . . . . . 7
1.2.2 Dérivées partielles et dérivée directionnelle . . . . . . . . 13
1.2.3 Définition de la dérivée pour n > 1 . . . . . . . . . . . . . 15
1.2.4 Dérivée en tant qu’application linéaire et représentation
matricielle . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.5 Dérivée d’une fonction composée . . . . . . . . . . . . . 18
1.2.6 Quelques applications dans R3 . . . . . . . . . . . . . . . 22
1.2.7 Dérivées partielles d’ordre supérieur à 1, formule de Taylor 28
1.2.8 Application : extremum d’une fonction de plusieurs vari-
ables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2 Intégrales multiples 37
2.1 Rappels sur l’intégrale définie dans R . . . . . . . . . . . . . . . 37
2.1.1 Théorème de la moyenne, primitive et changement de vari-
able . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2 Intégration dans Rn (n = 2, 3) . . . . . . . . . . . . . . . . . . . . 43
2.2.1 Définition générale . . . . . . . . . . . . . . . . . . . . . 43
2.2.2 Changement de variables dans des intégrales multiples . . 49
2.2.3 Intégrale de surface, flux d’un champ de vecteur . . . . . 55
3 Produit scalaire, bases orthonormées, transformations orthogonales 61

3.1 Définition du produit scalaire dans Rn , espace euclidien . . . . . . 61
3.2 Vecteurs orthogonaux, bases orthonormées . . . . . . . . . . . . . 64
3.2.1 Procédure d’orthonormalisation de Gram-Schmidt . . . . 66
3.2.2 Sous-espaces vectoriels orthogonaux . . . . . . . . . . . 67
3.2.3 Transformations et matrices orthogonales . . . . . . . . . 69
1
TABLE DES MATIÈRES
4 Formes réduites de matrices 75

4.1 Valeurs et vecteurs propres d’une matrice . . . . . . . . . . . . . 75
4.2 Diagonalisation d’une matrice . . . . . . . . . . . . . . . . . . . 83
4.3 La forme de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.3.1 Construction de la base de Jordan . . . . . . . . . . . . . 87
5 Applications des formes réduites de matrices 95

5.1 Formes bilinéaires symétriques . . . . . . . . . . . . . . . . . . . 95
5.2 Formes quadratiques . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2.1 Signature d’une forme quadratique . . . . . . . . . . . . . 98
5.3 Diagonalisation d’une forme bilinéaire symétrique dans un espace
euclidien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.4 Résolution de systèmes d’équations différentielles linéaires au-
tonomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.4.1 Calcul pratique de etA . . . . . . . . . . . . . . . . . . . 108
5.4.2 Procédure de résolution . . . . . . . . . . . . . . . . . . . 111
5.4.3 Cas d’une seule équation différentielle d’ordre n . . . . . 114
5.4.4 Systèmes d’équations différentielles linéaires non homogènes116
2
Chapitre 1
Fonctions de plusieurs variables

réelles
1.1 Définition et notion de continuité

Jusqu’à présent (dans le cursus de l’apprentissage des mathématiques incluant
la première année de Licence) les fonctions d’une seule variable réelle ont surtout
été considérées, c’est-à-dire des applications f , qui font correspondre à un point
x de R un point de R noté f (x). Il a été vu que ces fonctions peuvent être définies
sur R tout entier, ou sur une partie de R, par exemple un intervalle, ou alors sur R
hormis un ensemble de points, afin d’éviter notamment les points où la fonction
prend la valeur +∞ ou −∞. Par exemple f (x) = sin(x) est définie sur R entier ;
f (x) = 1/x est définie sur R − 0 (ce qui signifie pour tout point de R sauf en
x = 0) ; f (x) = tan(x) = sin(x)/ cos(x) est définie pour tout point x 6= π/2 + kπ (k
nombre entier), car cos(π/2 + kπ) = 0.
Les notions de limite et de continuité pour une fonction d’une seule variable
ont été notamment abordées et sont brièvement rappelées. Soit f une fonction
définie au voisinage (un intervalle) autour d’un point a (sauf éventuellement en
a), alors on dit que f admet une limite, notée l, en a, s’il est possible de rendre la
différence en valeur absolue entre f (x) et l (c’est-à-dire | f (x) − l|) arbitrairement
petite, quitte à choisir x suffisamment proche de a, c’est-à-dire si a tout nombre
ε > 0 on peut associer un nombre η > 0, tel que pour tout x vérifiant 0 < |x−a| < η
on ait | f (x) − l| < ε. On écrira alors
lim f (x) = l,
x→a
c’est-à-dire la limite de f (x) quand on fait tendre x vers a est le nombre l. Si la

fonction f est définie en a (donc f (a) est un nombre fini), alors la fonction f est
dite continue en a, si la limite de f (x) quand x tend vers a est précisément f (a),
3
Fonctions de plusieurs variables réelles
c’est-à-dire
lim f (x) = f (a).
x→a
Il est évident qu’afin de décrire la grande majorité des phénomènes de la
mécanique il faut faire appel à des fonctions de plusieurs variables réelles. Imag-
inons par exemple l’écoulement autour d’un objet tridimensionnel dans un dis-
positif expérimental du type soufflerie : même si la vitesse du flux d’air entrant
est uniforme avant de heurter l’objet, il subit des accélération et des décélération
lorsqu’il contourne l’objet et la vitesse de l’écoulement à chaque instant dépend
des trois variables d’espace que l’on notera (x, y, z) dans un repère de R3 .
Considérons d’une manière générale l’espace Rn (n entier > 0) qui a déjà

été rencontré en tant qu’espace vectoriel de dimension n. Il s’agit de ce qu’on
appelle un ensemble ordonné de n nombres réels xi , i = 1, · · · , n et chaque élément
de Rn est noté (x1 , x2 , · · ·, xn ). En pratique n = 2 ou n = 3, selon la dimension
de l’espace que l’on considère (la dimension n = 2 est par exemple judicieuse
pour des phénomènes évoluant indépendamment d’une troisième direction dans
l’espace R3 ), et alors les “points” sont notés (x, y) pour R2 et (x, y, z) pour R3 . On
adoptera par la suite l’écriture
~x = (x1 , · · · , xn )
pour les “points” de Rn , que l’on écrit donc sous le symbole d’un vecteur (car
ce sont bien des éléments, c’est-à-dire vecteurs, d’un espace vectoriel), afin de
distinguer les éléments ~x de Rn des points x de R. Bien sûr, les règles quant à
l’addition des vecteurs s’appliquent, c’est-à-dire la somme de ~x = (x1 , · · · , xn ) et
~y = (y1 , · · · , yn ) s’écrit
~x +~y = (x1 + y1 , x2 + y2 , · · · , xn + yn )
et si λ est un nombre de réels, le produit avec un vecteur s’écrit
λ~x = (λx1 , λx2 , · · · , λxn ).
On remarquera d’ores et déjà que l’on écrira souvent~x = (x, y) et ~x = (x, y, z) pour
n = 2 et n = 3 respectivement, et pour distinguer deux points par exemple dans
R3 , ~x1 = (x1 , y1 , z1 ) et ~x2 = (x2 , y2 , z2 ).
Une fonction f à valeurs réelles de n variables associe donc à chaque point
(x1 , · · · , xn ) (là où la fonction est définie) un point f (x1 , · · · , xn ) de R. On dira que
f est définie sur ce qui est appelé un domaine (ou ensemble) de Rn . Les intervalles
(ouverts et fermés) sont les ensembles naturels de R et par généralisation on peut
définir ce qui est appelé un pavé (ouvert ou fermé) de Rn qui est en fait un produit
cartésien de n intervalles.
4
Définition et notion de continuité
Définition 1 Un produit cartésien de n intervalles fermés [Ai , Bi ], i = 1, · · · , n, (Ai ,

Bi , i = 1, · · ·, n étant des nombres réels), appelé pavé fermé, est l’ensemble des
points ~x = (x1 , · · ·, xn ) de Rn , tels que Ai ≤ xi ≤ Bi , i = 1, · · ·, n. Un pavé ouvert
est bien sûr défini de la même manière en remplaçant les inégalités larges par des
inégalités strictes.
Remarque : on voit aisément qu’en dimension n = 2 il s’agit de rectangles et en

dimension n = 3 de parallélépipèdes rectangles.
Pour mesurer les distances de Rn il est naturel d’introduire un ensemble qui
est appelée “boule” définie comme suit.
Définition 2 Soit ~a = (a1 , · · ·, an ) un point de Rn et r > 0 un nombre réel donné.

On appellera une boule fermée centrée en ~a de Rn , l’ensemble des points ~x =
(x1 , · · · , xn ), tels que s
n
∑ (xi − ai)2 ≤ r.
i=1
On parlera d’une boule ouverte, lorsque l’inégalité est stricte, c’est-à-dire l’ensem-
ble des points ~x = (x1 , · · · , xn ), tels que
s
n
∑ (xi − ai)2 < r.
i=1
Bien sûr, en dimension 2 et 3 il s’agit de l’intérieur d’un disque et d’une sphère,

respectivement (dans le cas de boules fermées le cercle délimitant le disque et la
sphère elle-même sont inclus). On reconnaı̂t ici la définition de la distance eucli-
dienne (ou la norme euclidienne) que le lecteur a probablement déjà rencontrée
par ailleurs. On notera par la suite pour tout vecteur noté ~x
s
n
||~x|| = ∑ x2i (1.1)
i=1
qui est bien une mesure de la “longueur” d’un vecteur ||~x|| car plus les coor-
données xi du vecteur sont grandes en valeur absolue, plus ||~x|| sera grand en tant
que nombre réel positif. Aussi, il est facile de voir que ||~x|| = 0, si et seulement
si tous les coefficients xi = 0, i = 1, · · ·, n. En fait, il s’agit d’une norme et on
reviendra plus tard dans le cours sur la notion d’espaces vectoriels munis d’une
norme.
On pourra donc écrire les deux inégalités ci-dessus sous la forme ||~x −~a|| ≤ r
et ||~x −~a|| < r respectivement.
5
Comme pour les fonctions d’une variable réelle, on peut définir la notion de
continuité pour une fonction de plusieurs variables, c’est-à-dire une application
de Rn dans R.
Définition 3 Soit f une fonction de n variables à valeurs réelles et ~a un point de

Rn où f (~a) est définie. Si a tout nombre ε > 0 on peut associer un nombre η > 0,
tel que pour tout ~x vérifiant 0 < ||~x −~a|| < η on ait | f (~x) − f (~a)| < ε, alors f est
continue en ~a.
Cette définition est bien entendu la généralisation de la définition de continuité
pour des fonctions d’une variable réelle. On dira plus simplement qu’une fonction
de n variables et définie sur un domaine contenant ~a est continue en ~a, si
f (~x) → f (~a) quand ~x → ~a.
Il convient de remarquer ici que~x →~a signifie bien sûr que chaque composante
xi → ai , i = 1, · · · , n. L’étude de la continuité d’une fonction de plusieurs variables
n’est pas toujours aisée.
Exemples
1. Soit la fonction de deux variables (x, y) défini par
xy
f (x, y) = 2 si (x, y) 6= 0.
x + y2
On peut se demander s’il est possible de définir la fonction en (x, y) = (0, 0) de
façon à ce qu’elle devienne continue pour la valeur (0, 0). On observe que si on
fixe y = 0, alors f (x, 0) = 0 et de même pour x = 0 on a f (0, y) = 0. Il est donc
tentant de définir la fonction en (0, 0) par f (0, 0) = 0. Mais f (x, y) ne sera pas
continue en (0, 0). Car soit par exemple la droite x = y dans R2 : sur cette droite
f (x, y) = 1/2 et ce nombre est différent de 0 (quel que soit le point sur cette droite,
donc aussi lorsque (x, y) tend vers (0, 0) sur cette droite).
2. Soit maintenant
x3 + y3
g(x, y) = si (x, y) 6= 0 et g(0, 0) = 0.
x2 + y2
On peut majorer la valeur absolue de g(x, y) en majorant le numérateur et
|x3 + y3 | ≤ |x|3 + |y|3 ≤ max(|x|, |y|)(x2 + y2 )
où max(|x|, |y|) signifie la valeur la plus grande des deux valeurs |x| et |y|. Di-
visant par le dénominateur de g(x, y), on conclut que |g(x, y)| ≤ max(|x|, |y|) et
clairement max(|x|, |y|) → 0 si (x, y) → (0, 0) et alors g(x, y) tend aussi vers 0. On
conclut que g(x, y) est continue en (0, 0).
6
Dérivée d’une fonction à une et à plusieurs variables
1.2 Dérivée d’une fonction à une et à plusieurs vari-

ables
1.2.1 Rappels pour le cas n = 1
D’abord on passe rapidement en revue les résultats essentiels quant à la notion
de dérivée d’une fonction f (x) d’une seule variable réelle x. Soit donc un point a
dans un intervalle ouvert noté I où f (x) est définie. La fonction f (x) est dérivable
au point a, si la fonction
f (x) − f (a)
x−a
définie sur I − a admet une limite finie l lorsque x tend vers a et cette limite est
noté f ′ (a). Donc, on peut définir la dérivée comme
f (x) − f (a) f (a + h) − f (a)
f ′ (a) = lim = lim . (1.2)
x→a x−a h→0 h
On remarquera qu’il est équivalent d’écrire que x → a ou d’écrire x = a + h et de
dire alors h → 0.
Remarque : Une fonction dérivable en a est nécessairement continue en a, car si
limx→a f (x) 6= f (a), alors la limite des quotients ci-dessus ne peut pas être finie,
car le dénominateur tend vers zéro, tandis que le numérateur tend vers une limite
6= 0. La réciproque n’est cependant pas vraie, c’est-à-dire une fonction continue
n’est pas forcément dérivable.
Une interprétation géométrique est donnée par la figure 1.1. Pour x 6= a on peut
considérer la droite qui relie le point (a, f (a)) noté M et le point (x, f (x)) noté P
et la pente de se segment MP est précisément ( f (x) − f (a))/(x − a) qui tend vers
la dérivée f ′ (a), à savoir la pente de la droite tangente à la fonction f au point M,
l’équation de la droite tangente étant y = f (a) + f ′ (a)(x − a).
On peut énoncer de manière suivante la condition de dérivabilité d’une fonc-
tion à une variable.
Proposition 1 Pour que f ′ (a), la dérivée de f en a, existe, il faut et il suffit qu’il
existe une fonction ε telle que
f (x) = f (a) + (x − a) f ′ (a) + (x − a)ε(x, a), lim ε(x, a) = 0. (1.3)

x→a
Remarque : Si l’on pose x = a + h dans (1.3), d’une façon équivalente, f est

dérivable en a, s’il existe ε(h) telle que
f (a + h) = f (a) + h f ′ (a) + hε(h), lim ε(h) = 0. (1.4)

h→0
7
F IGURE 1.1 – Interprétation géométrique de la dérivée.
On peut en déduire un certain nombre de conséquences bien connues et dont la

connaissance est indispensable en analyse.
Proposition 2
1. La dérivation est une opération linéaire, c’est-à-dire pour toutes fonctions
u et v dérivables en a, (u + v) ′ (a) = u ′ (a) + v′ (a) et pour tout nombre réel
λ, (λu) ′ (a) = λu ′ (a).
2. Soit uv le produit de deux fonctions dérivables au point a, alors
(uv) ′ (a) = u ′ (a)v(a) + u(a)v ′(a).
3. Soient u, v dérivables en a avec v(a) 6= 0, alors

u′ v(a)u ′ (a) − u(a)v ′(a)
(a) = .
v v2 (a)
Ces propriétés ont été vues lors des années d’apprentissage des mathématiques
antérieures et se démontrent à l’aide de la relation (1.3).
On s’attardera maintenant un instant sur la dérivée d’une fonction composée.
Soit donc I un intervalle de R et f fonction définie sur I ainsi qu’un intervalle J
et g une fonction définie sur J. On suppose que pour tout x ∈ I, f (x) ∈ J et on
considère la fonction composée g( f (x)) que l’on écrit aussi (g ◦ f )(x) et qui est
8
Rappels pour le cas n = 1
définie sur I. On suppose que f ′ (a) existe et que g ′ ( f (a)) existe. On peut donc
écrire d’après (1.3)
f (x) = f (a) + (x − a) f ′ (a) + (x − a)ε1(x, a)
et
g(y) = g( f (a)) + (y − f (a))g ′( f (a)) + (y − f (a))ε2(y, f (a))
avec
lim ε1 (x, a) = 0 et lim ε2 (y, f (a)) = 0.
x→a y→ f (a)
Posons alors y = f (x) et tenant compte de l’expression de f (x), on obtient
g( f (x)) = g( f (a)) + (x − a)g ′( f (a)) f ′ (a)

+(x − a) g ′ ( f (a))ε1(x, a) + f ′ (a)ε2( f (x), f (a)) + ε1(x, a)ε2( f (x), f (a))
que l’on peut encore écrire
g( f (x)) = g( f (a)) + (x − a)g ′( f (a)) f ′ (a) + (x − a)ε3(x, a) (1.5)
avec
ε3 (x, a) = g ′ ( f (a))ε1(x, a) + f ′ (a)ε2( f (x), f (a)) + ε1(x, a)ε2( f (x), f (a))
Or, si x → a, alors f (x) → f (a) (car f est dérivable donc continue en a et il s’ensuit
que limx→a ε3 (x, a) = 0. On observe que la relation (1.5) est bien de la forme de
la proposition 1 et on peut énoncer le résultat suivant.
Théorème 1 Sous les hypothèses ci-dessus, c’est-à-dire que la fonction f est

dérivable au point a et la fonction g dérivable au point f (a), la fonction com-
posée (g ◦ f )(x) = g( f (x)) est dérivable au point a et
(g ◦ f ) ′ (a) = g ′ ( f (a)) f ′ (a). (1.6)
Ce résultat est extrêmement précieux et on donne un petit exemple.
Exemple : la fonction g(x) = xn est bien sûr dérivable et g ′ (x) = nxn−1 . Soit f (x)
une fonction dérivable en a alors g( f (x)) = F(x) = [ f (x)]n est dérivable en a et
d’après le théorème ci-dessus,
F ′ (a) = n[ f (a)]n−1 f ′ (a).
Lors des cours d’analyse antérieurs, la notion de fonctions inverses a été abordée.
Par exemple la fonction inverse de sin(x) est la fonction arcsin(x), c’est-à-dire
9
arcsin(sin(x)) = x, tout au moins là où cette fonction est définie (pour x ∈] −
π/2, π/2[). Soit donc f une fonction et on suppose que la fonction inverse notée
f −1 existe. Soit
F(x) = ( f −1 ◦ f )(x) = f −1 ( f (x)) = x.
On suppose que f (x) est dérivable en a et que f −1 est dérivable en f (a). On peut
donc écrire ′
F ′ (a) = 1 = f −1 ( f (a)) f ′ (a).
On remarque que nécessairement f ′ (a) 6= 0. Dans cette relation, en divisant par
f ′ (a) on obtient l’expression de la dérivée de la fonction inverse, ce qui s’énonce
comme suit.
Théorème 2 On suppose que f est une fonction qui admet une fonction inverse
f −1 , c’est-à-dire il existe un intervalle I tel que pour tout x de I, f −1 ( f (x)) = x.
On suppose que f est dérivable au point a de I et f ′ (a) 6= 0. Alors
′ 1
f −1 ( f (a)) = (1.7)
f ′ (a)
ou encore, en écrivant X = f (a) et a = f −1 (X ),

′ 1
f −1 (X ) = ′ ( f −1 (X ))
. (1.8)
f
Il convient ici de traiter un petit exemple.
Exemple :
1. La fonction arcsin(x) étant la fonction inverse de sin(x), on peut écrire
1 1
arcsin ′ (sin(x)) = ′ = ,
sin (x) cos(x)
ou alors
1 1
arcsin ′ (X ) = ′ = ,
sin (arcsin(X )) cos(arcsin(X ))
q
Or, cos(y) = 1 − sin2 (y) et posant y = arcsin(X ) on déduit (en écrivant x à la
place de X )
1
arcsin ′ (x) = √ .
1 − x2
sin(x)
2. Soit la fonction tan(x) = cos(x) et bien sûr tan ′ (x) = 1
cos2 (x)
. Soit la fonction
inverse arctan(x) et donc
1
arctan ′ (x) = = cos2 (arctan(x)).
tan ′ (arctan(x))
10
Rappels pour le cas n = 1
Il faut alors exprimer le carré du cos en fonction de tan, à savoir
sin2 (y) 1 − cos2 (y)

tan2 (y) = =
cos2 (y) cos2 (y)
et donc
1
cos2 (y) = .
1 + tan2 (y)
On en déduit l’expression bien connue (en remplaçant y par arctan(x))
1
arctan ′ (x) = .
1 + x2
Avant d’aborder la formule de Taylor d’une fonction à une variable, il convient

d’énoncer le théorème de Rolle.
Théorème 3 Soit l’intervalle I = [a, b] et f fonction continue pour tout x dans I.

On suppose que f est dérivable pour tout x ∈]a, b[ et que f (a) = f (b). Alors il
existe au moins un point c ∈]a, b[ tel que f ′ (c) = 0.
Pour la démonstration de ce résultat, le plus simple est de faire un dessin

comme celui de la figure 1.2 : en effet, nous avons vu que la droite tangente en
tout point (x, f (x)) a une pente égale à f ′ (x), et pour que la courbe reprenne au
point b la valeur qu’elle a au point a, il est nécessaire que cette tangente soit hori-
zontale en au moins un point. Il est clair qu’il n’a aucune raison que ce point c où
la dérivée s’annule soit unique (sur le dessin il y en a deux par exemple).
F IGURE 1.2 – Illustration du théorème de Rolle.
11
Ce théorème permet par exemple de prouver le théorème des accroissements

finis pour une fonction dérivable. Soit l’intervalle [a, b] et f continue dans cet
intervalle et dérivable en tout point. Soit
g(x) = f (x) − f (a) − K(x − a).
On observe que g(a) = 0 et on peut choisir K nombre réel tel que g(b) = 0. Alors
g(a) = g(b) et il existe donc c ∈]a, b[, tel que g ′ (c) = 0. Dérivant donc cette fonc-
tion g(x), on trouve K = f ′ (c). D’où le théorème des accroissements finis.
Théorème 4 Si f est continue sur I = [a, b] et dérivable en tout point de I, alors
il existe c ∈]a, b[ tel que
f (b) − f (a) = (b − a) f ′ (c). (1.9)
Evidemment, si on considère maintenant la dérivée f ′ d’une fonction et si
cette nouvelle fonction est dérivable, on obtient après dérivation de cette fonction
la dérivée seconde f ′ ′ et si on peut à nouveau dériver la dérivée troisième f ′ ′ ′
et ainsi de suite, étant précisé qu’en général à partir de p = 4 on note la dérivée
pème sous la forme f (p) . Aussi, les dérivées pour une fonction à une variable x
sont souvent notées
d f d2 f
, , ... etc
dx dx2
Afin de terminer ces rappels du calcul différentiel pour une seule variable, on
énonce la formule de Taylor.
La formule de Taylor pour n = 1

On considère une fonction f ainsi que ses dérivées f (q) pour q = 1, · · · p qui
sont continues sur un intervalle I contenant a. On suppose en plus que la dérivée
f (p+1) existe sur l’intervalle, sans être nécessairement continue. Alors pour tout x
de I on peut écrire
(x − a)2 ′ ′ (x − a) p (p)
f (x) = f (a) + (x − a) f ′ (a) + f (a) + · · · + f (a)
2! p!
(x − a) p+1 (p+1)
+ f (c) (1.10)
(p + 1)!
avec c un point entre a et x, c’est-à-dire c = a + θ(x − a) pour 0 < θ < 1.
On ne donnera pas la preuve générale, mais de regarder le cas de p = 2 par exem-

ple permet d’imaginer aisément une démonstration générale. Soit donc pour p = 2
la fonction
(y − a)2 ′ ′
g(y) = f (y) − f (a) − (y − a) f ′ (a) − f (a) − K(y − a)3.
2!
12
Dérivées partielles et dérivée directionnelle
On observe que g(a) = 0 et il est bien sûr possible de choisir K pour que g(x) = 0.
Mais alors par Rolle (g étant une fonction continue et dérivable), il existe au moins
un c1 entre x et a tel que g ′ (c1 ) = 0. Or
g ′ (y) = f ′ (y) − f ′ (a) − (y − a) f ′ ′ (a) − K 3(y − a)2 .
Or g ′ (a) = 0 et g ′ (c1 ) = 0, donc par Rolle il existe un point c2 entre a et c1 tel que
g ′ ′ (c2 ) = 0. Or
g ′ ′ (y) = f ′ ′ (y) − f ′ ′ (a) − K 3!(y − a).
Donc, g ′ ′ (a) = 0 et par g ′ ′ (c2 ) = 0, on conclut par Rolle ( f ′ ′ étant continue et
dérivable) qu’il existe un point c3 tel que g ′ ′ ′ (c3 ) = 0. Or dérivant g ′ ′ (y) en c3 on
trouve
f ′ ′ ′ (c3 )
0 = f ′ ′ ′ (c3 ) − 3!K et donc K = .
3!
Utilisant cette valeur dans la fonction g(y) ci-dessus, qui vérifie donc que g(x) = 0,
on trouve bien la formule de Taylor pour p = 2
(x − a)2 ′ ′ (x − a)3 ′ ′ ′
f (x) = f (a) + (x − a) f ′ (a) + f (a) + f (c)
2! 3!
(notant c = c3 ).
Remarque : il est souvent commode d’écrire la formule de Taylor sous la forme
h2 ′ ′ hp h p+1 (p+1)
f (a + h) = f (a) + h f ′ (a) +f (a) + · · · + f (p) (a) + f (c)
2! p! (p + 1)!
(1.11)
avec c = a + θh, 0 < θ < 1. En effet, il suffit de poser dans (1.10) x = a + h.
1.2.2 Dérivées partielles et dérivée directionnelle

Il s’agit maintenant de généraliser la notion de dérivée à des fonctions de
plusieurs variables, en partant en quelque sorte de la définition (1.2). Soit donc une
une fonction f (~x) (avec ~x = (x1 , x2 , · · ·, xn ) dans Rn ) et soit un vecteur ~v donné.
Définition 4 La dérivée de f (~x) selon le vecteur ~v au point ~a, et notée
∂~v f
est par définition

f (~a + t~v) − f (~a)
∂~v f (~a) = lim , (1.12)
t→0 t
à condition bien sûr que cette limite existe. On parle aussi d’une dérivée direc-
tionnelle dans la direction ~v.
13
On remarque ici que cette dérivée définie par (1.12) est une dérivée par rapport à
la variable t (en t = 0) de la fonction d’une variable
φ(t) = f (~a + t~v).
On peut donc dire, d’après (1.3), que la dérivée dans la direction ~v au point ~a
existe, s’il existe une fonction ε telle que
f (~a + t~v) = f (~a) + t∂~v f (~a) + tε(t), lim ε(t) = 0. (1.13)
t→0
On suppose que le lecteur est familiarisé avec la notion de base canonique de Rn

formée par les vecteurs (écrits comme des vecteurs lignes ici)
~e1 = (1, 0, 0, · · ·, 0),~e2 = (0, 1, 0, · · ·, 0),~en = (0, · · ·, 0, 1), (1.14)
donc toutes les composantes du vecteur ~ei , i = 1, · · ·, n, sont nulles sauf la ième
composante qui est égale à 1. La dérivée dans la direction ~ei en ~a est donc par
définition la limite
f (~a + t~ei ) − f (~a)
lim .
t→0 t
Or, (~a + t~ei ) = (a1 , a2 , · · ·, ai + t, ai+1, · · ·, an ) et on peut énoncer la définition
Définition 5 La dérivée partielle de f par rapport à xi au point ~a est la dérivée
directionnelle ∂~ei f dans la direction ~ei . Vu que ~ei est la direction associée à la
∂f
coordonnée xi , elle est notée ∂xi
et
∂f f ((a1, · · · , ai−1 , ai + t, ai+1, · · · , an )) − f (a1, a2 , · · · , an )

(~a) = lim , (1.15)
∂xi t→0 t
ou de manière équivalente, qu’il existe une fonction ε telle que
∂f
f (~a + t~ei ) = f (~a) + t (~a) + tε(t), lim ε(t) = 0. (1.16)
∂xi t→0
On peut se convaincre, d’après cette définition, que la dérivée partielle par rapport
à xi se détermine comme la dérivée habituelle par rapport à xi , en figeant (en gar-
dant constantes) les autres variables x j , j 6= i.
Exemple : Soit la fonction de deux variables f (x, y) = ex sin(y). De calculer la

dérivée partielle par rapport à x revient à garder y constant, donc de considérer
sin(y) comme une constante et de dériver par rapport à x. Pour la dérivée partielle
par rapport à y, on garde x (et donc ex ) constant et on dérive par rapport à y, ce qui
donne
∂f ∂f
= ex sin(y), = ex cos(y).
∂x ∂y
14
Définition de la dérivée pour n > 1
1.2.3 Définition de la dérivée pour n > 1

Il s’agit maintenant de déterminer en toute généralité la dérivée d’une fonction
à plusieurs variables, qui généralise la définition (1.4). Pour cela, on suppose que
f possède les dérivées partielles au point ~a par rapports à toutes les variables
xi , i = 1, · · · n.
Définition 6 Soit un domaine ouvert D de Rn (un pavé ouvert ou une boule ou-
verte) et ~a un point de D . La fonction f (x1 , x2 , · · · , xn ) est dérivable au point ~a,
si les n dérivées partielles en ~a par rapport à xi , i = 1, · · ·, n existent et s’il existe
une fonction ε(~h) (avec ~h = (h1 , · · · , hn )) telle que
n
∂f
f (~a +~h) = f (~a) + ∑ (~a)h j + ||~h||ε(~h), lim ε(~h) = 0, (1.17)
j=1 ∂x j ~h→0
||~h|| étant la norme euclidienne du vecteur ~h.

Il convient de s’attarder un peu sur cette définition. Tout d’abord, une fonction
dérivable en un point est forcément continue en ce point. En effet, si ~h → 0
(ici 0 désigne le vecteur zéro dont toutes les composantes sont égales à 0), alors
hi → 0, i = 1, · · · , n. Donc, d’après (1.17), f (~a+~h) → f (~a) quand ~h → 0, ce qui est
précisément la condition de continuité de f . Aussi, par définition, si une fonction
est dérivable, les dérivées partielles existent. La réciproque n’est pas forcément
vraie, comme le montre l’exemple dans R2 .
Exemple : Soit la fonction

xy
f (x, y) = 2 , pour (x, y) 6= (0, 0), et f (0, 0) = 0.
x + y2
Nous avons vu que cette fonction n’est pas continue en (0, 0) et elle n’est donc
pas dérivable en (0, 0) en tant que fonction de deux variables. Les dérivées par-
tielles existent cependant au point (0, 0). En effet, pour la dérivée partielles par
rapport à x, on pose y = 0 et f (x, 0) = 0. On peut conclure que ∂∂xf (0, 0) = 0, car
f (t,0)− f (0,0) ∂f
limt→0 t = 0. De même, posant x = 0, f (0, y) = 0 et donc ∂y (0, 0) = 0,
f (0,t)− f (0,0)
car limt→0 t = 0.
Il faut donc ajouter une propriété quant aux dérivées partielles, afin de pouvoir
conclure à la dérivabilité d’une fonction à partir des dérivées partielles.
Théorème 5 Soit un domaine ouvert D de Rn (un pavé ouvert ou une boule ou-
verte) et une fonction f définie en tous les points ~x de D . On dit que f est con-
tinûment dérivable en tout point de D , si et seulement si les dérivées partielles
∂f ∂f ∂f
(~x), (~x), · · · , (~x)
∂x1 ∂x1 ∂xn
15
existent et sont continues sur D .
Sans faire la démonstration en toute généralité, on peut considérer le cas n = 2

pour montrer, de quelle façon la continuité des dérivées partielles intervient. On
écrit donc en un point (a1 , a2 )
f (a1 + h1 , a2 + h2 ) − f (a1, a2 ) = A + B
avec
A = f (a1 + h1 , a2 ) − f (a1 , a2 ).
B = f (a1 + h1 , a2 + h2 ) − f (a1 + h1 , a2 )
Par la définition des dérivées partielles, on peut écrire
∂f
A = h1 (a1 , a2 ) + h1 ε1 (h1 )
∂x1
et
∂f
B = h2 (a1 + h1 , a2 ) + h2 ε2 (h2 ).
∂x2
∂f
Or, si ∂x2 (a1 + h1 , a2 ) est continue en (a1 , a2 ), on peut écrire
∂f ∂f
(a1 + h1 , a2 ) = (a1 , a2 ) + ε3 (h1 )
∂x2 ∂x2
et il s’ensuit que
∂f ∂f
f (a1 + h1 , a2 + h2 ) − f (a1 , a2 ) = h1 (a1 , a2 ) + h2 (a1 , a2 )
∂x1 ∂x2
+ h1 ε1 (h1 ) + h2 ε2 (h2 ) + h2 ε3 (h1 ).
On peut se convaincre que les termes contenant les fonctions εi (qui tendent
vers zéro quand h1 et h2 tendent vers zéro) peuvent être regroupés sous la forme
||~h||ε(~h) avec ε(~h) une fonction qui tend vers zéro quand ~h tend vers zéro. Mais
on retrouve alors la définition de l’existence de la dérivée au point (a1 , a2 ).
1.2.4 Dérivée en tant qu’application linéaire et représentation

matricielle
Dans la définition 1.17, on écrira
n
∂f
∑ ∂xi (~a)hi = f ′(~a).~h,
i=1
16
Dérivée en tant qu’application linéaire et représentation matricielle
ce qui définira la dérivée f ′ (~a) d’une fonction à plusieurs variables comme une
application linéaire de Rn dans R, car en effet f ′ (~a) “appliquée” au vecteur ~h
donne un nombre réel noté f ′ (~a).~h.
Remarque : La dérivée d’une fonction à plusieurs variables étant déterminées
par ses dérivées partielles, on peut en effet dire que la dérivée est une opération
linéaire, car la dérivation partielle l’est (comme la dérivée par rapport une seule
variable) et donc
∂ ∂f ∂g
( f + g)(~x) = (~x) + (~x)
∂xi ∂xi ∂xi
pour tout i = 1, · · ·, n. Si l’on introduit l’écriture matricielle, une application linéaire
de Rn dans R correspond à une matrice 1 × n (une matrice ligne) et en identifiant
la dérivée à cette matrice, on écrit

∂f ∂f ∂f
f ′ (~a) = ∂x (~a) ∂x (~a) · · · ∂x n
(~
a) . (1.18)
1 2
Par les règles de multiplication, l’expression f ′ (~a)~h s’écrit comme le produit de

cette matrice avec le vecteur colonne dont les composantes sont hi , à savoir
 
h1
 h2  n
′ ~ ∂f ∂f ∂f   ∂f
f (~a).h = ∂x (~a) ∂x (~a) · · · ∂xn (~a)  ..  = ∑ (~a)hi . (1.19)
1 2  .  i=1 ∂xi
hn
C’est donc grâce à cette représentation matricielle que l’on peut généraliser
aisément la définition de la dérivée à des fonctions vectorielles à plusieurs vari-
ables. On les note ~f (~x), où ~f a elle-même disons m composantes, c’est-à-dire
 
f1 (x1 , · · ·, xn )
 f2 (x1 , · · ·, xn ) 
~f (~x) = 
 ..

. (1.20)
 . 
fm (x1 , · · · , xn )
Bien sûr, chaque fonction fi (x1 , · · · xn ) est une fonction à n variables et à valeurs
dans R et on peut donc appliquer composante par composante la définition (1.17),
ce qui permet d’énoncer la définition suivante.
Définition 7 Soit un domaine ouvert D de Rn (un pavé ouvert ou une boule ou-
verte) et ~a un point de D . La fonction vectorielle
 
f1 (x1 , · · · , xn )
 f2 (x1 , · · · , xn ) 
~f (~x) = 
 ..

 (1.21)
 . 
fm (x1 , · · · , xn )
17
est dérivable au point ~a, si les n dérivées partielles en ~a par rapport à x j , j =

1, · · ·, n existent pour chaque composante fi , i = 1, · · ·, m et s’il existe une fonction
vectorielle ~ε(~h) (avec ~h = (h1 , · · · , hn )) telle que
~f (~a +~h) = ~f (~a) + ~f ′ (~a).~h + ||~h||~ε(~h), lim~ε(~h) = 0, (1.22)
~h→0
||~h|| étant la norme euclidienne du vecteur ~h. La dérivée ~f ′ (~a) est une application
linéaire de Rn dans Rm et en notation matricielle le produit ~f ′ (~a).~h s’écrit
 ∂f 
a) ∂∂xf1 (~a) · · · ∂x
∂ f1 
∂x1 (~ (~
1
n
a) h 1
2
 ∂ f2 ∂ f2 ∂ f2 
 (~a) (~a) · · · ∂xn (~ a)   h2 
~f ′ (~a).~h =  ∂x1 ∂x2  
. (1.23)
 .. .. ..   ... 

 . . .  
∂ fm
∂x1 (~a) ∂ fm (~a) · · · ∂ fm (~a)
∂x2 ∂xn
hn
La matrice de (1.23) est la représentation matricielle de ~f ′ (~a). Cette matrice est

appelée matrice jacobienne et est souvent notée J f (~a) au lieu de ~f ′ (~a).
1.2.5 Dérivée d’une fonction composée

Soit donnée une fonction ~f (~x) sur un domaine D de Rn à valeurs dans Rm et
pour tout ~x de D , ~f (~x) est dans un domaine E de Rm , où une fonction ~g(~y) est
définie à valeurs dans R p . On peut donc définir pour tout ~x de D (domaine de Rn )
la fonction composée
~g ◦ ~f (~x) = ~g ~f (~x)
en tant qu’application de Rn dans R p . On suppose que ~f est dérivable en ~a de D

et que ~g est dérivable en ~b = ~f (~a) de E . Alors on peut énoncer le résultat suivant,
à savoir que la fonction composée est dérivable en ~a et que la dérivée s’écrit
′
~
~g ◦ f (~a) = ~g f (~a) .~f ′ (~a).
′ ~
(1.24)
Le membre à droite est en fait la composée de deux applications linéaires,

à savoir l’application linéaire ~g ′ ~f (~a) de Rm dans R p et l’application linéaire
~f ′ (~a) de Rn dans Rm . La composée des ces applications linéaires est une applica-
tion linéaire de Rn dans R p . On peut démontrer ce résultat de manière un peu sim-
ilaire que pour les fonctions composées à une variable, en partant de la définition
(1.22) de la dérivabilité. Cependant, cette démonstration est un peu technique et
elle fait notamment intervenir la notion de la norme d’une matrice (ou d’une ap-
plication linéaire), qui n’a pas encore été vue à ce niveau de l’apprentissage de
l’algèbre linéaire : la démonstration est donc omise ici.
18
Dérivée d’une fonction composée
D’après ce qui précède, on peut donner une représentation matricielle de ces

applications et de leur produit, à savoir, notant ~b = ~f (~a),
  
∂g1 ~ ∂g1 ~ ∂ f1 ∂ f1
( b) · · · ( b) (~a) · · · (~a)
′  ∂y1 . ..
∂ym
..   ∂x1 . .
∂xn
.. 
~
~g ◦ f (~a) =  .
. . .   .
. .
. .  . (1.25)
 
∂g p ~ ∂g p ~ ∂ fm ∂ fm
∂y (b) · · · ∂y (b)
1 m ∂x (~ a) · · · ∂xn (~a)
1
Le membre à droite est donc le produit d’une matrice p × m avec une matrice
m × n, ce qui est bien défini d’après le calcul matriciel et donne lieu à une matrice
p×n, donc une application linéaire de Rn dans R p . On peut bien sûr développer ce
produit matriciel selon les règles de produits de matrices. Explicitons
brièvement
~
le genre de relations que l’on obtient. On note F(~x) = ~g f (~x) et la dérivée de ~F
~

~
en ~a est la dérivée de la fonction composée ~g ◦ f . La matrice jacobienne de ~F
est  
∂F1 ∂F1
(~
a) · · · (~
a)
 ∂x1. ..
∂xn
.. 
 .. . . 
 
∂Fp ∂Fp
∂x1 (~a) · · · ∂xn (~a)
avec Fi (x1 , · · · , xn ), i = 1, · · ·, p les différentes composantes de ~F. Par les règles des
produits matriciels, on peut donc écrire
m
∂Fi ∂gi ~ ∂ fk
(~a) = ∑ (b) (~a) (1.26)
∂x j k=1 ∂yk ∂x j
avec ~b = ~f (~a), i = 1, · · ·, p, j = 1, · · ·, n.
Exemple : Soit comme exemple une fonction g(x, y) de R2 dans R et une fonction
~f (u, v) = ( f1 (u, v), f2(u, v)) de R2 dans R2 et on suppose que ces fonctions sont
dérivables. Soit F(u, v) = (g ◦ ~f )(u, v) = g( f1 (u, v), f2 (u, v)). Alors
∂F ∂g ∂ f1 ∂g ∂ f2
(u, v) = ( f1 (u, v), f2(u, v)) (u, v) + ( f1 (u, v), f2(u, v)) (u, v)
∂u ∂x ∂u ∂y ∂u
et
∂F ∂g ∂ f1 ∂g ∂ f2
(u, v) = ( f1 (u, v), f2(u, v)) (u, v) + ( f1 (u, v), f2(u, v)) (u, v).
∂v ∂x ∂v ∂y ∂v
Fonction inverse et changement de coordonnées

On se place dans Rn avec les système de coordonnées ~x = (x1 , · · · , xn ) qu’on
appelle des coordonnées cartésiennes. Il est alors sous-entendu, que x j , j = 1, · · ·, n
19
sont les coordonnées du vecteur ~x dans la base canonique. Un changement de

variables consiste à donner une fonction vectorielle ~g qui relit un autre ensemble
de variables noté ~u = (u1 , · · ·, un ) précisément à ~x, à savoir
 
x1
 .. 
 .  = ~g(u1, · · · , un ). (1.27)
xn
On suppose que ~g est inversible pour ~u ∈ D , c’est-à-dire si on note E l’image de

D par ~g, alors pour tout ~u ∈ D , il existe (un unique) ~x ∈ E tel que
 
u1
 ..  −1
 .  = ~g (x1 , · · · , xn ). (1.28)
un
On a bien sûr  
u1
~g −1 (~g(u1 , · · ·, un )) =  ...  .
 
(1.29)
un
La composition ~g −1 ◦~g est donc ce qu’on peut appeler l’application identité, dont
la matrice jacobienne est égale à la matrice identité n × n notée I. On suppose que
la fonction ~g est dérivable et on cherche à établir, sous quelle condition la dérivée
de la fonction inverse ~g −1 existe.
De par la règle de dérivation de fonctions composées, on trouve donc
′
g −1 (~g(u1 , · · · , un )) .~g ′ (u1 , · · · , un ) = I
Les dérivées étant des applications linéaires, on voit que si la dérivée de ~g −1 ex-
iste, elle doit être l’inverse de la dérivée de ~g. Donc, dans ce cas la matrice jacobi-
enne Jg doit être inversible (ce qui est le cas si et seulement si son déterminant est
non nul) et on obtient pour la dérivée de la fonction inverse pour~x =~g(u1 , · · · , un ) ∈
E
Jg −1 (x1 , · · ·, xn ) = (Jg(u1, · · · , un ))−1 , (1.30)
c’est-à-dire la matrice jacobienne de l’application inverse est l’inverse de la ma-
trice jacobienne (et vice versa). Dans ce cas on parle précisément d’un change-
ment de variable.
Soit maintenant une fonction f définie sur Rn à valeurs dans R et considérons les
deux expressions

( f ◦~g) (u1 , · · · , un ), f ◦~g −1 (x1 , · · ·, xn ). (1.31)
20
Dérivée d’une fonction composée
Dérivant ces deux expressions, on obtient de par les règles de dérivation de fonc-
tions composées
( f ◦~g) ′ (u1 , · · · , un ) = f ′ (~g(u1 , · · ·, un )) .~g ′ (u1 , · · · , un )
= f ′ (x1 , · · ·, xn ).~g ′ (u1 , · · ·, un ) (1.32)
ainsi que
′ ′
f ◦~g −1 (x1 , · · ·, xn ) = f ′ ~g −1 (x1 , · · · , xn ) . ~g −1 (x1 , · · · , xn )
′
= f ′ (u1 , · · · , un ). ~g −1 (x1 , · · ·, xn ) (1.33)
Dans l’expression (1.32), ( f ◦~g) ′ (u1 , · · · , un ) est en fait la dérivée de f par rap-
port aux variables (u1 , · · · , un ) et f ′ (x1 , · · ·, xn ) la dérivée par rapport aux variables
(x1 , · · · , xn ). Sous forme matricielle (on rappelle que la dérivée de f est un vecteur
ligne, donc une matrice 1 × n) on obtient (on omet l’argument des dérivées par-
tielles de f )

∂f ∂f ∂f ∂f
∂u1
· · · ∂un = ∂x · · · ∂xn Jg(u1 , · · ·, u2 ) (1.34)
1
′
Dans l’expression (1.33), f ◦~g −1 (x1 , · · · , xn ) est la dérivée de f par rapport aux
variables (x1 , · · · , xn ) et f ′ (u1 , · · · , un ) est la dérivée par rapport à (u1 , · · · , un ) et

∂f ∂f ∂f ∂f
∂x · · · ∂xn
= ∂u · · · ∂un
Jg −1 (x1 , · · ·, x2 ) (1.35)
1 1
Dans (1.35) on peut utiliser (1.30) pour remplacer la matrice jacobiennne de la

fonction inverse par l’inverse de la matrice jacobienne.
Souvent on est amené à exprimer les dérivées partielles par rapport aux coor-
données cartésiennes (ici (x1 , · · · , xn )) en fonction des dérivées partielles par rap-
port au second ensemble de variables. Dans la matrice jacobienne de Jg, le coeffi-
cient en position (i, j) peut s’écrire formellement ∂xi /∂u j , car la ième composante
de ~g donne xi en fonction de (u1 , · · · , un ). De même, l’élément en position (i, j)
de Jg −1 peut s’écrire est ∂ui /∂x j (car la ième composante de ~g −1 donne ui en
fonction de (x1 , · · ·, xn )). Donc, on peut écrire le passage des dérivées partielles
entre les deux ensembles de variables sous la forme
 ∂x1 ∂x1 
∂u · · · ∂u n
1
∂f ∂f ∂f ∂f  .. .. .. 
∂u · · · ∂un
= ∂x · · · ∂xn  . . .  (1.36)
1 1
∂xn ∂xn
∂u1 ··· ∂un
et bien sûr
 ∂u1 ∂u1 
∂x1 ··· ∂xn
∂f ∂f ∂f ∂f  .. .. .. 
∂x1 ··· ∂xn
= ∂u1 ··· ∂un  . . .  (1.37)
∂un ∂un
∂x1 ··· ∂xn
21
1.2.6 Quelques applications dans R3

La notion de gradient
On note~x = (x, y, z) les coordonnées cartésiennes dans R3 et on considère une
fonction f (~x) à valeurs dans R. On suppose que la fonction est dérivable en ~x et
d’un point de vue mathématique, la dérivée est une application linéaire de R3 dans
R et dans la base canonique~e1 ,~e2 ,~e3 , la dérivée est donnée par une matrice 1 × 3,
à savoir (on omet le point où on calcule la dérivée)

f ′ = ∂∂xf ∂∂yf ∂∂zf .
En mécanique et en physique d’une manière générale cette dérivée est appelée

habituellement le gradient de f et écrit comme un vecteur
 ∂f 
∂x
~ f = ∂f 
grad  ∂y . (1.38)
∂f
∂z
Quand il est sous-entendu que ce vecteur est exprimé dans la base canonique, on
rencontre aussi souvent la notation avec le symbole “nabla”
~∇ f = grad
~ f.
Donc, grad~ f est le vecteur (colonne) dont les éléments sont ceux de la matrice
(qui est un vecteur ligne) associée à f ′ . On peut réinterpréter la dérivée en un
point ~a en direction d’un vecteur ~v de composantes vi , i = 1, 2, 3. En fait, d’après
la définition (1.12), c’est la dérivée en 0 par rapport à la variable t de la fonction
composée ( f ◦~φ)(t) = f (~φ(t)) avec ~φ(t) = ~a + t~v. Or, la dérivée de cette fonction
par rapport à t en 0 est
~φ ′ (0) =~v
et donc (en appliquant la règle du produit de la matrice f ′ (~a) et du vecteur ~v)
∂f ∂f ∂f
~ ′ ′ ~
∂~v f (~a) = ( f ◦ φ) (0) = f φ(0) .~v = (~a)v1 + (~a)v2 + (~a)v3 .
∂x ∂y ∂z
Or, cette expression peut aussi être interprétée comme ce qui est appelé le produit
scalaire entre deux vecteurs. On rappelle que le produit scalaire de deux vecteurs
~u (de composantes ui , i = 1, 2, 3) et ~w (de composantes wi , i = 1, 2, 3) de R3 (noté
~u · ~w) est par définition
~u · ~w = u1 w1 + u2 w2 + u3 w3 . (1.39)
Avec les définitions ci-dessus on peut écrire
~ f (~a) ·~v.
∂~v f (~a) = grad (1.40)
22
Quelques applications dans R3
Exemple de changement de coordonnées : coordonnées sphériques

Dans de nombreux problèmes de la mécanique il s’avère utile, voire nécessaire,
d’opérer des changements de coordonnées, un exemple étant les coordonnées
sphériques (voir figure 1.3). Dans un système de coordonnées cartésienne (x, y, z),
F IGURE 1.3 – Coordonnées sphériques.
et notant les trois vecteurs unitaires dans les trois direction ~ex ,~ey ,~ez , on imagine
un points M sur une sphère de rayon r et centrée en 0 l’origine du repère cartésien.
L’angle entre l’axe z et la droite reliant 0 à M est noté θ et en projetant le point
M sur le plan (x, y), on obtient un point M ′ . L’ange entre l’axe des x et la droite
reliant 0 à M ′ est noté φ. Les coordonnées (x, y, z) du point M peuvent s’exprimer
en fonction de (r, θ, φ) de la façon suivante (exercice) :
x = r sin(θ) cos(φ), y = r sin(θ) sin(φ), z = r cos(θ). (1.41)
On peut donc dire que (x, y, z) en tant que vecteur est fonction de (r, θ, φ) par la
fonction vectorielle
 
r sin(θ) cos(φ)
~g(r, θ, φ) =  r sin(θ) sin(φ)  . (1.42)
r cos(θ)
On peut montrer que cette fonction est inversible si on exclut de R3 l’axe des z,
donc en restreignant le domaine d’existence de ~g(r, θ, φ) à 0 < r < ∞, 0 < θ < π,
23
0 ≤ φ < 2π (et en effet, on recouvre ainsi le domaine de R3 hormis l’axe des z). Il
existe alors une fonction vectorielle ~g −1 telle que
 
r
 θ  = ~g −1 (x, y, z).
φ
Il est possible d’expliciter les trois composantes de la fonction inverse, à savoir

! !
p z x
r = x2 + y2 + z2 , θ = arccos p , φ = arccos p ,
x2 + y2 + z2 x2 + y2
avec la convention que pour y ≥ 0, φ est dans l’intervalle [0, π] et si y < 0, on

choisit φ dans ]π, 2π[ (étant donné que cos(π − α) = cos(π + α)).
On observe que la fonction inverse ~g −1 a une expression plus complexe que la
fonction ~g, dont on peut aisément déterminer la matrice jacobienne Jg(r, θ, φ) qui
s’écrit (exercice)
 
sin(θ) cos(φ) r cos(θ) cos(φ) −r sin(θ) sin(φ)
Jg(r, θ, φ) =  sin(θ) sin(φ) r cos(θ) sin(φ) r sin(θ) cos(φ)  . (1.43)
cos(θ) −r sin(θ) 0
Pour déterminer la matrice jacobienne de ~g −1 , on applique la relation (1.30) qui

devient ici
Jg−1 (x, y, z) = (Jg(r, θ, φ)) −1 (1.44)
On peut sans trop de difficultés calculer le déterminant de la matrice (1.43) et on
trouve det(Jg(r, θ, φ)) = r2 sin(θ) et ce déterminant est non nul, si 0 < r < ∞ et
si 0 < θ < π. Un calcul un peu fastidieux permet d’inverser cette matrice et on
trouve
 
sin(θ) cos(φ) sin(θ) sin(φ) cos(θ)
 1 1 1
(Jg(r, θ, φ))−1 =  r cos(θ) cos(φ) r cos(θ) sin(φ) − r sin(θ)  . (1.45)

− 1r sin(φ)
sin(θ)
1 cos(φ)
r sin(θ) 0
On remarque ici que si on exprimait maintenant (r, θ, φ) en fonction de (x, y, z),

alors on aurait l’expression de la matrice jacobienne de ~g −1 dans ces variables,
ce qui n’est souvent pas nécessaire, notamment lorsqu’on souhaite exprimer par
exemple le gradient d’une fonction f en coordonnées sphériques.
Pour ce faire, on écrit pour une fonction f donnée la fonction composée

f ~g −1 (x, y, z) ,
24
ce qui correspond précisément au changement de variables qui fait passer de

(x, y, z) à (r, θ, φ). Par la dérivée composée (voir (1.35)) on peut écrire, gardant
le nom f pour la fonction dont on cherche le gradient, indépendamment des coor-
données utilisées,

∂f ∂f ∂f ∂f ∂f ∂f
∂x ∂y ∂z = ∂r ∂θ ∂φ (Jg(r, θ, φ))−1 . (1.46)
Le membre à droite est un produit d’une matrice 1 × 3 avec une matrice 3 × 3 (en
fait la matrice (1.45)), ce qui donne bien une matrice 1 × 3 et de par l’expression
(1.45) on trouve
∂f ∂f 1 ∂ f 1 sin(φ) ∂ f
= sin(θ) cos(φ) + cos(θ) cos(φ) − ,
∂x ∂r r ∂θ r sin(θ) ∂φ
∂f ∂f 1 ∂ f 1 cos(φ) ∂ f
= sin(θ) sin(φ) + cos(θ) sin(φ) + , (1.47)
∂y ∂r r ∂θ r sin(θ) ∂φ
∂f ∂f 1 ∂f
= cos(θ) − sin(θ) .
∂z ∂r r ∂θ
Considérant les vecteurs de la base canonique, le gradient de f s’écrit
~ f = ∂ f ~ex + ∂ f ~ey + ∂ f ~ez .

grad (1.48)
∂x ∂y ∂z
Or, sur la figure 1.3 un repère ~er ,~eθ ,~eφ est dessiné, qui correspond à une base dite
mobile de coordonnées sphériques. Appliquant un peu de trigonométrie on peut
se convaincre que
~er = sin(θ) cos(φ)~ex + sin(θ) sin(φ)~ey + cos(θ)~ez ,

~eθ = cos(θ) cos(φ)~ex + cos(θ) sin(φ)~ey − sin(θ)~ez , (1.49)
~eφ = − sin(φ)~ex + cos(φ)~ey.
On remarque que ces trois vecteurs sont de norme euclidienne égale à 1. En plus,
les vecteurs sont deux à deux orthogonaux, c’est-à-dire le produit scalaire entre
deux de ces vecteurs est égal à 0. Utilisant les expressions (1.47) et l’expression
du gradient en coordonnées cartésiennes (1.48) en tenant compte de (1.49), on
obtient le gradient en coordonnées sphériques, à savoir
~ f = ∂ f ~er + 1 ∂ f ~eθ + 1 ∂ f ~eφ .

grad (1.50)
∂r r ∂θ r sin(θ) ∂φ
25
Plan tangent à une surface de R3

Soit une surface S de R3 donnée par une relation de la forme
f (x, y, z) = 0. (1.51)
Comme exemple on peut imaginer une sphère centrée en 0 de rayon r dont l’équation
est
f (x, y, z) = 0 avec f (x, y, z) = x2 + y2 + z2 − r2 .
Imaginons une courbe de R3 tracée sur la surface, une telle courbe étant définie
par une fonction
~ϕ(t) = (x(t), y(t), z(t), t ∈ I,
avec I un intervalle (ouvert) de R (on parle d’une courbe paramétrée par t). Par la
définition de la dérivée, et considérant une valeur particulière t0 du paramètre où
la fonction ~ϕ(t) est dérivable, on peut écrire
~ϕ(t0 + h) = ~ϕ(t0) + h~ϕ ′ (t0) + h~ε(h), lim~ε(h) = 0.

h→0
On trouve ainsi la notion de la tangente à la courbe : c’est la droite qui passe

par ~ϕ(t0 ) = M0 = (x0 , y0 , z0) et qui a comme vecteur directeur ~ϕ ′ (t0) qui, quand
son origine est placée en M0 , devient le vecteur tangent noté ~T . Cette situation
est illustrée par la figure 1.4. Si l’on considère maintenant la fonction composée
( f ◦~ϕ), la courbe étant sur la surface, on peut alors affirmer que
( f ◦~ϕ)(t) = f (x(t), y(t), z(t)) = 0, t ∈ I.
La fonction composée ( f ◦~ϕ)(t) de la variable t étant identiquement égale à zéro

sur un intervalle I, on peut affirmer que sa dérivée s’annule et on aura pour tout
t0 ∈ I
0 = ( f ◦~ϕ) ′ (t0) = f ′ (~ϕ(t0))~ϕ ′ (t0 )

 
x ′ (t0)
∂f ∂f ∂f  y ′ (t0 )  . (1.52)
= ∂x (x0 , y0 , z0 ) ∂y (x0 , y0 , z0 ) ∂z (x0 , y0 , z0 )
z ′ (t0)
~ f et d’après sa définition, le produit entre la matrice

Reprenons la notation grad
ligne et du vecteur ci-dessus peut encore s’écrire comme le produit scalaire
~ f (x0 , y0 , z0 ) ·~ϕ ′ (t0) = 0,
grad
ce produit étant égal à zéro d’après ce qui précède. Le vecteur directeur ~T de la

tangente T en M0 à la courbe sur la surface étant donné par ~ϕ ′ (t0 ) et donc pour
26
F IGURE 1.4 – Surface S avec son plan tangent P au point M.
tout M = (x, y, z) sur la droite tangente, on aura pour le vecteur M~0 M
 
x − x0
M~0 M =  y − y0  = λ~ϕ ′ (t0), pour un λ ∈ R.
z − z0
Or, dans le produit scalaire ci-dessus on peut remplacer ~ϕ ′ (t0) par λ~ϕ ′ (t0) et le
résultat est toujours zéro. On obtient donc l’équation du plan tangent à S en M0 , à
savoir l’ensemble de tous les points (x, y, z) tels que
∂f ∂f ∂f
(x −x0 ) (x0 , y0 , z0 ) +(y−x0 ) (x0 , y0 , z0 ) +(z −x0 ) (x0 , y0 , z0 ) = 0. (1.53)
∂x ∂y ∂z
D’un point de vue géométrique, le fait que le produit scalaire entre deux vecteurs
est zéro signifie que les deux vecteurs forment un angle droit (π/2, c.-à-d. 90◦ )
entre eux, on dit qu’ils sont orthogonaux. Donc, par définition, le gradient de f
en tout point M0 de la surface S définie par f (x, y, z) = 0 est orthogonal au plan
tangent à S en ce point.
27
1.2.7 Dérivées partielles d’ordre supérieur à 1, formule de Tay-

lor
Soit une fonction f (x1 , x2 , · · ·, xn ) définie sur un domaine (ouvert) de D de Rn ,
continue et dérivable et donc avec les dérivées partielles continues. On considère
la fonction
∂f
gi (x1 , · · · , xn ) = (x1 , · · · , xn )
∂xi
et en suppose que gi possède des dérivées partielles par rapport à toutes les vari-
ables et on note
∂gi ∂2 f
(x1 , · · · , xn ) = (x1 , · · ·, xn ). (1.54)
∂x j ∂x j ∂xi
Evidemment, on peut faire varier i et j et on définit ainsi les dérivées partielles
secondes
∂2 f
(x1 , · · ·, xn ), i = 1, · · ·n, j = 1, · · · , n. (1.55)
∂x j ∂xi
On peut maintenant se poser la question, si dans ces dérivées partielles d’ordre
2 l’ordre de dérivation, d’abord par rapport à xi et ensuite par rapport à x j , est
important. Prenons comme exemple la fonction f (x, y) = xm yn avec (x, y) ∈ R2 et
calculons
∂f ∂f
(x, y) = mxm−1 yn , (x, y) = nxm yn−1 ,
∂x ∂y
∂2 f ∂2 f
(x, y) = m(m − 1)xm−2 yn , (x, y) = nmxm−1 yn−1 ,
∂x2 ∂y∂x
∂2 f ∂2 f
(x, y) = mnxm−1 yn−1 , (x, y) = n(n − 1)xm yn−2 .
∂x∂y ∂y2
∂2 f ∂2 f
On constate ci-dessus pour cet exemple que ∂y∂x = ∂x∂y
En fait, on peut montrer le résultat général suivant pour f (x1 , · · · , xn ).
Théorème 6 Si les dérivées partielles d’ordre deux de f (x1 , · · · , xn ) existent et

sont continues sur D , alors
∂2 f ∂2 f
(x1 , · · · , xn ) = (x1 , · · ·, xn ). (1.56)
∂x j ∂xi ∂xi ∂x j
On se contente d’admettre le résultat assez naturel, étant donné que la démonstration

rigoureuse est un peu technique. On peut donc procéder à des dérivées partielles
d’un ordre quelconque (en prenant les dérivées partielles des dérivées partielles
28
Dérivées partielles d’ordre supérieur à 1, formule de Taylor
d’ordre deux etc.) que l’on écrit d’une manière générale pour une dérivée partielle
d’ordre p sous la forme
∂p f
p1 p p , (1.57)
∂x1 ∂x2 2 · · · ∂xn n
pour des entiers pi ≥ 0, i = 1, · · · , n avec ∑ni=1 pi = p. Alors naturellement, si toutes
les dérivées partielles possibles d’ordre p existent et sont continues, alors l’ex-
pression ci-dessus est indépendante de l’ordre par rapport auquel on prend les
dérivations partielles successives.
Soit maintenant (a1 , a2 , · · · , an ) un point de D et considérons F(t) fonction de
la variable réelle t définie par
F(t) = f (a1 + th1 , · · ·an + thn ),
qui est la fonction f composée avec la fonction vectorielle (a1 + th1, · · · , an + hn )

avec hi , i = 1, · · · , n les composantes d’un vecteur ~h donné. La dérivée de F s’écrit
d’après les règles de la dérivée d’une fonction composée (exercice)
n
∂f
F ′ (t) = ∑ hi (~a + t~h). (1.58)
i=1 ∂xi
On peut ensuite calculer la dérivée seconde de F : la dérivée étant une opération

linéaire, ceci revient à calculer la dérivée suivant t des fonctions de la somme
ci-dessus. Soit par exemple
∂f
φi (t) = (~a + t~h)
∂xi
alors
n
∂2 f
φi′ (t) = ∑ hj (~a + t~h).
j=1 ∂xi ∂x j
On en déduit, que
!
n n n n
∂2 f ∂2 f
F ′ ′ (t) = ∑ hi ∑ j ∂xi∂x j (~a + t~h)
h =∑ ∑ hi h j ∂xi ∂x j
(~a + t~h). (1.59)
i=1 j=1 i=1 j=1
De généraliser cette expression à la dérivée d’ordre 3 ne pose a priori pas de

difficultés et
n n n
∂3 f
F ′ ′ ′ (t) = ∑ ∑ ∑ hi h j hk (~a + t~h), (1.60)
i=1 j=1 k=1 ∂xi ∂x j ∂xk
cette expression faisant apparaı̂tre une triple somme.
29
Evidemment, on peut ainsi procéder à des dérivées partielles pour des ordres
encore plus élevés. Mais arrêtons nous à l’ordre trois, en tout cas pour établir
la formule de Taylor pour une fonction à n variables. En fait, nous avons vu (et
démontré) la formule de Taylor pour une fonction à une variable (voir l’expression
1.11) que l’on peut appliquer à F(t) au point t = 0 et avec h = 1
1 ′′ 1
F(1) = F(0) + F ′ (0) + F (0) + F ′ ′′ (θ), 0 < θ < 1.
2! 3!
Or, F(1) = f (~a +~h) et bien sûr F(0) = f (~a). Posant dans les expression ci-dessus
pour la dérivée première et seconde t = 0 et pour la dérivée troisième t = θ, on
obtient la formule de Taylor au point ~a
n
∂f 1 n n ∂2 f
f (~a +~h) = f (~a) + ∑ hi (~a) + ∑ ∑ hi h j (~a)
i=1 ∂xi 2! i=1 j=1 ∂xi ∂x j
1 n n n
∂3 f
+ ∑∑∑ h i h j h k (~a + θ~h), 0 < θ < 1. (1.61)
3! i=1 j=1 k=1 ∂xi ∂x j ∂xk
Ici il convient de faire une remarque quant à l’ordre de grandeur du dernier

terme dans la formule ci-dessus. Tout d’abord, les dérivées partielles étant sup-
posées continues dans D (étant précisé que pour les vecteurs ~h considérés, ~a +~h
est dans D ). Il est donc possible de majorer par un nombre K > 0 toutes les
dérivées partielles d’ordre trois, à savoir
∂3 f
(~y) ≤ K, pour tout ~y ∈ D . (1.62)
∂xi ∂x j ∂xk
Ensuite, on peut écrire

3 !3
n n n n n
∑ ∑ ∑ hi h j hk = (h1 + h2 + · · · + hn )3 = ∑ hi ≤ ∑ |hi| . (1.63)
i=1 j=1 k=1 i=1 i=1
Nous avons introduit la norme euclidienne, à savoir

s
n
||~h|| = ∑ h2 . i
i=1
Soit donc r = maxi=1,···,n |hi |, c’est-à-dire la plus grande des composantes de ~h en

valeur absolue. Alors
n
∑ |hi| ≤ nr ≤ n||~h|| (1.64)
i=1
30
Application : extremum d’une fonction de plusieurs variables
q
car naturellement ∑ni=1 h2i ≥ r. Il s’ensuit par (1.63), et tenant compte de la
majoration (1.64), que
n n n
∑ ∑ ∑ hi h j hk ≤ n3 ||~h||3 (1.65)
i=1 j=1 k=1
On note donc
1 n n n ∂3 f
R3 (~h) = ∑ ∑ ∑ hi h j hk (~a + θ~h) (1.66)
3! i=1 j=1 k=1 ∂xi ∂x j ∂xk
et on peut donc affirmer qu’il existe une constante C > 0 telle que
R3 (~h) ≤ C||~h||3 (1.67)
(il suffit de prendre C = n3 K/3! avec K définie par la majoration (1.62)). La for-
mule de Taylor (1.61) est censée décrire le comportement de la fonction au voisi-
nage de ~x, donc notamment lorsque ||~h|| < ε avec ε “petit”. Attardons nous sur le
terme avec les dérivées partielles secondes dans la formule (1.61) et on note
n n
∂2 f
Q(~h) = ∑ ∑ hih j ∂xi∂x j (~a) (1.68)
i=1 j=1
ce qui permet d’écrire

n
∂f 1
f (~a + h) = f (~a) + ∑ hi (~a) + Q(~h) + R3 (~h).
~ (1.69)
i=1 ∂xi 2!
Notons que par exactement le même raisonnement que pour le terme avec les
dérivées partielles d’ordre 3, on peut affirmer qu’il existe une constante L telle
que
1 ~
|Q(h)| ≤ L||~h||2 . (1.70)
2
En effet ∑n ∑n hi h j ≤ n2 ||~h||2 et on peut affirmer qu’il existe une constant
i=1 j=1
∂2 f
K2 telle que ∂xi ∂x j (~y) ≤ K2 pour tout i, j et on peut choisir L = n2 K2 /2.
1.2.8 Application : extremum d’une fonction de plusieurs vari-

ables
Tout d’abord il convient de définir la notion de maximum ou minimum local
d’une fonction f en un point ~a.
31
Définition 8 On dit que la fonction f de n variables admet un maximum local

au point ~a, si pour tout ~x dans un voisinage de ~a, c’est-à-dire pour tout ~x tel que
||~x −~a|| ≤ r pour un r > 0,
f (~x) < f (~a). (1.71)
On dit au contraire que f possède un minimum local, si pour ~x dans un voisinage
de ~a
f (~x) > f (~a). (1.72)
Afin d’établir les conditions de l’existence d’un tel minimum ou maximum local,
on utilise la formule de Taylor (1.69) ; alors ~x = ~a +~h est dans un voisinage de ~a
signifie que ||~h|| ≤ r pour un r donné. On peut énoncer le résultat suivant.
Théorème 7 Si f possède un maximum ou minimum local en ~a, alors toutes les
dérivées partielles de f s’annulent en ce point.
La démonstration est assez simple. Imaginons donc que f possède par exemple un
maximum local en~a. On aura donc pour tout~h tel que ||~h|| < r, f (~a+~h)− f (~a) < 0
et donc par la formule de Taylor (1.69)
n
∂f 1
∑ hi ∂xi (~a) + 2 Q(~h) + R3(~h) < 0. (1.73)
i=1
On fait un raisonnement par “contraposé” (on parle aussi d’une démonstration

par l’absurde), supposant qu’au moins une dérivée partielle particulière (disons
∂f
suivant x j ), ∂x j
(~a) = α 6= 0. Soit donc ~h tel que hi = 0, i 6= j et h j 6= 0, donc
l’inégalité (1.73) devient
1 ~
h jα + Q(h) + R3 (~h) < 0. (1.74)
2!
Notons qu’alors ||~h|| = |h j | et on peut choisir un ε > 0 assez petit tel que pour tout
h j avec 0 < |h j | = ||~h|| ≤ ε on obtient la majoration
1 ~ 1
Q(h) + R3 (~h) ≤ Q(~h) + R3 (~h) ≤ L||~h||2 +C||~h||3 < |α|||~h||, (1.75)
2 2
en utilisant les majorations (1.67) et (1.70). La dernière majoration stricte provient
du fait que
L||~h||2 +C||~h||3
→ 0, quand ~h → 0
|α|||~h||
et donc il existe un ε > 0 tel que pour tout 0 < ||~h|| ≤ ε,
L||~h||2 +C||~h||3
< 1.
|α|||~h||
32
Soit donc un tel ε et par (1.75) on aura (choisissant h j tel que |h j | = ||~h|| < ε)
1 ~
h jα + Q(h) + R3 (~h) > h j α − |α|||~h||.
2!
Quel que soit le signe de α, on peut toujours choisir h j (soit positif, soit négatif),
tel que h j α−|α|||~h|| = 0, et donc h j α+ 2!
1
Q(~h)+R3 (~h) > 0 d’après ce qui précède,
ce qui est en contradiction avec (1.74). Le raisonnement pour un minimum local
est analogue et on peut conclure qu’une condition nécessaire pour l’existence d’un
extremum local en ~a est que les dérivées partielles en ce point s’annulent, donc
∂f ∂f
(~a) = 0, · · ·, (~a) = 0. (1.76)
∂x1 ∂xn
Supposons donc que ces conditions sont vérifiées et on peut écrire alors par la
formule de Taylor
1
f (~a +~h) − f (~a) = Q(~h) + R3 (~h). (1.77)
2!
On verra ultérieurement que Q(~h) (dont l’expression est donnée par (1.68)) s’ap-
pelle une forme quadratique.
Définition 9 On dit que Q(~h) est définie positive, si pour tout vecteur ~h non nul
Q(~h) > 0. On dit que Q(~h) est définie négative, si pour tout vecteur ~h non nul
Q(~h) < 0.
Si Q(~h) est par exemple définie positive, on peut affirmer qu’il existe un nombre
c > 0 tel que Q(~h) > c||~h||2 . En effet, on peut se convaincre par l’expression (1.68),
que !
1 1
Q(~h) = Q ~h
||~h||2 ||~h||
1 ~
Or la norme des vecteurs ~v = h est égale à 1. Ceci est une conséquence du fait
||~h||
que ||λ~x|| = |λ|||~x|| ce qu’on peut montrer aisément par la définition de la norme.
Il suffit alors de choisir c comme la plus petite valeur (forcément positive si Q
est définie positive) de Q(~v) appliquée à tous les vecteurs ~v de norme 1. On peut
également montrer que si Q(~h) est définie négative, alors il existe c > 0 tel que
Q(~h) < −c||~h||2 .
Par ailleurs, nous avons vu qu’il existe C > 0 tels que
|R3 (~h)| ≤ C||~h||3 .
33
Si Q(~h) est définie positive, on pourra écrire la majoration

1 ~ ~ 1 ~ 2 ~ 3 1 ~ 2 2C ~
Q(h) + R3 (h) > c||h|| −C||h|| = c||h|| 1 − |h||.
2! 2 2 c
Il s’ensuit que pour ||~h|| < c/(2C), 1 ~ ~

2! Q(h) + R3 (h) > 0 et d’après (1.77),
f (~a +~h) − f (~a) > 0.
Si cependant Q(~h) est définie négative, alors

1 ~ 1 1 2C
Q(h) + R3 (~h) < − c||~h|| +C||~h|| = c||~h|| −1 + ||~h||.
2 3 2
2! 2 2 c
et alors pour ||~h|| < c/(2C), on aura par (1.77) l’inégalité f (~a +~h) − f (~a) < 0. On
peut donc énoncer le théorème suivant.
Théorème 8 On suppose que pour une fonction f toutes les dérivées partielles
2
en un point ~a s’annulent. Si la fonction Q(~h) = ∑ni=1 ∑nj=1 hi h j ∂x∂i ∂xf j (~a) est définie
négative, alors f possède un maximum local en ~a. Si la fonction Q(~h) est définie
positive, alors f possède un minimum local en ~a.
Illustration pour n = 1 et n = 2
Considérons d’abord le cas d’une fonction d’une seule variable. La formule
de Taylor est alors
h2 ′ ′ h3
f (a + h) − f (a) = h f ′ (a) + f (a) + f ′ ′ ′ (a + θh).
2 3!
Soit donc a tel que f ′ (a) = 0. Ici la fonction Q(h) = h2 f ′ ′ (a) et on peut donc
affirmer que la fonction f a un mimimum local en a si f ′ ′ (a) > 0 et f a un maxi-
mum local en a si f ′ ′ (a) < 0.
Traitons maintenant le cas n = 2 et soit une fonction f (x, y). On note ~h = (h, k)
et ~a = (u, v).
La formule de Taylor s’écrit alors (voir (1.61))
∂f ∂f
f (u + h, v + k) − f (u, v) = h (u, v) + k (u, v)
∂x ∂y
1 2∂ f2 1 2 ∂2 f ∂2 f
+ h (u, v) + k (u, v) + hk (u, v)
2 ∂x2 2 ∂y2 ∂x∂y
+ R3 (h, k) (1.78)
34
2
∂ f 2
∂ f
(on a utilisé le fait que ∂x∂y = ∂y∂x ). Donc, une condition nécessaire pour l’exis-
tence d’un extremum local en (u, v) est
∂f ∂f
(u, v) = 0, (u, v) = 0. (1.79)
∂x ∂y
On suppose que ces conditions sont vérifiées et on notera
∂2 f ∂2 f ∂2 f
q11 = (u, v), q 12 = (u, v), q 22 = (u, v)
∂x2 ∂x∂y ∂y2
et donc
Q(h, k) = q11 h2 + 2q12 hk + q22 k2 .
On suppose que Q(h, k) 6= 0 si (h, k) 6= (0, 0), ce qui implique notamment que
q11 6= 0 et q22 6= 0 et alors on peut écrire (exercice)

q12 2 q212 2
Q(h, k) = q11 h + k + q22 − k .
q11 q11
Donc Q(h, k) est définie positive, et f possède alors un minimum locale en (u, v),
si
q2
q11 > 0 et q22 − 12 > 0,
q11
tandis que Q(h, k) est définie négative, et f possède alors un maximum locale en
(u, v), si
q2
q11 < 0 et q22 − 12 < 0.
q11
Soit donc la surface z = f (x, y) et nous allons essayer de schématiser le com-
portement au voisinage d’un point (u, v) où les dérivées partielles s’annulent. On
désigne par ≈ le fait qu’une quantité est “proche” d’une autre et donc
!
1 q12 2 q212 2
f (u + h, v + k) ≈ f (u, v) + q11 h + k + q22 − k
2 q11 q11
d’après de ce qui précède (supposant que Q(h, k) 6= 0, si (h, k) 6= (0, 0)). On pose
q12
H = h+ k, K = k (1.80)
q11
ce qui revient à faire un changement de variable
q12
X = x+ y, Y = y, (1.81)
q11
35
F IGURE 1.5 – Minimum local (en haut à gauche), maximum local (en haut à
droite) et point selle au voisinage de z = f (u, v).
qui ne change bien sûr rien au fait qu’il y ait un extremum en (u, v). On écrit la
fonction dans le nouveau système de coordonnées en lettres majuscules et donc
pour g(X ,Y ) = f (x(X ,Y ), y(X ,Y )) (avec x(X ,Y ) = X − qq11
12
Y, y(X ,Y ) = Y )

2 1 2 1 q212
g(U + H,V + K) ≈ g(U,V ) + aH + bK , a = q11 , b = q22 − (1.82)
2 2 q11
(bien sûr, z = g(U,V ) = f (u, v)). Si a > 0 et b > 0, alors il s’agit d’un minimum
local (voir dessin en haut à gauche de la figure 1.5) et si a < 0 et b < 0 on trouve
un maximum local (en haut à droite sur la figure). Supposons par exemple que
a < 0 et b > 0. On parle alors d’un point selle (ou d’un col) en z = f (u, v), illustré
par le troisième dessin de la figure. En effet, fixant Y = V on aura un maximum
local selon X et un minimum local selon Y si on fixe X = U .
36
Chapitre 2
Intégrales multiples
2.1 Rappels sur l’intégrale définie dans R

On suppose donnée une fonction f (x) de la variable réelle x et à valeurs dans
R définie sur l’intervalle [a, b]. Le graphe de la fonction, l’axe des x ainsi que les
droites d’équations x = a et x = b délimitent une surface. On partage le segment
[a, b] en n parties égales en subdivisant l’intervalle par des sous-intervalles
i(b − a)
[xi , xi+1 ], avec xi = a + , i = 0, · · ·, n. (2.1)
n
On observe qu’avec cette notation x0 = a et xn = b. Soit f (xi ), i = 0, · · ·, n les
valeurs de la fonction en ces abscisses et on peut considère pour chaque sous-
intervalle [xi , xi+1 ] deux type de rectangles dont [xi , xi+1 ] est la base : on peut
choisir un rectangle dont f (xi ) est la hauteur ou alors un rectangle dont f (xi+1 )
est la hauteur (voir les deux schémas de la figure 2.1). On observe que la longueur
de l’intervalle [xi , xi+1 ] est xi+1 − xi = (b − a)/n d’après (2.1) et que donc l’aire
de l’ensemble des rectangles dont la base est [xi , xi+1 ] et la hauteur la valeur “à
gauche” f (xi ), notée In , est égale à
n−1
b−a
In = ∑ f (xi ), (2.2)
i=0 n
tandis que l’aire choisissant la hauteur à droite f (xi+1 ) notée Jn est

n−1
b−a
Jn = ∑ f (xi+1 ). (2.3)
i=0 n
Ces sommes sont appelées des sommes de Riemann. Il est facile de se convaincre
que pour une fonction continue f (x), lorsqu’on augmente n (donc lorsque on rend
37
F IGURE 2.1 – Schéma de la sous-division de l’aire en dessous d’un graphe donné

par f (x) par des rectangles.
la base [xi , xi+1 ] des rectangles de plus en plus petite), alors la somme des aires
des rectangles s’approchent de plus en plus de l’aire de la surface délimitée par
le graphe de la fonction et l’axe des x. Aussi, lorsque n augmente indéfiniment,
ce résultat est indépendant du fait de choisir f (xi ) ou f (xi+1 comme hauteurs des
rectangles. Ceci nous amène à la définition suivante.
Définition 10 On appelle intégrale définie de f le nombre

n−1 n−1
b−a b−a
I = lim In = lim ∑ f (xi ) = lim Jn = lim ∑ f (xi+1 ) (2.4)
i=0 n i=0 n
n→∞ n→∞ n→∞ n→∞
et on la note Z b
I= f (x) dx (2.5)
a
(et on appelle a et b respectivement la borne inférieure et la borne supérieure de
l’intégrale).
On peut observer que

b−a
Jn − In = ( f (b) − f (a))
n
(car x0 = a, xn = b) et que cette différence tend en effet vers zéro quand n → ∞
(d’où l’égalité des limites dans (2.4)). Sur le dessin de la figure 2.1, f (x) > 0 mais
la définition 10 reste bien sûr valable quel que soit le signe, ou le changement de
signe, de f (x) et l’intégrale, dont la valeur peut être positive, négative ou nulle, est
aussi appelée l’aire algébrique de la surface limitée par le graphe de la fonction,
38
Théorème de la moyenne, primitive et changement de variable
l’axe des x et les droites d’équations x = a et x = b. A partir de ces définition il est

relativement aisé d’établir un certain nombre de propriétés de l’intégrale définie.
Propriétés de l’intégrale définie dansR.
1. l’intégrale dépend linéairement de la fonction f pour un intervalle fixé [a, b],
c’est-à-dire
Z b Z b Z b
( f (x) + g(x)) dx = f (x) dx + g(x) dx
a a a
et Z b Z b
λ f (x) dx = λ f (x) dx.
a a
2.
Z a Z b Z c Z c Z b Z a
f (x) dx = 0, f (x) dx+ f (x) dx = f (x) dx, f (x) dx = − f (x) dx.
a a b a a b
On note que la dernière relation ci-dessus s’ensuit de la deuxième en posant

c = a et en tenant compte de la première.
3. Z b
a<b et f ≥0 alors f (x) dx ≥ 0
a
4. De ce qui précède, on déduit
Z b Z b
a < b et f ≥g alors f (x) dx ≥ g(x) dx.
a a
En effet, sous ces hypothèses f − g ≥ 0.

5. Si f (x) est continue, alors sa valeur absolue l’est aussi et bien sûr −| f (x)| ≤
f (x) ≤ | f (x)| et on en déduit que si a < b,
Z b Z b
f (x) dx ≤ | f (x)| dx.
a a
2.1.1 Théorème de la moyenne, primitive et changement de

variable
Une application très importante de l’intégrale est la formule de la moyenne.
Soit f (x) continue sur [a, b] et notant m sa plus petite valeur sur l’intervalle et M
sa plus grande, donc m ≤ f (x) ≤ M et d’où
Z b Z b Z b
m dx ≤ f (x) dx ≤ M dx
a a a
39
ou encore Z
1 b
m≤ f (x) dx ≤ M
b−a a
car de manière évidente lorsque on intègre les fonctions constantes m et M on
obtient respectivement m(b − a) et M(b − a) (ce qui découle facilement de la
1 Rb
définition de l’intégrale). La quantité b−a a f (x) dx s’appelle la valeur moyenne
de la fonction sur [a, b] et elle comprise entre la valeur la plus petite et la valeur la
plus grande de f sur cet intervalle. Or, il a été vu dans des cours de mathématiques
antérieurs qu’une fonction continue sur un intervalle atteint toute valeur entre sa
valeur la plus petite et sa valeur la plus grande sur l’intervalle (ce résultat est connu
sous le nom de théorème de la valeur intermédiaire). Donc on peut énoncer le
théorème dit de la moyenne.
Théorème 9 Il existe un nombre c dans l’intervalle [a, b] tel que

Z b
1
f (x) dx = f (c).
b−a a
Avant de terminer ces rappels sur l’intégration dans R, nous abordons la notion
de la primitive d’une fonction et la question du changement de variable dans une
intégrale. Supposons maintenant que la borne supérieure de l’intégrale soit x et
écrivons (en introduisant une variable d’intégration notée t)
Z x
G(x) = f (t) dt (2.6)
a
ce qui détermine une fonction G(x). Imaginons un point x0 et d’après la définition

Z x0 +h Z x0 Z x0 +h
G(x0 + h) − G(x0 ) = f (t) dt − f (t) dt = f (t) dt
a a x0
(la dernière égalité découle de la propriété 2 ci-dessus). Or, le théorème de la

moyenne appliquée à la dernière intégrale permet d’écrire
Z x0 +h
f (t) dt = h f (x0 + θh), 0 ≤ θ ≤ 1.
x0
La fonction f est continue et donc f (x0 + θh) = f (x0 ) + ε(h) et ε(h) tend vers
zéro quand h tend vers zéro. On résume ce qui précède par
G(x0 + h) − G(x0 ) = h f (x0 ) + hε(h). (2.7)
Mais d’après la définition de la dérivée, on en déduit que G ′ (x0 ) = f (x0 ). On peut

donc énoncer le résultat suivant.
40
Théorème de la moyenne, primitive et changement de variable
Théorème 10 Soit f uneRfonction continue sur un intervalle qui contient [a, b].
Alors la fonction G(x) = ax f (t) dt est dérivable (et donc continue) sur cet inter-
valle et admet pour dérivée la fonction G ′ définie par G ′ (x) = f (x). Etant donné
que la dérivée d’une constante est zéro, la primitive n’est définie qu’à une con-
stante près, c’est-à-dire si G(x) est une primitive de f , une primitive F quelconque
de f s’exprime sous la forme F(x) = G(x) + C avec C une constante (et donc
F ′ (x) = G ′ (x) = f (x)).
Donc, d’après (2.6), il existe en particulier C telle que
Z x
F(x) −C = f (t) dt
a
et si on pose x = a, l’intégrale est zéro et donc C = F(a). Il s’ensuit, choisissant

x = b, que si F(x) est une primitive de f (x), c’est-à-dire si F ′ (x) = f (x), alors
Z b
I= f (x) dx = F(b) − F(a). (2.8)
a
On remarquera que F(b) − F(a) est souvent noté [F(x)]ba . On note bien sûr que
pour n’importe quelle autre primitive F̃(x) = F(x) + K (K constante réelle, donc
F̃ ′ (x) = F ′ (x) = f (x)) on a également I = F̃(b) − F̃(a).
Exemples : R
1. Calculer I = ab (x + c)n dx, pour n entier positif et c une constante réelle. Il est
(x+c)n+1
facile de voir que F(x) = n+1 est une primitive, car F ′ (x) = (x + c)n . D’où
(b + c)n+1 − (a + c)n+1
I = F(b) − F(a) = .
n+1
R 1/2
2 Calculer I = √ 1 dx. Il est bien connu que F(x) = arcsin(x) a pour dérivée
0 1−x2
√ 1 et donc I = arcsin(1/2) − arcsin(0) = π/6.
1−x2
On abordera maintenant la méthode de changement de variable dans une intégrale.

Soit donc une primitive F de f et posons
x = ϕ(t), ; α ≤ t ≤ β, avec ϕ(α) = a et ϕ(β) = b.

Soit la fonction composée F(x) = F(ϕ(t)) = G(t) et d’après la dérivée des fonc-
tions composées,
G ′ (t) = F ′ (x)ϕ ′ (t) = f (x)ϕ ′ (t) = f (ϕ(t))ϕ ′(t).

Or,
G(β) − G(α) = F(ϕ(β)) − F(ϕ(α)) = F(b) − F(a).
41
R Rβ
Or, F(b) − F(a) = ab f (x) dx tandis que G(β) − G(α) = α f (ϕ(t))ϕ ′(t) dt et on
en déduit la formule de changement de variable
Z b Z β
f (x) dx = f (ϕ(t))ϕ ′(t) dt. (2.9)
a α
En fait, une façon de retenir cette formule est d’écrire dans la première intégrale
x = ϕ(t) et de constater que si x = a, alors t = α et si x = b, t = β. Ensuite
dx
= ϕ ′ (t)
dt
Or dx est un élément de longueur infinitésimal et dt également et on peut justifier
d’écrire dans la première expression de l’intégrale dx = ϕ ′ (t)dt et de remplacer x
par ϕ(t), a par α et b par β, ce qui donne la deuxième expression de l’intégrale. On
observe que si ϕ ′ (t) 6= 0, on pourrait aussi écrire dt = ϕ ′1(t) dx dans la deuxième
expression de l’intégrale, ce qui n’est rien d’autre qu’une conséquence de la règle
de la dérivée de la fonction inverse t(x) si on note x(t) = ϕ(t), et d’obtenir ainsi
la première expression de l’intégrale.
R 1/2
Exemple : Soit I = 0 √ x 2 dx. Posons t = 1 − x2 et il n’est pas nécessaire
1−x
d’exprimer explicitement x en fonction de t : en effet,
dt
= −2x
dx
1
ce qui fait qu’on peut écrire dx = − 2x dt. Si x = 0, alors t = 1 et si x = 1/2, t = 3/4.
En remplaçant ces expressions dans l’intégrale, on trouve
Z 3/4 √
1 √ 3/4 3
I=− √ dt = [− t]1 = 1 − .
1 2 t 2
Rappelons enfin la méthode d’intégration par parties. Partant de la règle de dérivation

d’un produit
(uv) ′ = u ′ v + uv ′ ,
et en observant simplement que uv est une primitive de (uv) ′ , notant du = u ′ dx et
dv = v ′ dx, on en déduit la formule d’intégration par parties
Z b Z b
u dv = [uv]ba − vdu. (2.10)
a a
Cette formule permet de résoudre des intégrales dans de nombreuses situations.

Exemple :
1. Résoudre l’intégrale
Z 1
I= arcsin(x)dx.
0
42
Intégration dans Rn (n = 2, 3)
On pose dv = dx, donc v = x et u = arcsin(x), donc du = √ 1 dx, et par la

1−x2
formule (2.10), Z 1
1 x
I = [x arcsin(x)]0 − √ dx.
0 1 − x2
2
Or, par changement
R1 x √ 1t = 1 − x dans la dernière intégrale
de variable
1
(cf. ci-dessus)
on trouve 0 √ 2 dx = [− t]0 = −1 ; ensuite [x arcsin(x)]0 = π/2 et donc I =
1−x
π/2 − 1.
2. Résoudre l’intégrale
Z π/2
I= x cos(x)dx.
0
On pose dv = cos(x)dx et donc v = sin(x) et u = x et donc du = dx, d’où
Z π/2
π/2 π
I = [x sin(x)]0 − sin(x)dx = − 1.
0 2
Jusqu’à présent, nous avons calculé les intégrales définies, donc avec des bornes
inférieures et supérieures. Or, il est souvent utile de spécifier une primitive F(x)
d’une fonction Rf (x) (qui sera déterminée à une constante près), dans la mesure
où F(x) − C = ax f (x) dx (avec ici C = F(a)). Or, si on ne spécifie par la borne
inférieure a (ni la borne supérieure x, c’est-à-dire la variable de la primitive F(x))
on écrit encore pour une constante C quelconque
Z
f (x)dx = F(x) +C. (2.11)
Exemple :
Chercher une primitive de log(x). On utilise par exemple la formule de l’intégration
par parties sans spécifier des bornes (notons cependant que x ≥ 0)
Z Z
log(x)dx = x log(x) − dx +C = x log(x) − x +C = F(x) +C
en posant dv = dx et u = log(x).
2.2 Intégration dans Rn (n = 2, 3)

2.2.1 Définition générale
On donne en un premier temps la définition générale d’une intégrale dans Rn ,
étant entendu qu’en pratique la dimension de l’espace sera n = 2 ou n = 3. La
43
notion d’un pavé a déjà été introduite précédemment comme un objet R de Rn

formé d’un produit cartésien d’intervalles
R = J1 × J2 × · · · × Jn , Ji = [ai , bi ], i = 1, · · ·, n. (2.12)
Dans R2 on retrouve les rectangles et dans R3 les parallélépipèdes rectangles. On

notera par la suite vol(R) le volume du pavé, à savoir
vol(R) = (b1 − a1 )(b2 − a2 ) · · ·(bn − an ), (2.13)
c’est-à-dire le produit des longueurs des intervalles (on retrouve bien la surface
d’un rectangle dans R2 et le volume d’un parallélépipède dans R3 ).
On imagine une sous-division de chaque intervalle Ji en introduisant mi + 1 points
(choisis ici équidistants)
bi − ai
xi, j = ai + j , j = 0, · · ·, mi
mi
(notons que xi,0 = ai et xi,mi = bi ), donc on adopte pour chaque intervalle Ji une
sous-division similaire que celle pour la construction de l’intégrale dans R, ce qui
donne, pour chaque intervalle Ji , mi sous-intervalles
[xi, j , xi, j+1 ], j = 0, · · ·, mi − 1.
Le pavé R est ainsi sous-divisé en m1 m2 ...mn sous-pavés notés R j1 ··· jn , c’est-à-dire
R j1 ··· jn = [x1, j1 , x1, j1 +1 ] × [x2, j2 , x2, j2 +1 ] × · · · × [xn, jn , xn, jn +1 ], (2.14)

0 ≤ j1 ≤ m1 − 1, · · · , 0 ≤ jn ≤ mn − 1.
La figure 2.2 donne une illustration pour le cas R2 , où on voit que la rectangle
[a1 , b1 ] × [a2 , b2 ] est sous-divisé en des rectangles plus petits (ici au nombre de
8 · 4 = 32). On cherche bien sûr à généraliser la notion de l’intégrale définie dans
R. Soit donc une fonction f (x1 , · · · , xn ) de n variables définie et continue sur un
domaine qui contient le pavé R. Il convient donc de choisir pour chaque sous-pavé
R j1 ··· jn une valeur particulière de la fonction et on considère la borne inférieure
(c’est-à-dire la valeur la plus petite du sous-pavé) que l’on note
v j1 ··· jn = min f (x1 , x2 , · · · xn ) (2.15)

(x1 ,···,xn )∈R j1 ··· jn
et on forme la somme (qui généralise la somme de Riemann)

m1 −1 mn −1
Im1 ···mn = ∑ ··· ∑ vol(R j1··· jn )v j1 ··· jn (2.16)
j1 =0 jn =0
44
Définition générale
F IGURE 2.2 – Schéma de la sous-division d’un pavé de R2 en sous-pavés.
(le volume des sous-pavés étant bien sûr définis comme le produit des longueurs
des intervalles qui les composent). L’intégrale dans Rn sera donc la limite de cette
somme pour des sous-divisions de plus en plus fines, donc lorsque mi → ∞, i =
1, · · ·, n. On peut donc donner la définition de l’intégrale dans Rn .
Définition 11 L’intégrale n-uple (l’intégrale double pour n = 2 ou l’intégrale
triple pour n = 3) sur le pavé R et notée
Z Z
··· f (x1 , · · · , xn )dx1 · · · dxn (2.17)
| {z } R
n fois
est par définition la limite de la somme Im1 ···mn définie par (2.16) lorsque
m1 → ∞, · · · , mn → ∞
R R
(noter que · · · signifie que l’on écrit en général le symbole pour l’intégral
autant de fois, donc 2 fois pour les intégrales doubles et 3 fois pour les intégrales
triples, que la dimension de l’espace où l’intégrale est définie, pour éviter des
confusions avec l’intégrale simple dans R).
Exemple : Soit par exemple la fonction constante f (x1 , · · · xn ) = 1 et la somme
(2.16) devient
m1 −1 mn −1
Im1 ···mn = ∑ ··· ∑ vol(R j1··· jn ).
j1 =0 jn =0
On peut se convaincre que la somme des volumes des sous-pavés R j1 ··· jn ne peut
être rien d’autre que le volume du pavé R que ces sous-pavés recouvrent et
Z Z
(b1 − a1 )(b2 − a2 ) · · · (bn − an ) = vol(R) = ··· dx1 · · · dxn . (2.18)
R
45
De la définition découlent un certain nombre de propriétés de l’intégrale n-uple.

Propriétés de l’intégrale définie sur des pavés dans Rn .
R R
1. L’application qui associe à une fonction f son intégrale · · · R f dx1 · · · dxn
est linéaire.
R R
2. Si f ≥ 0 alors · · · R f dx1 · · · dxn ≥ 0.
3. Soient Q, S des pavés de R p et Rq respectivement avec p + q = n. Alors
le produit cartésien Q × S forme un pavé R de Rn = R p × Rq . On note
(x1 , · · · , x p ) les coordonnées dans R p et (y1 , · · ·, yq ) les coordonnées dans
Rq . Soit f une fonction continue dans Rn et on note ses coordonnées (ten-
ant compte de ce que Rn = R p × Rq )
(x1 , · · ·, x p , y1 , · · ·, yq ).
Alors
Z Z
··· f (x1 , · · ·, x p , y1 , · · ·, yq ) dx1 · · · dx p dy1 · · · dyq
Q×S
Z Z Z Z
= ··· · · · ( f (x1 , · · · , x p , y1 , · · · , yq )dy1 · · · dyq dx1 · · · dx p .
Q S
C’est en fait la troisième propriété ci-dessus qui permet de calculer explicitement

les intégrales multiples dans des pavés. En effet, pour intégrer selon toutes les
variables de Rn , on peut intégrer de proche en proche selon les différentes vari-
ables successives.
Donnons un exemple dans R2 . Soit l’intégrale double
Z Z
I= (x + y)ex+y dx dy
R
avec R le rectangle de R2 défini par 0 ≤ x ≤ 2, 1 ≤ y ≤ 2, que l’on peut donc écrire

Z 2 Z 2
x+y
I= (x + y)e dy dx.
0 1
R
On peut donc d’abord résoudre 12 (x + y)ex+y dy en intégrant comme dans R par
rapport à la variable y. Faisant une intégration par parties (exercice), on trouve
Z 2 Z 2
(x + y)ex+y dy = [(x + y)ex+y ]21 − ex+y dy
1 1
= (x + 2)ex+2 − (x + 1)ex+1 − ex+2 + ex+1 = (x + 1)ex+2 − xex+1 .
46
Définition générale
D’où
Z 2
I = [(x + 1)ex+2 − xex+1 ]dx
0
Z 2
= [(x + 1)e x+2
− xex+1 ]20 − [ex+2 − ex+1 ]dx = 2e4 − e3 − e
0
On considère maintenant un domaine borné (donc d’étendue finie) noté K quel-
conque de Rn et on cherche à définir l’intégrale sur ce domaine (que l’on suppose
être “d’étendue” finies, on parle alors d’un domaine compact). On peut bien sûr
imaginer un pavé R tel que K soit contenu dans R. Soit alors une fonction f (~x)
(on note de nouveau ~x = (x1 , · · ·, xn )) définie sur K, alors on peut construite une
fonction f¯ définie sur R comme suit :
f¯(~x) = f (~x), si~x ∈ K et f¯(~x) = 0, si~x ∈
/ K. (2.19)
Définition 12 L’intégrale d’une fonction f définie sur K est égale à l’intégrale
de la fonction f¯ sur R, c’est-à-dire
Z Z Z Z
··· f (x1 , · · · , xn )dx1 · · · dxn = ··· f¯(x1 , · · · , xn )dx1 · · · dxn . (2.20)
K R
En particulier, le volume de K est l’intégrale de la fonction identiquement à 1 et
donc Z Z
vol(K) = · · · dx1 · · · dxn (2.21)
K
La définition ci-dessus revient à ramener l’intégrale d’une fonction f pour un
domaine quelconque K à l’intégrale sur un pavé R qui contient K, en étendant
tout simplement la définition de la fonction sur R en disant qu’elle vaut zéro en
~x, si ~x ∈
/ K. Ajoutons ici une propriété importante des intégrales multiples, dans
la situation où le domaine K de Rn est la réunion K = K1 ∪ K2 de deux domaines
disjoints, ou alors de deux domaines qui peuvent se toucher dans le sens où la
frontière commune a au moins une dimension en moins que l’espace en question.
Donc, en dimension n = 2 la frontière commune peut au plus être une courbe et en
dimension n = 3 au plus une surface. Dans ce cas on peut déduire des définition
que
Z Z
··· f (~x)dx1 · · · dxn
K1 ∪K2
Z Z Z Z
= ··· f (~x)dx1 · · · dxn + ··· f (~x)dx1 · · · dxn . (2.22)
K1 K2
Afin d’illustrer comment on peut résoudre en pratique une intégrale multiple,

prenons l’exemple d’un domaine de R2 défini par
a ≤ x ≤ b, ϕ1 (x) ≤ y ≤ ϕ2 (x),
47
avec ϕ1 , ϕ2 des fonctions de x continues pour a ≤ x ≤ b (voir figure 2.3). Dans ce

cas, on peut écrire
Z Z Z b Z ϕ2 (x)
f (x, y)dxdy = f (x, y)dy dx.
K a ϕ1 (x)
Si cependant le domaine K est définie par

c ≤ y ≤ d, ψ1 (y) ≤ x ≤ ψ2 (y)
(voir figure 2.3) alors
Z Z Z d Z ψ2 (y)
f (x, y)dxdy = f (x, y)dx dy.
K c ψ1 (y)
Exemple : On considère comme K de R2 le disque centre en (0, 0) et de rayon r,
F IGURE 2.3 – Schémas de domaines d’intégration K dans R2 .
défini par x2 +y2 = r2 , on peut écrire pour le demi-cercle

donc l’intérieur du cercle√
inférieur y = ϕ1 (x) = − r2 − x2 et pour le demi-cercle supérieur y = ϕ2 (x) =
√
r2 − x2 et l’intégrale
Z Z Z r Z √r2 −x2 Z rp
" #
I= dxdy = √ dy dx = 2 r2 − x2 dx
K −r − r2 −x2 −r
donne la surface du disque. Dans la dernière intégrale ci-dessus on fera le change-

ment de variable x = r cos(θ) et on trouve
Z π
I = 2r2 sin2 (θ)dθ = πr2 .
0
En fait, pour l’intégrale ci-dessus on utilise la relation bien connue sin2 (θ) = 12 −
1
2 cos(2θ).
48
Changement de variables dans des intégrales multiples
2.2.2 Changement de variables dans des intégrales multiples

Tout d’abord on se place dans Rn et on donne la définition d’un bloc engendré
par n vecteurs.
Définition 13 Soient~v1 , · · · ,~vn n vecteurs de Rn . On appelle “bloc” engendré par
ces vecteurs l’ensemble des points
t1~v1 + · · · + tn~vn , 0 ≤ ti ≤ 1.
Donnons d’abord quelques exemples.

Exemples :
1. Dans R2 , il s’agit de l’intérieur du parallélogramme engendré par ~v1 et ~v2 .
Pour calculer l’aire de ce parallélogramme, on peut supposer que le vecteur ~v1
est colinéaire avec le premier vecteur ~e1 de la base canonique de R2 (quitte à
faire subir au parallélogramme une rotation appropriée). Formons la matrice M
dont les deux colonnes correspondent aux coordonnées des deux vecteurs ~v1 et
~v2 dans la base. On note v1 la longueur du segment correspondant au vecteur ~v1 ,
h la composante du vecteur ~v2 suivant ~e2 (voir dessin de la figure 2.4) et b la
composante suivant ~e1 de ~v2 . La matrice M est donc

v1 b
M= .
0 h
Supposant que le lecteur connaı̂t la définition du déterminant ainsi que la tech-

nique pour le calculer (au moins pour les matrices 2 × 2 et 3 × 3) , alors det(M) =
v1 h ce qui est précisément l’aire du parallélogramme.
F IGURE 2.4 – Parallélogramme engendré par deux vecteurs ~v1 et ~v2 .
2. Soit dans Rn un pavé
R = [a1 , b1 ] × · · · × [an − bn ]
et on peut dire que ce pavé est engendré par les vecteurs
~vi = (bi − ai )~ei .
49
Formons la matrice M dont les éléments des colonnes successives sont les com-
posantes des vecteurs ~v j , donc la matrice diagonale
 
b1 − a1
 .. 
 . (0) 
M= . .
 (0) . . 
bn − an
On note det(~v1 · · · ,~vn ) le déterminant de la matrice ainsi formée (et le déterminant

d’une matrice diagonale étant le produit des éléments sur la diagonale), on obtient
det(~v1 · · · ,~vn ) = (b1 − a1 )(b2 − a2 ) · · · (bn − an )
ce qui est précisément le volume du pavé R.

On peut donc généraliser la définition du volume d’un bloc engendré par n
vecteurs de la manière suivante.
Définition 14 On définit le volume du bloc engendré par ~v1 , · · ·,~vn comme étant
la valeur absolue du déterminant de la matrice notée (~v1 , · · ·,~vn ) et dont les
éléments des colonnes successives sont les composantes des vecteurs successifs
~v j , j = 1, · · · , n, c’est-à-dire
vol(~v1 , · · · ,~vn ) = |det(~v1 , · · · ,~vn )| .
On a vu par l’exemple ci-dessus que pour R2 cette définition correspond précisément

à la notion de l’aire engendrée par deux vecteurs ~v1 et ~v2 .
Attardons-nous un instant sur R3 et considérons trois vecteurs
 
ai
~v j =  bi  , j = 1, 2, 3,
ci
et formons la matrice M dont les éléments des colonnes sont les composantes des
vecteurs et donc  
a1 a2 a3
M =  b1 b2 b3  .
c1 c2 c3
Or le déterminant de cette matrice est (exercice, en développant suivant la première
colonne)
det(v1 , v2 , v3 ) = a1 (b2 c3 − b3 c2 ) + b1 (c2 a3 − a2 c3 ) + c1 (a2 b3 − b2 a3 ). (2.23)
50
Le produit vectoriel entre deux vecteurs de R3 est une notion qui a été vue lors
de cours antérieurs. Il est brièvement rappelé un moyen simple de retrouver son
expression. On suppose donnés deux vecteurs
   
x1 x2
~x1 =  y1  , ~x2 =  y2 
z1 z2
et on écrit formellement un tableau 3 × 3 (un peu comme une matrice)

 
~ex x1 x2
 ~ey y1 y2  .
~ez z1 z2
Pour calculer le produit vectoriel entre ~x1 et ~x2 , on fait comme si on calculait le
déterminant de cette pseudo-matrice en “développant” par rapport à la première
colonne, ce qui donne
 
y1 z2 − z1 y2
~x1 ∧~x2 = (y1 z2 − z1 y2 )~ex + (z1 x2 − x1 z2 )~ey + (x1 y2 − y1 x2 )~ez =  z1 x2 − x1 z2  .
x1 y2 − y1 x2
Appliquant ces règles aux vecteurs ~v2 et ~v3 , on trouve bien sûr
 
b2 c3 − b3 c2
~v2 ∧~v3 =  c2 a3 − a2 c3  .
a2 b3 − b2 a3
et on obtient la formule à partir de (2.23)
det(v1 , v2 , v3 ) =~v1 · (~v2 ∧~v3 ) =~v3 · (~v1 ∧~v2 ) (2.24)
(où le symbole · désigne le produit scalaire). La première expression traduit di-

rectement (2.23) tandis que la deuxième expression découle du fait, que si on
permute deux colonnes de la matrice, on multiplie le déterminant par −1 et donc
det(v1 , v2 , v3 ) = −det(v3 , v2 , v1 ) = det(v3 , v1 , v2 ). Sans vouloir aller trop en avant
dans des considérations géométriques, on peut montrer que la norme euclidienne
du vecteur ~v1 ∧~v2 correspond à l’aire du parallélogramme engendré dans R3 par
~v1 et ~v2 et le produit scalaire entre deux vecteurs est égal au produit des normes
des deux vecteurs multiplié par le cosinus de l’angle θ entre ces deux vecteurs.
Donc d’après (2.24) on peut écrire
|det(v1 , v2 , v3 )| = ||~v3 || ||~v1 ∧~v2 || cos(θ) = ||~v3 || ||~v1 || ||~v2 || sin(α) cos(θ)
51
car on peut montrer que ||~v1 ∧~v2 || = ||~v1 || ||~v2 || sin(α) avec α l’angle (entre 0 et
π) entre ~v1 et ~v2 . La géométrie de cette configuration est esquissé sur la figure 2.5
et on peut se convaincre que det(v1 , v2 , v3 ) est bien le volume du parallélépipède
engendré par ~v1 , ~v2 et ~v3 .
F IGURE 2.5 – Parallélépipède engendré par trois vecteurs ~v1 , ~v2 et ~v3 .
On considère maintenant une matrice A dont on note ai j , i = 1, · · · , n, j = 1, · · ·, n

les éléments. On considère un pavé R engendré comme nous avons vu par les n
vecteurs~vi = (bi −ai )~ei , i = 1, · · · , n. Appliquer cette matrice aux vecteurs~vi trans-
forme le pavé en un domaine que l’on note L(R) (dans la mesure où de transformer
les vecteurs par A revient à opérer une transformation linéaire L de R) qui est en-
gendré par les vecteurs A~v1 , · · · , A~vn . On peut se convaincre (exercice) que la ma-
trice dont les colonnes sont formées par ces vecteurs est une matrice Ā dont les co-
efficients sont (b j − a j )ai j , i = 1, · · ·, n, j = 1, · · ·, n, donc obtenu à partir de la ma-
trice A en multipliant les éléments de la jème colonne par (b j − a j ), j = 1, · · ·, n.
Les règles du calcul du déterminant permette d’affirmer que
det(Ā) = (b1 − a1 ) · · · (bn − an )det(A)
et d’après la définition du volume on peut affirmer que
vol(L(R)) = vol(R) |det(A)|. (2.25)
Soit maintenant une fonction vectorielle ~g(~x) de n variables, c’est-à-dire une

application de Rn vers Rn et soit un pavé R de Rn . On suppose que cette fonction
est dérivable sur R. On considère le domaine K =~g(R), c’est-à-dire l’ensemble des
~y tel que ~y = ~g(~x),~x ∈ R. Pour que cette application s’apparente à un changement
de variables, on suppose qu’elle est inversible (donc il existe ~g−1 telle que pour
tout ~g(~x) de K, ~g−1 (~g(~x)) =~x).
52
Lors de la construction de l’intégrale multiple, nous avons imaginé le pavé R sous-

divisé en des sous-pavés de plus en plus petits notés R j1 ··· jn , la longueur des n
intervalles composant chaque sous-pavé étant hi = 1/mi . Chaque sous-pavé est
donc transformé par ~g en un sous-domaines K j1 ··· jn et l’intégrale
Z Z
··· dy1 · · ·dyn = vol(~g(R)) (2.26)
~g(R)
est égale à la somme de toutes les intégrales sur les sous-domaines K j1 ··· jn dans
ce processus, en faisant tendre mi → ∞, i = 1, · · ·, n, c’est-à-dire on considère des
sous-pavés et donc des sous-domaines de plus en plus petits.
Or, soit un de ces sous-pavés (on omet l’indice j1 · · · jn ) et prenons un point ~a
particulier. Pour tout autre point de ~x = ~a +~h dans ce sous-domaine on aura (par
la définition de la dérivée (notant Jg(~a) la matrice jacobienne)
~g(~a +~h) −~g(~a) = Jg(~a)~h + ||~h||~ε(~h), lim~ε(~h) = 0.

~h→0
On suppose que la matrice jacobienne est inversible (ce qui est d’ailleurs la con-
dition pour que ~g définisse un changement de variable) et donc

~g(~a +~h) −~g(~a) = Jg(~a) ~h + Jg(~a)−1 ||~h||~ε(~h) , lim~ε(~h) = 0. (2.27)
~h→0
La relation ci-dessus montre qu’à la limite lorsque ||~h|| s’approche de zéro, l’ac-
tion de l’application ~g sur le petit pavé s’apparente à appliquer la matrice jaco-
bienne aux vecteurs qui engendrent le pavé, donc de transformer R j1 ··· jn par une
application linéaire. On conclut que
vol(~g(R j1 ··· jn )) → vol(R j1··· jn ) |det(Jg(~a j1··· jn ))|, (2.28)
d’après (2.25), où A est maintenant la matrice jacobienne associée à ~g, lorsque
mi → ∞, i = 1, · · · n. Or, la somme des vol(~g(R j1··· jn )) tend vers vol(~g(R)), donc
par définition vers l’intégrale
Z Z
··· dy1 · · · dyn .
~g(R)
En tenant compte de (2.28), on peut par conséquent énoncer le théorème fonda-

mental du changement de variable dans des intégrales multiples.
Théorème 11 Soit R un pavé dans Rn et ~g une application dérivable de Rn dans
Rn de matrice jacobienne Jg(~x)) inversible pour tout ~x ∈ R. Alors
Z Z Z Z
··· dy1 · · · dyn = ··· |det(Jg(~x)|dx1 · · · dxn . (2.29)
~g(R) R
53
Dans la construction de l’intégrale multiple d’une fonction f continue, la valeur

(le minimum) de la fonction sur chaque sous-pavé intervient dans la somme de
Riemann (2.16). On peut donc d’après ce qui précède énoncer également le théorème
suivant.
Théorème 12 Soit R un pavé dans Rn , ~g une application de Rn dans Rn dérivable

sur R et de matrice jacobienne Jg(~x)) inversible pour tout ~x ∈ R. Soit f une fonc-
tion continue sur ~g(R). Alors f ◦~g est continue sur R et donc intégrable et
Z Z Z Z
··· f (~y)dy1 · · · dyn = ··· f (~g(~x)) |det(Jg(~x))|dx1 · · · dxn . (2.30)
~g(R) R
Donnons deux exemples d’application de ce théorème.

Exemples dans R2 et R3 .
1. On cherche à calculer l’aire du disque Dr centré en 0 et de rayon r. Pour les
points (x, y) du disque, on peut introduire les coordonnées

x ρ cos(φ)
= ~g(ρ, φ) = , 0 < ρ ≤ r, 0 ≤ φ < 2π.
y ρ sin(φ)
Il est aisé d’écrire la matrice jacobienne de l’application ~g, à savoir

cos(φ) −ρ sin(φ)
Jg(ρ, φ) =
sin(φ) ρ cos(φ)
et le déterminant est det(Jg(ρ, φ)) = ρ. Donc, l’aire du disque est

Z Z Z r Z 2π Z r
dxdy = ρ dρ dφ = 2π ρ dρ = πr2 .
Dr 0 0 0
2. On cherche à calculer le volume de la sphère Sr centrée en 0 et de rayon r.

On introduit les cordonnées sphériques (ρ, θ, φ), 0 < ρ ≤ r, 0 < θ < π, 0 < φ < 2π
(voir (1.42) et le dessin de la figure 1.3 en remplaçant r par ρ)
   
x ρ sin(θ) cos(φ)
 y  = ~g(ρ, θ, φ) =  ρ sin(θ) sin(φ) 
z ρ cos(θ)
et on peut se convaincre que ceci permet de repérer tout point à l’intérieur de la

sphère (sauf les points sur l’axe z). Il convient en effet d’exclure les points sur
l’axe des z, si on veut que ~g soit un changement de variable, c’est-à-dire pour tout
point ~x de la sphère (sauf ceux sur l’axe des z), il existe un unique point (ρ, θ, φ)
tel que~x =~g(ρ, θ, φ). On remarque ici que pour calculer le volume d’un objet dans
R3 par une intégrale, on peut toujours étendre les bords d’intégration jusqu’aux
54
Intégrale de surface, flux d’un champ de vecteur
bornes des intervalles, ce qu’on peut déduire de la définition (car le volume de

ces bords est zéro). La matrice jacobienne de ~g est donnée par (1.43) (il suffit de
remplacer r par ρ) et son déterminant est
det(Jg(ρ, θ, φ)) = ρ2 sin(θ).
Donc, le volume de la sphère est

Z Z Z Z r Z π Z 2π
dxdydz = ρ2 sin(θ) dρ dθ dφ
Sr 0 0 0
Z rZ π Z r
2 4πr3
= 2π ρ sin(θ) dρ dθ = 4π ρ2 dρ = .
0 0 0 3
Avant de terminer ce chapitre, la notion de l’intégrale de surface sera abordée.
2.2.3 Intégrale de surface, flux d’un champ de vecteur

On considère une surface S de R3 que l’on suppose paramétrée par une fonc-
tion  
ϕ1 (u, v)
~ϕ(u, v) =  ϕ2 (u, v)  (2.31)
ϕ3 (u, v)
avec (u, v) dans un domaine D de R2 . Soit un point ~a sur la surface et (u0 , v0 ) tel
que
~a = ~ϕ(u0 , v0 ).
On suppose que ~ϕ est dérivable et on peut donc écrire
∂~ϕ ∂~ϕ
~ϕ(u0 + h1 , v0 + h2 ) = ~ϕ(u0 , v0 ) + h1 (u0 , v0 ) + h2 (u0, v0 ) + ||~h||~ε(~h) (2.32)
∂u ∂v
avec ~h de composantes h1 et h2 et lim~h→0~ε(~h) = 0. Bien entendu, ∂~ϕ/∂u et ∂~ϕ/∂v

sont les vecteurs obtenus en calculant les dérivées partielles des 3 composantes de
~ϕ par rapport à u et v. Ces vecteurs engendrent un plan et on peut se convaincre
que ce plan est tangent à la surface S au point ~a. Plus haut la notion du produit
vectoriel a été rappelé et le vecteur
∂~ϕ ∂~ϕ
(u0 , v0 ) ∧ (u0 , v0 )
∂u ∂v
est normale au plan tangent et sa norme euclidienne correspond à l’aire du par-
allélogramme engendré par ∂~ϕ/∂u et ∂~ϕ/∂v. Cette situation est schématisée sur la
55
F IGURE 2.6 – Schéma d’une surface paramétrée par ~ϕ(u, v) et aire élémentaire.
figure 2.6. On peut rendre ce parallélogramme arbitrairement petit en multipliant

ces vecteurs par h1 et h2 respectivement et
∂~ϕ ∂~ϕ ∂~ϕ ∂~ϕ

||(h1 (u0 , v0 )) ∧ h2( (u0 , v0 ))|| = |h1 | |h2 | || (u0 , v0 ) ∧ (u0 , v0 )||.
∂u ∂v ∂u ∂v
Comme pour la construction des intégrales multiples on peut parcourir la surface
et on peut sommer les aires des parallélogrammes de plus en plus petits ce qui
permet de définir ce qui est appelé l’intégrale de surface.
Définition 15 Soit une surface S de R3 paramétrée par une fonction ~ϕ(u, v) dérivable,
(u, v) étant dans un domaine D de R2 tel que ~ϕ(D) = S. Alors
Z Z
∂~ϕ ∂~ϕ
l’aire de S = || (u, v) ∧ (u, v)|| du dv. (2.33)
D ∂u ∂v
On écrit aussi
Z Z Z
∂~ϕ ∂~ϕ
dσ = || (u, v) ∧ (u, v)|| du dv. (2.34)
S D ∂u ∂v
où
∂~ϕ ∂~ϕ
dσ = ||
(u, v) ∧ (u, v)|| du dv (2.35)
∂u ∂v
désigne symboliquement “l’aire élémentaire”.
56
Traitons un petit exemple, à savoir la surface de la sphère de rayon r. C’est de

nouveau grâce aux coordonnées sphériques qu’on peut paramétrer la sphère par
(θ, φ), 0 < θ < π, 0 ≤ φ < 2π, à savoir
 
r sin(θ) cos(φ)
~ϕ(θ, φ) =  r sin(θ) sin(φ) 
r cos(θ)
et
   
r cos(θ) cos(φ) −r sin(θ) sin(φ)
∂~ϕ ∂~ϕ
(θ, φ) =  r cos(θ) sin(φ)  , (θ, φ) =  r sin(θ) cos(φ)  .
∂θ ∂φ
−r sin(θ) 0
Formons le produit vectoriel entre ces deux vecteurs, à savoir
 2 2 
r sin (θ) cos(φ)
∂~ϕ ∂~ϕ
(θ, φ) ∧ (θ, φ) =  r2 sin2 (θ) sin(φ)  . (2.36)
∂θ ∂φ
r2 cos(θ) sin(θ)
Prenons la norme de ce vecteur, ce qui donne (exercice)
∂~ϕ ∂~ϕ
|| (θ, φ) ∧ (θ, φ)|| = r2 sin(θ).
∂θ ∂φ
On en déduit
Z π Z 2π Z π
aire de la sphère = r2 sin(θ) dθ dφ = 2πr2 sin(θ) dθ = 4πr2 .
0 0 0
Certaines surfaces peuvent être paramétrées par

 
x
~ϕ(x, y) =  y  , (x, y) ∈ D, (2.37)
g(x, y)
pour une fonction g(x, y) dérivable.

Exemple : La sphère centrée en 0 et de rayon r a pour équation
x2 + y2 + z2 = r2
et la demi-sphère supérieure est paramétrée par

 
x
~ϕ(x, y) =  p y  , avec (x, y) tel que x2 + y2 ≤ r2
r2 − x2 − y2
57
(donc le domaine D de (x, y) est le disque de rayon r).
Revenons à (2.37), alors on peut se convaincre (exercice) que

 
− ∂g (x, y)
∂~ϕ ∂~ϕ  ∂x
(x, y) ∧ (x, y) =  − ∂g

∂y (x, y)  (2.38)
∂x ∂y
1
et en prenant la norme on trouve
s
2 2
∂g ∂g
dσ = 1 + (x, y) + (x, y) dx dy (2.39)
∂x ∂y
et l’intégrale
s
Z Z 2 2
∂g ∂g
1+ (x, y) + (x, y) dx dy (2.40)
D ∂x ∂y
donne l’aire de la surface en question.
Il reste à donner au moins la définition du flux d’un champ de vecteurs à travers

une surface. Soit donc une fonction ~f vectorielle des variables (x, y, z), on parle
alors souvent d’un champ de vecteur. On suppose donnée une surface S paramétrées
par ~ϕ(u, v) et il est bien connu que le produit vectoriel
∂~ϕ ∂~ϕ
(u, v) ∧ (u, v)
∂u ∂v
donne un vecteur qui est orthogonal (normal) aux deux vecteurs du produit vecto-
riel, donc ici ce produit vectoriel est normal au plan tangent en tout point ~ϕ(u, v)
de S. Soit alors ~n la normale unitaire, c’est-à-dire
1 ∂~ϕ ∂~ϕ
~n = (u, v) ∧ (u, v) (2.41)
|| ∂~ϕ (u, v) ∧ ∂~ϕ (u, v)|| ∂u
∂u ∂v
∂v
(en effet, la norme de ce vecteur est égale à 1). On peut énoncer la définition
suivante.
Définition 16 Soit un champ de vecteur ~f (x, y, z). On désigne par flux de ~f à
travers S l’intégrale
Z Z Z
~f ·~n dσ = ~f (~ϕ(u, v)) · ∂~
ϕ ∂~
ϕ
(u, v) ∧ (u, v) du dv (2.42)
S D ∂u ∂v
ce qui est une conséquence directe de la définition (2.35) de dσ et de la normale
unitaire ~n définie par (2.41).
58
Bien sûr, il peut s’agir d’une normale dans une des deux directions (en partant de
la surface) et on peut inverser la direction en permutant les deux vecteurs ∂~ϕ/∂u et
∂~ϕ/∂v dont on forme le produit vectoriel. Aussi, il s’agit dans la formule ci-dessus
bien sûr d’un produit scalaire entre le vecteur résultant du produit vectoriel et le
champ de vecteur ~f . Traitons un petit exemple.
Exemple : On cherche à calculer le flux à travers la demi-sphère supérieur du
champ de vecteur  
0
~f (x, y, z) =  0  .
z
On considère de nouveau le paramétrage par les coordonnées sphériques et alors
z = r cos(θ) sur la sphère. Utilisant l’expression (2.36) et notant S1/2 la demi-
sphère supérieure (remarquons dans ce cas 0 < θ ≤ π/2) on trouve à partir de la
définition (2.42)
Z Z π/2 Z 2π Z π/2
~f ·~n dσ = r3 cos2 (θ) sin(θ) dθ dφ = r3 2π cos2 (θ) sin(θ) dθ
S1/2 0 0 0
Z 1
2π 3
= r3 2π u2 du = r
0 3
(dans l’intégrale on a fait le changement de variable u = cos(θ) et donc dθ =
du
− sin(θ) tandis que si θ = π/2, u = 0 et si θ = 0, u = 1).
59
60
Chapitre 3
Produit scalaire, bases

orthonormées, transformations
orthogonales
3.1 Définition du produit scalaire dans Rn, espace

euclidien
Lors de l’exposé du calcul différentiel à plusieurs variables nous avons déjà
fait appel au produit scalaire et à la norme euclidienne. Dans ce chapitre nous
allons préciser ces notions. On considère l’espace vectoriel Rn , qui est en quelque
sorte l’espace vectoriel naturel en mécanique, bien que ce qui suit s’applique dans
une large mesure à n’importe quel espace vectoriel E sur R de dimension finie.
Définition 17 Un produit scalaire de Rn est une application notée < ., . >, qui
à un couple de vecteurs ~x et ~y associe un nombre réel h~x,~yi, ayant les propriétés
suivantes.
1. Cette application est symétrique, c’est-à-dire
h~x,~yi = h~y,~xi . (3.1)
2. Cette application est bilinéaire, c’est-à-dire elle est linéaire par rapport à
la première variable, et par symétrie également par rapport à la seconde
variable, c’est-à-dire
hλ~x + µ~y,~zi = λ h~x,~zi + µ h~y,~zi , (3.2)
pour tous vecteurs ~x, ~y,~z et tous nombres réels λ et µ.
61
Produit scalaire, bases orthonormées, transformations orthogonales
3. Le produit scalaire est non dégénéré, c’est-à-dire
h~x,~xi ≥ 0 et h~x,~xi = 0 si et seulement si~x = 0. (3.3)
On dit aussi que le produit scalaire est défini positif.
Un espace vectoriel muni d’un produit scalaire est appelé un espace euclidien.
Exemple : Soient deux vecteurs
   
x1 y1
~x =  ...  ,~y =  ...  ,
   
xn yn
alors le produit scalaire usuel (euclidien) est défini par

n
h~x,~yi = ∑ xi yi . (3.4)
i=1
Il est aisé de vérifier qu’il s’agit bien d’un produit scalaire selon la définition ci-
dessus.
La donnée d’un produit scalaire défini positif permet de définir une norme sur
Rn , notée ||.||, par p
||~x|| = h~x,~xi (3.5)
qui a un certain nombre de propriétés listées ci-après.
Propriétés de ||~x|| :
1.
||~x|| ≥ 0 et ||~x|| = 0 si et seulement si~x = 0. (3.6)
2. Soit λ un nombre réel, alors
||λ~x|| = |λ| ||~x|| (3.7)
3. Inégalité de Cauchy-Schwarz :
| h~x,~yi | ≤ ||~x|| ||~y|| (3.8)
4. Inégalité triangulaire :
||~x +~y|| ≤ ||~x|| + ||~y|| (3.9)
62
Définition du produit scalaire dans Rn , espace euclidien
Les propriétés 1 et 2 sont une conséquence directe de la définition. Pour prouver

l’inégalité de Cauchy-Schwarz, écrivons
hλ~x +~y, λ~x +~yi = λ2 h~x,~xi + 2λ h~x,~yi + h~y,~yi ,
avec λ nombre réel. Le membre ci-dessus à droite est un polynôme de degré 2 en

λ qui est toujours strictement positif, tant que
λ~x +~y 6= 0
par la propriété 1. Donc dans ce cas le polynôme n’a pas de racines réelles et donc
son discriminant est négatif et
4 h~x,~yi2 − 4 h~x,~xi h~y,~yi < 0
et donc
h~x,~yi2 < ||~x||2 ||~y||2
et l’inégalité de Cauchy-Schwarz s’en déduit en prenant la racine carrée. Reste le
cas où
λ~x +~y = 0
c’est-àdire le cas où les deux vecteurs sont colinéaires et ~y = −λ~x. Mais alors
h~x,~yi = h~x, −λ~xi = −λ||~x||2 .
Prenant la valeur absolue, et en observant que ||~y|| = |λ| ||~x||, l’inégalite de Cauchy-
Schwarz devient en fait une inégalité ce qui complète la preuve de la propriété 3.
Nous avons montré au passage que l’inégalité de Cauchy-Schwarz est une égalité,
si et seulement si les deux vecteurs sont colinéaires.
L’inégalité triangulaire peut se déduire aisément de l’inégalité de Cauchy-Schwarz.
En effet,
||~x +~y||2 = h~x +~y,~x +~yi = ||~x||2 + 2 h~x,~yi + ||~y||2

≤ ||~x||2 + 2| h~x,~yi | + ||~y||2 ≤ (||~x|| + ||~y||)2
(car l’inégalité de Cauchy-Schwarz permet de majorer 2| h~x,~yi | par 2||~x|| ||~y||).

Il y a une variante de l’inégalité triangulaire qui est souvent utile : écrivons
||~x|| = ||~x −~y +~y|| ≤ ||~x −~y|| + ||~y||
et d’où
||~x −~y|| ≥ ||~x|| − ||~y||.
63
On peut faire le même raisonnement en échangeant les rôles de ~x et ~y et
||~y −~x|| ≥ ||~y|| − ||~x||.
Or, d’après la propriété 2 on a bien sûr ||~y −~x|| = ||~x −~y|| et on en déduit que
||~x −~y|| ≥ | ||~x|| − ||~y|| |. (3.10)
Bien sûr, la notion de norme a été introduite pour mesurer en quelque sorte des
longueurs de vecteurs. Si l’on prend le produit scalaire euclidien et la norme as-
sociée, on trouve alors la notion élémentaire des longueurs de vecteurs dans R2
(voir le dessin de la figure 3.1). Dans ce cas, des considérations de géométrie
élémentaire permettent d’écrire que ~x = ||~x||(cos(θx )~e1 + sin(θx )~e2 ) ainsi que ~y =
||~y||(cos(θy )~e1 + sin(θy )~e2 ) et si on développe le produit scalaire on trouve
h~x,~yi = ||~x|| ||~y||(cos(θx ) cos(θy ) + sin(θx ) sin(θy )) = ||~x|| ||~y|| cos(θy − θx )
ce qui se résume en disant que l’angle θ entre les vecteurs ~x et ~y est tel que
h~x,~yi = ||~x|| ||~y|| cos(θ).
Si nous avons ici pour R2 et le produit scalaire euclidien la notion concrète d’an-
gle, on peut par extension définir d’une manière générale un écart angulaire entre
vecteurs de Rn muni d’un produit scalaire.
Définition 18 On appelle angle (ou écart angulaire) entre deux vecteurs ~x et ~y

non nuls de Rn , le nombre réel θ ∈ [0, π], tel que
h~x,~yi
cos(θ) = (3.11)
||~x|| ||~y||
c’est-à-dire
h~x,~yi = ||~x|| ||~y|| cos(θ). (3.12)
3.2 Vecteurs orthogonaux, bases orthonormées

Soit donc Rn muni d’un produit scalaire h., .i (ce sera en général le produit
scalaire euclidien). On dira que deux vecteurs ~x et ~y sont orthogonaux, si
h~x,~yi = 0 (3.13)
64
Vecteurs orthogonaux, bases orthonormées
F IGURE 3.1 – Vecteurs dans R2 et écart angulaire.
(donc si leur produit scalaire est nul). La notion d’être “‘orthogonal” vient de la
relation (3.12), car alors (si~x et~y sont non nuls) h~x,~yi = 0 implique θ = π/2, donc
égal à “l’angle droit”. Par la suite on notera une base de Rn par
{~v1 ,~v2 , · · · ,~vn } ,
étant précisé qu’il ne s’agira pas forcément de la base canonique, pour laquelle on
réserve la notation
{~e1 ,~e2 , · · · ,~en } .
Exemple : Soit R3 , alors on montre aisément que les 3 vecteurs

     
1 0 1
~v1 =  0  , ~v2 =  1  , ~v3 =  1 
1 1 0
forment une base de R3 (exercice).
Définition 19 Une base {~v1 ,~v2 , · · · ,~vn } est dite orthonormée si elle vérifie les
conditions
||~v1 || = ||~v2 || = · · · = ||~vn || = 1 et ~vi ,~v j = 0 si i 6= j. (3.14)
Supposons que nous ayons n vecteurs qui satisfont aux conditions (3.14), alors
ces vecteurs forment forcément une base. En effet il suffit de montrer que
λ1~v1 + λ2~v2 + · · · + λn~vn = 0 (3.15)
65
implique que λ1 = λ2 = · · · = λn = 0. Pour prouver cette assertion, formons le

produit scalaire de (3.15) avec ~vi : on trouve (par orthogonalité entre les vecteurs)
que
λi h~vi ,~vi i = λi = 0,
et ceci pour i = 1, · · ·, n.
3.2.1 Procédure d’orthonormalisation de Gram-Schmidt

Soit donc un espace euclidien (donc Rn muni d’un produit scalaire) et une
base {~v1 ,~v2 , · · · ,~vn } quelconque. A partir de cette base, on peut construire une
base orthonormée {~w1 ,~w2 , · · · ,~wn } par ce qui est appelée la procédure orthonor-
malisation de Gram-Schmidt qui s’énonce comme suit.
– D’abord on calcule ||~v1 || et
1
~w1 = ~v1 .
||~v1 ||
– On forme
~u2 =~v2 − h~v2 ,~w1 i~w1 ,
et ce vecteur~u2 est bien orthogonal à ~w1 comme on peut le vérifier aisément.
Ensuite on normalise et
1
~w2 = ~u2 .
||~u2||
– On forme
~u3 =~v3 − h~v3 ,~w1 i~w1 − h~v3 ,~w2 i~w2 ,
et on vérifie que ce vecteurs et bien orthogonal à ~w1 et ~w2 . Ensuite on nor-
malise et
1
~w3 = ~u3 .
||~u3||
On poursuit ce procédé pour obtenir la base complète.
La procédure peut se mettre sous une forme compacte.
1
~w1 = ~v1 ;
||~v1 ||
i−1
1
~ui = ~vi − ∑ ~vi ,~w j ~w j , ~wi = ~ui , i = 2, · · · n. (3.16)
j=1 ||~ui ||
On peut faire remarquer ici que si on exprime un vecteur ~x dans une base or-
thonormée {~w1 ,~w2 , · · · ,~wn } de Rn , c’est-à-dire si on écrit
n
~x = ∑ ai~wi , (3.17)
i=1
66
Sous-espaces vectoriels orthogonaux
alors
n n n
||~x||2 = h~x,~xi = ∑ ∑ aia j ~wi,~w j = ∑ a2i (3.18)
i=1 j=1 i=1
dans la mesure où
~wi ,~w j = 0, si i 6= j et h~wi ,~wi i = 1.
Soient maintenant deux vecteurs ~x et ~y qu’on exprime dans la base orthonormée,

à savoir
n n
~x = ∑ ai~wi , ~y = ∑ bi~wi . (3.19)
i=1 i=1
Alors on peut se convaincre facilement que
n
h~x,~yi = ∑ ai bi . (3.20)
i=1
3.2.2 Sous-espaces vectoriels orthogonaux

D’une manière générale, soit un sous espace vectoriel E p de dimension p < n
de Rn . Alors on définit l’espace vectoriel E p⊥ orthogonal à E p comme étant
E p⊥ = {~z ∈ Rn tel que pour tout~x ∈ E p , h~z,~xi = 0}. (3.21)
Evidemment, si h., .i est un produit scalaire de Rn , il l’est pour

le sous espace
vectoriel E p . On peut donc construire une base othonormée ~w1 , · · ·~w p de E p
(il suffit d’appliquer le procédé d’orthonormalisation à toute base de E p ). Soit
maintenant un vecteur ~x quelconque de Rn et formons
p
~z =~x − ∑ h~x,~wi i~wi . (3.22)
i=1
On vérifie aisément que

~z,~w j = 0 (3.23)
et donc~z ∈ E p⊥ . Notons
p
~y = ∑ h~x,~wi i~wi ∈ E p (3.24)
i=1
alors d’après ce qui précède on peut écrire ~x sous la forme d’une somme
~x =~y +~z, ~y ∈ E p , ~z ∈ E p⊥ . (3.25)
67
C’est une somme directe car si on suppose que
~x ∈ E p ∩ E p⊥ (3.26)
alors~x est forcément orthogonal à lui-même et donc h~x,~xi = 0 ce qui implique que
~x = 0. On peut donc décomposer Rn en ce qui est appelée une somme directe
Rn = E p ⊕ E p⊥ (3.27)
et un résultat général quant aux espaces vectoriels (ce résultat fait partie des cours
de base d’algèbre linéaire) permet d’affirmer que la dimension de l’espace vecto-
riel Rn (donc n) est égale à la somme des dimensions des espaces vectoriels qui
composent la somme directe. Nous avons donc le résultat suivant.
Si la dimension de E p est p, alors la dimension de E p⊥ est n − p. (3.28)
Exemple : Soit un vecteur  

a1
~a =  ... 
 
an
non nul. Ce vecteur engendre un sous-espace vectoriel E1 de dimension 1. Soit
h., .i le produit scalaire euclidien. Alors l’ensemble des vecteurs~x de coordonnées
xi , i = 1, · · ·, n, tels que
n
h~a,~xi = ∑ xi ai = 0 (3.29)
i=1
forment un sous espace vectoriel E1⊥ de dimension n − 1 qu’on appelle un hyper-

plan de Rn .
Dans une vision d’espace affine de dimension n associé à l’espace vectoriel Rn ,

cet hyperplan passe par l’origine noté O. Si on veut faire passer l’hyerplan par un
point  
p1
~ = . 
OP  .. 
pn
alors l’équation devient
n
∑ (xi − pi)ai = 0,
i=1
~ et d’après les
car on fait simplement une translation de l’origine initiale O à OP
~ = OX
relations de Chasles dans l’espace affine, PX ~ − OP~ avec OX ~ =~x.
68
Transformations et matrices orthogonales
Prenons le cas particulier de R3 , où on note les vecteurs

 
x
 y .
z
Tout plan passant par un point particulier

 
x0
 y0 
z0
a donc pour équation
a(x − x0 ) + b(y − y0 ) + c(z − z0 ) = 0
ou encore
ax + by + cz = h avec h = ax0 + by0 + cz0
pour (a, b, c) 6= (0, 0, 0).
3.2.3 Transformations et matrices orthogonales

Soit donc Rn muni d’un produit scalaire h., .i et soit une application linéaire ~f
de Rn dans lui-même.
Définition 20 L’application linéaire ~f est une transformation orthogonale, si ~f

préserve les longueurs, donc si pour tout vecteur ~x
||~f (~x)|| = ||~x||. (3.30)
A partir de cette définition on peut déduire un ensemble de conséquences.

Propriétés :
1. Une transformation orthogonale est inversible.
En effet, vu qu’il s’agit d’une application linéaire, il suffit de montrer qu’elle
est injective. Or, ||~f (~x)|| = ||~x|| = 0 implique~x = 0.
2. La composition de deux transformations orthogonales est une transforma-
tion orthogonale.
En effet, soient ~f1 et ~f2 des transformations orthogonales. Alors

|| ~f2 ◦ ~f1 (~x)|| = ||~f2 ~f1 (~x) || = ||~f1 (~x)|| = ||~x||.
69
3. Soient deux vecteurs ~x et ~y alors

D E
~f (~x), ~f (~y) = h~x,~yi . (3.31)
En effet, on peut écrire

2 h~x,~yi = ||~x +~y||2 − ||~x||2 − ||~y||2
et donc aussi
D E
2 ~f (~x), ~f (~y) = ||~f (~x) + ~f (~y)||2 − ||~f (~x)||2 − ||~f (~y)||2
Mais est linéaire et donc ||~f (~x) + ~f (~y)|| = ||~f (~x +~y)||). Par définition ~f
préserve les longueurs et les seconds membres des deux équations ci-dessus
sont donc égaux. On en déduit qu’on a aussi
D E
2 ~f (~x), ~f (~y) = 2 h~x,~yi
et d’où le résultat.
4. L’application transforme une base orthonormée en une base orthonormée.
En effet, soit {~w1 , · · ·,~wn } une base orthonormée alors
D E
~f (~wi ), ~f (~w j ) = ~wi ,~w j = 0 si i 6= j
D E
~ ~
et bien sûr f (~wi ), f (~wi ) = 1.
5. La matrice A de ~f dans une base orthonormée {~w1 , · · · ,~wn } vérifie
AT A = I et notamment AT = A−1 , (3.32)
avec I la matrice identité n × n et AT la matrice transposée de A.
En effet, soit la colonne j de la matrices A, alors les coefficients de cette
colonne, que l’on note ai j , i = 1, · · · , n, sont les composantes du vecteur
~f (~w j ) dans la base orthonormée. On sait aussi que les coefficients notés
aTij de AT sont tels que
aTij = a ji ,
par la définition de la transposition d’une matrice. Donc, si l’on note (AT A)i j
les éléments de AT A, alors
n n D E 0 si i 6= j
T T ~ ~
(A A)i j = ∑ aik ak j = ∑ aki ak j = f (~wi ), f (~w j ) =
k=1 k=1
1 si i = j
(3.33)
d’après la relation du type (3.20) et la propriété 3 ci-dessus.
70
6. Les vecteurs colonne de la matrice A construite comme ci-dessus sont or-

thogonaux deux à deux pour le produit scalaire euclidien de Rn et de norme
1 pour ce produit scalaire.
En effet, ce résultat est équivalent à ce qui vient d’être démontré (voir
(3.33)).
Définition 21 On appelle matrice n × n orthogonale A la matrice d’une transfor-

mation orthogonale de Rn par rapport à une base orthonormée de Rn . Le pro-
duit de deux matrices orthogonales est une matrice orthogonale, ce qui est une
conséquence de la propriété 2 ci-dessus.
De la relation (3.32) on déduit que pour une matrice orthogonale,
det(AT A) = (det(A))2 = 1, donc det(A) = ±1. (3.34)
En effet, le déterminant d’un produit de matrices est le produit des déterminants

des matrices qui composent le produit ; aussi, le déterminant d’une matrice A est
égal au déterminant de la matrice transposée AT . Ce sont des propriétés qui ont
été vues dans un cours d’algèbre linéaire de base.
Les matrices orthogonales A dont le det(A) = 1 sont appelées les matrices orthog-
onales directes.
Les matrices orthogonales de R2 et R3

Soit R2 et une matrice 2 × 2

a b
A= .
c d
Soit une base orthonormée {~w1 ,~w2 }. Ecrivons les conditions pour que A soit une
matrice orthogonale directe. Pour que A soit une matrice orthogonale, les coeffi-
cients des vecteurs colonnes de A doivent être reliés à une transformation orthog-
onale par
~f (~w1 ) = a~w1 + c~w2 , ~f (~w2 ) = b~w1 + d~w2
D E
et ~f (~wi ), ~f (~wi ) = ||~wi ||2 = 1, i = 1, 2 implique que
a2 + c2 = 1, b2 + d 2 = 1. (3.35)
D’après la propriété 6 ci-dessus A est une matrice orthogonale si en plus
ab + cd = 0. (3.36)
71
Et enfin, le déterminant doit être égal à 1, d’où
ad − cb = 1. (3.37)
De (3.35) on déduit
a = cos(θ), c = sin(θ), 0 ≤ θ < 2π, (3.38)
car n’importe quel élément (a, b) de R2 peut être représenté par a = r cos(θ) et
b = r sin(θ). De même,
b = cos(ϕ), d = sin(ϕ), 0 ≤ ϕ < 2π. (3.39)
De (3.36) on déduit
cos(θ) cos(ϕ) + sin(θ) sin(ϕ) = 0, d’où cos(ϕ − θ) = 0,
donc
π
ϕ = θ+ + kπ, k entier. (3.40)
2
La relation (3.37) se traduit par
cos(θ) sin(ϕ) − cos(ϕ) sin(θ) = 1, d’où sin(ϕ − θ) = 1,
donc
π
ϕ = θ++ 2lπ, l entier. (3.41)
2
Tenant compte de (3.40), on peut conclure que ϕ = θ + π/2 et par conséquent
cos(ϕ) = − sin(θ) et sin(ϕ) = cos(θ). Donc, les matrices orthogonales directes de
R2 sont des matrices de rotation

cos(θ) − sin(θ)
A= . (3.42)
sin(θ) cos(θ)
Dans R3 , on peut montrer que les matrices 3 × 3 orthogonales directes (donc de

déterminant = 1) sont génériquement de la forme
 
1 0 0
A =  0 cos(θ) − sin(θ)  (3.43)
0 sin(θ) cos(θ)
La matrice étant celle d’une transformation orthogonale ~f , on peut affirmer qu’il

existe ~w1 (de norme 1) tel que ~f (~w1 ) = ~w1 . En fait, ce résultat est une conséquence
du fait que det(A) = 1 et on peut en déduire (vu que c’est une matrice 3 × 3) que
72
A possède une valeur propre = 1. La notion de valeur propre et de vecteur propre

sera approfondie un peu plus tard dans le cours et l’assertion pourra alors être
prouvée. On complète ~w1 pour former une base orthonormée {~w1 ,~w2 ,~w3 } et soit
H le plan engendré par {~w2 ,~w3 } qui est donc orthogonal à E1 engendré par ~w1 .
Ce plan est stable par ~f car
D E D E
~f (~wi ),~w1 = ~f (~wi ), ~f (~w1 ) = h~wi ,~w1 i = 0 (3.44)
ce qui résulte de la définition d’une transformation orthogonale. Donc, ~f restreint

au plan (de dimension 2) H agit de manière équivalente comme une transforma-
tion orthogonale dans R2 . Ce qui justifie la structure de la matrice (3.43) et la
forme de la sous matrice 2 × 2 peut se déduire de ce qui précède pour les matrices
orthogonales de R2 . On peut remarquer que d’appliquer la matrice A à un vecteur
dans la base orthonormée correspond géométriquement à opérer une rotation au-
tour de l’axe ~w1 .
73
74
Chapitre 4
Formes réduites de matrices
4.1 Valeurs et vecteurs propres d’une matrice

On considère l’espace vectoriel Rn , mais aussi l’espace vectoriel Cn , dans la
mesure où, comme nous allons le voir, les valeurs propres d’une matrice, même
à coefficients réels, peuvent être complexes. Soit une application linéaire ~f de Rn
dans Rn .
Définition 22 Un vecteur ~x 6= 0 est appelé vecteur propre de ~f associé à la valeur

propre λ ∈ C, si
~f (~x) = λ~x. (4.1)
Bien sûr, ayant choisi une base de Rn , par exemple la base canonique
{~e1 , · · · ,~en } ,
on associe à ~f une matrice n × n, que l’on note A. Les éléments des colonnes
successives de A sont bien entendu les composantes dans la base canonique des
vecteurs ~f (~e j ), j = 1, · · ·, n. Donc, si on exprime ~x dans la base canonique, la
définition (4.1) est équivalente à l’assertion, qu’il existe un vecteur ~X non nul et
un nombre λ ∈ C tels (dans le formalisme matrices-vecteurs on note désormais
les vecteurs en majuscules)
A~X = λ~X. (4.2)
On note I la matrice identité n × n, c’est-à-dire la matrice dont tous les coeffi-
cients sont nuls hormis les éléments de la diagonale qui sont égaux à 1. Bien
évidemment, I~X = ~X . L’équation ci-dessus peut encore se formuler ainsi : il ex-
iste λ ∈ C et un vecteur non nul ~X (qu’on doit supposer être dans Cn ) tels
(A − λI) ~X = 0. (4.3)
75
Rappels au sujet du noyau d’une matrice :

On rappelle la notion de noyau d’une matrice n × n notée M, qui est composé de
l’ensemble des vecteurs ~X tels que
M~X = 0. (4.4)
On sait que si seul le vecteur ~X = 0 est solution de (4.4), alors la matrice est in-
versible et det(M) 6= 0. Si par contre des vecteurs non nuls ~X sont tels que (4.4) est
vérifié, alors la matrice n’est pas inversible et det(M) = 0. Aussi, on peut montrer
que l’ensemble des ~X qui vérifient (4.4) est un sous-espace vectoriel que l’on note
en général Ker(M).
De ce qui précède, on peut conclure que si (4.3) est vérifié, alors la matrice A − λI
a un noyau non nul. Elle n’est par conséquent pas inversible ce qui se traduit par
det (A − λI) = 0 (4.5)
Rappels au sujet du déterminant d’une matrice :

On rappelle la notion du déterminant d’une matrice n × n noté M. On note les
vecteurs colonnes de M par M ~ j , j = 1, · · ·, n, c’est-à-dire (en notant mi j , i = 1, · · ·, n, j =
1, · · ·, n les éléments de M)
   
m11 m1n
 m21   m2n 
~1=
M

 ..  , · · · , M ~n=  ..  .

(4.6)
 .   . 
mn1 mn1
Alors le déterminant de la matrice M (à coefficients réels) est par définition une
application
ϕ(M~ 1 , · · ·, M
~ n) ∈ R
qui est linéaire par rapport à chacun des vecteurs et alternée, c’est-à-dire ϕ prend
la valeur opposée si on permute deux vecteurs. Il a été vu, que l’on peut calculer
le déterminant de proche en proche, c’est-à-dire si l’on note Mi j la matrice (n −
1) × (n − 1) obtenue à partir de M en enlevant la i ème ligne et la j ème colonne,
alors
n
det(M) = ∑ (−1)i+ j mi j det(Mi j ) (4.7)
i=1
et on dit que l’on développe le déterminant suivant la j ème colonne. On peut de

manière équivalente développer aussi suivant la i ème ligne, ce qui donne
n
det(M) = ∑ (−1)i+ j mi j det(Mi j ). (4.8)
j=1
76
Valeurs et vecteurs propres d’une matrice
A partir de la définition du déterminant, on peut montrer que le déterminant d’une

matrice n × n est égal au déterminant de sa transposée et que le déterminant du
produit de deux matrices carrées est égal au produit des déterminants, donc
det(M T ) = det(M) et det(LM) = det(L) det(M).
Revenons sur le déterminant (4.5) et notant ai j les éléments de A, il faut calculer
a11 − λ a12 ··· a1n

a21 a22 − λ · · · a2n
.. .. ..
. . . , (4.9)
.. .. ..
. . .
an1 ··· an n−1 ann − λ
notant le déterminant d’une matrice avec des barres à gauche et à droite des termes
de la matrice comme c’est la coutume. On définit M(λ) = A−λI et si on développe
le déterminant de M(λ) par rapport à la première colonne, on obtient d’après les
formules ci dessus
n
det(M(λ)) = (a11 − λ)det(M11 (λ)) + ∑ ai1 (−1)i+1 det(Mi1 (λ)).
i=2
Or,
a22 − λ · · · a2n
det(M11 (λ)) = .
.. . .. ..
.
an2 · · · ann − λ
et on observe ici que la matrice M11 (λ) a la même structure que la matrice du
départ, avec une ligne et une colonne en moins, et avec les termes aii − λ, i =
2, · · ·n sur la diagonale. On peut se convaincre que les matrices Mi1 (λ) avec
i = 2, · · · , n n’ont cependant chacune seulement n − 2 coefficients ou λ apparaı̂t.
On peut donc affirmer (le déterminant de chaque sous-matrice Mi1 (λ) étant une
certaine combinaison linéaire de produits particuliers entre n − 1 éléments occu-
pant des positions distinctes à l’intérieur de la matrice) que
n
∑ (−1)i+1ai1det(Mi1(λ))
i=2
est un polynôme en λ de degré au plus n−2. Si on développe maintenant det(M11 (λ))

par rapport à la première colonne, le facteur (a22 − λ) va apparaı̂tre devant le
77
déterminant d’une sous-matrice (n − 3) × (n − 3) etc. On peut alors se convaincre

que
det (A − λI) = (a11 − λ)(a22 − λ) · · ·(ann − λ) + R(λ) (4.10)
avec R(λ) un polynôme en λ de degré au plus n − 2.
Ceci nous conduit au résultat suivant, à savoir
det (A − λI) = p(λ) = (−1)n λn + a1 λn−1 + · · · + an−1 λ + an (4.11)
avec donc p(λ) polynôme de degré exactement n. En plus, on peut montrer que
le coefficient a1 devant λn−1 et le coefficient an ont une expression particulière, à
savoir
n
a1 = (−1)n+1 ∑ aii et an = det(A). (4.12)
i=1
En effet, d’après (4.10) le terme en λn−1 est forcément le terme en λn−1 du produit
(a11 − λ)(a22 − λ) · · ·(ann − λ),
ce polynôme pouvant s’écrire
(−1)n (λ − a11 )(λ − a22 ) · · · (λ − ann )

= (−1)n λn − (a11 + · · · + ann )λn−1 + q(λ)
avec q(λ) un polynôme de degré ≤ n − 2. L’expression de an provient du fait que

an = p(0) = det(A) d’après la définition de p(λ).
Notons que la somme ∑ni=1 aii des termes sur la diagonale de A est appelée la trace
de A (notée trace(A)).
Vérifions cette assertion pour n = 2.
Exemple n = 2 :
a11 − λ a12
= (a11 − λ)(a22 − λ) − a12 a21
a21 a22 − λ
= λ2 − (a11 + a22 )λ + (a11a22 − a12 a21 ). (4.13)
On peut énoncer ici quelques résultats fondamentaux quant aux valeurs propres
d’une matrice A, qui sont donc les zéros du polynôme p(λ) donné par (4.11) ap-
pelé polynôme caractéristique. On peut donc énoncer le résultat suivant.
Théorème 13 Soit A une matrice carré n × n à coefficients réels (ou complexes).
Alors A possède n valeurs propres, qui peuvent être réelles ou complexes, qui sont
les zéros du polynôme caractéristique det(A − λI) = p(λ), étant précisé que des
zéros multiples de p(λ) sont comptés avec leurs multiplicités.
78
Ce théorème fondamental de l’algèbre linéaire est une conséquence immédiate du

théorème fondamental de l’algèbre, à savoir qu’un polynôme de degré n à coeffi-
cients réels ou complexes a exactement n zéros complexes (dans cette terminolo-
gie, un nombre réel est un nombre complexe avec la partie imaginaire nulle). Ce
résultat correspond à l’assertion (bien sûr admise ici) que le corps des nombres
complexes est algébriquement clos. Il convient d’être conscient ici que pour une
matrice réelle, les valeurs propres peuvent être complexes.
Remarque importante :
Si l’on note λi , i = 1, · · · , n les n valeurs propres de A, alors d’après un résultat bien
connu sur les polynômes on peut factoriser le polynôme caractéristique (4.11)
p(λ) = (−1)n λn + a1 λn−1 + · · · + an−1 λ + an

= (−1)n (λ − λ1)(λ − λ2 ) · · ·(λ − λn ). (4.14)
Mais alors
n
a1 = (−1)n+1 ∑ λi , an = λ 1 λ 2 · · · λ n . (4.15)
i=1
Or, nous avons constaté plus haut que a1 = (−1)n+1 trace(A) et an = det(A), d’où
le résultat important
n n
∑ λi = ∑ aii, det(A) = λ1 λ2 · · · λn , (4.16)
i=1 i=1
c’est-à-dire la somme des valeurs propres d’une matrice A est égale à la somme
des éléments sur la diagonale de A et le produit des valeurs propres est égal au
déterminant de A.
Nous allons énoncer quelques propriétés générales des valeurs et vecteurs propres
de matrices.
Propriétés générales :
1. Soit λ valeur propre de A, alors un vecteur propre associé ~X ne peut être
défini qu’à une constante c multiplicative (réelle ou complexe) près.
En effet
A~X = λ~X implique cA~X = cλ~X et donc A(c~X) = λ(c~X).
Donc, si ~X 6= 0 est vecteur propre, c~X est aussi vecteur propre.
2. Si une matrice est inversible, alors toutes ses valeurs propres sont non nulles
et si λ est valeur propre de A, alors λ−1 est valeur propre de la matrice in-
verse A−1 .
79
En effet, une matrice inversible n’a pas de noyau, c’est-à-dire Ker(A) = {0}
et donc A~X = 0~X = 0 implique ~X = 0 et 0 n’est donc pas valeur propre. Soit
donc λ valeur propre de A, de vecteur propre ~X 6= 0, c’est-à-dire
A~X = λ~X.
Appliquant A−1 aux deux membres ci-dessus et divisant par λ 6= 0, on ob-

tient bien
1
A−1~X = ~X
λ
et on déduit que ~X est vecteur propre de A−1 de valeur propre 1/λ.
3. Si λ est valeur propre de A, alors λ j est valeur propre de A j , la puissance

j ème de A. Plus généralement, soit
m
Q(A) = ∑ q jA j
j=0
un polynôme de A (avec la convention que A0 = I la matrice identité n × n),

alors les valeurs propres de Q(A) sont
m
Q(λ) = ∑ q jλ j
j=0
avec λ valeur propre de A.
Ce résultat se démontre aisément en observant tout d’abord, que si A~X = λ~x,

alors en multipliant à gauche et à droite par A on obtient
A2~X = λA~X = λ2~X, ensuite A3~X = λ2 A~X = λ3~X etc.
et donc A j ~X = λ j ~X et λ j est valeur propre de A j de vecteur propre ~X associé

à la valeur propre λ de A. On peut donc déduire (pour λ valeur propre de A
de vecteur propre ~X 6= 0)
! !
m m m
Q(A)~X = ∑ q j A j ~X = ∑ q j A j ~X = ∑ q j λ j ~X = Q(λ)~X
j=0 j=0 j=0
et on en déduit bien que Q(λ) est valeur propre de Q(A) de vecteur propre ~X .
80
4. Soit une matrice A à coefficients réels. Alors si λ = λr +iλi ∈ C, avec λi 6= 0,

est valeur propre de A de vecteur propre ~X = ~Xr +i~Xi ∈ Cn , alors le conjugué
complexe λ̄ = λr − iλi est valeur propre de A de vecteur propre ~X¯ = ~Xr − i~Xi .
En effet, prenant le conjugué complexe de A~X = λ~X, on trouve Ā ~X¯ = λ̄ ~X.

¯
Or, A étant une matrice réelle, Ā = A et la propriété s’ensuit.
Exemple :
Soit
 
1 0 0
A =  0 a −b  , avec a 6= 0, b 6= 0 des nombres réels.
0 b a
Alors
1−λ 0 0
det(A − λI) = 0 a − λ −b = (1 − λ)(λ2 − 2aλ + a2 + b2 ).
0 b a−λ
On déduit aisément que les trois valeurs propres sont
λ1 = 1, λ2 = a + i|b|, λ3 = a − i|b|.
On note ~Xi , i = 1, 2, 3 les vecteurs propres associés aux valeurs propres λi , i =
1, 2, 3 et il et facile de voir que l’on peut choisir
 
1
~X1 =  0  .
0
Pour déterminer ~X2 (dont on note les composantes x, y, z), il faut résoudre
    
1 − (a + i|b|) 0 0 x 0
(A − (a + i|b|)~X2 =  0 −i|b| −b   y  =  0  .
0 b −i|b| z 0
On en déduit que x = 0 et y, z sont solution de
−i|b|y −bz = 0 ib
et donc y = z.
by −i|b|z = 0 |b|
On peut choisir comme vecteurs propres
   
0 0
~X2 =  ib  , ~X3 =  −ib 
|b| |b|
81
On revient sur le polynôme caractéristique de la matrice (4.11) d’une matrice A

carrée et on suppose que les zéros de p(λ) sont deux à deux distincts, c’est-à-dire
P(λi ) = 0, i = 1, · · · , n et λi 6= λ j si i 6= j. (4.17)
On peut alors énoncer le théorème suivant.

Théorème 14 Si les zéros λi , i = 1, · · ·n du polynôme caractéristiques p(λ) =
det(A −λI) sont deux à deux distincts, alors les vecteurs propres ~Xi 6= 0, i = 1, · · · n
associés (avec A~Xi = λi~Xi ) forment une base de Cn .
Une première remarque s’impose ici : vu que les valeurs propres, même pour une
matrice réelle, peuvent être complexes, les vecteurs propres le seront aussi et il
faut donc se placer dans Cn . Pour prouver le théorème, il faut montrer que les n
vecteurs propres sont linéairement indépendants. Soit donc d’abord ~X1 et ~X2 et il
faut montrer que
µ1~X1 + µ2~X2 = 0 (4.18)
implique µ1 = µ2 = 0. Appliquons A à la relation ci dessus alors

A µ1 X1 + µ2 X2 = µ1 A~X1 + µ2 A~X2 = µ1 λ1~X1 + µ2 λ2~X2 = 0
~ ~
Multipliant (4.18) par λ2 et soustrayant la dernière expression ci-dessus, on trouve
µ1 (λ2 − λ1 )~X1 = 0
et dans la mesure où λ2 − λ1 6= 0, on déduit que µ1 = 0 et par (4.18) qu’alors µ2 =

0. On peut donc déduire que ~X1 et ~X2 sont linéairement indépendants. On procède
alors par récurrence, en supposant avoir prouvé que les vecteurs ~Xi , i = 1, · · ·, m
sont linéairement indépendants. On écrit donc
µ1~X1 + · · · + µm~Xm + µm+1~Xm+1 = 0. (4.19)
On y applique la matrice A et donc
µ1 λ1~X1 + · · · + λm µm~Xm + λm+1 µm+1~Xm+1 = 0.
On multiplie (4.19) par λm+1 , on soustrait l’expression ci-dessus et trouve

m
∑ µi(λm+1 − λi)~Xi = 0.
i=1
Or, d’après l’hypothèse que les valeurs propres sont deux à eux distincts, λm+1 −
λi 6= 0, i = 1, · · ·, m et on en déduit, les vecteurs ~Xi , i = 1, · · ·, m étant linéairement
82
Diagonalisation d’une matrice
indépendants par hypothèse de récurrence, que µ1 = · · · = µm = 0. Mais alors

d’après (4.19) on a aussi µm+1 = 0. Finalement, on prouve ainsi de proche en
proche que les vecteurs propres ~Xi , i = 1, · · ·, n sont linéairement indépendants et
forment donc une base de Cn .
Le fait que les vecteurs propres ~Xi , i = 1, · · · , n sont linéairement indépendants

(lorsque les valeurs propres dont deux à deux distincts) a de nombreuses conséquences.
Prenons par exemple les coefficients du polynôme caractéristique (4.11) de la ma-
trice A et formons le polynôme de la matrice A
p(A) = (−1)n An + a1 An−1 + · · · + an−1 A + an I.
On peut donc écrire, d’après la propriété 3 ci-dessus, que
p(A)~Xi = p(λi )~Xi = 0, i = 1, · · ·n.
car p(λi ) = 0, λi étant valeur propre. Mais

n alors p(A) o est une matrice telle que si
on applique tous les vecteurs de la base ~X1 , · · ·, ~Xn , alors le résultat est zéro. Vu
que chaque vecteur ~X peut être écrit dans cette base, on en déduit que P(A)~X = 0
pour tout vecteur ~X et donc p(A) est la matrice identiquement égale à zéro. Ici,
le résultat est prouvé pour le cas où les zéros du polynôme caractéristique sont
deux à deux distincts. On peut montrer que c’est vrai même dans le cas général
(ce que l’on ne démontre pas ici), ce qui est connu sous le nom du théorème de
Cayley-Hamilton qui s’énonce comme suit.
Théorème 15 Si p(λ) = det(A −λI) est le polynôme caractéristique la la matrice

A, alors
p(A) = (−1)n An + a1 An−1 + · · · + an−1 A + an I = 0. (4.20)
4.2 Diagonalisation d’une matrice

On reprend donc le polynôme caractéristique d’une matrice A carré n × n
p(λ) = det (A − λI) = (−1)n λn + a1 λn−1 + · · · + an−1 λ + an
et on suppose que ses zéros λi , i = 1, · · · , n sont deux à deux distincts, c’est-à-dire

λ j 6= λi si j o6= i. On a vu alors que les vecteurs propres associés forment une base
n
~X1 , · · · , ~Xn . On a bien sûr
(A − λi I)~Xi = 0, ~Xi 6= 0, i = 1, · · · , n,
83
donc les ~Xi engendrent les espaces vectoriels Ker(A − λi I) et dans le cas où les
valeurs propres sont deux à deux distincts chacun de ces espaces est de dimension
1. Aussi, tout vecteur ~x ∈ Cn peut alors s’écrire sous la forme
n
~x = ∑ x′j~X j (4.21)
j=1
avec les x′i , i = 1, · · · , n déterminé de manière unique. On a introduit plus haut la

notion de somme directe et de ce qui précède on peut dire que l’espace vectoriel
Cn est alors une somme directe des sous-espaces Ker(A − λi I) de dimension 1 et
Cn = Ker(A − λ1 I) ⊕ Ker(A − λ2 I) ⊕ · · · ⊕ Ker(A − λnI). (4.22)
Les vecteurs ~X j s’écrivent naturellement (dans la base canonique {~e1 , · · ·,~en })

sous la forme  
x1 j
 x2 j 
~X j =  
 ..  , j = 1, · · ·, n (4.23)
 . 
xn j
et on forme la matrice P donc les vecteurs colonnes sont les ~X j successifs, à savoir
 
x11 x12 · · · x1n
 x21 x22 · · · x2n 
 
P =  .. .. .. ..  (4.24)
 . . . . 
xn1 xn2 · · · xnn
et cette matrice est inversible (ces vecteurs colonnes étant linéairement indépendants).
Soit maintenant un vecteur~x et notant ses composantes dans la base canonique par
 
x1
 x2 
~X =  
 ..  .
 . 
xn
Alors la relation (4.21) peut s’écrire

   
x1 x′1
 x2   x′ 
 2 
~X =  ..  = P  ..  = P~X ′ et donc aussi ~X ′ = P−1~X,

(4.25)
 .   . 
xn x′n
84
Diagonalisation d’une matrice
ce qui donne les règles qui font passer des composantes ~X du vecteur ~x dans la
base canonique aux composantes du vecteur ~x dans la base des vecteurs propres
données par ~X ′ et vice versa. Ce sont des règles classiques de changement de
base avec P la matrice de passage. Or, étant donné que A~X j = λ j ~X j , on peut se
convaincre que
 
λ1

 λ2 (0) 

AP = PD avec D =  . . , (4.26)
 (0) . 
λn
c’est-à-dire D est une matrice diagonale avec les valeurs propres de A sur la di-
agonale. En effet, par les règles de multiplication matricielle, la j ème colonne de
AP est précisément A~X j et donc (~X j étant vecteur propre de valeur propre λ j ) égal
à λ j ~X j , ce qui est précisément la j ème colonne de PD. On peut donc énoncer le
théorème de la diagonalisation suivant.
Théorème 16 Si le polynôme caractéristique det(A − λI) = 0 de la matrice A a n
zéros deux à deux distincts, alors on peut construire une matrice de changement
de base P, dont les vecteur colonnes j = 1, · · ·, n sont les composantes des vecteurs
propres ~X j , j = 1, · · ·, n, telle que
P−1 AP = D (4.27)
avec D matrice diagonale dont les éléments sur la diagonale sont les valeurs
propres λ j , j = 1, · · ·, n, de A.
En effet il suffit de multiplier l’égalité AP = PD de (4.26) par P−1 .
Ce changement de base a un intérêt évident. La matrice A étant celle d’une ap-

plication linéaire exprimée dans la base canonique, l’action de cette application
linéaire sur tout vecteur ~x de l’espace vectoriel est donnée par A~X. Or d’exprimer
les composantes de ce vecteur A~X dans la base des vecteurs propres revient,
d’après (4.25), de multiplier à gauche par P−1 . On peut donc écrire
 
λ1 x′1
 λ2 x′ 
−1 ~ −1 −1~ ~ ′  2 
P AX = P APP X = DX =  ..  (4.28)
 . 
λn x′n
d’après (4.25) et (4.27). Donc l’action de l’application linéaire dans la base des
vecteurs propres revient à multiplier les composantes x′i par λi , i = 1, · · · , n.
Notons enfin que l’équation (4.27) est équivalente à
A = PDP−1 (4.29)
85
Exemple :
Reprenons la matrice
 
1 0 0
A =  0 a −b  , avec a 6= 0, b 6= 0 des nombres réels.
0 b a
D’après les calculs faits plus haut, on peut construire
   
1 0 0 1 0 0
−1  0 −i 1 
P=  0 ib −ib  et donc P =  2b 2|b| 
0 |b| |b| i 1
0 2b 2|b|
et P−1 AP = D avec  
1 0 0
D =  0 a + i|b| 0 .
0 0 a − i|b|
4.3 La forme de Jordan

Dans de nombreuses situations des zéros multiples apparaissent lorsque qu’on
cherche les zéros du polynôme caractéristique det(A − λI) d’une matrice carrée
n × n.
Exemple :
Soit la matrice  
2 1 0
A =  0 1 −1  (4.30)
0 2 4
et
2−λ 1 0
0 1 − λ −1 = (2 − λ)[(1 − λ)(4 − λ) + 2]
0 2 4−λ
= (2 − λ)(λ2 − 5λ + 6) = −(λ − 2)2(λ − 3).
Donc, ici λ1 = 2 est une valeur propre double et λ2 = 3 une valeur propre sim-
ple. On sait que Ker(A − 3I) est de dimension 1. On peut donc diagonaliser A,
seulement s’il y a deux vecteurs linéairement indépendants vecteurs propres de
la valeur propre 2. Résolvons donc (A − 2I)~X = 0, c’est-à-dire (notant les com-
posantes de ~X par x, y, z)
y = 0
−y − z = 0
2y + 2z = 0
86
Construction de la base de Jordan
dont la seule solution est de forme

 
x
 0  , x 6= 0,
0
et donc dim Ker(A − 2I) = 1. On conclut que la matrice n’est pas diagonalisable.
On se place donc dans la situation où
det(A − λI) = p(λ) = (−1)n λn + a1 λn−1 + · · · + an (4.31)
a m zéros deux à deux distinct λl , l = 1, · · · , m de multiplicités respectives rl , l =

1, · · ·, m. Donc, si m < n il y a au moins un zéro multiple et si m = n les zéros sont
tous simples. Un résultat bien connu sur les polynômes permet de factoriser p(λ),
à savoir
p(λ) = (−1)n (λ − λ1 )r1 (λ − λ2 )r2 · · · (λ − λm )rm , r1 + · · · + rm = n. (4.32)
Soient donc les matrices (A − λl I)rl , l = 1, · · ·m obtenues en élevant A − λl I à la

puissance rlème . On définit les sous-espaces vectoriels
Sl = Ker ((A − λl I)rl ) , c.-à-d.

n o
Sl = ~ n rl ~
X ∈ C tels que (A − λl I) X = 0 , l = 1, · · ·, m. (4.33)
On énonce maintenant un théorème fondamental qu’on admet dans le cadre de ce

cours.
Théorème 17 La dimension de l’espace vectoriel Sl défini par (4.33) est égale

à rl , l = 1, · · · , m et Cn peut s’écrire pour toute matrice A dont le polynôme car-
actéristique est de la forme (4.32), comme une somme directe des Sl , à savoir
Cn = S 1 ⊕ S 2 ⊕ · · · ⊕ S m . (4.34)
4.3.1 Construction de la base de Jordan

La procédure de la construction d’une base de Jordan est un peu complexe, si
l’on veut en donner une présentation générale.
On observe d’abord que si ~X ∈ Sl , avec Sl défini par (4.33), alors A~X ∈ Sl . En
effet, A commutant avec toute puissance d’elle-même et avec l’identité, si ~X ∈ Sl
(A − λl )rl (A~X) = A(A − λl )rl ~X = 0. (4.35)
87
Donc, si on est capable de construire une base de chaque sous-espace vectoriel Sl ,

alors par changement de base on obtient à partir de A une matrice par blocs notée
J (J comme matrice de Jordan)
 
(B1 )

 (B2 ) (0) 
J= ..  (4.36)
 (0) . 
(Bm )
où chaque bloc Bl , l = 1, · · · , m centré sur la diagonale est une matrice carrée
rl × rl .
Pour prouver cette assertion, prenons un bloc Bl associé à Sl et on note
n o
~X (l) , · · · , ~Xr(l)
1 l
la base de Sl . De par le fait que, si on applique A à un des vecteurs de Sl , le résultat

est dans Sl , on peut écrire
rl
(l) (l) (l)
A~X j = ∑ bi j ~Xi (4.37)
i=1
(l)
et les coefficients de Bl sont précisément bi j , i = 1, · · · , rl , j = 1, · · · , rl .
On peut remarquer ici que si rl = 1, alors Sl = Ker (A − λl I) et la base de Sl est
alors le vecteur propre noté ~X (l) associé à λl et
A~X (l) = λl ~X (l)
Dans ce cas, le bloc Bl est une matrice 1 × 1 et donc un nombre égal à λl sur la
diagonale de J. Si toutes les valeurs propres sont simples (rl = 1, l = 1, · · · , m),
alors m = n et dans ce cas J = D, avec D la matrice diagonale avec les valeurs
propres sur la diagonale.
Afin d’esquisser la procédure pour construire la base dite de Jordan pour un bloc
Bl , on omet pour simplifier l’écriture l’indice l et soit
n o
S = ~X ∈ Cn tels que (A − λI)r~X = 0
avec λ valeur propre de A de multiplicité r. La dimension de S est égale à r et pour

tout vecteur ~X de S,
(A − λI)r~X = 0, c.-à-d. Ker ((A − λI)r ) = S. (4.38)
On note
Ei = Ker (A − λI)i
88
et pour simplifier les écritures on note
N(λ) = A − λI.
La construction de la base de Jordan exploite les inclusions des espaces vectoriels
{0} ⊆ E1 ⊆ E2 ⊆ · · · ⊆ Er (4.39)
En effet, si ~X ∈ Ei , alors N(λ)i~X = 0. En multipliant par N(λ), on a aussi
N(λ)N(λ)i~X = N(λ)i+1~X = 0
et donc ~X ∈ Ei+1 .
Dans (4.39), la dimension de Er est égale à r, mais il se peut, que pour j < r,
dim(E j ) = r et dans ce cas naturellement E j = Er . Soit donc j le plus petit in-
dice tel que dim(E j ) = r et on peut montrer qu’alors les inclusions jusqu’à j sont
strictes et
{0} ⊂ E1 ⊂ · · · ⊂ E j = Er (4.40)
En effet, supposons qu’il existe i < j, tel que Ei = Ei+1 , alors on aura aussi Ei+1 =
Ei+2 . Car si ~Y ∈ Ei+2 , alors
0 = N(λ)i+2~Y = N(λ)i+1N(λ)~Y ,
ce qui veut dire que N(λ)~Y ∈ Ei+1 , mais par Ei = Ei+1 on aura aussi N(λ)~Y ∈ Ei .
Par conséquent
N(λ)i N(λ)~Y = N(λ)i+1~Y = 0
et donc ~Y ∈ Ei+1 .
La conclusion est que si dans les inclusions (4.40) deux sous-espaces sont iden-
tiques, alors les sous-espaces qui suivent sont également tous égaux. C’est en
contradiction avec le fait que j est le plus petit indice tel que dim(E j ) = r et donc
ces inclusions sont strictes.
On peut faire une remarque ici : si par exemple j = 1, alors bien que la multiplicité
de la valeur propre λ soit r, l’espace Ker(A − λI) a la dimension r et il y a dans
ce cas r vecteurs propres linéairement indépendants avec la même valeur propre
λ. Le bloc B correspondant est alors une sous-matrice diagonale avec uniquement
la valeur propre sur la diagonale. Mais c’est plutôt l’exception et en général, si
r > 1, alors j > 1.
On va essayer de donner un mode d’emploi pour la construction d’une base dite

de Jordan. Observons d’abord que si ~Y ∈ Ei+1 et ~Y ∈ / Ei , pour i ≥ 1, alors ~Y et
N(λ)~Y sont linéairement indépendants. En effet, soit
a~Y + bN(λ)~Y = 0.
89
Si on applique N(λ)i , on trouve (par N(λ)i+1~Y = 0), que aN i~Y = 0. Or N i~Y 6= 0

car ~Y ∈
/ Ei et donc a = 0 et ensuite b = 0, car N(λ)~Y 6= 0 si i ≥ 1).
Une première conséquence de ce résultat est que dans les inclusions strictes (4.40),
la différence entre deux sous-espaces successifs diminue ou reste égale, c’est-à-
dire
dim Ei − dim Ei−1 ≥ dim Ei+1 − dim Ei . (4.41)
En effet, si ~Y ∈ Ei+1 , et ~Y ∈
/ Ei alors
0 = N(λ)i+1~Y = N(λ)i N(λ)~Y
et donc N(λ)~Y ∈ Ei , mais N(λ)~Y ∈

/ Ei−1 , car
N(λ)i−1 N(λ)~Y = N(λ)i~Y 6= 0.
Par ailleurs si ~Y1 et ~Y2 sont deux vecteurs linéairement indépendants de Ei+1 , alors
N(λ)~Y1 et N(λ)~Y2 sont linéairement indépendants dans Ei si i ≥ 2, car
aN(λ)~Y1 + bN(λ)~Y2 = N(λ)(a~Y1 + b~Y2 ) = 0
implique a~Y1 + b~Y2 = 0 (sinon a~Y1 + b~Y2 ∈ E1 ) et donc a = b = 0.

Donc, admettons que
Ei+1 = Ei ⊕ Fi+1
et d’après ce qui précède, si on applique à une base de Fi+1 l’opérateur N(λ), alors
on obtient autant de vecteurs linéairement indépendants qui sont dans Ei mais pas
dans Ei−1 . Si on écrit
Ei = Ei−1 ⊕ Fi ,
il s’ensuit que dim(Fi ) ≥ dim(Fi+1 ).
Ces considérations permettent de procéder comme suit, étant rappelé que dans
les inclusions strictes (4.40) la dimension de E j est r.
Pour construire la base, on commence par le vecteur ~Xr (qui étant donné son in-
dice sera le dernier de la base), choisi tel que ~Xr ∈ E j , mais ~Xr ∈
/ E j−1 . Et ensuite
on définit
~Xr−1 = N(λ)~Xr , ou encore A~Xr = ~Xr−1 + λ~Xr car N(λ) = A − λI.
D’après ce qui précède, ~Xr−1 ∈ E j−1 , mais ~Xr−1 ∈

/ E j−2 . On peut donc ensuite
construire
~Xr−2 = N(λ)~Xr−1, ou encore A~Xr−1 = ~Xr−2 + λ~Xr−1
90
etc., jusqu’à ce que ~Xr− j+1 ∈ E1 et alors
N(λ)~Xr− j+1 = 0, ou encore A~Xr− j+1 = λ~Xr− j+1.
Si par exemple j = r, on aura ainsi construit une base de Er .
Si j < r il reste des vecteurs à compléter. Tout dépend maintenant des dimensions
des sous-espaces imbriqués dans (4.40). Si par exemple
E j = E j−1 ⊕ Fj
avec dim(Fj ) ≥ 2, on répète la procédure ci-dessus pour les autres vecteurs d’une
base de Fj .
Soit maintenant le plus grand i (avec i < j), tel que
Ei = Ei−1 ⊕ Fi ,
avec dim(Fi ) > dim(Fj ). Il existe donc des vecteurs dans Fi qui sont linéairement
indépendants des vecteurs de Fi obtenus en ayant appliqué j − i fois l’opérateur
N(λ) à une base de Fj selon la procédure ci-dessus. On répète alors la procédure
à partir de Ei , mais avec ces vecteurs de Fi .
On voit que de donner la procédure générale est délicat, mais dans les exem-
ples concrets la complexité des inclusions des sous-espaces (4.40) est relativement
limitée et la construction de la base de Jordan se fait assez naturellement. Le plus
simple est de donner un exemple, disons pour une valeur propre λ de multiplicité
r = 3. Si j = 3 dans les inclusions (4.40), alors la base sera telle, d’après ce qui
précède,
N(λ)~X3 = ~X2, N(λ)~X2 = ~X1 , N(λ)~X1 = 0,
n o
ce qui donne l’action de A sur la base ~X1 , ~X2, ~X3 de S, à savoir
A~X3 = ~X2 + λ~X3 , A~X2 = ~X1 + λ~X2 , A~X1 = λ~X1.
On peut alors se convaincre, que dans ce cas le bloc B correspondant de la forme

de Jordan s’écrit  
λ 1 0
B =  0 λ 1 . (4.42)
0 0 λ
Si par contre j = 2, alors dim(E2 ) = 3 et d’après (4.41), la dimension de E1 est
forcément 2. On choisit donc ~X3 ∈ E2 tel que ~X3 ∈
/ E1 et alors ~X2 = N(λ)~X3 ∈ E1 .
91
Il existe alors un autre vecteur ~X1 ∈ E1 linéairement indépendant de ~X2 . On a par

conséquent
A~X3 = ~X2 + λ~X3 , A~X2 = λ~X2 , A~X1 = λ~X1
et le bloc correspondant sera de la forme
 
λ 0 0
B =  0 λ 1 . (4.43)
0 0 λ
Si maintenant j = 1, alors dim(E1 ) = 3 et il y a alors 3 vecteurs ~Xi , i = 1, 2, 3 tels

que N(λ)~Xi = 0, i = 1, 2, 3, c’est-à-dire
A~Xi = λ~Xi , i = 1, 2, 3
et le bloc est alors une matrice 3 × 3 diagonale et

 
λ 0 0
B =  0 λ 0 . (4.44)
0 0 λ
Revenons maintenant à la structure (4.36) de la matrice par blocs J et pour chaque

bloc Bl , l = 1, · · · , m on procède selon la procédure ci-dessus. Il s’ensuit que les
blocs rl × rl seront de la forme
 
λl ∗

 λl ∗ (0) 

Bl = 
 . . . . 
 , ∗ = 0 ou 1, (4.45)
. .
 
 (0) λl ∗ 
λl
c’est-à-dire sur la diagonale se trouve la valeur propre λl de multiplicité rl et juste

au-dessus de la diagonale il y aura des valeurs 0 ou 1, selon les dimensions des
sous espaces Ker (A − λl )i , comme nil a été discutéo ci-dessus. On obtient donc
(l) (l)
pour chaque sous espace Sl une base ~X , · · · , ~Xrl et on les rassemble en une
1
base de Cn , à savoir une base de Jordan, qui selon la construction ci-dessus sera
de forme n o
~X (1) , · · · , ~Xr(1) ~
1 , · · · , X1
(m) ~ (m)
, · · · , Xrm (4.46)
1
et on construit la matrice P dont les vecteurs colonnes sont précisément les vecteurs
successifs de cette base. On peut donc énoncer le théorème de la forme réduite de
Jordan.
92
Théorème 18 Pour toute matrice A carrée n×n telle que le polynôme caractérist-
ique a m zéros λl , l = 1, · · ·, m de multiplicités respectives rl , l = 1, · · · , m, il existe
une forme réduite de Jordan J qui est une matrice par blocs de la forme (4.36),
avec les blocs Bl matrices rl × rl avec une structure donnée par (4.45), et telle que
P−1 AP = J (4.47)
avec P la matrice de changement de base dont les vecteurs colonnes sont les
vecteurs de la base dite de Jordan (4.46).
Il s’agit là de la transformation optimale d’une matrice qu’on puisse faire.
Exemple :
On reprend l’exemple de la matrice (4.30), pour laquelle nous avions trouvé une
valeur propre simple λ1 = 3 et une valeur propre double λ2 = 2. Il est facile de
voir qu’on peut choisir comme vecteur propre ~X1 associé à λ1 = 3 le vecteur
 
1
~X (1) =  1  .
1
−2
Il a été montré plus haut que Ker(A − 2I) est de dimension
1. La valeur propre
2
λ2 = 2 étant double, la dimension de Ker (A − 2I) est 2. On calcule
 
0 −1 −1
(A − 2I)2 =  0 −1 −1  .
0 2 2
Pour calculer les vecteurs du noyau de (A − 2I)2, on doit trouver (x, y, z) tels que
    
0 −1 −1 x 0
 0 −1 −1   y  =  0  .
0 2 2 z 0
On trouve comme le prévoit la théorie deux vecteurs linéairement indépendants
qui sont solutions, à savoir
   
1 0
~Y1 =  0  , ~Y2 =  1 
0 −1
Or, d’après le calcul plut haut, des deux vecteurs ~Y1 ∈ Ker(A − 2I) (et bien sûr
~Y2 ∈ (2)
/ Ker(A − 2I)). On choisit donc ~X2 = ~Y2 et
 
1
~X (2) = (A − 2I)~X (2) =  0 
1 2
0
93
n o
(1) (2) (2)
Mettant donc les vecteurs ~X1 , ~X1 , ~X2 comme vecteurs colonnes dans P, à
savoir    
1 1 0 0 −1 −1
P =  1 0 1  et alors P−1 =  1 1 1 .
−2 0 −1 0 2 1
Et alors
P−1 AP = J
avec  
3 0 0
J =  0 2 1 .
0 0 2
94
Chapitre 5
Applications des formes réduites de

matrices
5.1 Formes bilinéaires symétriques

Soit l’espace vectoriel Rn .
Définition 23 On appelle forme bilinéaire sur Rn une application, notée ϕ, de
Rn × Rn dans R, qui est linéaire par rapport à chacune des variables, à savoir
ϕ(λ1~x1 + λ2~x2 ,~y) = λ1 ϕ(~x1 ,~y) + λ2 ϕ(~x2 ,~y) et (5.1)
ϕ(~x, λ1~y1 + λ2~y2 ) = λ1 ϕ(~x,~y1 ) + λ2ϕ(~x,~y2 ) (5.2)
pour tous vecteurs ~x1 ,~x2 ,~x,~y1 ,~y2 ,~y et pour tous scalaires λ1 et λ2 . La forme
bilinéaire est symétrique, si en plus
ϕ(~x,~y) = ϕ(~y,~x) (5.3)
pour tous vecteurs ~x et ~y.
Plaçons-nous maintenant dans la base canonique {~e1 , · · · ,~en } et on exprime les
vecteurs dans cette base base, c’est-à-dire
n n
~x = ∑ xi~ei , ~y = ∑ yi~ei
i=1 i=1
et par bilinéarité on obtient

! !
n n n n
ϕ(~x,~y) = ϕ ∑ xi~ei, ∑ y j~e j = ∑ xi ϕ ~ei , ∑ y j~e j
i=1 j=1 i=1 j=1
n n
= ∑ ∑ xiy j ϕ ~ei ,~e j . (5.4)
i=1 j=1
95
Applications des formes réduites de matrices
Soit
ai j = ϕ ~ei ,~e j (5.5)
et formant la matrice A donc les coefficients sont précisément ai j . Dans une écriture
matricielle, (5.4) s’écrit
 
y1
ϕ(~x,~y) = x1 · · · xn A  ... 
 
(5.6)
yn
ou encore, en notant en majuscules ~X et ~Y les vecteurs colonnes dont les éléments

sont les coordonnées de ~x et ~y dans la base canonique,
ϕ(~x,~y) = ~X T A~Y . (5.7)
Si la forme bilinéaire est symétrique, alors par définition

ai j = ϕ ~ei ,~e j = ϕ ~e j ,~ei = a ji (5.8)
et donc la matrice associée a une forme bilinéaire symétrique (dans la base canon-
ique par exemple) est symétrique et donc
AT = A. (5.9)
Abordons la question d’un changement de base pour une forme bilinéaire symétrique.
Soit donc une nouvelle base ′
~e1 , · · · ,~en′ (5.10)
et formons la matrice S dont les vecteurs colonnes sont les coordonnées (dans
la base canonique) des vecteurs successifs de cette base. Si l’on note pour tout
vecteur ~x, les cordonnées dans la nouvelle base x′i (c’est-à-dire ~x = ∑nj=1 x′j~e ′j )
alors par le formalisme de changement de base, notant
 
x′1
~X ′ =  . 
 .. 
x′n
~X = S~X ′ (5.11)
(~X étant le vecteur colonne dont les composantes sont les coordonnées xi , i =
1, · · ·, n de ~x dans la base canonique). Ecrivons de la même manière ~Y = S~Y ′ , on
peut écrire à partir de (5.7)
T
ϕ(~x,~y) = S~X ′ A S~Y ′ . (5.12)
96
Formes quadratiques
Or, ici un rappel s’impose. Soit une matrice n × p notée B et une matrice p × q
notée C et on peut alors former le produit M = BC (qui est une matrice n × q) et
les coefficients de M s’écrivent
p
mi j = ∑ bik ck j , i = 1, · · ·, n, j = 1, · · ·, q.
k=1
Transposant maintenant la matrice M et notant m′i j les éléments de la matrice M T ,

alors
p
m′i j = m ji = ∑ b jk cki
k=1
d’après ce qui précède. Formant maintenant le produit CT BT et on peut se conva-

incre que les éléments de ce produit sont précisément
p
∑ ckib jk , i = 1, · · ·, q, j = 1, · · · , n
k=1
Comparant cette expression avec les coefficients m′i j ci-dessus, on conclut que
(BC)T = CT BT (5.13)
Donc, lorsqu’on transpose un produit de deux matrices, alors le résultat est le pro-
duit des transposées des deux matrices mais en permutant l’ordre du produit.
Donc, reprenons (5.12) et par

T
S~X ′ = ~X ′T ST
on trouve
ϕ(~x,~y) = ~X ′T ST AS ~Y ′ (5.14)
et donc, si on note A′ la matrice associée à ϕ dans la nouvelle base, alors
A′ = ST AS (5.15)
5.2 Formes quadratiques

Définition 24 On appelle forme quadratique notée Q(~x) associée à la forme bilinéaire
symétrique ϕ, l’application
Q(~x) = ϕ(~x,~x). (5.16)
97
On observe que
Q(~x +~y) = ϕ(~x +~y,~x +~y) = ϕ(~x,~x) + ϕ(~y,~y) + 2ϕ(~x,~y)
et donc
1
ϕ(~x,~y) =
(Q(~x +~y) − Q(~x) − Q(~y)) , (5.17)
2
c’est-à-dire de donner la forme quadratique est équivalent à donner la forme
bilinéaire symétrique.
Si on exprime ~x dans la base canonique, alors, notant A la matrice associée à ϕ,

n n n
Q(~x) = ∑ ∑ xiai j x j = ∑ aiix2i + 2 ∑ ai j xix j (5.18)
i=1 j=1 i=1 i< j
où dans l’expression ci-dessus on utilise le fait que A est symétrique, c’est-à-dire
ai j = a ji .
5.2.1 Signature d’une forme quadratique

On se donne comme objectif d’écrire une forme quadratique sous forme d’une
somme de carrés, c’est-à-dire on cherche une matrice S de changement de base
telle que
A′ = ST AS (5.19)
est diagonale. Le plus naturel et finalement le plus simple est d’appliquer un algo-
rithme dit de Gauss. On peut en effet écrire
n
Q(~x) = ∑ aii x2i + 2 ∑ ai j xi x j
i=1 i< j
sous la forme, si a11 6= 0,

2
a12 a1n
Q(~x) = a11 x1 + x2 + · · · xn + h(x2 , · · ·xn ) (5.20)
a11 a11
et ensuite on procède de la même manière avec h(x2 , · · ·, xn ), mais à partir de x2 .

Si cependant a11 = 0, il convient d’écrire par exemple le produit x1 x2 sous forme
de deux carrés, à savoir
1 1
x1 x2 = (x1 + x2 )2 − (x1 − x2 )2 = y21 − y22 (5.21)
4 4
98
Signature d’une forme quadratique
et on se ramène au cas précédent. En effet, notant

1 1
y1 = x1 + x2 , y2 = x1 − x2 on aura x1 = (y1 + y2 ), x2 = (y1 − y2 ) (5.22)
2 2
et on se ramène au cas précédent substituant x1 et x2 par leurs expressions en fonc-
tion de y1 et y2 et posant xi = yi , i = 3, · · ·, n.
Exemple : On se place dans R3 et on considère la forme quadratique
Q(~x) = x21 + 2x22 + x23 + 2x1 x2 − 2x2 x3 .
On peut d’abord observer que la matrice A de la forme bilinéaire symétrique as-

sociée à Q s’écrit  
1 1 0
A =  1 2 −1  .
0 −1 1
On peut se convaincre, que
Q(~x) = (x1 + x2 )2 + x22 + x23 − 2x2 x3 = (x1 + x2 )2 + (x2 − x3 )2 .
Donc, si on définit
x′1 = x1 + x2 , x′2 = x2 − x3 , x′3 = x3
la forme quadratique peut encore s’écrire sous la forme
Q = x′12 + x′22 .
On peut facilement exprimer les xi en fonction des x′i en commençant par i = 3 et

donc
x3 = x′3 , x2 = x′2 + x3 = x′2 + x′3 , x1 = x′1 − x2 = x′1 − x′2 − x′3 .
Etant donné que    ′ 
x1 x1
 x2  = S  x′ 
2
x3 x′3
la matrice S s’écrit
   
1 −1 −1 1 0 0
S= 0 1 1  et ST AS =  0 1 0  .
0 0 1 0 0 0
Revenons au cas général pour énoncer le résultat suivant.
99
Proposition 3 Soit Q une forme quadratique associée à ϕ forme bilinéaire symétrique.

Alors il existe une base {~e1′ , · · · ,~en′ } dans laquelle la matrice A′ associée à ϕ est
diagonale
 
α1
 .. 
 . (0) 
 
α
A′ =  r
 
 (5.23)
 0 
 .. 
 (0) . 
0
et
Q(~x) = α1 x′12 + · · · + αr x′r2 (5.24)
avec α1 , · · · , αr 6= 0. Si A est la matrice symétrique associée à ϕ dans la base
canonique, alors soit S le matrice de changement de base et
ST AS = A′ . (5.25)
On compte le nombre de coefficients αi dans (5.24) positifs et on suppose qu’il y

en a p, et il y a donc r − p coefficients négatifs. Si αi > 0, on peut écrire
√ 2
αi x′i 2 = αi x′i
et si α j < 0 on peut écrire

p 2
α j x′j2 = − −α j x′j .
√ √
En notant x̃i = αi x′i et x̃ j = −α j x′j et en ordonnant de façon à faire apparaı̂tre
d’abord les termes positifs, on peut affirmer qu’il existe une base dans laquelle la
forme quadratique s’écrit
Q(~x) = x̃21 + · · · + x̃2p − x̃2p+1 − · · · − x̃2r . (5.26)
Définition 25 Le nombre r d’éléments non nuls sur la diagonale de la matrice

diagonale A′ donnée par (5.23) est appelé le rang de la forme quadratique Q (ou
d’une manière équivalente de la forme bilinéaire symétrique associée ϕ). Soit p
le nombre d’éléments positifs alors (p, r − p) s’appelle la signature de Q (ou ϕ).
On peut montrer que la signature ne dépend pas de la base choisie pour obtenir
(5.26).
Revenons sur l’exemple traité plus haut : le rang de cette forme quadratique est
r = 2 et la signature (2, 0).
100
Diagonalisation d’une forme bilinéaire symétrique dans un espace euclidien
5.3 Diagonalisation d’une forme bilinéaire symétrique

dans un espace euclidien
On se place maintenant dans Rn muni du produit scalaire canonique (eucli-
dien)
n
h~x,~yi = ∑ xi yi .
i=1
Soit une forme bilinéaire symétrique ϕ et A la matrice associée qui est donc une
matrice symétrique. On peut dire, que de donner une matrice réelle symétrique A
équivaut à donner une forme bilinéaire symétrique ϕ, par la relation
ϕ(~x,~y) = ~X T A~Y (5.27)
d’après ce qui précède, ~X et ~Y étant les vecteurs colonnes avec les coordonnées de
~x et ~y dans la base canonique.
Remarque : il convient ici de revenir un instant sur la transposition de matrices.
Soit donc M une matrice quelconque et on identifie l’application linéaire avec
cette matrice. On note un vecteur ~x en lettre majuscule ~X pour désigner le vecteur
colonne (donc une matrice n × 1) dont les coefficients sont les coordonnées de ~x
dans la base canonique. Il s’ensuit que
h~x,~yi = ~X T~Y . (5.28)
Soit donc
h~x, M~yi = ~X T M~Y .
Le nombre ci dessus est un nombre réel (une matrice 1 × 1) et il est donc égal à
son transposé et
T
~X T M~Y = ~Y T M T ~X = ~y, M T~x = M T~x,~y
On obtient donc la relation fondamentale
h~x, M~yi = M T~x,~y . (5.29)
Donc, en particulier, pour une matrice A symétrique et donc AT = A,
h~x, A~yi = hA~x,~yi . (5.30)
avec toujours la convention d’identifier A avec l’application linéaire associée.
101
Théorème 19 Soit A une matrice réelle et symétrique, alors les valeurs propres
de A sont réelles. Soient alors λ et µ deux valeurs propres distinctes de vecteurs
propres respectifs ~x 6= 0 et ~y 6= 0. Alors ces deux vecteurs propres sont orthogo-
naux, à savoir
n
h~x,~yi = ∑ xi yi = 0, (5.31)
i=1
avec xi , i = 1, · · ·, n et yi , i = 1, · · ·, n les coordonnées des vecteurs propres dans la
base canonique.
La preuve de ce résultat extrêmement important est relativement aisée. Soit donc
λ valeur propre de A et ~X 6= 0 le vecteur (colonne) propre associé. Alors a priori
λ ∈ C et ~X ∈ Cn et
A~X = λ~X.
La matrice A étant réelle, on aura aussi, en prenant la conjuguée complexe de
l’égalité ci-dessus
A~X¯ = λ̄~X¯ .
Formons
~X T A~X¯ = ~x, A~x¯ = ~x, λ̄~x¯ = λ̄ ~x,~x¯ . (5.32)
Or, d’après (5.30),
~x, A~x¯ = A~x,~x¯ = λ ~x,~x¯ . (5.33)
En observant que
n
~x,~x¯ = ∑ |xi |2 6= 0,
i=1
et les membres à droite de (5.32) et (5.33) étant identiques, on aura forcément
λ̄ = λ et donc λ ∈ R.
Soient maintenant
A~X = λ~X et A~Y = µ~Y , λ 6= µ, ~X, ~Y 6= 0.
Formons
~Y T A~X = h~y, A~x i = h~y, λ~xi = λ h~y,~x i .
De nouveau par (5.30),
h~y, A~x i = h A~y,~x i = µ h~y,~xi .
Par conséquent
(λ − µ) h~y,~xi = 0 et donc h~y,~xi = 0
102
car λ 6= µ.
Abordons maintenant la question de savoir, si une matrice réelle symétrique est

diagonalisable. Nous savons que les valeurs propres sont réelles mais elles peu-
vent être multiples. Soient donc λ1 , · · · , λm les valeurs propres (réelles) distinctes
de multiplicités respectives r1 , · · ·, rm (telles que r1 + · · · + rm = n), c’est-à-dire le
polynôme caractéristique s’écrit
p(λ) = det(A − λI) = (−1)n (λ − λ1 )r1 (λ − λ2)r2 · · · (λ − λm )rm (5.34)
On note Eλi = Ker(A − λi I) le sous-espace associé à la valeur propre λi et nous

allons démontrer que
Rn = Eλ1 + Eλ2 + · · · + Eλm , (5.35)
c’est-à-dire qu’il existe une base formée de vecteurs propres de A. En effet, sup-
posons que sous-espace vectoriel
E = Eλ1 + Eλ2 + · · · + Eλm
est strictement inclus dans Rn , donc plus petit que Rn . Au chapitre 4, il a été
montré que l’on peut écrire
Rn = E ⊕ E ⊥ . (5.36)
On suppose que dim(E ⊥ ) = q ≥ 1 et soit alors un vecteur ~Y 6= 0 de E ⊥ . On montre
qu’alors A~Y ∈ E ⊥ . En effet, soit un vecteur quelconque ~X ∈ E, alors
~X T (A~Y ) = h~x, A~y i = h A~x,~y i . (5.37)
Le vecteur ~x ∈ E étant une combinaison linéaire de vecteurs propres, A~X est

également une combinaison linéaire de vecteurs propres et A~X ∈ E. Mais alors
h A~x,~y i = 0 par définition de E ⊥ et donc par (5.37) A~Y ∈ E ⊥ .
Par la procédure d’orthonormalisation

′ de Gram-Schmidt on peut construire une
′ ⊥
base orthonormée ~e1 , · · ·,~eq de E . Soit ϕ la forme bilinéaire symétrique as-
socié à A et la matrice B dans cette base a pour coefficients ϕ(~ei′ ,~e ′j ), i = 1, · · ·, q, j =
1, · · ·, q et elle est donc symétrique. Plus précisément, soit U la matrice n × q dont
les vecteurs colonnes sont les vecteurs successifs de la base orthonormée de E ⊥ .
On peut observer (exercice) que
B = U T AU (5.38)
et que
U T U = I, avec I matrice identité q × q. (5.39)
103
La matrice B étant symétrique, elle a donc au moins une valeur propre réelle, donc
~ (avec q composantes) tel que
il existe un vecteur W
~ = λW
BW ~ ou encore U T AU W
~ = λW
~, (5.40)
d’après (5.38). Tenant compte de (5.39), on peut écrire d’après (5.40) que
~ ∈ E ⊥.
U T A~X = λU T ~X, avec ~X = U W (5.41)
Mais alors
U T (A − λI) ~X = 0. (5.42)
Or, E ⊥ étant invariant par A, (A − λI) ~X ∈ E ⊥ et (5.42) implique que
(A − λI) ~X = 0 (5.43)
car (5.42) signifie que (A − λI) ~X est orthogonal à tout vecteur de la base de E ⊥ et
donc que
(A − λI) ~X ∈ E ⊥ ∩ E = 0.
Donc, d’après (5.43), il existe au moins un vecteur propre (non nul) dans E ⊥ ce
qui est en contradiction avec (5.36), c’est-à-dire que tous les vecteurs propres de
A sont dans E. Donc, il est impossible que la dimension de E ⊥ soit ≥ 1 et donc
E ⊥ = 0 et par conséquent E = Rn .
On a vue, que des vecteurs propres associés à des valeurs propres distinctes sont
orthogonaux. Un vecteur propre étant défini à une constante multiplicative près,
on peut toujours supposer que les vecteurs propres sont de norme 1. Aussi, à
l’intérieur de chaque sous-espace propre Eλi on peut orthonormaliser les vecteurs
propres associés à λi (si la multiplicité de ri de λi est > 1). On peut donc énoncer
le théorème suivant.
Théorème 20 Soit Rn muni du produit scalaire canonique (euclidien). Alors toute
matrice n × n symétrique A peut être diagonalisée dans une base orthonormée
formée de vecteurs propres. Soit P la matrice orrthogonale dont les vecteurs
colonnes sont les éléments de cette base de vecteurs propres orthonormée. On
a PT = P−1 et
PT AP = D (5.44)
avec D matrice diagonale avec les valeurs propres réelles sur la diagonale.
On peut donc conclure, que le rang r de la matrice A est égal au nombre de valeurs
propres non nuls. Si p est le nombre de valeurs propres strictement positifs, alors
la signature de la forme quadratique Q associée à A est (p, r − p).
104
Remarque importante : On a vu qu’une matrice symétrique A est associée à

une forme bilinéaire symétrique (et donc à une forme quadratique, notée Q),
mais A en tant que matrice est aussi associée à une application linéaire (notée
~f ). Si on diagonalise cette matrice dans une base orthonormée de vecteurs pro-
pres, alors D = P−1 AP est la diagonalisation en tant qu’application linéaire et vu
que P−1 = PT on a aussi D = PT AP qui est comme il a été montré plus haut la
diagonalisation en tant que forme bilinéaire symétrique. Si on note λ j , j = 1, · · ·, n
les valeurs propres (si une valeur est multiple elle y apparaı̂t plusieurs fois) et
~X j , j = 1, · · · , n les vecteurs propres formant une base orthonormée, alors si on
écrit ~x vecteur de Rn dans cette base, c’est-à-dire ~x = ∑nj=1 x′j ~X j , d’appliquer ~f
n
~f (~x) = ∑ λ j x′j ~X j
j=1
revient à multiplier les coordonnées x′j simplement par λ j (car ~f (~X j ) = A~X j =
λ j ~X j ) et la forme quadratique s’écrit
n
Q(~x) = ∑ λ j x′j2 .
j=1
Exemple : Reprenons l’exemple ci-dessus, à savoir la matrice symétrique

 
1 1 0
A =  1 2 −1  .
0 −1 1
Un rapide calcul montre que le polynôme caractéristique est
p(λ) = −(λ − 1)(λ − 3)λ
et les valeurs propres sont λ1 = 1, λ2 = 3, λ3 = 0. On calcule les vecteurs propres

de norme un associé, à savoir
 1   1   1 
√ √ √
2 6 3
~X1 = 
 0  ~X2 = 
  √2  ~  1 
 , X3 =  − √3 
6
√1 − √1 − √13
2 6
et  1 
  √ √1 √1
1 0 0 2 6 3
2
T
P AP =  0 3 0   0
avec P =  √ − √13 
.
6
0 0 0 √1 − √1 − √13
2 6
105
5.4 Résolution de systèmes d’équations différentielles

linéaires autonomes
On appelle un système d’équation différentielles linéaires une équation vecto-
rielle de la forme
d~
X (t) = A~X (t) (5.45)
dt
avec A une matrice n × n à coefficients réels constants et ~X(t) un vecteur que l’on
cherche à déterminer, chaque composante xi (t), i = 1, · · ·, n de ce vecteur étant
fonction d’une variable t qu’on appellera le temps. Il ne s’agit pas d’entrer plus
avant dans la théorie des équations différentielles : il suffit de dire que l’on peut
déterminer la solution ~X(t) du système (5.45), à condition d’y ajouter une condi-
tion dite initiale en un temps t0 , à savoir
~X(t0 ) = ~X0 , ~X0 ∈ Rn donné, (5.46)
et que la solution de (5.45) devient alors unique. Supposons un instant que n = 1

et donc la matrice A = a avec a un scalaire. Alors il est bien connu que la solution
qui est alors une fonction scalaire s’écrit
x(t) = ea(t−t0 ) x0 . (5.47)
En effet, x(t0 ) = x0 et si on dérive x(t) on trouve bien

d
x(t) = a ea(t−t0 ) x0 = a x(t).
dt
Désormais on suppose que t0 = 0.
Le développement de eat en une série est bien connu et
∞
1
eat = ∑ k! (at)k. (5.48)
k=0
Ce qui conduit à la définition de l’exponentielle d’une matrice en fonction des

produits k ème successifs de A avec elle-même, à savoir
∞
1 2 1
e = I + A + A + · · · = ∑ Ak
A
(5.49)
2! k=0 k!
avec la convention que A0 = I la matrice identité n × n. C’est donc une série de

matrices et on admet qu’elle converge. On peut énoncer quelques propriétés de
l’exponentielle de matrices.
Propriétés de l’exponentielle de matrices :
106
Résolution de systèmes d’équations différentielles linéaires autonomes
1. Soient deux matrices carrées A et B qui commutent, c’est-à-dire AB = BA.

Alors
eA+B = eA eB .
Pour le prouver il faut développer
! !
∞ ∞
A B 1 1
e e = ∑ k! Ak ∑ l! Bl
k=0 l=0
et ce n’est que si AB = BA qu’on peut regrouper les termes de façon à ce

que le produit des deux séries devienne
∞
1
∑ (A + B)m = eA+B
m=0 m!
comme pour l’exponentielle de scalaires.

2. Etant donné que A permute avec −A, on peut écrire (notant 0 la matrice dont
tous les coefficients sont nuls)
eA−A = e0 = I = eA e−A
et donc e−A est l’inverse de A, c’est-à-dire

−1
−A
e = eA .
Enonçons le résultat fondamental, à savoir

d tA
e = AetA . (5.50)
dt
Pour la démonstration, considérons la série
∞
tA tk
e = ∑ k! Ak . (5.51)
k=0
Il est possible de montrer que cette série est uniformément convergente pour t tel
que |t| < T . Pour cela, il faut introduire une mesure de l’ordre de grandeur de
la matrice, une sorte de norme de matrices qui est cependant en dehors du cadre
de ce cours de Licence 2. Il suffit de dire que l’on peut définir une norme telle
que ||A|| ≤ a avec a > 0, de façon à ce que ||Ak || ≤ ak et on peut majorer alors
la norme de ||etA || par eaT ce qui rend la série (5.51) uniformément convergente.
Pour la dériver, on peut donc dériver terme par terme sous la somme et
∞ ∞
d tA d tk t k−1 k
e =∑ Ak = ∑ A
dt k=0 dt k! k=1 (k − 1)!
107
Cette dernière somme peut encore s’écrire, posant l = k − 1

∞ ∞
tl tl
∑ l! Al+1 = A ∑ l! Al = AetA .
l=0 l=0
D’où
d tA
e = AetA . (5.52)
dt
et on peut énoncer le théorème suivant :
Théorème 21 La solution de l’équation (5.45) qui vérifie la condition initiale

~X(0) = ~X0 s’écrit
~X (t) = etA~X0. (5.53)
En effet, on a bien ~X (0) = e0~X0 = I~X0 = ~X0 et
d~ d tA ~
X (t) = e X0 = AetA~X0 = A~X(t).
dt dt
Remarque : si la condition initiale (5.46) est donnée pour t0 6= 0, alors on rem-
place simplement t dans l’exponentielle de (5.53) par t − t0 et alors
~X(t) = e(t−t0 )A~X0.
5.4.1 Calcul pratique de etA

C’est ici que les formes réduites des matrices prennent toute leur importance.
On a vu que le calcul des valeurs et vecteurs propres de la matrice permet d’écrire
A′ = P−1 AP et A = PA′ P−1 (5.54)
où A′ est une matrice diagonale avec les valeurs propres sur la diagonale si les
valeurs propres sont distinctes deux à deux et les colonnes de P sont alors les
vecteurs propres. Dans le cas général A′ est sous forme de Jordan et les colonnes
de P sont les vecteurs de la base de Jordan. Formons par exemple A2 alors
2
A2 = PA′ P−1 = PA′ P−1 PA′ P−1 = PA′ 2 P−1
etc. et bien sûr Ak = PA′ k P−1 . Vu que l’exponentielle d’une matrice est la somme
des puissances de cette matrice, on conclut que
′
etA = PetA P−1 (5.55)
108
Calcul pratique de etA
Cas où A′ = D
Supposons d’abord que A est diagonalisable et donc A′ = D avec
 
λ1 (0)
D=
 .. 
. 
(0) λn
et il est facile de voir que
 tk k

k! λ1 (0)
tk k  .. 
D = . 
k!
tk k
(0) k! λn
A partir de la définition (5.51) en remplaçant A par D on trouve

 
eλ1t (0)
etD = 
 .. 
(5.56)
. 
(0) eλn t
Cas où A′ = J
On suppose maintenant que A possède des valeurs propres multiples et qu’on
ne peut pas faire mieux que de mettre A sous forme de Jordan J, c’est-à-dire
la matrice par blocs (4.36), chaque bloc Bl étant une matrice rl × rl (avec rl la
multiplicité de la valeur propre λl ) de la forme (4.45). La multiplication de J avec
elle-même se faisant bloc par bloc, on peut constater (l’exponentielle étant une
k
série formée avec les termes tk! J k ) que d’après (4.36)
 
etB1
 etB2 (0) 
tJ  
e = . .  (5.57)
 (0) .

etBm
Il suffit donc de savoir calculer les matrices etBl , l = 1, · · ·, m. Pour simplifier

l’écriture, on omet l’indice l et on considère un bloc générique r × r de la forme
 
λ 1

 λ 1 (0) 

B=
 . . . . 
, (5.58)
. .
 
 (0) λ 1 
λ
109
c’est-à-dire λ est valeur propre et on suppose qu’immédiatement au-dessus de la

diagonale il y a 1 partout (dans le cas général il y a 0 ou 1). Il est clair que B peut
s’écrire sous la forme
 
0 1

 0 1 (0) 

B = λI + N avec N = 
 . . . . 
. (5.59)
. .
 
 (0) 0 1 
0
On peut se convaincre facilement que N r = 0 et que

   
0 0 1 (0) 0 0 ··· 0 1
 ..   0 0 ··· 0 
 0 0 .   
2 
N = .. .. 
,···,N r−1 
= . . . . .. 
 (5.60)
. . 1  . . .
   
 (0) 0 0   (0) 0 0 
0 0
(c’est-à-dire dans chaque puissance successive de N les nombres 1 remontent).

Les matrice λI et N commutent et on peut donc écrire
etB = etλI+tN = etλI etN (5.61)
Bien sûr, etλI est une matrice diagonale avec eλt sur la diagonale et donc
etλI = eλt I (5.62)
et par N r = 0 (et donc N s = 0, s ≥ r), la matrice etN est en fait une somme finie et
t2 2 t r−1
etN = I + tN + N +···+ N r−1 .
2 (r − 1)!
Or, d’après (5.60), on peut écrire

 
t2 t r−1
1 t 2 ··· (r−1)!
 .. .. 

 1 t . . 

etN = .. .. t2
 (5.63)

 . . 2


 (0) 1 t 
1
110
Procédure de résolution
Pour former etB il faut d’après (5.61) et (5.62) multiplier chaque élément de la
matrice ci-dessus par eλt et
 
t 2 λt t r−1 λt
eλt teλt 2e ··· (r−1)! e
 .. .. 

 eλt teλt . . 

tB
e = ..
.
..
. t 2 λt
 (5.64)
2e
 
 
 (0) eλt teλt 
eλt
Donc, la matrice etJ d’après (5.57) sera formée de blocs de la forme (5.64).
5.4.2 Procédure de résolution

On reprend le système d’équations différentielles linéaires
d~
X (t) = A ~X(t), ~X (0) = ~X0 (5.65)
dt
avec ~X0 la condition initiale donnée. On suppose avoir calculé les valeurs et vecteurs
propres de A et donc
A′ = P−1 AP
On multiplie l’équation (5.65) par P−1 et donc
d~
Y (t) = P−1 A P~Y (t) = A′ ~Y (t), ~Y (0) = ~Y0 , ~Y = P−1~X, ~Y0 = P−1~X0 , (5.66)
dt
c’est-à-dire le système ci-dessus est le système d’équations différentielles pour
la solution dans la base dont les vecteurs sont les colonnes de P. Ce système ci-
dessus peut être résolu et
~Y (t) = etA′ ~Y0 . (5.67)
Remarque : en pratique il n’est pas nécéssaire d’inverser la matrice P. En fait,
′
il suffit de connaı̂tre l’expression de etA et on en déduit la solution ~Y donnée
par (5.67) pour un vecteur ~Y0 a priori arbitraire que l’on note par exemple ~α de
coefficients αi , i = 1, · · ·, n. Si la matrice est diagonalisable, alors
′
etA = etD (5.68)
avec etD de la forme (5.56). Si A ne peut être mise que sous forme de Jordan, alors
′
etA = etJ (5.69)
111
avec etJ de la forme (5.57) où chaque bloc est de la forme (5.64). Ayant déterminé
la solution (5.67) pour un vecteur ~Y0 = ~α arbitraire à ce stade, on récupère l’ex-
pression générale de la solution, à savoir
~X(t) = P~Y (t) = P etA′ ~α. (5.70)
Si on veut satisfaire la condition initiale ~X = ~X0 alors ~α est solution du système
P~α = ~X0 (5.71)
′
(comme on peut le voir en prenant t = 0 dans (5.70) avec e0A = I).
Exemple : On reprend la matrice (4.30) du chapitre 4

 
2 1 0
A =  0 1 −1 
0 2 4
et on cherche à résoudre
 
a1
d~
X = A~X, avec ~X (0) =  a2  .
dt
a3
Au chapitre 4, cette matrice a été mise sous forme de Jordan, à savoir
   
1 1 0 3 0 0
P =  1 0 1  et J =  0 2 1  .
−2 0 −1 0 0 2
Il est facile de voir d’après ce qui précède que
 3t 
e 0 0
etJ =  0 e2t te2t 
0 0 e2t
et donc d’après (5.67) (en prenant comme ~Y0 le vecteur arbitraire ~α)
 
α1 e3t
~Y (t) =  α2 e2t + α3te2t 
α3 e2t
Tenant compte de l’expression ci-dessus de P on obtient l’expression générale de
~X(t), à savoir
 
α1 e3t + α2 e2t + α3te2t
~X(t) =  α1 e3t + α3 e2t . (5.72)
3t
−2α1 e − α3 e 2t
112
Procédure de résolution
Afin d’obtenir la solution en fonction de la condition initiale on pose t = 0 dans

l’expression ci-dessus et on résout le système
α1 + α2 = a 1
α1 + α3 = a 2
−2α1 − α3 = a3
et on trouve aisément α1 = −a2 − a3 , α2 = a1 + a2 + a3 et α3 = 2a2 + a3 et on
injecte ensuite ces expressions dans (5.72).
Pour résumer, dans tous les cas, on peut toujours mettre A sous forme de Jordan
et on a vu que les éléments non nuls de etJ sont de la forme
t j λl t
e , j = 0, · · ·, rl − 1. (5.73)
j!
Donc, lorsqu’on résout le système d’équations différentielles, on constate que les
composantes de ~Y (t) et ensuite ceux de ~X(t) sont des combinaisons linéaires de
ces expressions. On peut donc énoncer le théorème suivant.
Théorème 22 Notons x j (t), j = 1, · · · , n les composantes de la solution ~X de (5.65).
Ces fonctions sont de la forme
m
x j (t) = ∑ p jl (t)eλlt (5.74)
l=1
avec p jl (t), j = 1, · · ·, n des polynômes de degré ≤ rl − 1, avec rl la multiplicité

de la valeur propre λl , l = 1, · · ·, m de la matrice A. En particulier, si m = n et
qu’alors toutes les valeurs propres de A sont simples, p jl (t) = α jl avec α jl des
constantes, j = 1, · · · , n, l = 1, · · · , n.
Une dernière remarque peut être faite, au cas où il y a une valeur propre avec
une partie imaginaire non nulle, donc on suppose que pour une valeur de l, λl =
µr + iµi , µi 6= 0. Alors on sait (pour un système réel) qu’il y a aussi la valeur pro-
pre complexe conjuguée λ̄l = µr − iµi . Donc, dans les expressions (5.74) il faut
supposer que le polynôme p jl (t) en facteur de eλl t (qui est une constante si la
valeur propre complexe est simple) est à coefficients complexes. On cherche une
solution réelle et la contribution dans la somme (5.74) de cette paire de valeurs
propres complexes sera donc de la forme
p jl (t)eλlt + p̄ jl (t)eλ̄lt .
On peut se convaincre que cette expression peut s’écrire sous la forme générale

e µr t q j1 (t) cos(µit) + q j2 sin(µit)
113
pour des polynômes q j1 (t) et q j2 (t) à coefficients réels cette fois-ci (de degré rl −1
si la valeur propre λl avec une partie imaginaire non nulle est de multiplicité rl ),
car
eλl t = e µr t eiµit = eµr t (cos(µit) + i sin(µit)) , eλ̄l t = e µr t (cos(µit) − i sin(µit)).
5.4.3 Cas d’une seule équation différentielle d’ordre n

On considère maintenant une seule équation différentielle d’ordre n
x(n) (t) + a1 x(n−1) (t) + · · · + an−1 x ′ (t) + an x(t) = 0, (5.75)
(ai , i = 1, · · · , n des nombres réels) avec x(t) ∈ R et à laquelle on ajoute n condi-

tions initiales
x(0) = b0 , x ′ (0) = b1 , · · · , x(n−1) (0) = bn−1 . (5.76)
Pour comprendre quelle sera l’expression de la solution x(t), on écrit cette équation
sous la forme d’un système d’équations en introduisant le vecteur
   
x(t) b0
 x ′ (t)   b1 
~X(t) =  
 ..  et X0 =  .. ~  
(5.77)
 .   . 
x(n−1) bn−1
et on peut se convaincre que ~X(t) est alors solution du système (exercice)
d~
X(t) = A~X(t), ~X(0) = ~X0 (5.78)
dt
avec  
0 1

 0 1 (0) 


A= .. .. 
(5.79)
(0) . . 
 
 0 1 
−an −an−1 · · · · · · − a2 −a1
On a vu que les solutions d’un tel système s’écrivent comme des combinaisons
linéaire des fonctions eλl t (avec λl les valeurs propres de A), multipliées éventuellement
selon les cas de figure par des polynômes de degrés au plus égaux à rl − 1 (avec rl
la multiplicité de λl ). La fonction
x(t) = ceλt
114
Cas d’une seule équation différentielle d’ordre n
pour c une constante 6= 0 et λ égale à une des valeurs propres est donc une solution
possible, pour des conditions initiales appropriées. Injectant cette expression dans
(5.75) on trouve

λn + a1 λn−1 + · · · + an−1 λ + an ceλt = 0
et d’où le polynôme caractéristique
p(λ) = λn + a1 λn−1 + · · · + an−1 λ + an (5.80)
qui est donc aussi le polynôme caractéristique de (5.79).

On note donc λl , l = 1, · · ·, m les zéros distincts de p(λ) de multiplicités respec-
tives rl , l = 1, · · · , m. D’après ce qui précède, la solution x(t) de (5.75) étant la
première composante de la solution ~X(t) de (5.77), elle s’écrit
m
x(t) = ∑ pl (t)eλlt (5.81)
l=1
avec pl (t), l = 1, · · ·, m des polynômes de degré ≤ rl − 1, que l’on détermine en

fonction des conditions initiales.
Exemple : Soit l’équation différentielle
x ′ ′ (t) + 2x ′(t) + 5x(t) = 0, x(0) = b0 , x ′ (0) = b1
(avec b1 , b2 des nombres réels). Le polynôme caractéristique est
p(λ) = λ2 + 2λ + 5
et les zéros sont donc
λ1 = −1 + 2i, λ2 = λ̄1 = −1 − 2i.
D’après les remarques faites sur les valeurs propres complexes dans la résolution
d’une équation différentielle réelle, on peut écrire
x(t) = e−t (α cos(2t) + β sin(2t))
Tenant compte des conditions intiales, on trouve
x(0) = α = b0 , x ′ (0) = −α + 2β = b1 et donc β = (b0 + b1 )/2.
115
5.4.4 Systèmes d’équations différentielles linéaires non homogènes

Dans beaucoup d’applications on est amené à résoudre un système de la forme
(5.45) avec en plus une fonction vectorielle donnée notée ~F(t), c’est-à-dire on
cherche à trouver la solution de
d ~
X (t) = A ~X(t) + ~F(t) (5.82)
dt
toujours pour une condition initiale (on suppose en t = 0)
~X(0) = ~X0 (5.83)
(avec ~X0 donné). On peut se convaincre que maintenant ~X(t) peut s’écrire comme
une somme
~X(t) = ~Xg (t) + ~X p(t), (5.84)
avec
d ~
Xg (t) = A ~Xg (t), ~Xg(0) = ~X0 (5.85)
dt
et
d ~
X p (t) = A ~X p(t) + ~F(t), ~X p (0) = 0 (5.86)
dt
car alors
d ~
Xg (t) + ~X p(t) = A ~Xg (t) + A ~X p(t) + ~F(t) = A ~Xg (t) + ~X p(t) + ~F(t),
dt
donc ~X(t) donnée par la somme (5.84) est bien solution de l’équation différentielle
et
~X(0) = ~Xg (0) + ~X p(0) = ~X0 .
La solution ~Xg est appelée solution générale de l’équation (5.82) et ~X p solution
particulière.
Bien sûr, la solution de (5.85) est celle discutée au-dessus, à savoir
~Xg (t) = etA ~X0 . (5.87)
Pour la solution particulière, on met en œuvre ce qui est appelé la méthode de la
variation de la constante. On écrit donc
~
~X p(t) = etA C(t) (5.88)
~ une fonction vectorielle à déterminer. Si on dérive cette fonction alors
avec C(t)

d~ d tA ~ d tA ~ d~ ~ + etA d C(t)~
X p(t) = e C(t) = e C(t) + etA C(t) = A etAC(t)
dt dt dt dt dt
d~
= A ~X p(t) + etA C(t).
dt
116
Systèmes d’équations différentielles linéaires non homogènes
Si on veut que ~X p écrit comme (5.88) soit solution de (5.86), alors forcément
d~
etA C(t) = ~F(t).
dt
On sait que l’inverse de etA est égal à e−tA et on doit donc résoudre
d~ ~
C(t) = e−tA ~F(t) avec C(0) =0 (5.89)
dt
~
(car ~X p(0) = 0 implique forcément C(0) = 0, si on écrit ~X p sous la forme (5.88)).
Mais on peut alors se convaincre que la solution de cette équation différentielle
est simplement Z t
~ =
C(t) e−sA ~F(s) ds
0
~
l’intégrale étant à prendre composante par composante du vecteur e−sA F(s). En
~ ~
effet, C(0) = 0 et la dérivée de C(t) est bien e −tA ~
F(t) d’après la définition de
~
l’intégrale. On peut donc écrire en remplaçant dans (5.88) C(t) par cette expres-
sion
Z t Z t Z t
−sA tA −sA
~X p(t) = etA e ~F(s) ds = e e ~F(s) ds = e(t−s)A ~F(s) ds
0 0 0
et la solution de (5.82) s’écrit donc

Z t
~X(t) = e ~X0 +
tA
e(t−s)A ~F(s) ds. (5.90)
0
Regardons comme exemple le cas simple d’une équation scalaire

d
x(t) = a x(t) + f (t), x(0) = x0
dt
avec a 6= 0, x(t) ∈ R ( f (t) et x0 donnés). Alors la solution est
Z t
x(t) = eta x0 + e(t−s)a f (s) ds
0
(pour le calcul de l’intégrale, tout dépend alors de l’expression de f (s), pour savoir
si on peut facilement trouver une primtive de l’intégrand).
117

Cours Meth Math 1 L2

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Meth Math 1 L2

Transféré par

Droits d'auteur :

Formats disponibles

Mathématiques pour la Mécanique I

Licence de Mécanique-2ème année

Table des matières

1 Fonctions de plusieurs variables réelles 3

3 Produit scalaire, bases orthonormées, transformations orthogonales 61

4 Formes réduites de matrices 75

5 Applications des formes réduites de matrices 95

Fonctions de plusieurs variables

1.1 Définition et notion de continuité

c’est-à-dire la limite de f (x) quand on fait tendre x vers a est le nombre l. Si la

Considérons d’une manière générale l’espace Rn (n entier > 0) qui a déjà

et si λ est un nombre de réels, le produit avec un vecteur s’écrit

λ~x = (λx1 , λx2 , · · · , λxn ).

Définition 1 Un produit cartésien de n intervalles fermés [Ai , Bi ], i = 1, · · · , n, (Ai ,

Remarque : on voit aisément qu’en dimension n = 2 il s’agit de rectangles et en

Définition 2 Soit ~a = (a1 , · · ·, an ) un point de Rn et r > 0 un nombre réel donné.

Bien sûr, en dimension 2 et 3 il s’agit de l’intérieur d’un disque et d’une sphère,

Définition 3 Soit f une fonction de n variables à valeurs réelles et ~a un point de

1.2 Dérivée d’une fonction à une et à plusieurs vari-

f (x) = f (a) + (x − a) f ′ (a) + (x − a)ε(x, a), lim ε(x, a) = 0. (1.3)

Remarque : Si l’on pose x = a + h dans (1.3), d’une façon équivalente, f est

f (a + h) = f (a) + h f ′ (a) + hε(h), lim ε(h) = 0. (1.4)

F IGURE 1.1 – Interprétation géométrique de la dérivée.

On peut en déduire un certain nombre de conséquences bien connues et dont la

(uv) ′ (a) = u ′ (a)v(a) + u(a)v ′(a).

3. Soient u, v dérivables en a avec v(a) 6= 0, alors

f (x) = f (a) + (x − a) f ′ (a) + (x − a)ε1(x, a)

Posons alors y = f (x) et tenant compte de l’expression de f (x), on obtient

g( f (x)) = g( f (a)) + (x − a)g ′( f (a)) f ′ (a)

que l’on peut encore écrire

g( f (x)) = g( f (a)) + (x − a)g ′( f (a)) f ′ (a) + (x − a)ε3(x, a) (1.5)

ε3 (x, a) = g ′ ( f (a))ε1(x, a) + f ′ (a)ε2( f (x), f (a)) + ε1(x, a)ε2( f (x), f (a))

Théorème 1 Sous les hypothèses ci-dessus, c’est-à-dire que la fonction f est

(g ◦ f ) ′ (a) = g ′ ( f (a)) f ′ (a). (1.6)

Ce résultat est extrêmement précieux et on donne un petit exemple.

F ′ (a) = n[ f (a)]n−1 f ′ (a).

ou encore, en écrivant X = f (a) et a = f −1 (X ),

Il faut alors exprimer le carré du cos en fonction de tan, à savoir

sin2 (y) 1 − cos2 (y)

Avant d’aborder la formule de Taylor d’une fonction à une variable, il convient

Théorème 3 Soit l’intervalle I = [a, b] et f fonction continue pour tout x dans I.

Pour la démonstration de ce résultat, le plus simple est de faire un dessin

F IGURE 1.2 – Illustration du théorème de Rolle.

Ce théorème permet par exemple de prouver le théorème des accroissements

La formule de Taylor pour n = 1

On ne donnera pas la preuve générale, mais de regarder le cas de p = 2 par exem-

g ′ (y) = f ′ (y) − f ′ (a) − (y − a) f ′ ′ (a) − K 3(y − a)2 .

1.2.2 Dérivées partielles et dérivée directionnelle

est par définition

On suppose que le lecteur est familiarisé avec la notion de base canonique de Rn

∂f f ((a1, · · · , ai−1 , ai + t, ai+1, · · · , an )) − f (a1, a2 , · · · , an )

Exemple : Soit la fonction de deux variables f (x, y) = ex sin(y). De calculer la

1.2.3 Définition de la dérivée pour n > 1

||~h|| étant la norme euclidienne du vecteur ~h.

Exemple : Soit la fonction

existent et sont continues sur D .

Sans faire la démonstration en toute généralité, on peut considérer le cas n = 2

1.2.4 Dérivée en tant qu’application linéaire et représentation

Par les règles de multiplication, l’expression f ′ (~a)~h s’écrit comme le produit de

est dérivable au point ~a, si les n dérivées partielles en ~a par rapport à x j , j =

La matrice de (1.23) est la représentation matricielle de ~f ′ (~a). Cette matrice est

1.2.5 Dérivée d’une fonction composée

en tant qu’application de Rn dans R p . On suppose que ~f est dérivable en ~a de D

Le membre à droite est en fait la  composée de deux applications linéaires,

Le membre à droite est en fait la composée de deux applications linéaires,