Vous êtes sur la page 1sur 37

Annexe A

Algèbre matricielle

A.1 Terminologie
Une matrice est un tableau rectangulaire de chiffres :
⎡ ⎤
a11 a12 ··· a1K
⎢ ··· a2K ⎥.
A = [aik ] = [A]ik = ⎣ a21 a22 ⎦ (A-1)
···
an1 an2 ··· anK

L’élément indexé d’une matrice est toujours lu comme aligne, colonne . Dans le tableau A.1, les
lignes sont identifiées aux années et les colonnes aux variables.
Un vecteur est un ensemble de nombres rangés en une ligne ou une colonne. Un vecteur
ligne est une matrice comportant une seule ligne, un vecteur colonne est une matrice à
une seule colonne. Par exemple, dans le tableau A.1, les cinq variables observées pour l’année
1972 constituent un vecteur ligne alors que les neuf valeurs de la consommation constituent
un vecteur colonne.
Une matrice peut être vue comme un ensemble de vecteurs colonnes ou de vecteurs lignes1 .
Les dimensions d’une matrice sont les nombres de ses lignes et de ses colonnes. « A est une
matrice de taille n × K » signifie que A comporte n lignes et K colonnes. Si n est égal à K,
A est une matrice carrée. Plusieurs types de matrices carrées sont fréquemment utilisés
en économétrie :

• Une matrice symétrique est une matrice ayant aik = aki pour tout i et k.
• Une matrice diagonale est toujours une matrice carrée dont les éléments hors la
diagonale principale sont nuls.
• Une matrice scalaire est une matrice diagonale dont les éléments diagonaux sont tous
identiques.
• Une matrice d’identité est une matrice scalaire dont les éléments diagonaux sont
égaux à 1. Elle est toujours notée I.

1 On écrit les matrices en gras et en majuscules et les vecteurs en gras mais en minuscules.
2 Annexe A

Tableau A.1 : Matrice de données macro-économiques

Colonne
2 3 4 5
1 Consommation PNB Déflateur Taux d’escompte
Ligne Année (milliards de dollars) (milliards de dollars) du PNB (N.-Y. Fed., moy.)

1 1972 737,1 1185,9 1,0000 4,50


2 1973 812,0 1326,4 1,0575 6,44
3 1974 808,1 1434,2 1,1508 7,83
4 1975 976,4 1549,2 1,2579 6,25
5 1976 1084,3 1718,0 1,3234 5,50
6 1977 1204,4 1918,3 1,4005 5,46
7 1978 1346,5 2163,9 1,5042 7,46
8 1979 1507,2 2417,8 1,6342 10,28
9 1980 1667,2 2633,1 1,7864 11,77
Source : Données du Economic Report of the President (Washington, D.C. : U.S. Government
Printing Office, 1983).

• Une matrice triangulaire (inférieure ou supérieure) est une matrice avec unique-
ment des éléments nuls au-dessus ou en dessous de sa diagonale principale.

A.2 Opérations matricielles


A.2.1 Égalité
Les matrices A et B sont égales si et seulement si elles sont de mêmes dimensions et de
mêmes éléments :

A=B si et seulement si aik = bik pour tout i et k. (A-2)

A.2.2 Transposition
La transposée d’une matrice A, A , est la matrice dont la k-ième ligne correspond à la k-ième
colonne de A. Si A est de taille n × K, alors A est de taille K × n.
Une définition équivalente de la transposée d’une matrice est

B = A ⇔ bik = aki pour tout i et k. (A-3)

La définition de la matrice symétrique implique que

A est symétrique si et seulement si A = A . (A-4)

Par ailleurs,
(A ) = A. (A-5)
Finalement, la transposée d’un vecteur colonne a est un vecteur ligne :

a = [a1 a2 · · · an ].
Algèbre matricielle 3

A.2.3 Addition
Les opérations d’addition et de soustraction matricielles sont définies par

C = A + B = [aik + bik ]. (A-6)


A − B = [aik − bik ]. (A-7)

Ces opérations ne sont possibles que si les matrices sont de mêmes dimensions. La matrice
nulle ou matrice zéro ne comporte que des zéros. Dans l’addition matricielle, la matrice
zéro joue le même rôle que le scalaire 0.

A + 0 = A. (A-8)

L’addition matricielle est commutative, associative, et la transposée d’une somme de matrices


est égale à la somme des transposées.

A.2.4 Multiplication vectorielle


Le produit scalaire est utilisé pour calculer la multiplication matricielle. Le produit entre
deux vecteurs, a et b, est un scalaire

a b = a 1 b 1 + a 2 b 2 + · · · + a n b n . (A-9)

Remarquons que le produit scalaire est écrit comme la transposée du vecteur a fois le vecteur
b, le produit entre un vecteur ligne et un vecteur colonne. Dans (A-9), chaque terme aj bj
est égal à bj aj , donc
a b = b a. (A-10)

A.2.5 Remarque sur la notation pour les lignes et colonnes d’une matrice
Dans ce livre, un vecteur est par défaut un vecteur colonne. Cependant, on utilise souvent le
vecteur colonne qui est la transposée d’une ligne d’une matrice. Ceci peut créer une certaine
ambiguïté. C’est pourquoi on adopte la convention suivante :
• ak , al ou am désignent les colonnes k, l ou m de la matrice A,
• ai , aj , at ou as désignent les vecteurs colonnes formés par la transposée des lignes i, j, t
ou s de la matrice A. Ainsi, ai est la ligne i de A. (A-11)

Par exemple, pour les données du tableau A.1, il peut être commode de désigner xi = 1972
comme un vecteur de taille 5 × 1 contenant les cinq variables observées pour l’année 1972,
c’est-à-dire la transposée de la ligne correspondant à 1972. Dans les applications, les indices
i et j désignent les individus, et t et s les périodes.

A.2.6 Multiplication matricielle et multiplication scalaire


Le produit entre une matrice A de taille n × K et une matrice B de taille K × M , C = AB,
est une matrice de taille n × M dont le ik-ième élément est le produit entre la ligne i de A
et la colonne k de B :
C = AB ⇒ cik = ai bk . (A-12)
[(A-11) est utilisé dans (A-12).] Le nombre de colonnes de la première matrice doit être le
même que le nombre de lignes de la seconde matrice, auquel cas ces matrices sont qualifiées
4 Annexe A

de compatibles pour la multiplication2 . La multiplication matricielle est en général non


commutative. AB peut exister dans certains cas tandis que BA peut ne pas exister, ou,
si elle existe, peut être de dimensions différentes. En général, même si AB et BA sont de
mêmes dimensions, elles ne sont pas égales. On définit alors la pré-multiplication et la
post-multiplication. Ainsi, pour le produit AB, B est pré-multipliée par A alors que A
est post-multipliée par B.
La multiplication scalaire d’une matrice est la multiplication de chaque élément de cette
matrice par un scalaire donné. Pour un scalaire c et une matrice A,

cA = [caik ]. (A-13)

Le produit entre une matrice et un vecteur est écrit c = Ab. Le nombre d’éléments dans b
doit être égal au nombre de colonnes dans A et le résultat est un vecteur dont le nombre
d’éléments est égal au nombre de lignes de A. Par exemple,
⎡ ⎤ ⎡ ⎤⎡ ⎤
5 4 2 1 a
⎣4⎦ = ⎣2 6 1⎦⎣ b ⎦.
1 1 1 0 c

Ce produit peut être interprété de deux façons. D’une part, c’est une écriture compacte de
trois équations :

5 = 4a + 2b + 1c,
4 = 2a + 6b + 1c,
1 = 1a + 1b + 0c.

D’autre part, en réécrivant les équations comme


⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤
5 4 2 1
⎣4⎦ = a⎣2⎦ + b⎣6⎦ + c⎣1⎦,
1 1 1 0

on observe que le terme à droite est une combinaison linéaire des colonnes de la matrice
où les coefficients sont les éléments du vecteur. Dans le cas général,

c = Ab = b1 a1 + b2 a2 + · · · + bK aK . (A-14)

Pour le produit matriciel C = AB, chaque colonne de C est une combinaison linéaire des
colonnes de A, dont les coefficients sont les éléments de la colonne correspondante de B.
Autrement dit,
C = AB ⇔ ck = Abk . (A-15)
Soit ek un vecteur colonne dont tous les éléments sont égaux à zéro, excepté le k-ième élément
qui est égal à un. Alors, on a
ak = Aek . (A-16)
On combine ce résultat avec (A-14) pour avoir

(a1 a2 ··· an ) = A(e1 e2 ··· en ) = AI = A. (A-17)

2 Pour vérifier la compatibilité pour la multiplication, on peut simplement regarder leurs dimensions,
par exemple (n × K) fois (K × M ). Les dimensions intérieures doivent être égales (ici K).
Algèbre matricielle 5

Dans la multiplication matricielle, la matrice d’identité joue le même rôle que le scalaire 1.
Pour toute matrice ou tout vecteur A, AI = IA = A. Cependant, lorsque A n’est pas carrée,
les deux matrices d’identité sont d’ordres différents.

Une matrice nulle de taille compatible produit le résultat : A0 = 0.


La multiplication matricielle est associative et distributive. En outre, on a :

• Transposée d’un produit : (AB) = B A .


(A-18)
   
• Transposée d’un produit de plusieurs matrices : (ABC) = C B A .
(A-19)

A.2.7 Sommes des valeurs


Soit i un vecteur colonne contenant les 1. Alors,

n
xi = x1 + x2 + · · · + xn = i x. (A-20)
i=1

Si tous les éléments de x sont égaux à la même constante a, alors x = ai et



n
xi = i (ai) = a(i i) = na. (A-21)
i=1

Pour toute constante a et tout vecteur x,



n 
n
axi = a xi = ai x. (A-22)
i=1 i=1

Si a = 1/n, on obtient la moyenne arithmétique

1
n
1
x̄ = xi = i x, (A-23)
n i=1 n

d’où

n
xi = i x = nx̄.
i=1

La somme des carrés des éléments d’un vecteur x est



n
x2i = x x, (A-24)
i=1

alors que la somme des produits de n éléments des vecteurs x et y est



n
xi yi = x y. (A-25)
i=1

Par la définition de la multiplication matricielle,

[X X]kl = [xk xl ] (A-26)


6 Annexe A

est le produit entre les k-ième et l-ième colonnes de X. Par exemple, pour l’échantillon de
données dans le tableau A.1, si on définit X comme une matrice de taille 9 × 3 comportant
(année, consommation, PIB), alors


1980
[X X]23 = consommation t PIBt = 737,1(1185,9) + · · · + 1667,2(2633,1)
t=1972
= 19743711,34.

Si X est de taille n × K, avec (A-11) on a



n
X X = xi xi .
i=1


Ce résultat montre que la matrice X X de taille K × K est la somme de n matrices de taille
K × K, dont chacune est formée d’une seule ligne (année) de X. Dans notre exemple, cette
somme correspond à neuf matrices de taille 3 × 3.

A.2.8 Matrice idempotente


Une matrice importante en statistique est celle qui transforme les données en écarts aux
moyennes. D’abord, on a ⎡ ⎤

⎢x̄⎥
1  ⎢ ⎥ 1
ix̄ = i i x = ⎢ . ⎥ = ii x. (A-27)
n ⎣ .. ⎦ n

La matrice (1/n)ii est une matrice de taille n × n dont chaque élément est 1/n. Les écarts
aux moyennes sont ⎡ ⎤
x1 − x̄
⎢ x2 − x̄ ⎥ 1 
⎢ ⎥
⎣ · · · ⎦ = [x − ix̄] = x − n ii x . (A-28)
xn − x̄
Comme x = Ix,
1  1 1
x− ii x = Ix − ii x = I − ii x = M0 x. (A-29)
n n n

Les éléments diagonaux de M0 sont (1 − 1/n), alors que les éléments hors diagonale sont
−1/n. Cette matrice est utile pour calculer les sommes des carrés des écarts. On a M0 i =
I − n1 ii i = i − n1 i(i i) = 0, ce qui implique i M0 = 0 . La somme des écarts aux moyennes
est

n
(xi − x̄) = i [M0 x] = 0 x = 0. (A-30)
i=1
Pour une variable x, la somme des carrés des écarts aux moyennes est
 n 
n
2
 2
(xi − x̄) = xi − nx̄2 . (A-31)
i=1 i=1

En termes matriciels,

n
(xi − x̄)2 = (x − x̄i) (x − x̄i) = (M0 x) (M0 x) = x M0 M0 x.
i=1
Algèbre matricielle 7

M0 possède deux propriétés utiles. D’une part, tous ses éléments hors diagonale sont −1/n
et M0 est symétrique. D’autre part, M0 est égale à son carré, M0 M0 = M0 .

Définition A.1 : Matrice idempotente


Une matrice idempotente, M, est celle qui est égale à son carré, c’est-à-dire
M2 = MM = M. Si M est une matrice idempotente symétrique (toutes les ma-
trices idempotentes que l’on étudie sont asymétriques), alors M M = M.

M0 est donc une matrice idempotente symétrique. On a



n
(xi − x̄)2 = x M0 x. (A-32)
i=1

Considérons maintenant la construction d’une matrice des sommes des carrés et des produits
croisés des écarts aux moyennes des colonnes. Pour deux vecteurs x et y,

n
(xi − x̄)(yi − ȳ) = (M0 x) (M0 y), (A-33)
i=1

donc
 n n   
i=1 (xi − x̄)2 i=1 (xi − x̄)(yi − ȳ) x  M0 x x  M0 y
n n = . (A-34)
i=1 (yi − ȳ)(xi − x̄) i=1 (yi − ȳ)
2 y  M0 x y  M0 y

Si on place x et y dans une matrice Z = [x,y], de taille n × 2, alors M0 Z est une matrice de
taille n × 2 dans laquelle les deux colonnes sont les écarts aux moyennes. On a

(M0 Z) (M0 Z) = Z M0 M0 Z = Z M0 Z.

A.3 Géométrie matricielle


A.3.1 Espaces vectoriels
On peut considérer les K éléments d’un vecteur colonne
⎡ ⎤
a1
⎢ a2 ⎥
a=⎢ ⎥
⎣· · ·⎦
aK

comme les coordonnées d’un point dans un espace de dimensions K, tel qu’on le voit dans
la figure A.1 pour le cas de dimensions 2, ou comme le segment reliant l’origine et le point
défini par a.
Deux opérations de base pour les vecteurs sont la multiplication scalaire et
l’addition. Une multiplication scalaire d’un vecteur a est un autre vecteur, par exemple
a∗ , dont les coordonnées sont le multiple scalaire des coordonnées de a. Dans la figure A.1,
on a
1 2 1 − 12
a= , a∗ = 2a = , a∗∗ = − a = .
2 4 2 −1
L’ensemble des multiples scalaires possibles de a est la ligne passant par l’origine 0 et a. Tout
multiple scalaire de a est un segment de cette ligne. La somme de deux vecteurs a et b est
8 Annexe A

Seconde coordonnée
3 a*

a c
1

1 1 2 3 4
a** Première coordonnée
1

Figure A.1 : Espace vectoriel.

un troisième vecteur dont les coordonnées sont les sommes des coordonnées correspondantes
de a et b. Par exemple,
1 2 3
c = a+b = + = .
2 1 3
Géométriquement, on obtient c en se déplaçant dans la distance et la direction définies par
b à partir de l’extrémité de a, ou, par la commutativité de l’addition, à partir de celle de b
dans la distance et la direction définies par a.
Le plan de dimensions 2 est l’ensemble de tous les vecteurs ayant deux coordonnées réelles.
Cet ensemble, noté R2 , a deux propriétés importantes :

• R2 est fermé sous la multiplication scalaire ; tout multiple scalaire d’un vecteur dans R2
est aussi dans R2 .
• R2 est fermé sous l’addition ; la somme de deux vecteurs quelconques dans R2 est aussi
dans R2 .

Définition A.2 : Espace vectoriel


Un espace vectoriel est tout ensemble de vecteurs qui est fermé sous la multipli-
cation scalaire et l’addition.

Un autre exemple est l’ensemble de nombre réels, R1 , c’est-à-dire l’ensemble de vecteurs


ayant un élément réel. En général, l’ensemble de vecteurs de K éléments réels est un espace
vectoriel de dimensions K, noté RK .
Algèbre matricielle 9

A.3.2 Combinaisons linéaires des vecteurs et vecteurs de base


Dans la figure A.2, c = a + b et d = a∗ + b. Comme a∗ = 2a, d = 2a + b. Par ailleurs, e = a +
2b et f = b + (−a) = b − a. Ainsi, tout vecteur dans R2 peut être obtenu comme une
combinaison linéaire de a et b.

Définition A.3 : Vecteurs de base


Un ensemble de vecteurs d’un espace vectoriel est une base de cet espace vectoriel
si tout vecteur de ce dernier peut être écrit comme une combinaison linéaire de cet
ensemble de vecteurs.

Comme l’a montré la figure A.2, toute paire de vecteurs de dimensions 2, y compris a et b, qui
sont de différentes directions, constitue une base de R2 . Considérons un ensemble arbitraire
de R2 , a, b et c. Si a et b constituent une base, alors on peut trouver les nombres α1 et α2
tels que c = α1 a + α2 b. Soient
a1 b1 c1
a= , b= , c= .
a2 b2 c2
Alors,
c1 = α1 a1 + α2 b1 ,
(A-35)
c2 = α1 a2 + α2 b2 .
La solution est
b2 c1 − b1 c2 a1 c2 − a2 c1
α1 = , α2 = . (A-36)
a 1 b2 − b1 a 2 a 1 b2 − b1 a 2
La solution est unique sauf si (a1 b2 − b1 a2 ) = 0. Par conséquent, si a et b sont une paire
quelconque de vecteurs pour lesquels le dénominateur dans (A-36) est non nul, alors tout
autre vecteur c peut être formé comme une unique combinaison linéaire de a et b. La
base d’un espace vectoriel n’est pas unique. En revanche, pour une base particulière, seule
une combinaison linéaire des vecteurs de cette base produit un autre vecteur dans l’espace
vectoriel.

A.3.3 Dépendance linéaire


L’étude précédente montre que K vecteurs sont nécessaires pour constituer une base de RK .
Bien que la base d’un espace vectoriel ne soit pas unique, un ensemble de K vecteurs n’est
pas suffisant pour former une base. Dans la figure A.2, a et b forment une base de R2 , mais
a et a∗ ne le sont pas. La différence est que a et b sont linéairement indépendants alors que
a et a∗ sont linéairement dépendants.

Définition A.4 : Dépendance linéaire


Un ensemble de vecteurs est linéairement dépendant si tout vecteur de cet en-
semble peut être écrit comme une combinaison linéaire des autres vecteurs.

Comme a∗ est un multiple de a, a et a∗ sont linéairement dépendants. Pour


1 3 10
a= , b= , et c= ,
2 3 14

on a 2a + b − 12 c = 0, en conséquence, a, b, et c sont linéairement dépendants. Toutes les


paires possibles de ces trois vecteurs sont cependant linéairement indépendantes.
10 Annexe A

d
5

a* e
4

Seconde coordonnée
3 c

2 a

1 b

1 2 3 4 5
Première coordonnée
1
f

Figure A.2 : Combinaisons linéaires des vecteurs.

Définition A.5 : Indépendance linéaire


Un ensemble de vecteurs est linéairement indépendant si et seulement si la seule
solution de α1 a1 + α2 a2 + · · · + αK aK = 0 est α1 = α2 = · · · = αK = 0.

Il en résulte une définition équivalente d’une base.

Définition A.6 : Base d’un espace vectoriel


Une base d’un espace vectoriel de K dimensions est tout ensemble de K vecteurs
linéairement indépendants dans cet espace vectoriel.

Comme tout (K + 1)-ième vecteur peut être écrit comme une combinaison linéaire de K
vecteurs de base, il s’ensuit que tout ensemble de plus de K vecteurs dans RK doit être
linéairement dépendant.

A.3.4 Sous-espaces

Définition A.7 : Vecteurs générateurs


L’ensemble de toutes les combinaisons linéaires d’un ensemble de vecteurs est l’espace
vectoriel généré par ces vecteurs.
Algèbre matricielle 11

Par exemple, par définition, l’espace généré par une base de RK est RK . Il implique que si
a et b sont une base de R2 et c est un autre vecteur dans R2 , l’espace généré par [a,b,c]
est R2 .
Considérons l’ensemble de vecteurs de trois éléments dont le troisième est nul. En particulier,
a = [a1 a2 0] et b = [b1 b2 0]. Les vecteurs a et b ne génèrent pas R3 . Chaque
combinaison de a et b comporte une troisième coordonnée égale à zéro. Si (a1 b2 − a2 b1 ) = 0
[voir (A-36)], alors tout vecteur dont le troisième élément est nul peut être écrit comme une
combinaison linéaire de a et b. Bien que a et b ne génèrent pas R3 , ils génèrent l’ensemble
de vecteurs dans R3 dont le troisième élément est nul. C’est un plan dans R3 . Ce plan est
un sous-espace de dimensions 2 dans R3 . Notons que ce n’est pas R2 mais l’ensemble de
vecteurs dans R3 dont la troisième coordonnée est 0. Tout plan dans R3 forme un sous-espace
de dimensions 2. Ce dernier est généré par deux vecteurs indépendants quelconques qui lui
appartiennent.
L’espace généré par un ensemble de vecteurs dans RK a au plus K dimensions. Si cet espace
est de dimensions inférieures, il est un sous-espace ou un hyperplan. Il est important de
noter que chaque ensemble de vecteurs génère un certain espace, qui peut être l’espace entier
contenant ces vecteurs ou un sous-espace.

A.3.5 Rang d’une matrice


On considère une matrice comme un ensemble de vecteurs colonnes. Le nombre de colonnes
dans cette matrice est le nombre de vecteurs et le nombre de lignes est le nombre de coor-
données dans chaque vecteur colonne.

Définition A.8 : Espace des colonnes


L’espace des colonnes d’une matrice est l’espace vectoriel généré par ses vecteurs
colonnes.

Si la matrice contient K lignes, son espace des colonnes peut avoir au plus K dimensions.
Soit la matrice ⎡ ⎤
1 5 6
A = ⎣2 6 8⎦.
7 1 8
Elle contient trois vecteurs dans R3 , dont le troisième est la somme de deux premiers. Ainsi,
l’espace des colonnes ne peut être de dimensions 3. Il n’a pas non plus 1 dimension car
aucune colonne n’est un multiple scalaire d’une autre. Donc, l’espace des colonnes est de
dimensions 2 et constitue un sous-espace de dimensions 2 de R3 .

Définition A.9 : Rang des colonnes


Le rang des colonnes d’une matrice est la dimension de l’espace vectoriel généré
par ses vecteurs colonnes.

Le rang des colonnes d’une matrice est alors égal au plus grand nombre de ses vecteurs
colonnes linéairement indépendants. Le rang des colonnes de A est 2. On examine un autre
12 Annexe A

exemple avec ⎡ ⎤
1 2 3
⎢5 1 5⎥
B=⎢ ⎣6 4 5⎦.

3 1 4
Cette matrice a un rang des colonnes égal à 3. Comme chaque colonne de B est un vecteur
de R4 , l’espace des colonnes de B est un sous-espace dans R4 de dimensions 3.
Soit maintenant un ensemble de vecteurs obtenu par les lignes de B. La nouvelle matrice est
⎡ ⎤
1 5 6 3
C = ⎣2 1 4 1⎦.
3 5 5 4

La matrice C (= B ) comporte quatre vecteurs colonnes dans R3 . L’espace des colonnes de


C est au plus R3 car les quatre vecteurs dans R3 sont forcément linéairement dépendants.
En fait, l’espace des colonnes de C est R3 . Les espaces des colonnes de B et C ne sont pas
identiques mais sont de mêmes dimensions. Ainsi, le rang des colonnes de B et celui de C
sont identiques. Comme les colonnes de C sont les lignes de B, le rang des colonnes de C
est égal au rang des lignes de B.

Théorème A.1 : Égalité entre les rangs des colonnes et des lignes
Le rang des colonnes et le rang des lignes d’une matrice sont égaux. Par défini-
tion du rang des colonnes et du rang des lignes, on a le corollaire :

l’espace des lignes et l’espace des colonnes d’une matrice ont


les mêmes dimensions. (A-37)

Si le rang des colonnes d’une matrice est égal au nombre de ses colonnes, alors la matrice
est qualifiée de plein rang des colonnes. Le plein rang des lignes est défini de façon
similaire. Comme le rang des colonnes et celui des lignes d’une matrice sont égaux, on utilise
le rang d’une matrice. On a

rang(A) = rang(A ) ≤ min(nombre de lignes, nombre de colonnes). (A-38)

On utilise le terme plein rang pour désigner une matrice dont le rang est égal au nombre
de ses colonnes.
Quant à la distinction entre les matrices de plein rang et de rang non plein, on examine
les solutions de Ax = 0. Si un x non nul existe, alors A n’est pas de plein rang. Si le x non nul
existe, alors les colonnes de A sont linéairement dépendantes et au moins une colonne peut
être exprimée comme une combinaison linéaire des autres colonnes. On peut aussi montrer
que
rang(AB) ≤ min(rang(A), rang(B)). (A-39)
Un corollaire de (A-39) est

si A est de taille M × n et B est une matrice carrée de rang n,


alors rang(AB) = rang(A). (A-40)
Par ailleurs,
rang(A) = rang(A A) = rang(AA ). (A-41)
Algèbre matricielle 13

A.3.6 Déterminant d’une matrice


Le déterminant d’une matrice carrée — le déterminant n’est pas défini pour des matrices
non carrées — est une fonction des éléments de cette matrice.

Proposition
Le déterminant d’une matrice est non nul si et seulement si elle est de plein rang.

Les matrices de plein rang et de rang non plein peuvent alors être distinguées si leur déter-
minants sont nuls ou non. Il est parfois utile de connaître la valeur du déterminant.
Soit une matrice diagonale ⎡ ⎤
d1 0 0 ··· 0
⎢0 d2 0 ··· 0 ⎥
D=⎢

⎥.

···
0 0 0 ··· dK
Son déterminant est
'
K
|D| = d1 d2 . . . dK = dk . (A-42)
k=1
Pour la matrice d’identité, quelles que soient ses dimensions K, on a |IK | = 1. On a aussi
|cD| = cK |D|. (A-43)
Si une colonne de D seulement est multipliée par c, alors le déterminant est aussi multiplié
par c. Si maintenant chaque colonne est multipliée par un c différent, alors le résultat est
c1 c2 . . . cK |D|. La matrice avec les colonnes définies par [c1 d1 c2 d2 . . .] est justement DC,
où C est une matrice diagonale dont le i-ième élément diagonal est ci . Alors,
|DC| = |D| · |C|. (A-44)
(Le déterminant de C est le produit des ci car C, comme D, est diagonale.)
Pour les matrices de taille 2 × 2, le déterminant est
" "
"a c "
" "
" b d" = ad − bc. (A-45)

Pour des dimensions supérieures, le déterminant peut être calculé en utilisant le dévelop-
pement en cofacteurs. Pour toute ligne i, on a

K
|A| = aik (−1)i+k |Aik |, k = 1, . . . ,K, (A-46)
k=1

où Aik est la matrice obtenue à partir de A en supprimant la ligne i et la colonne k.


Le déterminant de Aik est appelé un mineur de A.3 Multiplié par (−1)i+k , il devient un
cofacteur. Cette opération peut être également effectuée avec une colonne quelconque. Pour
le cas de dimensions 3, on a
" "
"a11 a12 a13 "
" "
"a21 a22 a23 " = a11 a22 a33 + a12 a23 a31 + a13 a32 a21 − a31 a22 a13 − a21 a12 a33 − a11 a23 a32 .
" "
"a31 a32 a33 "

3 Si i = k, il est appelé un mineur principal.


14 Annexe A

Deuxième coordonnée

x1
e*
y*
y

Troisième coordonnée
(Xb)*
e

y0
u* (Xb)

u x2

Première coordonnée

Figure A.3 : Projections des moindres carrés.

Notons que (A-43) et (A-44) s’appliquent également aux matrices non diagonales. Un résultat
complémentaire est
|A| = |A | (A-47)

A.3.7 Un problème des moindres carrés


On s’intéresse à l’écriture d’un vecteur y comme une combinaison linéaire des colonnes de X.
Il existe deux possibilités. Si y appartient à l’espace des colonnes de X, on peut trouver un
vecteur b tel que
y = Xb. (A-48)
La figure A.3 présente le cas de dimensions 3 dans lequel deux colonnes de X ont toutes
une troisième coordonnée égale à zéro. Seuls les y dont la troisième coordonnée est nulle,
comme y0 , peuvent être exprimés comme Xb pour un certain b. En général, si y appartient
à l’espace des colonnes de X, on peut trouver un vecteur des coefficients b en résolvant
(A-48). La solution est étudiée dans la section suivante.
Si y n’est pas dans l’espace des colonnes de X, par exemple si la troisième coordonnée de y
est non nulle, alors il n’y a aucun b qui vérifie (A-48). Cependant, on peut écrire

y = Xb + e, (A-49)

où e est la différence entre y et Xb. Par cette construction, on peut trouver un Xb ap-
partenant à l’espace des colonnes de X, e étant la différence ou le « résidu ». La figure A.3
présente deux exemples, y et y∗ . En examinant seulement y, on cherche à trouver b tel que
y est le plus proche possible de Xb, au sens où e est le plus court possible.

Définition A.10 : Longueur d’un vecteur


La longueur, ou la norme, d’un vecteur e est

e = e e. (A-50)
Algèbre matricielle 15

Le problème est de trouver b tel que e = y − Xb soit la plus petite possible. La solution
est que b rende e perpendiculaire, ou orthogonal, à Xb.

Définition A.11 : Vecteur orthogonaux


Deux vecteurs non nuls a et b sont orthogonaux, notés a ⊥ b, si et seulement si
a b = b a = 0.

On cherche b pour lequel e ⊥ Xb. Le développement de cette expression est

(Xb) e = 0
= b X y − b X Xb
= b [X y − X Xb],

ce qui donne, b étant supposé non nul, X y = X Xb. La solution de cet ensemble d’équations
est étudiée dans la section A.5.
Dans la figure A.3, la combinaison linéaire Xb est appelée la projection de y sur l’espace
des colonnes de X. Bien que y et y∗ soient différents, la projection de y s’allonge sur celle de
y∗ . Quel vecteur, y ou y∗ est plus proche de sa projection dans l’espace des colonnes de X ?
Il semble que y est plus proche car e est plus court que e∗ . Comme y∗ est plus parallèle à sa
projection que y, son vecteur résiduel plus long résulte du fait que y∗ est plus long que y.
Une comparaison indépendante de la longueur des vecteurs est l’angle entre le vecteur et sa
projection. On observe ainsi que θ∗ est plus petit que θ, ce qui inverse la conclusion.

Théorème A.2 : La loi de cosinus


L’angle θ entre deux vecteurs a et b vérifie

a b
cos θ = .
a · b

Un cosinus zéro implique que les vecteurs sont orthogonaux. Si le cosinus est égal à 1, l’angle
est nul et les vecteurs deviennent identiques. En divisant par les longueurs, on compense
automatiquement pour la longueur de y. Avec cette mesure, on trouve dans la figure A.3 que
y∗ est plus proche de sa projection, (Xb)∗ , que y de (Xb).

A.4 Solution d’un système d’équations linéaires


Soit un système de n équations linéaires

Ax = b, (A-51)

dans lequel les K éléments de x sont des inconnues. A est une matrice connue de coefficients
et b est un vecteur spécifié. On étudie l’existence d’une solution, son calcul et son unicité.

A.4.1 Systèmes d’équations linéaires


Dans la plupart de nos applications, on étudie seulement les systèmes d’équations carrés,
c’est-à-dire ceux comportant une matrice A carrée avec n = K. Ce cas correspond au cas
familier de « n équations et n inconnues ».
16 Annexe A

Il y a deux types de systèmes d’équations.

Définition A.12 : Système d’équations homogène


Un système homogène est de la forme Ax = 0.

Une solution non nulle d’un tel système existe si et seulement si A n’est pas de plein rang,
auquel cas au moins une colonne de A peut être écrite comme
 xm
ak = − am .
m=k
xk

Ainsi, les colonnes de A sont linéairement dépendantes et |A| = 0.

Définition A.13 : Système d’équations non homogène


Un système non homogène est de la forme Ax = b, où b est un vecteur non nul.

Le vecteur b est arbitraire et exprimé comme une combinaison linéaire des colonnes de A.
Comme b comporte K éléments, cette solution existe seulement si les colonnes de A génèrent
l’espace de dimensions K, RK 4 . Il faut donc l’indépendance linéaire des colonnes de A ou
|A| = 0.

A.4.2 Matrices inverses


Pour résoudre le système Ax = b pour x, une certaine division matricielle est nécessaire.
Supposons qu’il existe une matrice B telle que BA = I. Alors,

BAx = Ix = x = Bb. (A-52)

La matrice B, si elle existe, est l’inverse de A, noté B = A−1 . Par définition : A−1 A =
AA−1 = I. L’inverse, si elle existe, est donc unique. Par (A-52), comme
x = A−1 b, cette solution est également unique.
Considérons le calcul de la matrice inverse. Pour le cas d’une matrice de taille 2 × 2, AB = I
implique que
⎡ ⎤
a11 b11 + a12 b21 = 1
a11 a12 b11 b12 1 0 ⎢a11 b12 + a12 b22 = 0⎥
= ou ⎢ ⎥
⎣a21 b11 + a22 b21 = 0⎦.
a21 a22 b21 b22 0 1
a21 b12 + a22 b22 = 1

La solution est
b11 b12 1 a22 −a12 1 a22 −a12
= = . (A-53)
b21 b22 a11 a22 − a12 a21 −a21 a11 |A| −a21 a11

Ce résultat est général. On montre que si le déterminant est nul, l’inverse n’existe pas.

4 Si A n’est pas de plein rang, le système non homogène aura des solutions pour quelques b appartenant
à l’espace des colonnes de A. Cependant, on ne s’intéresse qu’aux solutions pour tous les vecteurs b
non nuls, ce qui requiert A de plein rang.
Algèbre matricielle 17

Définition A.14 : Matrice non singulière


Une matrice est non singulière si et seulement si son inverse existe.

L’inverse d’une matrice diagonale est le plus simple à déterminer. Avec


⎡ ⎤ ⎡ ⎤
d1 0 0 ··· 0 1/d1 0 0 ··· 0
⎢ 0 d2 0 · · · 0 ⎥ ⎢ 0 1/d 0 ··· 0 ⎥
D=⎢ ⎥, D =⎢ ⎥.
−1 2
⎣ ··· ⎦ ⎣ ··· ⎦
0 0 0 · · · dK 0 0 0 ··· 1/dK

On a aussi I−1 = I.
Soit aik le ik-ième élément de A−1 . La formule générale de calcul d’une matrice inverse est

|Cki |
aik = , (A-54)
|A|

où |Cki | est le ki-ième cofacteur de A.


Des résultats impliquant les inverses sont
1
|A−1 | = , (A-55)
|A|
(A−1 )−1 = A, (A-56)
(A−1 ) = (A )−1 . (A-57)

Si A est symétrique, alors A−1 est symétrique. (A-58)


Si deux matrices inverses existent,

(AB)−1 = B−1 A−1 . (A-59)

Il est possible que AB soit une matrice carrée, non singulière, alors que ni A ni B ne sont
carrées. La généralisation de (A-59) donne

(ABC)−1 = C−1 (AB)−1 = C−1 B−1 A−1 . (A-60)

Pour une matrice de données, X, X X sont les produits entre les lignes de X. On suppose que
la matrice S = (X X)−1 a été calculée pour certaines années de données (voir le début de
l’annexe). La formule d’actualisation, permettant de calculer une nouvelle S lorsqu’une
nouvelle ligne est ajoutée à A, est :

1
[A ± bb ]−1 = A−1 ∓ A−1 bb A−1 . (A-61)
1 ± b A−1 b

Deux formes plus générales que (A-61) sont

1
[A ± bc ]−1 = A−1 ∓ A−1 bc A−1 . (A-61a)
1 ± c A−1 b
[A ± BCB ]−1 = A−1 ∓ A−1 B[C−1 ± B A−1 B]−1 B A−1 . (A-61b)
18 Annexe A

A.4.3 Systèmes d’équations non homogènes


Pour le système non homogène Ax = b, si A est non singulière, la solution unique est
x = A−1 b.

A.4.4 Solution du problème des moindres carrés


Le problème des moindres carrés posé dans la section A.3.7 peut être maintenant résolu. Il
faut trouver le vecteur de solution, b, pour le système non homogène
X y = X Xb. Soient z le vecteur X y et A la matrice carrée X X. Le système devient

Ab = a.

Si A est non singulière, on a b = A−1 a = (X X)−1 (X y). Si les colonnes de X sont
linéairement indépendantes (ou X de plein rang), ce résultat est la solution du problème des
moindres carrés. En revanche, si les colonnes de X sont linéairement dépendantes, la solution
n’est pas unique.

A.5 Matrices partitionnées


Il est parfois utile de regrouper les éléments d’une matrice dans des sous-matrices. Soit
⎡ ⎤
1 4 5
A11 A12
A = ⎣ 2 9 3⎦ = .
A21 A22
8 9 6

A est dans ce cas une matrice partitionnée. Un cas fréquent est la matrice diagonale
par bloc :  
A11 0
A= ,
0 A22
où A11 et A22 sont des matrices carrées.

A.5.1 Addition et multiplication des matrices partitionnées


Pour les matrices partitionnées de tailles compatibles A et B,

A11 + B11 A12 + B12


A+B= (A-62)
A21 + B21 A22 + B22

et
A11 A12 B11 B12 A11 B11 + A12 B21 A11 B12 + A12 B22
AB = = . (A-63)
A21 A22 B21 B22 A21 B11 + A22 B21 A21 B12 + A22 B22

Pour l’addition, les dimensions de Aik et de Bik doivent être les mêmes. Pour la multiplica-
tion, le nombre de colonnes dans Aij doit être égal au nombre de lignes dans Bjl pour toute
paire i et j. Deux cas fréquents sont


A1 A1 A1
= [A1 A2 ] = [A1 A1 + A2 A2 ] (A-64)
A2 A2 A2
et 
A11 0 A11 0 A11 A11 0
= . (A-65)
0 A22 0 A22 0 A22 A22
Algèbre matricielle 19

A.5.2 Déterminant des matrices partitionnées


Le déterminant d’une matrice diagonale par bloc est obtenu comme pour une matrice dia-
gonale : " "
"A11 0 ""
" = |A11 | · |A22 | . (A-66)
" 0 A22 "
Le déterminant d’une matrice partitionnée générale de type 2 × 2 est
" "
"A11 A12 " " " " "
" " " −1 " " −1 "
"A21 A22 " = |A22 | · A11 − A12 A22 A21 = |A11 | · A22 − A21 A11 A12 . (A-67)

A.5.3 Inverses des matrices partitionnées


L’inverse d’une matrice diagonale par bloc est
−1
A11 0 A−1
11 0
= . (A-68)
0 A22 0 A−1
22

Pour la matrice partitionnée de type 2 × 2, on a l’inverse partitionnée :


−1
A11 A12 A−1 −1
11 I + A12 F2 A21 A11 −A−1
11 A12 F2
= −1 , (A-69)
A21 A22 −F2 A21 A11 F2
−1
où F2 = A22 − A21 A−1 11 A12 . Le bloc supérieur gauche peut être écrit
−1
F1 = A11 − A12 A−1
22 A 21 .

A.5.4 Écarts aux moyennes


Soient un vecteur colonne de n éléments, x, et
n 
n ni=1 x2i = i i i x
A = n .
i=1 x i x
i=1 i x i x x

On étudie l’élément inférieur droit de A−1 . En utilisant (A-69), on a


   −1
1 
F2 = [x x − (x i)(i i)−1 (i x)]−1 = x Ix − i ix
n
   −1
1
= x I − ii x = (x M0 x)−1 .
n
Ainsi, la valeur inférieure droite de la matrice inverse est
1
(x M0 x)−1 = n = a22 .
i=1 (x i − x̄) 2

On suppose que x est remplacé par X, une matrice de plusieurs colonnes. On cherche le bloc
inférieur droit de (Z Z)−1 , où Z = [i,X]. Le résultat analogue est

(Z Z)22 = [X X − X i(i i)−1 i X]−1 = (X M0 X)−1 ,

ce qui implique que la matrice de taille K × K dans le bloc inférieur


n droite de (Z Z)−1
est l’inverse de la matrice K × K dont le jk-ième élément est i=1 (xij − x̄j )(xik − x̄k ).
Ainsi, lorsqu’une matrice de données contient une colonne de 1, les éléments de l’inverse de
la matrice des sommes des carrés et des produits croisés sont calculés à partir des données
d’origine sous la forme d’écarts aux moyennes des colonnes correspondantes.
20 Annexe A

A.5.5 Produits Kronecker


Le produit Kronecker entre les matrices A et B est
⎡ ⎤
a11 B a12 B ··· a1K B
⎢ a21 B a22 B ··· a2K B ⎥
A⊗B = ⎣ ⎢ ⎥. (A-70)
··· ⎦
an1 B an2 B ··· anK B
Aucune condition de compatibilité n’est nécessaire dans cette opération. Si A est de taille
K × L et B de taille m × n, alors A ⊗ B est de taille (Km) × (Ln).
On a aussi
(A ⊗ B)−1 = (A−1 ⊗ B−1 ), (A-71)
Si A est de taille M × M et B de taille n × n, alors
|A ⊗ B| = |A|n |B|M ,
(A ⊗ B) = A ⊗ B
trace(A ⊗ B) = tr(A)tr(B).
Par ailleurs, (A ⊗ B)(C ⊗ D) = AC ⊗ BD.

A.6 Racines et vecteurs caractéristiques


Un ensemble de résultats utiles pour l’analyse d’une matrice carrée A concerne les solutions
des équations
Ac = λc. (A-72)
Les paires de solutions sont les vecteurs caractéristiques (vecteurs propres) c et les
racines caractéristiques (valeurs propres) λ. Si c est tout vecteur de solution, alors kc
l’est aussi pour tout k. Pour éliminer cette indétermination, c est normalisé tel que c c = 1.
La solution comprend λ et les n − 1 éléments dans c.

A.6.1 L’équation caractéristique


On peut procéder à la résolution de (A-72) comme suit. D’abord, (A-72) implique Ac = λIc
ou (A − λI)c = 0. C’est un système homogène qui a une solution non nulle seulement si
(A−λI) est singulière ou a un déterminant égal à zéro. En conséquence, si λ est une solution,
alors
|A − λI | = 0. (A-73)
Ce polynôme en λ est l’équation caractéristique de A. Par exemple, avec
5 1
A= ,
2 4
on a " "
"5 − λ 1 ""
"
|A − λI| = " = (5 − λ)(4 − λ) − 2(1) = λ2 − 9λ + 18.
2 4 − λ"
Les solutions sont λ = 6 et λ = 3.
Les racines caractéristiques ne sont pas forcément réelles. Cependant, les racines caractéris-
tiques d’une matrice symétrique sont réelles5 .

5 Voir la preuve dans Theil (1971).


Algèbre matricielle 21

L’équation caractéristique d’une matrice de taille n × n est un polynôme d’ordre n en λ. Ses


solutions peuvent comporter n valeurs distinctes, des valeurs répétées et des zéros.

A.6.2 Vecteurs caractéristiques


Dès que l’on a λ, on peut obtenir les vecteurs caractéristiques à partir du problème d’origine,
Ac = λc ou

(A − λI)c = 0. (A-74)

Aucune paire ne détermine les valeurs de c1 et de c2 . L’équation supplémentaire c c = 1


permet ainsi de déterminer les solutions complètes pour les vecteurs.

A.6.3 Résultats généraux pour les racines et les vecteurs caractéristiques


Une matrice symétrique de taille K × K possède K vecteurs caractéristiques distincts,
c1 , c2 , . . . , cK . Les valeurs caractéristiques correspondantes, λ1 , λ2 , . . . , λK , sont réelles
mais ne sont pas forcément distinctes. Les vecteurs caractéristiques d’une matrice symétrique
sont orthogonaux, ce qui entraîne i = j, ci cj = 06 . Il est utile de regrouper les vecteurs ca-
ractéristiques de taille K dans une matrice de taille K × K, dont la i-ième colonne est ci qui
correspond à λi ,
C = [c1 c2 · · · cK ],
et les K racines caractéristiques, suivant le même ordre, dans une matrice diagonale
⎡ ⎤
λ1 0 0 ··· 0
⎢ 0 λ2 0 ··· 0 ⎥
Λ=⎢ ⎣
⎥.

···
0 0 0 · · · λK

Donc, l’ensemble des équations Ack = λk ck est contenu dans

AC = CΛ. (A-75)

Comme les vecteurs sont orthogonaux et ci ci = 1, on obtient


⎡  ⎤
c1 c1 c1 c2 · · · c1 cK
⎢ c2 c1 c2 c2 · · · c2 cK ⎥
⎢ ⎥
C C = ⎢
⎢ .. ⎥ = I.
⎥ (A-76)
⎣ . ⎦
cK c1 cK c2 ··· cK cK

Ceci implique
C = C−1 . (A-77)
Par conséquent,
CC = CC−1 = I. (A-78)
Ainsi, les lignes, tout comme les colonnes, de C sont orthogonales.

6 Cette affirmation sera fausse si la matrice n’est pas symétrique. Pour les matrices non symétriques,
on distingue aussi les vecteurs caractéristiques « droits », Ac = λc, des vecteurs caractéristiques
« gauches », d A = λd , qui peuvent être différents.
22 Annexe A

A.6.4 Diagonalisation et décomposition spectrale d’une matrice


En prémultipliant (A-75) par C et en utilisant (A-76), on peut obtenir les racines caracté-
ristiques de A.

Définition A.15 : Diagonalisation d’une matrice


La diagonalisation d’une matrice A est

C AC = C CΛ = IΛ = Λ. (A-79)

De façon alternative, en post-multipliant (A-75) par C et en utilisant (A-78), on obtient


une représentation utile de A.

Définition A.16 : Décomposition spectrale d’une matrice


La décomposition spectrale de A est


K
A = CΛC = λk ck ck . (A-80)
k=1

Dans cette représentation, la matrice A de taille K × K est écrite comme une somme de
K matrices de rang 1. Cette somme est également appelée la décomposition en valeurs
propres de A. À ce propos, le terme signature d’une matrice est parfois utilisé pour décrire
les racines et les vecteurs caractéristiques. On utilise une autre paire de termes pour cette
décomposition, les racines latentes et les vecteurs latents de A.

A.6.5 Rang d’une matrice


La diagonalisation nous permet de déterminer facilement le rang d’une matrice. On utilise
le résultat suivant.

Théorème A.3 : Rang d’un produit


Pour toute matrice A et toutes matrices non singulières B et C, le rang de BAC
est égal au rang de A. La preuve est simple. À partir de (A-40), rang(BAC) =
rang[(BA)C] = rang(BA). Par (A-38), rang(BA) = rang(A B ), et en utilisant de
nouveau (A-40), rang(A B ) = rang(A ) puisque B est non singulière si B est non
singulière [de nouveau par (A-38)]. Enfin, l’utilisation de (A-38) produit rang(A ) =
rang(A), CQFD.

Puisque C et C sont non singulières, on peut les utiliser pour appliquer ce résultat à (A-79),
ce qui nous donne
rang(A) = rang(Λ). (A-81)
Calculer le rang de Λ est trivial car Λ est diagonale et son rang est justement le nombre de
ses éléments diagonaux non nuls. On généralise ce résultat dans les théorèmes suivants.

Théorème A.4 : Rang d’une matrice symétrique


Le rang d’une matrice symétrique est le nombre de ses racines caractéristiques non
nulles.
Algèbre matricielle 23

Dans la décomposition spectrale ci-dessus, si une racine caractéristique quelconque est nulle,
alors le nombre de matrices de rang 1 dans la somme sera également diminué. Cette règle
simple ne s’applique pas aux matrices non carrées. Cependant, remarquons que

rang(A) = rang(A A). (A-82)

Comme A A est toujours carrée, on peut l’utiliser à la place de A.

Théorème A.5 : Rang d’une matrice


Le rang de toute matrice A est égal au nombre de racines caractéristiques non nulles
de A A.

Comme le rang des colonnes et le rang des lignes d’une matrice sont identiques, le théorème
A.5 s’applique également à AA .

Théorème A.6 : Racines d’une matrice de produit


Les racines caractéristiques non nulles de AA sont les mêmes que celles de A A.

Si une racine caractéristique d’une matrice est nulle, alors on a Ac = 0. Ainsi, une matrice
ayant une racine nulle est non singulière. Sinon, aucun c non nul n’existe. En général, une
matrice est singulière, ou de rang non plein, si et seulement si elle contient au moins une
racine nulle.

A.6.6 Condition du nombre d’une matrice


Dans l’analyse des matrices des données dans la section A.2, on rencontre souvent des cas
où une matrice n’est pas tout à fait de rang non plein, car ses racines sont toutes non nulles,
mais elle n’en est pas loin. Autrement dit, il est presque possible d’écrire une colonne comme
une combinaison linéaire des autres colonnes. Ce cas est important, notamment lors de la
discussion sur la multi-colinéarité. Les définitions de rang et de déterminant ne permettent
pas de présenter cette possibilité. On peut utiliser une mesure alternative, la condition du
nombre. La condition du nombre d’une matrice carrée A est
1/2
racine maximale
γ= . (A-83)
racine minimale

Pour une matrice non carrée X, on utilise A = X X. Par ailleurs, comme les racines carac-
téristiques sont affectées par l’échelle des colonnes de X, on normalise les colonnes pour avoir
une longueur égale à 1 en divisant chaque colonne par sa norme [voir
(A-50)]. Pour X dans la section A.2, la racine caractéristique la plus grande de A est 4,9255
tandis que la valeur la plus petite est 0,0001543. La condition du nombre est extrêmement
grande (178,67). (Des valeurs supérieures à 20 sont considérées comme grandes.) Cette ma-
trice, ayant la plus petite racine proche de zéro comparée à la valeur la plus élevée, est donc
presque singulière. Les matrices ayant des conditions du nombre élevées ne sont pas faciles
à inverser de façon précise.
24 Annexe A

A.6.7 Trace d’une matrice


La traced’une matrice carrée de taille K × K est la somme de ses éléments diagonaux :
tr(A) = K k=1 akk . On a les résultats suivants

tr(cA) = c(tr(A)), (A-84)



tr(A ) = tr(A), (A-85)
tr(A + B) = tr(A) + tr(B), (A-86)
tr(IK ) = K. (A-87)
tr(AB) = tr(BA). (A-88)
  
a a = tr(a a) = tr(aa )

K 
K 
K
tr(A A) = ak ak = a2ik .
k=1 i=1 k=1

La règle de permutation peut être appliquée à toute permutation cyclique dans un produit :

tr(ABCD) = tr(BCDA) = tr(CDAB) = tr(DABC). (A-89)

En utilisant (A-79), on obtient

tr(C AC) = tr(ACC ) = tr(AI) = tr(A) = tr(Λ). (A-90)

Comme Λ est diagonale, on a le résultat général suivant.

Théorème A.7 : Trace d’une matrice


La trace d’une matrice est égale à la somme de ses racines caractéristiques. (A-91)

A.6.8 Déterminant d’une matrice


On a montré que le calcul d’un déterminant peut être fastidieux. Le résultat suivant est très
utile :
C AC = Λ,
(A-92)
|C AC| = |Λ|.
En utilisant certains des résultats précédents, on obtient, pour une matrice C orthogonale,
|C AC| = |C | · |A| · |C| = |C | · |C| · |A| = |C C| · |A| = |I| · |A| = 1 · |A|
= |A| (A-93)
= |Λ|.

Comme |Λ| est le produit de ses éléments diagonaux, on a le résultat suivant :

si A est de taille M × n et B est une matrice carrée de rang n,


alors rang(AB) = rang(A). (A-94)

Théorème A.8 : Déterminant d’une matrice


Le déterminant d’une matrice est égal au produit de ses racines caractéristiques.

(A-95)
Algèbre matricielle 25

Comme le déterminant est le produit des racines, il s’ensuit qu’une matrice est singulière
si et seulement si son déterminant est nul, ou si et seulement si elle a au moins une racine
caractéristique nulle.

A.6.9 Puissances d’une matrice


On recourt souvent à des expressions impliquant les puissances des matrices, telles que
AA = A2 . Pour les puissances entières positives, les expressions peuvent être évaluées en
répétant la multiplication. Pour les opérations comme la racine carrée d’une matrice, on
utilise les racines et les vecteurs caractéristiques. On examine d’abord
AA = A2 = (CΛC )(CΛC ) = CΛC CΛC = CΛIΛC = CΛΛC
(A-96)
= CΛ2 C .

Si Λ2 est une matrice diagonale dont les éléments non nuls sont les carrés de ceux dans Λ,
on a
Pour toute matrice symétrique, les racines caractéristiques de A2 sont les carrés de celles de
A, et les vecteurs caractéristiques sont les mêmes.
(A-97)

Quant à la preuve, on constate que la seconde ligne de (A-96) est la décomposition spectrale
de la matrice B = AA. Comme A3 = AA2 , etc., (A-97) s’applique à tout entier positif. Par
convention, pour toute A, on a A0 = I. Par conséquent, pour toute matrice symétrique A,
AK = CΛK C , K = 0, 1, . . . . Ainsi, les racines caractéristiques de AK sont λK , alors que
les vecteurs caractéristiques sont identiques. Si A est non singulière, toutes ses racines sont
non nulles. Cette preuve peut être étendue à des puissances négatives.
Si A−1 existe, alors
A−1 = (CΛC )−1 = (C )−1 Λ−1 C−1 = CΛ−1 C , (A-98)
 −1
où le résultat précédent, C = C , a été utilisé. Le résultat suivant est important pour
l’analyse des matrices inverses.

Théorème A.9 : Racines caractéristiques d’une matrice inverse


Si A−1 existe, les racines caractéristiques de A−1 sont les réciproques de celles de A
et les vecteurs caractéristiques sont les mêmes.

On a un résultat plus général.

Théorème A.10 : Racines caractéristiques d’une puissance d’une matrice


Pour toute matrice non singulière symétrique A = CΛC , AK = CΛK C , K =
. . . , − 2, − 1, 0, 1, 2, . . . .

On revient au problème du calcul de la racine carrée d’une matrice. Dans le cas scalaire, la
valeur doit être non négative. L’analogue matriciel est que toutes les racines caractéristiques
doivent être non négatives. On examine
⎡√ ⎤
λ1 √0 ··· 0
⎢ 0 λ2 · · · 0 ⎥ 
A1/2 = CΛ1/2 C = C ⎢ ⎣
⎥C .
⎦ (A-99)
··· √
0 0 ··· λn
26 Annexe A

Cette équation vérifie la condition requise pour la racine carrée, car

A1/2 A1/2 = CΛ1/2 C CΛ1/2 C = CΛC = A. (A-100)

En continuant ainsi, on peut définir plus généralement les puissances d’une matrice, tout en
supposant que toutes les racines caractéristiques sont non négatives. Par exemple, A1/3 =
CΛ1/3 C . Si toutes les racines sont strictement positives, le résultat peut être étendu à
n’importe quelle puissance réelle. Une matrice ayant des racines caractéristiques positives
est dite définie positive. C’est l’analogue matriciel d’un nombre positif.

Définition A.17 : Puissances réelles d’une matrice définie positive

Pour une matrice définie positive A, Ar = CΛr C pour tout nombre réel r.
(A-101)

Les racines caractéristiques de Ar sont les r-ièmes puissances de celles de A, alors que les
vecteurs caractéristiques restent les mêmes.
Si A est seulement définie non négative — ses racines caractéristiques sont nulles ou
positives — alors (A-100) est valable seulement pour les r non négatifs.

A.6.10 Matrices idempotentes


Les matrices idempotentes sont égales à leurs carrés [voir (A-32)–(A-34)]. (A-97) implique
que si λ est une racine caractéristique d’une matrice idempotente, alors λ = λK pour tout
entier non négatif K. Ainsi, si A est une matrice idempotente symétrique, alors toutes
ses racines sont 1 ou 0. En supposant que toutes les racines de A sont 1, on a Λ = I, et
A = CΛC = CIC = CC = I. Les résultats suivants concernent les matrices idempotentes
symétriques7 :

• La seule matrice idempotente symétrique de plein rang est la matrice d’identité I.


(A-102)

• Toutes les matrices idempotentes symétriques, sauf la matrice d’identité, sont singu-
lières.
(A-103)
En combinant les théorèmes A.5 et A.7 avec le fait que les racines d’une matrice idempotente
sont 1 ou 0, on a

• Le rang d’une matrice idempotente symétrique est égal à sa trace. (A-104)

A.6.11 Factorisation d’une matrice


Dans certaines applications, on a besoin d’une matrice P telle que

P P = A−1 .

7 Les matrices idempotentes ne sont pas toutes symétriques, mais on n’en rencontre aucune dans notre
analyse.
Algèbre matricielle 27

Un choix8 est P = Λ−1/2 C . Ainsi, P P = (C ) (Λ−1/2 ) Λ−1/2 C = CΛ−1 C . La décom-


position spectrale de A, A = CΛC , est utile pour ce type de calcul.
La factorisation de Cholesky d’une matrice définie positive symétrique est une repré-
sentation alternative très utile dans l’analyse de régression. Toute matrice définie posi-
tive symétrique A peut être écrite comme le produit d’une matrice triangulaire infé-
rieure L et sa transposée (qui est une matrice triangulaire supérieure) L = U. Ainsi,
A = LU. Les racines carrées des éléments diagonaux de L, di , sont les valeurs de Cho-
lesky de A. En les arrangeant à nouveau dans une matrice diagonale D, on peut écrire
A = LD−1 D2 D−1 U = L∗ D2 U∗ , qui est analogue à la décomposition spectrale dans (A-80).
Cette formulation est utile avec l’utilisation de l’inverse de A. Étant donné L, le calcul de
A−1 = U−1 L−1 est simple, rapide et précis. Les logiciels économétriques récents utilisent
cette technique pour inverser les matrices définies positives.
Lorsque les colonnes de A sont « presque » colinéaires, un troisième type de décomposition
est utile, notamment pour l’analyse numérique. Toute matrice A de taille n × K, n ≥ K,
peut être écrite sous la forme A = UWV , où U est une matrice orthogonale de taille n × K
(c’est-à-dire U U = IK ), W est une matrice diagonale de taille K × K avec wi ≥ 0, et V est
une matrice de taille K×K telle que V V = IK . Ce résultat est appelé la décomposition en
valeurs singulières (DVS) de A, et les wi sont les valeurs singulières de A. (On remarque
que la décomposition spectrale est une décomposition en valeurs singulières si A est carrée.)
Comme la décomposition de Cholesky, la décomposition en valeurs singulières est utile dans
l’inversion matricielle, en particulier l’inverse de A A. On a (A A)−1 = VW−2 V . L’inverse
de A s’obtient de façon triviale une fois sa DVS est effectuée. Un autre avantage de cette
décomposition est sa stabilité numérique.
Press et al. (1986) ont recommandé l’approche DVS pour la résolution des problèmes des
moindres carrés à cause de sa précision et de sa stabilité numérique. Une autre méthode
fréquemment utilisée est la décomposition QR. Toute matrice X de taille n×K, n ≥ K, peut
être écrite comme X = QR où les colonnes de Q sont orthonormales (c’est-à-dire Q Q = I)
et R est une matrice triangulaire supérieure. Cette décomposition est extrêmement précise
et n’implique ni une inversion ni une solution directe des équations normales.

A.6.12 Inverse généralisée d’une matrice


Une inverse généralisée d’une matrice A est une autre matrice A+ qui vérifie les propriétés
suivantes :
1. AA+ A = A.
2. A+ AA+ = A+ .
3. A+ A est symétrique.
4. AA+ est symétrique.

On peut trouver un A+ unique pour toute matrice A, même si cette dernière est singulière
ou non, ou même si elle n’est pas carrée. La matrice unique vérifiant toutes ces propriétés
est appelée l’inverse de Moore–Penrose ou la pseudo-inverse de A. Si A est carrée et
non singulière, alors l’inverse généralisée est la matrice inverse déjà rencontrée.
Dans le cas d’un système d’équations suridentifié,
Ab = y,

8 C’est « un » choix car si A est symétrique, il existe d’autres candidats. Un autre choix est
CΛ−1/2 C = A−1/2 .
28 Annexe A

où A comporte n lignes et K < n colonnes, et est de rang des colonnes R ≤ K. Supposons


que R = K, alors (A A)−1 existe. L’inverse de Moore–Penrose de A est

A+ = (A A)−1 A ,

Une « solution » du système peut être écrite

b = A+ y.

C’est le vecteur qui minimise la longueur Ab−y. Ce résultat est aussi la solution du problème
des moindres carrés dans la section A.4.4. Si y appartient à l’espace des colonnes de A, ce
vecteur sera zéro, sinon il sera non nul.
On suppose maintenant que A n’est pas de plein rang. Dans ce cas, la solution précédente
n’est pas calculable. En revanche, une solution alternative peut être obtenue. On continue
à utiliser A A. Dans la décomposition spectrale de la section A.6.4, si A est de rang R,
alors il y a R termes dans la somme dans (A-80). Dans (A-98), la décomposition spectrale
impliquant les réciproques des racines caractéristiques est utilisée pour calculer l’inverse.
Pour trouver l’inverse de Moore–Penrose, on applique ce calcul à A A, avec seulement les
racines non nulles, et on post-multiplie ensuite le résultat obtenu par A . Soit C1 les R
vecteurs caractéristiques associés à ces racines non nulles qui sont les éléments dans la matrice
diagonale Λ1 . L’inverse de Moore–Penrose est

A+ = C1 Λ−1  
1 C1 A .

Si A est symétrique et de rang R ≤ K, l’inverse de Moore–Penrose est l’expression précédente


sans la post-multiplication par A . D’où, pour une matrice symétrique
A, A+ = C1 Λ−1  −1
1 C1 , où Λ1 est une matrice diagonale contenant les réciproques des racines
non nulles de A.

A.7 Formes quadratiques et matrices définies


Plusieurs problèmes d’optimisation concernent les doubles sommes de la forme

n 
n
q= xi xj aij . (A-105)
i=1 j=1

Cette forme quadratique peut être écrite

q = x Ax,

où A est une matrice symétrique. Il existe certaines matrices pour lesquelles q est toujours
positive pour tout x alors que pour d’autres matrices, q est toujours négative (ou non positive
ou non négative). Pour une matrice A donnée,
1. Si x Ax > (<) 0 pour tout x non nul, alors A est définie positive (négative).
2. Si x Ax ≥ (≤) 0 pour tout x non nul, alors A est définie non négative ou semi-
définie positive (définie non positive).

Une matrice symétrique peut être décomposée comme A = CΛC . Ainsi, la forme quadra-
tique devient x Ax = x CΛC x. Soit y = C x. Alors

n
x Ax = y Λy = λi yi2 . (A-106)
i=1
Algèbre matricielle 29

Si λi est positif pour tout i, alors, indépendamment de y — c’est-à-dire indépendamment de


x — q sera positive. Cela correspond au cas d’une matrice définie positive. D’où le théorème
suivant :

Théorème A.11 : Matrices définies


Soit A une matrice symétrique. Si toutes les racines caractéristiques de A sont po-
sitives (négatives), alors A est définie positive (définie négative). Si certaines
racines sont nulles, alors A est définie non négative (non positive) si les racines
restantes sont positives (négatives). Si A comporte à la fois des racines négatives et
positives, alors A est indéfinie.

Ce théorème est aussi valable pour la condition « si et seulement si ».

A.7.1 Matrices définies non négatives


On s’intéresse aux matrices définies non négatives. Le théorème A.11 implique un certain
nombre de résultats.

• Si A est définie non négative, alors |A| ≥ 0. (A-107)


Preuve : Le déterminant est le produit des racines caractéristiques, qui est non négatif.

L’inverse n’est pas vrai. Par exemple, une matrice de taille 2 × 2 avec deux racines négatives
est clairement non définie positive, mais son déterminant est positif.

• Si A est définie positive, alors A−1 l’est aussi. (A-108)

Preuve : Les racines sont les réciproques de celles de A, qui sont positives.

• La matrice d’identité I est définie positive.


(A-109)
 
Preuve : x Ix = x x > 0 si x = 0.

Un résultat très important pour l’analyse de régression est

• Si A est de taille n × K et de plein rang des colonnes avec n > K, alors A A est définie
positive et AA est définie non négative.
(A-110)

Preuve : Par hypothèse, Ax = 0. Ainsi, x A Ax = (Ax) (Ax) = y y = j yj2 > 0.

Une preuve similaire montre que AA est définie non négative. La différence est que, dans
le dernier cas, comme A comporte plus de lignes que de colonnes, il existe un x tel que
A x = 0. En conséquence, dans la preuve, on a seulement y y ≥ 0. Le cas où A n’est pas
de plein rang des colonnes est le même que celui de AA .

• Si A est définie positive et B est une matrice non singulière, alors B AB est définie
positive.
(A-111)
Preuve : x B ABx = y Ay > 0, où y = Bx. Or, y ne peut pas être égal à 0 car B est
non singulière.

Enfin, pour que A soit définie négative, toutes les racines caractéristiques de A doivent être
négatives. Dans ce cas, |A| est positive si A est d’ordre pair et négative si A est d’ordre
impair.
30 Annexe A

A.7.2 Formes quadratiques idempotentes


Les formes quadratiques dans les matrices idempotentes jouent un rôle important dans la
distribution de plusieurs statistiques de tests. Deux résultats suivants sont importants.

• Toute matrice idempotente symétrique est définie non négative.


(A-112)
Preuve : Toutes les racines sont 1 ou 0, donc la matrice est définie non négative par défi-
nition.
La combinaison de ce résultat avec les résultats présentés précédemment permet d’établir la
distribution d’échantillon de la plupart des statistiques de tests.

• Si A est symétrique et idempotente, de taille


 n × n et de rang J, alors toute forme
quadratique en A peut être écrite x Ax = Jj=1 yj2 .
(A-113)
Preuve : Ce résultat correspond à (A-106) avec λ = 1 ou 0.

A.7.3 Comparaison des matrices


La comparaison des matrices est fréquente en économétrie. Les deux matrices doivent d’abord
être de mêmes dimensions. Une comparaison utile repose sur
d = x Ax − x Bx = x (A − B)x.
Si d est toujours positif pour tout vecteur non nul, x, alors on peut dire, selon ce critère, que
A est plus grande que B. Il en résulte que
si d > 0 pour tout x non nul, alors A − B est définie positive. (A-114)
Si d est supérieur ou égal à zéro, alors A−B est définie non négative. Pour certaines paires de
matrices, d peut prendre n’importe quel signe dépendant de x. Dans ce cas, la comparaison
n’est pas simple.
On rencontre souvent le résultat suivant :
si A est définie positive et si B est définie non négative, alors A + B ≥ A. (A-115)
Dans la « formule d’actualisation » de (A-61), on a
A = B B + bb ≥ B B.
Il est parfois utile de comparer les inverses des matrices :
Si A > B, alors B−1 > A−1 . (A-116)
Ce résultat est établi sur la base du théorème suivant, démontré dans Goldberger (1964,
chapitre 2).

Théorème A.12 : Ordre des matrices définies positives


Si A et B sont deux matrices définies positives de mêmes dimensions et si toutes
les racines caractéristiques de A sont plus grandes (au moins aussi grandes) que les
racines caractéristiques correspondantes de B lorsque les deux ensembles de racines
sont classés dans l’ordre décroissant, alors A − B est définie positive (non négative).

Comme les racines de l’inverse sont les réciproques de celles de la matrice d’origine, le
théorème s’applique aux matrices inverses.
Algèbre matricielle 31

A.8 Calcul et algèbre matricielle


A.8.1 Différenciation et approximation de Taylor
Une variable y est une fonction d’une autre variable x si chaque valeur de x est associée à
une seule valeur de y. On écrit, par exemple,

y = f (x), y = g(x), y = y(x).

Dans cette relation, y et x sont appelées respectivement variable dépendante et variable


indépendante. En supposant la fonction f (x) continue et différenciable, on obtient les
dérivées
dy  d2 y
f  (x) = , f (x) = , etc.
dx dx2
Les dérivées sont fréquemment utilisées dans l’approximation de Taylor. Le développe-
ment de Taylor est une approximation polynômiale de f (x). L’approximation autour d’un
point arbitraire x0 est

P
1 di f (x0 )
f (x) ≈ f (x0 ) + (x − x0 )i . (A-117)
i=1
i! d(x0 )i

Le nombre de termes est arbitrairement choisi. Plus il est grand, plus l’approximation sera
précise. L’approximation linéaire est celle qui est le plus souvent utilisée en économétrie,

f (x) ≈ α + βx (A-118)

où, en ré-arrangeant les termes dans (A-117), α = [f (x0 )−f  (x0 )x0 ] et β = f  (x0 ). L’exposant
« 0 » signifie que la fonction est évaluée en x0 . L’approximation quadratique est

f (x) ≈ α + βx + γx2 , (A-119)


0 0 0 0 0 2 0 0 0 0
où α = [f − f x + 12 f (x ) ], β = [f −f x ] et γ = 12 f .
On peut considérer une fonction y = f (x1 ,x2 , . . . ,xn ) comme une fonction scalaire d’un
vecteur, c’est-à-dire y = f (x). Le vecteur des dérivées partielles, ou vecteur gradient, ou
gradient, est ⎡ ⎤ ⎡ ⎤
∂y/∂x1 f1
∂f (x) ⎢ ∂y/∂x2 ⎥ ⎢ f2 ⎥
=⎣⎢ ⎥ = ⎢ ⎥. (A-120)
∂x · · · ⎦ ⎣· · ·⎦
∂y/∂xn fn
Le vecteur colonne g(x) ou g est utilisé pour représenter le gradient.
Une matrice de dérivées secondes ou le hessien est
⎡ 2 ⎤
∂ y/∂x1 ∂x1 ∂ 2 y/∂x1 ∂x2 · · · ∂ 2 y/∂x1 ∂xn
⎢ ∂ y/∂x2 ∂x1 ∂ y/∂x2 ∂x2 · · · ∂ y/∂x2 ∂xn ⎥
2 2 2
H=⎢ ⎣
⎥ = [fij ].
⎦ (A-121)
··· ··· ··· ···
2 2 2
∂ y/∂xn ∂x1 ∂ y/∂xn ∂x2 · · · ∂ y/∂xn ∂xn

En général, H est carrée et symétrique. (La symétrie est obtenue pour les fonctions continues
et continûment différenciables, selon le théorème de Young.) On a

∂(∂y/∂x) ∂(∂y/∂x) ∂(∂y/∂x) ∂(∂y/∂x) ∂(∂y/∂x) ∂2y


H= ··· = = = .
∂x1 ∂x2 ∂xn ∂(x1 x2 · · · xn ) ∂x  ∂x∂x
32 Annexe A

L’approximation de Taylor d’ordre 1, ou linéaire, est



n
y ≈ f (x0 ) + fi (x0 ) xi − x0i . (A-122)
i=1

Le membre de droite est



∂f (x0 )
f (x0 ) + (x − x0 ) = [f (x0 ) − g(x0 ) x0 ] + g(x0 ) x = [f 0 − g0 x0 ] + g0 x.
∂x0

Ceci produit l’approximation linéaire y ≈ α + β  x. L’approximation de second ordre, ou


quadratique, ajoute les termes de second ordre

1  0
n n
1
fij xi − x0i xj − x0j = (x − x0 ) H0 (x − x0 ),
2 i=1 j=1 2

dans le développement précédent. En arrangeant à nouveau les termes comme dans (A-122),
on obtient
1
y ≈ α + β  x + x Γx, (A-123)
2
où α = f 0 − g0 x0 + 12 x0 H0 x0 , β = g0 − H0 x0 et Γ = H0 .

Une fonction linéaire peut être écrite y = a x = x a = n i=1 ai xi , ce qui donne

∂(a x)
= a. (A-124)
∂x
Notons que ∂(a x)/∂x = a, et non a . Pour un ensemble d’équations linéaires,
y = Ax, chaque élément yi de y est yi = ai x, où ai est la i-ième ligne de A [voir (A-
11)]. Par conséquent,
∂yi
= ai = transposée de la i-ième ligne de A,
∂x
et ⎡ ⎤ ⎡ ⎤
∂y1 /∂x a1
⎢ ∂y2 /∂x ⎥ ⎢ a2 ⎥
⎢ ⎥ ⎢ ⎥
⎣ · · · ⎦ = ⎣· · ·⎦.

∂yn /∂x an
En regroupant les termes, ∂Ax/∂x = A, ou
∂Ax
= A . (A-125)
∂x

Une forme quadratique est écrite



n 
n
x Ax = xi xj aij . (A-126)
i=1 j=1

Par exemple,
1 3
A= ,
3 4
ainsi x Ax = 1x21 + 4x22 + 6x1 x2 . Il en résulte que
∂x Ax 2x1 + 6x2 2 6 x1
= = = 2Ax (A-127)
∂x 6x1 + 8x2 6 8 x2
Algèbre matricielle 33

lorsque A est symétrique. Si A n’est pas symétrique,

∂(x Ax)
= (A + A )x. (A-128)
∂x
∂(x Ax)
Par ailleurs, on a ∂aij
= xi xj . On obtient

∂(x Ax)
= xx , (A-129)
∂A
une matrice carrée dont le ij-ième élément est xi xj . Les dérivées impliquant les déterminants
sont présentes dans l’estimation du maximum de vraisemblance. À partir de (A-46), on
obtient
∂|A|
= (−1)i+j |Aji | = cij
∂aij
où |Cji | est le ij-ième cofacteur dans A. L’inverse de A peut être calculée en utilisant

(−1)i+j |Cji |
A−1
ij = ,
|A|

ln|A| (−1)i+j |C |
ainsi ∂∂a ij
= |A|
ji
et ∂ ln|A|
∂A
= A−1 . La transposition ne sera pas nécessaire car les
matrices utilisées sont symétriques.

A.8.2 Optimisation
On cherche un x qui maximise ou minimise f (x). L’optimum de f (x) apparaît lorsque
f  (x) = 0. Sinon, la fonction sera croissante ou décroissante avec x. Ainsi, la condition
d’optimalité (maximum ou minimum) de premier ordre ou nécessaire est
dy
= 0. (A-130)
dx
La fonction doit être concave pour un maximum et convexe pour un minimum. La condition
suffisante d’optimalité est
d2 y
pour un maximum, dx2
<0;
(A-131)
d2 y
pour un minimum, dx2
> 0.

Certaines fonctions possèdent plusieurs optima locaux, c’est-à-dire plusieurs minima et


maxima, et peuvent présenter un minimum ou un maximum global. Certaines fonctions
ne possèdent qu’un seul optimum. Ces fonctions sont concaves globalement si l’optimum
est un maximum et convexes globalement si c’est un minimum.
Pour les fonctions à plusieurs variables, les conditions de premier ordre sont
∂f (x)
= 0. (A-132)
∂x
L’interprétation de ces conditions est analogue à celles du cas univarié. La condition de
second ordre d’un optimum, au point optimal, est que

∂ 2 f (x)
H= (A-133)
∂x ∂x
doit être définie positive pour un minimum et définie négative pour un maximum.
34 Annexe A

Étudions un exemple,
maximiserx R = a x − x Ax,
avec a = (5 4 2) et ⎡ ⎤
2 1 3
A = ⎣1 3 2⎦.
3 2 5
On a ⎡ ⎤ ⎡ ⎤⎡ ⎤
5 4 2 6 x1
∂R
= a − 2Ax = ⎣4⎦ − ⎣2 6 4 ⎦ ⎣x2 ⎦ = 0. (A-134)
∂x
2 6 4 10 x3
Les solutions sont ⎡⎤ ⎡ ⎤−1 ⎡ ⎤ ⎡ ⎤
x1 4 2 6 5 11,25
⎣ x2 ⎦ = ⎣ 2 6 4 ⎦ ⎣4⎦ = ⎣ 1,75⎦.
x3 6 4 10 2 −7,25
La condition suffisante est que
⎡ ⎤
−4 −2 −6
∂ 2 R(x)

= −2A = ⎣−2 −6 −4 ⎦ (A-135)
∂x ∂x
−6 −4 −10
doit être définie négative. Les racines caractéristiques de cette matrice sont −15,746 ;
−4 et −0,25403. La matrice est donc définie négative.
Le calcul des racines caractéristiques du hessien est nécessaire pour la condition suffisante.
Pour une matrice d’ordre supérieur à 2, ce calcul requiert généralement l’utilisation d’un
ordinateur. Si A est de la forme
A = B B,
où B est une matrice connue, alors A est toujours définie positive (B est supposée de plein
rang). Dans ce cas, le calcul des racines caractéristiques de A n’est plus nécessaire.

A.8.3 Optimisation contrainte


Une méthode pour résoudre les problèmes d’optimisation sous contraintes consiste tout sim-
plement à« éliminer » les contraintes. Par exemple, dans le problème de maximisation ci-
dessus, on suppose que la contrainte x1 = x2 − x3 est imposée. Il est donc possible de substi-
tuer le membre de droite de cette équation pour x1 dans la fonction objectif, et de résoudre
le problème par rapport aux deux variables restantes. Lorsqu’il existe plusieurs contraintes,
on utilise la méthode des multiplicateurs de Lagrange. Le problème est
maximiserx f (x) sous les contraintes c1 (x) = 0,
c2 (x) = 0,
(A-136)
···
cJ (x) = 0.
Cette méthode consiste à trouver des points stationnaires, pour lesquels les dérivées s’an-
nulent, de

J
L∗ (x,λ) = f (x) + λj cj (x) = f (x) + λ c(x). (A-137)
j=1

Les solutions doivent vérifier les équations


∂L∗ ∂f (x) ∂λ  c(x)
∂x
= ∂x
+ ∂x
= 0 (n × 1),
(A-138)
∂L∗
∂λ
= c(x) = 0 (J × 1).
Algèbre matricielle 35

Le second terme dans ∂L∗ /∂x est

∂λ c(x) ∂c(x) λ ∂c(x)


= = λ = C λ, (A-139)
∂x ∂x ∂x

où C est la matrice de dérivées des contraintes par rapport à x. La j-ième ligne de la matrice
C (de taille J × n) est le vecteur de dérivées de la j-ième contrainte, cj (x), par rapport à
x . Les conditions de premier ordre deviennent
∂L∗ ∂f (x)
∂x
= ∂x
+ C λ = 0,
(A-140)
∂L∗
∂λ
= c(x) = 0.

Pour la solution non contrainte, on a ∂f (x)/∂x = 0. Selon (A-140), pour une solution
contrainte,
∂f (x)
= −C λ (A-141)
∂x
est différent de 0 sauf si λ = 0. Il y a deux implications importantes :

• La solution contrainte ne peut être supérieure à la solution non contrainte car le gradient
est non nul avec la solution contrainte. (Notons que C = 0 est possible si les contraintes
sont non linéaires. Cependant, dans une telle situation, la solution contrainte ne peut
pas être meilleure que la solution non contrainte.)

• Si les multiplicateurs de Lagrange sont nuls, la solution contrainte coïncidera avec la


solution non contrainte.

Pour l’exemple précédent, on suppose deux contraintes suivantes :

x1 − x2 + x3 = 0,
x1 + x2 + x3 = 0.

1 −1 1
Elles se réécrivent comme c(x) = Cx = 0 avec C = .
1 1 1
Le lagrangien est R ∗ (x,λ) = a x − x Ax + λ Cx. C est une matrice de taille 2 × 3, une
ligne par contrainte et une colonne par variable. Le vecteur de multiplicateurs de Lagrange
comporte deux éléments, un pour chaque contrainte. Les conditions nécessaires sont

a − 2Ax + C λ = 0 (trois équations) (A-142)

et Cx = 0 (deux équations). On peut les combiner ensemble :

−2A C x −a
= .
C 0 λ 0

En utilisant l’inverse partitionnée dans (A-69), les solutions analytiques pour λ et x sont

λ = −[CA−1 C ]−1 CA−1 a (A-143)

et
1 −1
x= A [I − C (CA−1 C )−1 CA−1 ]a. (A-144)
2
36 Annexe A

Pour notre exemple, elles correspondent à λ = [−0,5; −7,5] et x∗ = [1,5; 0; −1,5] . On


remarque que la forme de (A-144) est fastidieuse à calculer. En fait, lorsque λ est obtenu à
partir de (A-143), on peut utiliser (A-142), qui est plus simple. La solution est
1 −1 1
x= A a + A−1 C λ.
2 2
Il en résulte que

solution contrainte = solution non contrainte + [2A]−1 C λ. (A-145)

Les valeurs des fonctions objectifs non contrainte et contrainte sont respectivement R =
24,375 etR ∗ = 2,25, ce qui reflète que la solution contrainte (du problème de maximisation)
est inférieure à la solution non contrainte.

A.8.4 Transformations
Une fonction strictement monotone est une fonction bijective. Chaque y est associée à une
seule valeur de x et vice versa. Dans ce cas, il existe une fonction inverse, qui exprime x
comme fonction de y. On a donc y = f (x) et x = f −1 (y). La pente de la fonction inverse est

dx df −1 (y)
J= = = f −1 (y),
dy dy
qui est le jacobien
 de la transformation de y à x. Par exemple, avec y = a + bx, on a
x = − ab + 1b y, qui est la transformation inverse, et J = dx dy
= 1b . Statistiquement, lorsque
y = f (x) est verticale, il n’a plus de relation fonctionnelle. La même valeur x est associée à
plusieurs valeurs de y et on trouve J = 0, ce qui indique une singularité dans la fonction.
Lorsque y est un vecteur colonne, y = f (x), alors
⎡ ⎤
∂x1 /∂y1 ∂x1 /∂y2 ··· ∂x1 /∂yn
⎢ ∂x2 /∂y1 ∂x2 /∂y2 ··· ∂x2 /∂yn ⎥
∂x ⎢ ⎥
J= =⎢
⎢ .. ⎥.

∂y ⎣ . ⎦
∂xn /∂y1 ∂xn /∂y2 ··· ∂xn /∂yn

Pour l’ensemble de fonctions linéaires, y = Ax = f (x). La transformation inverse est x =


f −1 (y), qui devient x = A−1 y si A est non singulière. Si A est singulière, il n’y a aucune
transformation inverse. Soit J la matrice de dérivées partielles des fonctions inverses,

∂xi
J= .
∂yj

La valeur absolue du déterminant de J,

∂x
abs(|J|) = ,
∂y

est le déterminant du jacobien de la transformation de y à x. Dans le cas non singulier,


1
abs(|J|) = abs(|A−1 |) = .
abs(|A|)
Algèbre matricielle 37

Dans le cas singulier, la matrice de dérivées partielles est singulière et le déterminant du


jacobien est nul. Le jacobien singulier implique que A est singulière ou, de façon équivalente,
que les transformations de x à y sont fonctionnellement dépendantes. Ce cas singulier est
analogue au cas d’une seule variable.
Si le vecteur x est donné, alors y = Ax peut être calculé à partir de x. Le fait de pouvoir
déduire x à partir de y relève d’une autre question, qui dépend du jacobien. Si le jacobien
est non nul, on peut obtenir x car la transformation inverse existe. Sinon, x ne peut être
déduit.

Vous aimerez peut-être aussi