Académique Documents
Professionnel Documents
Culture Documents
Matrices Greene Annexe A
Matrices Greene Annexe A
Algèbre matricielle
A.1 Terminologie
Une matrice est un tableau rectangulaire de chiffres :
⎡ ⎤
a11 a12 ··· a1K
⎢ ··· a2K ⎥.
A = [aik ] = [A]ik = ⎣ a21 a22 ⎦ (A-1)
···
an1 an2 ··· anK
L’élément indexé d’une matrice est toujours lu comme aligne, colonne . Dans le tableau A.1, les
lignes sont identifiées aux années et les colonnes aux variables.
Un vecteur est un ensemble de nombres rangés en une ligne ou une colonne. Un vecteur
ligne est une matrice comportant une seule ligne, un vecteur colonne est une matrice à
une seule colonne. Par exemple, dans le tableau A.1, les cinq variables observées pour l’année
1972 constituent un vecteur ligne alors que les neuf valeurs de la consommation constituent
un vecteur colonne.
Une matrice peut être vue comme un ensemble de vecteurs colonnes ou de vecteurs lignes1 .
Les dimensions d’une matrice sont les nombres de ses lignes et de ses colonnes. « A est une
matrice de taille n × K » signifie que A comporte n lignes et K colonnes. Si n est égal à K,
A est une matrice carrée. Plusieurs types de matrices carrées sont fréquemment utilisés
en économétrie :
• Une matrice symétrique est une matrice ayant aik = aki pour tout i et k.
• Une matrice diagonale est toujours une matrice carrée dont les éléments hors la
diagonale principale sont nuls.
• Une matrice scalaire est une matrice diagonale dont les éléments diagonaux sont tous
identiques.
• Une matrice d’identité est une matrice scalaire dont les éléments diagonaux sont
égaux à 1. Elle est toujours notée I.
1 On écrit les matrices en gras et en majuscules et les vecteurs en gras mais en minuscules.
2 Annexe A
Colonne
2 3 4 5
1 Consommation PNB Déflateur Taux d’escompte
Ligne Année (milliards de dollars) (milliards de dollars) du PNB (N.-Y. Fed., moy.)
• Une matrice triangulaire (inférieure ou supérieure) est une matrice avec unique-
ment des éléments nuls au-dessus ou en dessous de sa diagonale principale.
A.2.2 Transposition
La transposée d’une matrice A, A , est la matrice dont la k-ième ligne correspond à la k-ième
colonne de A. Si A est de taille n × K, alors A est de taille K × n.
Une définition équivalente de la transposée d’une matrice est
Par ailleurs,
(A ) = A. (A-5)
Finalement, la transposée d’un vecteur colonne a est un vecteur ligne :
a = [a1 a2 · · · an ].
Algèbre matricielle 3
A.2.3 Addition
Les opérations d’addition et de soustraction matricielles sont définies par
Ces opérations ne sont possibles que si les matrices sont de mêmes dimensions. La matrice
nulle ou matrice zéro ne comporte que des zéros. Dans l’addition matricielle, la matrice
zéro joue le même rôle que le scalaire 0.
A + 0 = A. (A-8)
a b = a 1 b 1 + a 2 b 2 + · · · + a n b n . (A-9)
Remarquons que le produit scalaire est écrit comme la transposée du vecteur a fois le vecteur
b, le produit entre un vecteur ligne et un vecteur colonne. Dans (A-9), chaque terme aj bj
est égal à bj aj , donc
a b = b a. (A-10)
A.2.5 Remarque sur la notation pour les lignes et colonnes d’une matrice
Dans ce livre, un vecteur est par défaut un vecteur colonne. Cependant, on utilise souvent le
vecteur colonne qui est la transposée d’une ligne d’une matrice. Ceci peut créer une certaine
ambiguïté. C’est pourquoi on adopte la convention suivante :
• ak , al ou am désignent les colonnes k, l ou m de la matrice A,
• ai , aj , at ou as désignent les vecteurs colonnes formés par la transposée des lignes i, j, t
ou s de la matrice A. Ainsi, ai est la ligne i de A. (A-11)
Par exemple, pour les données du tableau A.1, il peut être commode de désigner xi = 1972
comme un vecteur de taille 5 × 1 contenant les cinq variables observées pour l’année 1972,
c’est-à-dire la transposée de la ligne correspondant à 1972. Dans les applications, les indices
i et j désignent les individus, et t et s les périodes.
cA = [caik ]. (A-13)
Le produit entre une matrice et un vecteur est écrit c = Ab. Le nombre d’éléments dans b
doit être égal au nombre de colonnes dans A et le résultat est un vecteur dont le nombre
d’éléments est égal au nombre de lignes de A. Par exemple,
⎡ ⎤ ⎡ ⎤⎡ ⎤
5 4 2 1 a
⎣4⎦ = ⎣2 6 1⎦⎣ b ⎦.
1 1 1 0 c
Ce produit peut être interprété de deux façons. D’une part, c’est une écriture compacte de
trois équations :
5 = 4a + 2b + 1c,
4 = 2a + 6b + 1c,
1 = 1a + 1b + 0c.
on observe que le terme à droite est une combinaison linéaire des colonnes de la matrice
où les coefficients sont les éléments du vecteur. Dans le cas général,
c = Ab = b1 a1 + b2 a2 + · · · + bK aK . (A-14)
Pour le produit matriciel C = AB, chaque colonne de C est une combinaison linéaire des
colonnes de A, dont les coefficients sont les éléments de la colonne correspondante de B.
Autrement dit,
C = AB ⇔ ck = Abk . (A-15)
Soit ek un vecteur colonne dont tous les éléments sont égaux à zéro, excepté le k-ième élément
qui est égal à un. Alors, on a
ak = Aek . (A-16)
On combine ce résultat avec (A-14) pour avoir
2 Pour vérifier la compatibilité pour la multiplication, on peut simplement regarder leurs dimensions,
par exemple (n × K) fois (K × M ). Les dimensions intérieures doivent être égales (ici K).
Algèbre matricielle 5
Dans la multiplication matricielle, la matrice d’identité joue le même rôle que le scalaire 1.
Pour toute matrice ou tout vecteur A, AI = IA = A. Cependant, lorsque A n’est pas carrée,
les deux matrices d’identité sont d’ordres différents.
1
n
1
x̄ = xi = i x, (A-23)
n i=1 n
d’où
n
xi = i x = nx̄.
i=1
est le produit entre les k-ième et l-ième colonnes de X. Par exemple, pour l’échantillon de
données dans le tableau A.1, si on définit X comme une matrice de taille 9 × 3 comportant
(année, consommation, PIB), alors
1980
[X X]23 = consommation t PIBt = 737,1(1185,9) + · · · + 1667,2(2633,1)
t=1972
= 19743711,34.
Ce résultat montre que la matrice X X de taille K × K est la somme de n matrices de taille
K × K, dont chacune est formée d’une seule ligne (année) de X. Dans notre exemple, cette
somme correspond à neuf matrices de taille 3 × 3.
Les éléments diagonaux de M0 sont (1 − 1/n), alors que les éléments hors diagonale sont
−1/n. Cette matrice est utile pour calculer les sommes des carrés des écarts. On a M0 i =
I − n1 ii i = i − n1 i(i i) = 0, ce qui implique i M0 = 0 . La somme des écarts aux moyennes
est
n
(xi − x̄) = i [M0 x] = 0 x = 0. (A-30)
i=1
Pour une variable x, la somme des carrés des écarts aux moyennes est
n
n
2
2
(xi − x̄) = xi − nx̄2 . (A-31)
i=1 i=1
En termes matriciels,
n
(xi − x̄)2 = (x − x̄i) (x − x̄i) = (M0 x) (M0 x) = x M0 M0 x.
i=1
Algèbre matricielle 7
M0 possède deux propriétés utiles. D’une part, tous ses éléments hors diagonale sont −1/n
et M0 est symétrique. D’autre part, M0 est égale à son carré, M0 M0 = M0 .
Considérons maintenant la construction d’une matrice des sommes des carrés et des produits
croisés des écarts aux moyennes des colonnes. Pour deux vecteurs x et y,
n
(xi − x̄)(yi − ȳ) = (M0 x) (M0 y), (A-33)
i=1
donc
n n
i=1 (xi − x̄)2 i=1 (xi − x̄)(yi − ȳ) x M0 x x M0 y
n n = . (A-34)
i=1 (yi − ȳ)(xi − x̄) i=1 (yi − ȳ)
2 y M0 x y M0 y
Si on place x et y dans une matrice Z = [x,y], de taille n × 2, alors M0 Z est une matrice de
taille n × 2 dans laquelle les deux colonnes sont les écarts aux moyennes. On a
comme les coordonnées d’un point dans un espace de dimensions K, tel qu’on le voit dans
la figure A.1 pour le cas de dimensions 2, ou comme le segment reliant l’origine et le point
défini par a.
Deux opérations de base pour les vecteurs sont la multiplication scalaire et
l’addition. Une multiplication scalaire d’un vecteur a est un autre vecteur, par exemple
a∗ , dont les coordonnées sont le multiple scalaire des coordonnées de a. Dans la figure A.1,
on a
1 2 1 − 12
a= , a∗ = 2a = , a∗∗ = − a = .
2 4 2 −1
L’ensemble des multiples scalaires possibles de a est la ligne passant par l’origine 0 et a. Tout
multiple scalaire de a est un segment de cette ligne. La somme de deux vecteurs a et b est
8 Annexe A
Seconde coordonnée
3 a*
a c
1
1 1 2 3 4
a** Première coordonnée
1
un troisième vecteur dont les coordonnées sont les sommes des coordonnées correspondantes
de a et b. Par exemple,
1 2 3
c = a+b = + = .
2 1 3
Géométriquement, on obtient c en se déplaçant dans la distance et la direction définies par
b à partir de l’extrémité de a, ou, par la commutativité de l’addition, à partir de celle de b
dans la distance et la direction définies par a.
Le plan de dimensions 2 est l’ensemble de tous les vecteurs ayant deux coordonnées réelles.
Cet ensemble, noté R2 , a deux propriétés importantes :
• R2 est fermé sous la multiplication scalaire ; tout multiple scalaire d’un vecteur dans R2
est aussi dans R2 .
• R2 est fermé sous l’addition ; la somme de deux vecteurs quelconques dans R2 est aussi
dans R2 .
Comme l’a montré la figure A.2, toute paire de vecteurs de dimensions 2, y compris a et b, qui
sont de différentes directions, constitue une base de R2 . Considérons un ensemble arbitraire
de R2 , a, b et c. Si a et b constituent une base, alors on peut trouver les nombres α1 et α2
tels que c = α1 a + α2 b. Soient
a1 b1 c1
a= , b= , c= .
a2 b2 c2
Alors,
c1 = α1 a1 + α2 b1 ,
(A-35)
c2 = α1 a2 + α2 b2 .
La solution est
b2 c1 − b1 c2 a1 c2 − a2 c1
α1 = , α2 = . (A-36)
a 1 b2 − b1 a 2 a 1 b2 − b1 a 2
La solution est unique sauf si (a1 b2 − b1 a2 ) = 0. Par conséquent, si a et b sont une paire
quelconque de vecteurs pour lesquels le dénominateur dans (A-36) est non nul, alors tout
autre vecteur c peut être formé comme une unique combinaison linéaire de a et b. La
base d’un espace vectoriel n’est pas unique. En revanche, pour une base particulière, seule
une combinaison linéaire des vecteurs de cette base produit un autre vecteur dans l’espace
vectoriel.
d
5
a* e
4
Seconde coordonnée
3 c
2 a
1 b
1 2 3 4 5
Première coordonnée
1
f
Comme tout (K + 1)-ième vecteur peut être écrit comme une combinaison linéaire de K
vecteurs de base, il s’ensuit que tout ensemble de plus de K vecteurs dans RK doit être
linéairement dépendant.
A.3.4 Sous-espaces
Par exemple, par définition, l’espace généré par une base de RK est RK . Il implique que si
a et b sont une base de R2 et c est un autre vecteur dans R2 , l’espace généré par [a,b,c]
est R2 .
Considérons l’ensemble de vecteurs de trois éléments dont le troisième est nul. En particulier,
a = [a1 a2 0] et b = [b1 b2 0]. Les vecteurs a et b ne génèrent pas R3 . Chaque
combinaison de a et b comporte une troisième coordonnée égale à zéro. Si (a1 b2 − a2 b1 ) = 0
[voir (A-36)], alors tout vecteur dont le troisième élément est nul peut être écrit comme une
combinaison linéaire de a et b. Bien que a et b ne génèrent pas R3 , ils génèrent l’ensemble
de vecteurs dans R3 dont le troisième élément est nul. C’est un plan dans R3 . Ce plan est
un sous-espace de dimensions 2 dans R3 . Notons que ce n’est pas R2 mais l’ensemble de
vecteurs dans R3 dont la troisième coordonnée est 0. Tout plan dans R3 forme un sous-espace
de dimensions 2. Ce dernier est généré par deux vecteurs indépendants quelconques qui lui
appartiennent.
L’espace généré par un ensemble de vecteurs dans RK a au plus K dimensions. Si cet espace
est de dimensions inférieures, il est un sous-espace ou un hyperplan. Il est important de
noter que chaque ensemble de vecteurs génère un certain espace, qui peut être l’espace entier
contenant ces vecteurs ou un sous-espace.
Si la matrice contient K lignes, son espace des colonnes peut avoir au plus K dimensions.
Soit la matrice ⎡ ⎤
1 5 6
A = ⎣2 6 8⎦.
7 1 8
Elle contient trois vecteurs dans R3 , dont le troisième est la somme de deux premiers. Ainsi,
l’espace des colonnes ne peut être de dimensions 3. Il n’a pas non plus 1 dimension car
aucune colonne n’est un multiple scalaire d’une autre. Donc, l’espace des colonnes est de
dimensions 2 et constitue un sous-espace de dimensions 2 de R3 .
Le rang des colonnes d’une matrice est alors égal au plus grand nombre de ses vecteurs
colonnes linéairement indépendants. Le rang des colonnes de A est 2. On examine un autre
12 Annexe A
exemple avec ⎡ ⎤
1 2 3
⎢5 1 5⎥
B=⎢ ⎣6 4 5⎦.
⎥
3 1 4
Cette matrice a un rang des colonnes égal à 3. Comme chaque colonne de B est un vecteur
de R4 , l’espace des colonnes de B est un sous-espace dans R4 de dimensions 3.
Soit maintenant un ensemble de vecteurs obtenu par les lignes de B. La nouvelle matrice est
⎡ ⎤
1 5 6 3
C = ⎣2 1 4 1⎦.
3 5 5 4
Théorème A.1 : Égalité entre les rangs des colonnes et des lignes
Le rang des colonnes et le rang des lignes d’une matrice sont égaux. Par défini-
tion du rang des colonnes et du rang des lignes, on a le corollaire :
Si le rang des colonnes d’une matrice est égal au nombre de ses colonnes, alors la matrice
est qualifiée de plein rang des colonnes. Le plein rang des lignes est défini de façon
similaire. Comme le rang des colonnes et celui des lignes d’une matrice sont égaux, on utilise
le rang d’une matrice. On a
On utilise le terme plein rang pour désigner une matrice dont le rang est égal au nombre
de ses colonnes.
Quant à la distinction entre les matrices de plein rang et de rang non plein, on examine
les solutions de Ax = 0. Si un x non nul existe, alors A n’est pas de plein rang. Si le x non nul
existe, alors les colonnes de A sont linéairement dépendantes et au moins une colonne peut
être exprimée comme une combinaison linéaire des autres colonnes. On peut aussi montrer
que
rang(AB) ≤ min(rang(A), rang(B)). (A-39)
Un corollaire de (A-39) est
Proposition
Le déterminant d’une matrice est non nul si et seulement si elle est de plein rang.
Les matrices de plein rang et de rang non plein peuvent alors être distinguées si leur déter-
minants sont nuls ou non. Il est parfois utile de connaître la valeur du déterminant.
Soit une matrice diagonale ⎡ ⎤
d1 0 0 ··· 0
⎢0 d2 0 ··· 0 ⎥
D=⎢
⎣
⎥.
⎦
···
0 0 0 ··· dK
Son déterminant est
'
K
|D| = d1 d2 . . . dK = dk . (A-42)
k=1
Pour la matrice d’identité, quelles que soient ses dimensions K, on a |IK | = 1. On a aussi
|cD| = cK |D|. (A-43)
Si une colonne de D seulement est multipliée par c, alors le déterminant est aussi multiplié
par c. Si maintenant chaque colonne est multipliée par un c différent, alors le résultat est
c1 c2 . . . cK |D|. La matrice avec les colonnes définies par [c1 d1 c2 d2 . . .] est justement DC,
où C est une matrice diagonale dont le i-ième élément diagonal est ci . Alors,
|DC| = |D| · |C|. (A-44)
(Le déterminant de C est le produit des ci car C, comme D, est diagonale.)
Pour les matrices de taille 2 × 2, le déterminant est
" "
"a c "
" "
" b d" = ad − bc. (A-45)
Pour des dimensions supérieures, le déterminant peut être calculé en utilisant le dévelop-
pement en cofacteurs. Pour toute ligne i, on a
K
|A| = aik (−1)i+k |Aik |, k = 1, . . . ,K, (A-46)
k=1
Deuxième coordonnée
x1
e*
y*
y
Troisième coordonnée
(Xb)*
e
y0
u* (Xb)
u x2
Première coordonnée
Notons que (A-43) et (A-44) s’appliquent également aux matrices non diagonales. Un résultat
complémentaire est
|A| = |A | (A-47)
y = Xb + e, (A-49)
où e est la différence entre y et Xb. Par cette construction, on peut trouver un Xb ap-
partenant à l’espace des colonnes de X, e étant la différence ou le « résidu ». La figure A.3
présente deux exemples, y et y∗ . En examinant seulement y, on cherche à trouver b tel que
y est le plus proche possible de Xb, au sens où e est le plus court possible.
Le problème est de trouver b tel que e = y − Xb soit la plus petite possible. La solution
est que b rende e perpendiculaire, ou orthogonal, à Xb.
(Xb) e = 0
= b X y − b X Xb
= b [X y − X Xb],
ce qui donne, b étant supposé non nul, X y = X Xb. La solution de cet ensemble d’équations
est étudiée dans la section A.5.
Dans la figure A.3, la combinaison linéaire Xb est appelée la projection de y sur l’espace
des colonnes de X. Bien que y et y∗ soient différents, la projection de y s’allonge sur celle de
y∗ . Quel vecteur, y ou y∗ est plus proche de sa projection dans l’espace des colonnes de X ?
Il semble que y est plus proche car e est plus court que e∗ . Comme y∗ est plus parallèle à sa
projection que y, son vecteur résiduel plus long résulte du fait que y∗ est plus long que y.
Une comparaison indépendante de la longueur des vecteurs est l’angle entre le vecteur et sa
projection. On observe ainsi que θ∗ est plus petit que θ, ce qui inverse la conclusion.
a b
cos θ = .
a · b
Un cosinus zéro implique que les vecteurs sont orthogonaux. Si le cosinus est égal à 1, l’angle
est nul et les vecteurs deviennent identiques. En divisant par les longueurs, on compense
automatiquement pour la longueur de y. Avec cette mesure, on trouve dans la figure A.3 que
y∗ est plus proche de sa projection, (Xb)∗ , que y de (Xb).
Ax = b, (A-51)
dans lequel les K éléments de x sont des inconnues. A est une matrice connue de coefficients
et b est un vecteur spécifié. On étudie l’existence d’une solution, son calcul et son unicité.
Une solution non nulle d’un tel système existe si et seulement si A n’est pas de plein rang,
auquel cas au moins une colonne de A peut être écrite comme
xm
ak = − am .
m=k
xk
Le vecteur b est arbitraire et exprimé comme une combinaison linéaire des colonnes de A.
Comme b comporte K éléments, cette solution existe seulement si les colonnes de A génèrent
l’espace de dimensions K, RK 4 . Il faut donc l’indépendance linéaire des colonnes de A ou
|A| = 0.
La matrice B, si elle existe, est l’inverse de A, noté B = A−1 . Par définition : A−1 A =
AA−1 = I. L’inverse, si elle existe, est donc unique. Par (A-52), comme
x = A−1 b, cette solution est également unique.
Considérons le calcul de la matrice inverse. Pour le cas d’une matrice de taille 2 × 2, AB = I
implique que
⎡ ⎤
a11 b11 + a12 b21 = 1
a11 a12 b11 b12 1 0 ⎢a11 b12 + a12 b22 = 0⎥
= ou ⎢ ⎥
⎣a21 b11 + a22 b21 = 0⎦.
a21 a22 b21 b22 0 1
a21 b12 + a22 b22 = 1
La solution est
b11 b12 1 a22 −a12 1 a22 −a12
= = . (A-53)
b21 b22 a11 a22 − a12 a21 −a21 a11 |A| −a21 a11
Ce résultat est général. On montre que si le déterminant est nul, l’inverse n’existe pas.
4 Si A n’est pas de plein rang, le système non homogène aura des solutions pour quelques b appartenant
à l’espace des colonnes de A. Cependant, on ne s’intéresse qu’aux solutions pour tous les vecteurs b
non nuls, ce qui requiert A de plein rang.
Algèbre matricielle 17
On a aussi I−1 = I.
Soit aik le ik-ième élément de A−1 . La formule générale de calcul d’une matrice inverse est
|Cki |
aik = , (A-54)
|A|
Il est possible que AB soit une matrice carrée, non singulière, alors que ni A ni B ne sont
carrées. La généralisation de (A-59) donne
Pour une matrice de données, X, X X sont les produits entre les lignes de X. On suppose que
la matrice S = (X X)−1 a été calculée pour certaines années de données (voir le début de
l’annexe). La formule d’actualisation, permettant de calculer une nouvelle S lorsqu’une
nouvelle ligne est ajoutée à A, est :
1
[A ± bb ]−1 = A−1 ∓ A−1 bb A−1 . (A-61)
1 ± b A−1 b
1
[A ± bc ]−1 = A−1 ∓ A−1 bc A−1 . (A-61a)
1 ± c A−1 b
[A ± BCB ]−1 = A−1 ∓ A−1 B[C−1 ± B A−1 B]−1 B A−1 . (A-61b)
18 Annexe A
Ab = a.
Si A est non singulière, on a b = A−1 a = (X X)−1 (X y). Si les colonnes de X sont
linéairement indépendantes (ou X de plein rang), ce résultat est la solution du problème des
moindres carrés. En revanche, si les colonnes de X sont linéairement dépendantes, la solution
n’est pas unique.
A est dans ce cas une matrice partitionnée. Un cas fréquent est la matrice diagonale
par bloc :
A11 0
A= ,
0 A22
où A11 et A22 sont des matrices carrées.
et
A11 A12 B11 B12 A11 B11 + A12 B21 A11 B12 + A12 B22
AB = = . (A-63)
A21 A22 B21 B22 A21 B11 + A22 B21 A21 B12 + A22 B22
Pour l’addition, les dimensions de Aik et de Bik doivent être les mêmes. Pour la multiplica-
tion, le nombre de colonnes dans Aij doit être égal au nombre de lignes dans Bjl pour toute
paire i et j. Deux cas fréquents sont
A1 A1 A1
= [A1 A2 ] = [A1 A1 + A2 A2 ] (A-64)
A2 A2 A2
et
A11 0 A11 0 A11 A11 0
= . (A-65)
0 A22 0 A22 0 A22 A22
Algèbre matricielle 19
On suppose que x est remplacé par X, une matrice de plusieurs colonnes. On cherche le bloc
inférieur droit de (Z Z)−1 , où Z = [i,X]. Le résultat analogue est
(A − λI)c = 0. (A-74)
AC = CΛ. (A-75)
Ceci implique
C = C−1 . (A-77)
Par conséquent,
CC = CC−1 = I. (A-78)
Ainsi, les lignes, tout comme les colonnes, de C sont orthogonales.
6 Cette affirmation sera fausse si la matrice n’est pas symétrique. Pour les matrices non symétriques,
on distingue aussi les vecteurs caractéristiques « droits », Ac = λc, des vecteurs caractéristiques
« gauches », d A = λd , qui peuvent être différents.
22 Annexe A
C AC = C CΛ = IΛ = Λ. (A-79)
K
A = CΛC = λk ck ck . (A-80)
k=1
Dans cette représentation, la matrice A de taille K × K est écrite comme une somme de
K matrices de rang 1. Cette somme est également appelée la décomposition en valeurs
propres de A. À ce propos, le terme signature d’une matrice est parfois utilisé pour décrire
les racines et les vecteurs caractéristiques. On utilise une autre paire de termes pour cette
décomposition, les racines latentes et les vecteurs latents de A.
Puisque C et C sont non singulières, on peut les utiliser pour appliquer ce résultat à (A-79),
ce qui nous donne
rang(A) = rang(Λ). (A-81)
Calculer le rang de Λ est trivial car Λ est diagonale et son rang est justement le nombre de
ses éléments diagonaux non nuls. On généralise ce résultat dans les théorèmes suivants.
Dans la décomposition spectrale ci-dessus, si une racine caractéristique quelconque est nulle,
alors le nombre de matrices de rang 1 dans la somme sera également diminué. Cette règle
simple ne s’applique pas aux matrices non carrées. Cependant, remarquons que
Comme le rang des colonnes et le rang des lignes d’une matrice sont identiques, le théorème
A.5 s’applique également à AA .
Si une racine caractéristique d’une matrice est nulle, alors on a Ac = 0. Ainsi, une matrice
ayant une racine nulle est non singulière. Sinon, aucun c non nul n’existe. En général, une
matrice est singulière, ou de rang non plein, si et seulement si elle contient au moins une
racine nulle.
Pour une matrice non carrée X, on utilise A = X X. Par ailleurs, comme les racines carac-
téristiques sont affectées par l’échelle des colonnes de X, on normalise les colonnes pour avoir
une longueur égale à 1 en divisant chaque colonne par sa norme [voir
(A-50)]. Pour X dans la section A.2, la racine caractéristique la plus grande de A est 4,9255
tandis que la valeur la plus petite est 0,0001543. La condition du nombre est extrêmement
grande (178,67). (Des valeurs supérieures à 20 sont considérées comme grandes.) Cette ma-
trice, ayant la plus petite racine proche de zéro comparée à la valeur la plus élevée, est donc
presque singulière. Les matrices ayant des conditions du nombre élevées ne sont pas faciles
à inverser de façon précise.
24 Annexe A
La règle de permutation peut être appliquée à toute permutation cyclique dans un produit :
(A-95)
Algèbre matricielle 25
Comme le déterminant est le produit des racines, il s’ensuit qu’une matrice est singulière
si et seulement si son déterminant est nul, ou si et seulement si elle a au moins une racine
caractéristique nulle.
Si Λ2 est une matrice diagonale dont les éléments non nuls sont les carrés de ceux dans Λ,
on a
Pour toute matrice symétrique, les racines caractéristiques de A2 sont les carrés de celles de
A, et les vecteurs caractéristiques sont les mêmes.
(A-97)
Quant à la preuve, on constate que la seconde ligne de (A-96) est la décomposition spectrale
de la matrice B = AA. Comme A3 = AA2 , etc., (A-97) s’applique à tout entier positif. Par
convention, pour toute A, on a A0 = I. Par conséquent, pour toute matrice symétrique A,
AK = CΛK C , K = 0, 1, . . . . Ainsi, les racines caractéristiques de AK sont λK , alors que
les vecteurs caractéristiques sont identiques. Si A est non singulière, toutes ses racines sont
non nulles. Cette preuve peut être étendue à des puissances négatives.
Si A−1 existe, alors
A−1 = (CΛC )−1 = (C )−1 Λ−1 C−1 = CΛ−1 C , (A-98)
−1
où le résultat précédent, C = C , a été utilisé. Le résultat suivant est important pour
l’analyse des matrices inverses.
On revient au problème du calcul de la racine carrée d’une matrice. Dans le cas scalaire, la
valeur doit être non négative. L’analogue matriciel est que toutes les racines caractéristiques
doivent être non négatives. On examine
⎡√ ⎤
λ1 √0 ··· 0
⎢ 0 λ2 · · · 0 ⎥
A1/2 = CΛ1/2 C = C ⎢ ⎣
⎥C .
⎦ (A-99)
··· √
0 0 ··· λn
26 Annexe A
En continuant ainsi, on peut définir plus généralement les puissances d’une matrice, tout en
supposant que toutes les racines caractéristiques sont non négatives. Par exemple, A1/3 =
CΛ1/3 C . Si toutes les racines sont strictement positives, le résultat peut être étendu à
n’importe quelle puissance réelle. Une matrice ayant des racines caractéristiques positives
est dite définie positive. C’est l’analogue matriciel d’un nombre positif.
Pour une matrice définie positive A, Ar = CΛr C pour tout nombre réel r.
(A-101)
Les racines caractéristiques de Ar sont les r-ièmes puissances de celles de A, alors que les
vecteurs caractéristiques restent les mêmes.
Si A est seulement définie non négative — ses racines caractéristiques sont nulles ou
positives — alors (A-100) est valable seulement pour les r non négatifs.
• Toutes les matrices idempotentes symétriques, sauf la matrice d’identité, sont singu-
lières.
(A-103)
En combinant les théorèmes A.5 et A.7 avec le fait que les racines d’une matrice idempotente
sont 1 ou 0, on a
P P = A−1 .
7 Les matrices idempotentes ne sont pas toutes symétriques, mais on n’en rencontre aucune dans notre
analyse.
Algèbre matricielle 27
On peut trouver un A+ unique pour toute matrice A, même si cette dernière est singulière
ou non, ou même si elle n’est pas carrée. La matrice unique vérifiant toutes ces propriétés
est appelée l’inverse de Moore–Penrose ou la pseudo-inverse de A. Si A est carrée et
non singulière, alors l’inverse généralisée est la matrice inverse déjà rencontrée.
Dans le cas d’un système d’équations suridentifié,
Ab = y,
8 C’est « un » choix car si A est symétrique, il existe d’autres candidats. Un autre choix est
CΛ−1/2 C = A−1/2 .
28 Annexe A
A+ = (A A)−1 A ,
b = A+ y.
C’est le vecteur qui minimise la longueur Ab−y. Ce résultat est aussi la solution du problème
des moindres carrés dans la section A.4.4. Si y appartient à l’espace des colonnes de A, ce
vecteur sera zéro, sinon il sera non nul.
On suppose maintenant que A n’est pas de plein rang. Dans ce cas, la solution précédente
n’est pas calculable. En revanche, une solution alternative peut être obtenue. On continue
à utiliser A A. Dans la décomposition spectrale de la section A.6.4, si A est de rang R,
alors il y a R termes dans la somme dans (A-80). Dans (A-98), la décomposition spectrale
impliquant les réciproques des racines caractéristiques est utilisée pour calculer l’inverse.
Pour trouver l’inverse de Moore–Penrose, on applique ce calcul à A A, avec seulement les
racines non nulles, et on post-multiplie ensuite le résultat obtenu par A . Soit C1 les R
vecteurs caractéristiques associés à ces racines non nulles qui sont les éléments dans la matrice
diagonale Λ1 . L’inverse de Moore–Penrose est
A+ = C1 Λ−1
1 C1 A .
q = x Ax,
où A est une matrice symétrique. Il existe certaines matrices pour lesquelles q est toujours
positive pour tout x alors que pour d’autres matrices, q est toujours négative (ou non positive
ou non négative). Pour une matrice A donnée,
1. Si x Ax > (<) 0 pour tout x non nul, alors A est définie positive (négative).
2. Si x Ax ≥ (≤) 0 pour tout x non nul, alors A est définie non négative ou semi-
définie positive (définie non positive).
Une matrice symétrique peut être décomposée comme A = CΛC . Ainsi, la forme quadra-
tique devient x Ax = x CΛC x. Soit y = C x. Alors
n
x Ax = y Λy = λi yi2 . (A-106)
i=1
Algèbre matricielle 29
L’inverse n’est pas vrai. Par exemple, une matrice de taille 2 × 2 avec deux racines négatives
est clairement non définie positive, mais son déterminant est positif.
Preuve : Les racines sont les réciproques de celles de A, qui sont positives.
• Si A est de taille n × K et de plein rang des colonnes avec n > K, alors A A est définie
positive et AA est définie non négative.
(A-110)
Preuve : Par hypothèse, Ax = 0. Ainsi, x A Ax = (Ax) (Ax) = y y = j yj2 > 0.
Une preuve similaire montre que AA est définie non négative. La différence est que, dans
le dernier cas, comme A comporte plus de lignes que de colonnes, il existe un x tel que
A x = 0. En conséquence, dans la preuve, on a seulement y y ≥ 0. Le cas où A n’est pas
de plein rang des colonnes est le même que celui de AA .
• Si A est définie positive et B est une matrice non singulière, alors B AB est définie
positive.
(A-111)
Preuve : x B ABx = y Ay > 0, où y = Bx. Or, y ne peut pas être égal à 0 car B est
non singulière.
Enfin, pour que A soit définie négative, toutes les racines caractéristiques de A doivent être
négatives. Dans ce cas, |A| est positive si A est d’ordre pair et négative si A est d’ordre
impair.
30 Annexe A
Comme les racines de l’inverse sont les réciproques de celles de la matrice d’origine, le
théorème s’applique aux matrices inverses.
Algèbre matricielle 31
P
1 di f (x0 )
f (x) ≈ f (x0 ) + (x − x0 )i . (A-117)
i=1
i! d(x0 )i
Le nombre de termes est arbitrairement choisi. Plus il est grand, plus l’approximation sera
précise. L’approximation linéaire est celle qui est le plus souvent utilisée en économétrie,
f (x) ≈ α + βx (A-118)
où, en ré-arrangeant les termes dans (A-117), α = [f (x0 )−f (x0 )x0 ] et β = f (x0 ). L’exposant
« 0 » signifie que la fonction est évaluée en x0 . L’approximation quadratique est
En général, H est carrée et symétrique. (La symétrie est obtenue pour les fonctions continues
et continûment différenciables, selon le théorème de Young.) On a
1 0
n n
1
fij xi − x0i xj − x0j = (x − x0 ) H0 (x − x0 ),
2 i=1 j=1 2
dans le développement précédent. En arrangeant à nouveau les termes comme dans (A-122),
on obtient
1
y ≈ α + β x + x Γx, (A-123)
2
où α = f 0 − g0 x0 + 12 x0 H0 x0 , β = g0 − H0 x0 et Γ = H0 .
Une fonction linéaire peut être écrite y = a x = x a = n i=1 ai xi , ce qui donne
∂(a x)
= a. (A-124)
∂x
Notons que ∂(a x)/∂x = a, et non a . Pour un ensemble d’équations linéaires,
y = Ax, chaque élément yi de y est yi = ai x, où ai est la i-ième ligne de A [voir (A-
11)]. Par conséquent,
∂yi
= ai = transposée de la i-ième ligne de A,
∂x
et ⎡ ⎤ ⎡ ⎤
∂y1 /∂x a1
⎢ ∂y2 /∂x ⎥ ⎢ a2 ⎥
⎢ ⎥ ⎢ ⎥
⎣ · · · ⎦ = ⎣· · ·⎦.
∂yn /∂x an
En regroupant les termes, ∂Ax/∂x = A, ou
∂Ax
= A . (A-125)
∂x
Par exemple,
1 3
A= ,
3 4
ainsi x Ax = 1x21 + 4x22 + 6x1 x2 . Il en résulte que
∂x Ax 2x1 + 6x2 2 6 x1
= = = 2Ax (A-127)
∂x 6x1 + 8x2 6 8 x2
Algèbre matricielle 33
∂(x Ax)
= (A + A )x. (A-128)
∂x
∂(x Ax)
Par ailleurs, on a ∂aij
= xi xj . On obtient
∂(x Ax)
= xx , (A-129)
∂A
une matrice carrée dont le ij-ième élément est xi xj . Les dérivées impliquant les déterminants
sont présentes dans l’estimation du maximum de vraisemblance. À partir de (A-46), on
obtient
∂|A|
= (−1)i+j |Aji | = cij
∂aij
où |Cji | est le ij-ième cofacteur dans A. L’inverse de A peut être calculée en utilisant
(−1)i+j |Cji |
A−1
ij = ,
|A|
ln|A| (−1)i+j |C |
ainsi ∂∂a ij
= |A|
ji
et ∂ ln|A|
∂A
= A−1 . La transposition ne sera pas nécessaire car les
matrices utilisées sont symétriques.
A.8.2 Optimisation
On cherche un x qui maximise ou minimise f (x). L’optimum de f (x) apparaît lorsque
f (x) = 0. Sinon, la fonction sera croissante ou décroissante avec x. Ainsi, la condition
d’optimalité (maximum ou minimum) de premier ordre ou nécessaire est
dy
= 0. (A-130)
dx
La fonction doit être concave pour un maximum et convexe pour un minimum. La condition
suffisante d’optimalité est
d2 y
pour un maximum, dx2
<0;
(A-131)
d2 y
pour un minimum, dx2
> 0.
∂ 2 f (x)
H= (A-133)
∂x ∂x
doit être définie positive pour un minimum et définie négative pour un maximum.
34 Annexe A
Étudions un exemple,
maximiserx R = a x − x Ax,
avec a = (5 4 2) et ⎡ ⎤
2 1 3
A = ⎣1 3 2⎦.
3 2 5
On a ⎡ ⎤ ⎡ ⎤⎡ ⎤
5 4 2 6 x1
∂R
= a − 2Ax = ⎣4⎦ − ⎣2 6 4 ⎦ ⎣x2 ⎦ = 0. (A-134)
∂x
2 6 4 10 x3
Les solutions sont ⎡⎤ ⎡ ⎤−1 ⎡ ⎤ ⎡ ⎤
x1 4 2 6 5 11,25
⎣ x2 ⎦ = ⎣ 2 6 4 ⎦ ⎣4⎦ = ⎣ 1,75⎦.
x3 6 4 10 2 −7,25
La condition suffisante est que
⎡ ⎤
−4 −2 −6
∂ 2 R(x)
= −2A = ⎣−2 −6 −4 ⎦ (A-135)
∂x ∂x
−6 −4 −10
doit être définie négative. Les racines caractéristiques de cette matrice sont −15,746 ;
−4 et −0,25403. La matrice est donc définie négative.
Le calcul des racines caractéristiques du hessien est nécessaire pour la condition suffisante.
Pour une matrice d’ordre supérieur à 2, ce calcul requiert généralement l’utilisation d’un
ordinateur. Si A est de la forme
A = B B,
où B est une matrice connue, alors A est toujours définie positive (B est supposée de plein
rang). Dans ce cas, le calcul des racines caractéristiques de A n’est plus nécessaire.
où C est la matrice de dérivées des contraintes par rapport à x. La j-ième ligne de la matrice
C (de taille J × n) est le vecteur de dérivées de la j-ième contrainte, cj (x), par rapport à
x . Les conditions de premier ordre deviennent
∂L∗ ∂f (x)
∂x
= ∂x
+ C λ = 0,
(A-140)
∂L∗
∂λ
= c(x) = 0.
Pour la solution non contrainte, on a ∂f (x)/∂x = 0. Selon (A-140), pour une solution
contrainte,
∂f (x)
= −C λ (A-141)
∂x
est différent de 0 sauf si λ = 0. Il y a deux implications importantes :
• La solution contrainte ne peut être supérieure à la solution non contrainte car le gradient
est non nul avec la solution contrainte. (Notons que C = 0 est possible si les contraintes
sont non linéaires. Cependant, dans une telle situation, la solution contrainte ne peut
pas être meilleure que la solution non contrainte.)
x1 − x2 + x3 = 0,
x1 + x2 + x3 = 0.
1 −1 1
Elles se réécrivent comme c(x) = Cx = 0 avec C = .
1 1 1
Le lagrangien est R ∗ (x,λ) = a x − x Ax + λ Cx. C est une matrice de taille 2 × 3, une
ligne par contrainte et une colonne par variable. Le vecteur de multiplicateurs de Lagrange
comporte deux éléments, un pour chaque contrainte. Les conditions nécessaires sont
−2A C x −a
= .
C 0 λ 0
En utilisant l’inverse partitionnée dans (A-69), les solutions analytiques pour λ et x sont
et
1 −1
x= A [I − C (CA−1 C )−1 CA−1 ]a. (A-144)
2
36 Annexe A
Les valeurs des fonctions objectifs non contrainte et contrainte sont respectivement R =
24,375 etR ∗ = 2,25, ce qui reflète que la solution contrainte (du problème de maximisation)
est inférieure à la solution non contrainte.
A.8.4 Transformations
Une fonction strictement monotone est une fonction bijective. Chaque y est associée à une
seule valeur de x et vice versa. Dans ce cas, il existe une fonction inverse, qui exprime x
comme fonction de y. On a donc y = f (x) et x = f −1 (y). La pente de la fonction inverse est
dx df −1 (y)
J= = = f −1 (y),
dy dy
qui est le jacobien
de la transformation de y à x. Par exemple, avec y = a + bx, on a
x = − ab + 1b y, qui est la transformation inverse, et J = dx dy
= 1b . Statistiquement, lorsque
y = f (x) est verticale, il n’a plus de relation fonctionnelle. La même valeur x est associée à
plusieurs valeurs de y et on trouve J = 0, ce qui indique une singularité dans la fonction.
Lorsque y est un vecteur colonne, y = f (x), alors
⎡ ⎤
∂x1 /∂y1 ∂x1 /∂y2 ··· ∂x1 /∂yn
⎢ ∂x2 /∂y1 ∂x2 /∂y2 ··· ∂x2 /∂yn ⎥
∂x ⎢ ⎥
J= =⎢
⎢ .. ⎥.
⎥
∂y ⎣ . ⎦
∂xn /∂y1 ∂xn /∂y2 ··· ∂xn /∂yn
∂xi
J= .
∂yj
∂x
abs(|J|) = ,
∂y