Vous êtes sur la page 1sur 106

ECO 4272 : Introduction ` a l econom etrie

Notes sur la R egression Multiple


Steve Ambler

D epartement des sciences economiques

Ecole des sciences de la gestion


Universit e du Qu ebec ` a Montr eal
c 2013 : Steve Ambler
Hiver 2013

Ces notes sont en cours de d eveloppement. Jai besoin de vos commentaires et de vos suggestions pour
les am eliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message ` a
ambler.steven@uqam.ca.
1
Table des mati` eres
1 Introduction 5
2 Biais d u ` a une variable omise 5
2.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Mod` ele de r egression multiple 10
3.1 Sp ecication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Sp ecication matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 Hypoth` eses de base du mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4 Estimateur MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5 Quelques exemples simples des r` egles de diff erentiation . . . . . . . . . . . . . . . 16
3.6 Approche non matricielle au probl` eme de minimisation . . . . . . . . . . . . . . . 18
4 Propri et es de lestimateur MCO 21
4.1 Propri et es alg ebriques de lestimateur MCO . . . . . . . . . . . . . . . . . . . . . 21
4.2

Ecart type de la r egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3 Mesures dajustement statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3.1 Le R
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3.2 Le R
2
ajust e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.4 Propri et es statistiques : absence de biais . . . . . . . . . . . . . . . . . . . . . . . 27
4.5 Petite note : th eor` eme de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.6 Propri et es statistiques : convergence . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.7 Petite note sur les covariances en notation matricielle . . . . . . . . . . . . . . . . 33
4.8 Propri et es statistiques : distribution en grand echantillon . . . . . . . . . . . . . . 34
4.8.1 Cas homosc edastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5 Variance echantillonnale de

37
5.1 Cas homosc edastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2
5.2 Homosc edasticit e versus H et erosc edasticit e . . . . . . . . . . . . . . . . . . . . . 40
6 Efcience de lestimateur MCO sous lhomosc edasticit e 41
6.1 Preuve du th eor` eme Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7 Biais d u ` a des variables omises (bis) 44
8 Tests dhypoth` eses et ensembles de conance 52
8.1 Tests dhypoth` eses simples par rapport ` a un seul coefcient . . . . . . . . . . . . . 52
8.2 Tests dhypoth` eses simples par rapport ` a une combinaison lin eaire de coefcients . 54
8.3 Pourquoi les tests s equentiels ne sont pas valides . . . . . . . . . . . . . . . . . . 55
8.4 Tests dhypoth` eses jointes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.5 Que faire lorsque

nest pas disponible ? . . . . . . . . . . . . . . . . . . . . . . 59


8.6 Une seule restriction comme un cas sp ecial . . . . . . . . . . . . . . . . . . . . . 60
8.7 Signicativit e de la r egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
8.8 Tests dhypoth` ese en pr esence dhomosc edasticit e . . . . . . . . . . . . . . . . . . 65
8.9 Test de signicativit e de la r egression dans le cas homosc edastique . . . . . . . . . 73
8.10 Tests exacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
8.11 Ensembles de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
9 Multicollin earit e 76
9.1 Multicollin earit e parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
9.2 Multicollin earit e imparfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.3 Trucs pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
10 Un Exemple 82
11 Un Autre Exemple 87
12 Concepts ` a retenir 104
3
13 R ef erences 105
4
1 Introduction
Dans ce chapitre sur le mod` ele de r egression multiple, il y a presque rien de fondamentalement
nouveau par rapport au mod` ele de r egression simple. Une lecture de la table des mati` eres de ces
notes servira ` a vous convaincre que ce sont les m emes sujets qui reviennent. Cest comme si on
allait r eapprendre la mati` ere sur le mod` ele de r egression simple mais en notation matricielle. Cest
donc une bonne occasion de faire de la r evision, surtout en ce qui concerne les propri et es de
lestimateur MCO.
`
A peu pr` es le seul aspect novateur (` a part la notation matricielle elle-m eme)
sera lid ee de tester des hypoth` eses jointes (et une notion qui y est tr` es reli ee, celle des ensembles
de conance).
1
Une fois cette notation apprise, toutes les d erivations alg ebriques concernant les propri et es
alg ebriques de lestimateur MCO et les propri et es statistiques de lestimateur MCO sont plus sim-
ples en notation matricielle quen notation de sommations. Jesp` ere vous convaincre de ce principe
avant de terminer notre etude sur le mod` ele de r egression multiple.
2 Biais d u ` a une variable omise
On peut motiver le mod` ele de r egression multiple en montrant que, si nous voulons analyser
limpact dune variable explicative sur une variable d ependante et si nous omettons une ou des
variables qui ont un impact sur la variable d ependante, notre estim e de limpact de la variable
explicative dint er et sera en g en eral biais e, dans la mesure o` u la corr elation entre cette variable
omise ou ces variables omises et la variable explicative du mod` ele est non nulle.
Cela veut dire que, m eme si nous ne nous int eressons pas particuli` erement ` a limpact de ces
variables omises, il faut n eanmoins en tenir compte dans notre r egression an dobtenir un estim e
non biais e de limpact de notre variable dint er et (pour utiliser lexemple empirique du manuel,
limpact de la taille moyenne des classes sur le rendement scolaire).
1. Le concept de tester une hypoth` ese simple qui porte sur une combinaison de coefcients est nouveau aussi,
mais nous allons montrer comment transformer le mod` ele de r egression multiple pour traiter ce cas comme un test
dune hypoth` ese nulle qui porte sur un seul coefcient. Voir la sous-section 8.2.
5
On sait ` a partir de notre etude du mod` ele de r egression simple, que lestimateur du coefcient
de pente
1
est egal ` a :

1
=
1
+
1
n

n
i=1
_
X
i


X
_
u
i
1
n

n
i=1
_
X
i


X
_
2
.
Maintenant, on modie nos hypoth` eses statistiques par rapport au mod` ele de r egression simple
etudi e dans le dernier chapitre. On nimpose plus que lesp erance (conditionnelle ` a la valeur ob-
serv ee X
i
) soit egale ` a z ero. Maintenant, on a :
1
n
n

i=1
_
X
i


X
_
u
i
p
Cov (u , X) = Corr (u , X)
u

X
,
et
1
n
n

i=1
_
X
i


X
_
2 p

2
X
.
Donc, par le th eor` eme de Slutsky (voir la section (4.5) ci-dessous), ce qui nous permet d etudier
s epar ement les propri et es en grand echantillon du num erateur et du d enominateur du deuxi` eme
terme dans lexpression pour la valeur de notre estimateur

1
, on a :

1
p

1
+
Corr (u , X)
u

2
X
=
1
+ Corr (u , X)

u

X
.
Lestimateur nest plus convergent. Il y a un biais, m eme asymptotiquement (lorsque le nombre
dobservations tend vers linni). Le signe du biais d epend du signe de la corr elation entre la
variable explicative X
i
et le terme derreur u
i
.
Notez que dans ce cas, les hypoth` eses de base du mod` ele ne sont pas respect ees. La variable
omise, qui est incluse dans le terme derreur du mod` ele, est corr el ee avec la variable explicative du
mod` ele X. Autrement dit, lhypoth` ese
E(u
i
|X = X
i
) = 0
ne tient plus. Dans le cadre dune etude empirique, il faut evaluer la plausibilit e de cette hypoth` ese
6
avec les donn ees quon a. Sil y a une variable dans la banque de donn ees qui en principe pourrait
affecter la variable d ependante de l etude et qui risque d etre corr el ee avec une variable qui est
incluse comme variable explicative dans le mod` ele, il y a probablement un probl` eme de variable
omise.
2
Une solution possible est dinclure les variables omises explicitement comme variables ex-
plicatives additionnelles dans le mod` ele de r egression. Le mod` ele de r egression simple devient un
mod` ele de r egression multiple. Nous verrons dans la section suivante la sp ecication du mod` ele
de r egression multiple et les hypoth` eses standard qui permettront, comme dans le mod` ele de
r egression simple, de d emontrer certaines propri et es souhaitables de lestimateur MCO des co-
efcients.
2.1 Exemple
Nous pouvons etre encore plus explicites. Supposons que le vrai mod` ele est donn e par
Y
i
=
0
+
1
X
1i
+
2
X
2i
+ u
i
tandis que le mod` ele estim e est
Y
i
=
0
+
1
X
1i
+ u
i
o` u
u
i

2
X
2i
+u
i
.
Le terme derreur du mod` ele estim e incorpore la variable omise X
2i
avec le vrai terme derreur u
i
.
Nous avons

1
=
1
n

n
i=1
_
X
1i


X
1
_ _
Y
i


Y
_
1
n

n
i=1
_
X
1i


X
1
_
2
2. Dans des cours plus avanc es, vous allez apprendre des facons formelles de tester labsence de corr elation entre
les variables explicatives du mod` ele et le terme derreur. Voir par exemple McFadden (2002). Sans ces m ethodologies
avanc ees, il faut se er ` a la logique et ` a son intuition.
7
=
1
n

n
i=1
_
X
1i


X
1
_ _

0
+
1
X
1i
+
2
X
2i
+ u
i

1

X
1

2

X
2
u
_
1
n

n
i=1
_
X
1i


X
1
_
2
=
1
1
n

n
i=1
_
X
1i


X
1
_
2
1
n

n
i=1
_
X
1i


X
1
_
2
+
2
1
n

n
i=1
_
X
1i


X
1
_ _
X
2i


X
2
_
1
n

n
i=1
_
X
1i


X
1
_
2
+
1
n

n
i=1
_
X
1i


X
1
_
(u
i
u)
1
n

n
i=1
_
X
1i


X
1
_
2
=
1
+
2
1
n

n
i=1
_
X
1i


X
1
_ _
X
2i


X
2
_
1
n

n
i=1
_
X
1i


X
1
_
2
+
1
n

n
i=1
_
X
1i


X
1
_
(u
i
u)
1
n

n
i=1
_
X
1i


X
1
_
2
.
Calculant lesp erance de

1
, nous obtenons
E

1
=
1
+
2
E
_
1
n

n
i=1
_
X
1i


X
1
_ _
X
2i


X
2
_
1
n

n
i=1
_
X
1i


X
1
_
2
_
+E
_
+
1
n

n
i=1
_
X
1i


X
1
_
E((u
i
u) |X
11
, X
12
, . . . , X
1n
)
1
n

n
i=1
_
X
1i


X
1
_
2
_
=
1
+
2
E
_
1
n

n
i=1
_
X
1i


X
1
_ _
X
2i


X
2
_
1
n

n
i=1
_
X
1i


X
1
_
2
_
par la loi des esp erances it er ees. En g en eral,
E
_
1
n

n
i=1
_
X
1i


X
1
_ _
X
2i


X
2
_
1
n

n
i=1
_
X
1i


X
1
_
2
_
= 0.
Lestimateur est biais e, le biais etant donn e par la valeur de lesp erance dans l equation pr ec edente.
Nous pouvons dire plus que cela, au moins asymptotiquement (lorsque la taille de l echantillon
n tend vers linni). Lexpression
1
n
n

i=1
_
X
1i


X
1
_ _
X
2i


X
2
_
est tout simplement (ou presque) la covariance echantillonnale entre X
1
et X
2
. (Cest diff erent par
8
un facteur de n/(n 1) qui est presqu egal ` a un si n est grand.) Lexpression
1
n
n

i=1
_
X
1i


X
1
_
2
est tout simplement (ou presque) la variance echantillonnale de X
1
. Si les deux expressions sont
des estimateurs convergents de leurs equivalents dans la population, nous avons :
1
n
n

i=1
_
X
1i


X
1
_ _
X
2i


X
2
_
p
Cov (X
1
, X
2
)
et
1
n
n

i=1
_
X
1i


X
1
_
2 p
Var (X
1
) .
Par le th eor` eme de Slutsky (voir la section 4.5 ci-dessous), nous avons

1
p

1
+
2
Cov (X
1
, X
2
)
Var (X
1
)
La diff erence entre

1
et sa vraie valeur est approximativement egale ` a la vraie valeur de
2
fois le
ratio de la covariance entre X
1
et X
2
et la variance de X
2
. Si on connat au moins le signe de
2
et
de la covariance, on peut pr edire le signe de cet ecart. Aussi, nous savons que
Cov (X
1
, X
2
)
Var (X
1
)
est la valeur (asymptotique) du coefcient de pente dune r egression o` u X
2
est la variable
d ependante et X
1
est la variable explicative.
9
3 Mod` ele de r egression multiple
3.1 Sp ecication
Y
i
=
0
+X
1i

1
+X
2i

2
+ . . . + X
ki

k
+u
i
. (1)
Chaque variable explicative porte deux indices inf erieurs. Le premier fait r ef erence ` a son iden-
tit e. Le deuxi` eme fait r ef erence ` a lunit e dobservation (ou p eriode dans le cas de s eries
chronologiques). Cette convention suit la convention du manuel. On suppose un echantillon de
n observations.
3.2 Sp ecication matricielle
Y = X +U,
o` u
Y
_
Y
1
Y
2
. . . Y
n
_

,
X
_

_
1 X
11
X
21
. . . X
k1
1 X
12
X
22
. . . X
k2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 X
1n
X
2n
. . . X
kn
_

_
,

_

0

1

2
. . .
k
_

,
U
_
u
1
u
2
. . . u
n
_

.
donc, Y est un vecteur colonne de dimensions n1, X est une matrice de dimensions n(k +1),
est un vecteur colonne de dimensions (k + 1) 1, et U est un vecteur colonne de dimensions
10
n 1. Le mod` ele contient une constante
0
et par convention la premi` ere colonne de X contient
un vecteur de valeurs egales ` a un.
Notez que la convention concernant les indices inf erieurs associ es aux variables explicatives
du mod` ele (qui, r ep etons-le, suit la notation du chapitre 6 du manuel), qui stipule que X
ij
est la
j-i` eme observation de la i-i` eme variable explicative, nest pas strictement conforme avec la nota-
tion conventionnelle de lalg` ebre lin eaire ou des matrices. Soit X une matrice de dimensions k l.
En alg` ebre lin eaire on peut faire r ef erence ` a un el ement de la matrice X par le biais dindices
inf erieurs. La convention est que

X
ij

est l el ement dans li-i` eme rang ee et la j-i` eme colonne.
Donc, il sagit dun mariage malheureux entre deux notations qui sont incompatibles. Dans ces
notes, la notation X
ij
fera r ef erence par d efaut ` a la sp ecication du mod` ele dans l equation (1).
Lorsque je veux utiliser la notation conventionnelle de lalg` ebre lin eaire, je vais l ecrire explicite-
ment.
3
Pour linstant, il ne sagit que de la notation. Lavantage dintroduire cette notation est la sim-
plication de lalg` ebre. Nous verrons de quoi il sagit lors de la d erivation de lestimateur MCO.
4
Avant de d eriver lestimateur MCO, nous allons nous pencher dans la sous-section suivante sur les
hypoth` eses statistiques derri` ere le mod` ele de r egression multiple.
3.3 Hypoth` eses de base du mod` ele
Les hypoth` eses sont les equivalents des hypoth` eses de base du mod` ele de r egression simple du
chapitre 4.
Voir lencadr e

Key Concept 18.1

` a la page 707 du manuel.


1. E(u
i
|X
i
) = 0. Cette hypoth` ese est reli ee ` a la preuve que lestimateur MCO de est un
estimateur non biais e.
2. (X
i
, Y
i
) i.i.d. Cette hypoth` ese est reli ee ` a la preuve que lestimateur MCO de est un
3. Si vous soupconnez quil y a des incoh erences de notation, je vous prie de bien vouloir me les signaler.
4. Toutes les preuves que nous allons voir (absence de biais de lestimateur MCO, propri et es echantillonnales de
lestimateur, etc., sont beaucoup plus faciles ` a montrer en notation matricielle quen utilisant des sommations. Jesp` ere
que vous allez nir par etre convaincus de ce principe.
11
estimateur convergent.
3. X
i
et u
i
ont des quatri` emes moments non nuls et nis. Cette hypoth` ese est aussi reli ee ` a la
preuve que lestimateur MCO de est un estimateur convergent.
4. X est de rang plein en colonnes. Cela revient ` a dire quil ny a pas une colonne de la matrice
X qui peut etre exprim ee comme une combinaison lin eaire exacte des autres colonnes de la
matrice. Une des cons equences de cette hypoth` ese sera que la matrice (X

X) (qui est une


matrice carr ee par construction) sera une matrice de rang plein (k+1), et donc il sera possible
de calculer son inverse (X

X)
1
. Cet inverse (voir ci-dessous) fait partie de la d enition de
lestimateur MCO de . Donc, sans cette hypoth` ese, lestimateur MCO de ne sera m eme
pas bien d eni.
5. Var (u
i
|X
i
) =
2
u
.
6. La distribution de u
i
conditionnelle ` a la valeur de X
i
suit une loi normale.
Les quatre premi` eres hypoth` eses sont les hypoth` eses retenues par d efaut. Nous naurons besoin
des deux derni` eres hypoth` eses que pour des cas sp eciaux. Lavant derni` ere hypoth` ese sapplique
seulement dans le cas sp ecial derreurs homosc edastiques. Si nous sommes pr ets ` a supposer des
erreurs homosc edastiques, nous obtiendrons une version plus simple de la matrice de variance-
covariance des estimateurs MCO. Cette simplication correspond ` a ce que nous avons vu dans le
cadre du mod` ele de r egression simple dans le cas homosc edastique. La derni` ere hypoth` ese sap-
plique seulement comme condition sufsante (avec les autres) pour d emontrer le th eor` eme Gauss-
Markov. Ce th eor` eme, dont on a d ej` a vu une version dans le contexte du mod` ele de r egression
simple, dit que lestimateur MCO de est lestimateur lin eaire non biais e avec la variance la plus
petite (donc est lestimateur lin eaire non biais e le plus efcient). Le terme consacr e en anglais est
lestimateur

BLUE

(Best Linear Unbiased Estimator).


12
3.4 Estimateur MCO
Nous voulons choisir les valeurs des el ements de qui minimisent la somme des r esidus carr es.
Pourquoi lestimateur MCO et non un autre type destimateur ? La justication se trouve plus loin,
dans la section 6 de ces notes. On peut montrer que sous les hypoth` eses de base du mod` ele et sous
lhomosc edasticit e et la normalit e des erreurs, lestimateur MCO est lestimateur le plus efcient
dans la classe destimateurs lin eaires (une fonction lin eaire des observations Y
i
) et non biais es).
Cest le th eor` eme, c el` ebre dans lhistoire de la pens ee en statistique et en econom etrie, Gauss-
Markov. Il y a dautres estimateurs aussi que lon pourrait inventer qui satisfont un ou plusieurs
des crit` eres souhaitables (absence de biais, convergence, etc.) m eme sils sont moins efcients.
Le probl` eme peut s ecrire comme
min

U.
Simple, non ? Remplacons U par sa d enition. Le probl` eme devient :
min

(Y X)

(Y X) ,
ce qui est equivalent ` a :
min

(Y

Y Y

X +

X) .
Vous devez etre parfaitement ` a laise avec cette multiplication matricielle. On applique les m emes
r` egles que pour la multiplication de scalaires en faisant bien attention ` a lorientation (est-ce quelles
sont transpos ees ou non ?) des matrices.
D erivant par rapport ` a , nous obtenons :
X

Y X

Y +X

X + (X

X)

= 0.
Notez aussi que le

0

du c ot e droit est implicitement un vecteur de z eros. Lexpression du


13
c ot e gauche est de dimensions (k + 1) 1 et donc lexpression du c ot e droit doit etre conforme.
Lorsquil ny a pas dambigut e entre scalaire et vecteur nous allons utiliser cette notation. Pour
d enoter explicitement un vecteur de z eros au lieu dun scalaire lorsquil pourrait y avoir ambigut e,
nous utiliserons 0 ou le nombre de colonnes sera d eni selon le contexte : si nous voulons etre
encore plus explicites concernant les dimensions du vecteur nous allons utiliser 0
m
pour d enoter
un vecteur de z eros de dimensions m1. Ceci nous donne
X

X = X

Y.
Cet ensemble d equations sappelle commun ement les

equations normales

de lestimation
MCO. Notez quil y a (k + 1) equations. Les inconnus sont les valeurs des coefcients, dont il y
a (k + 1). Les equations sont des fonctions lin eaires des coefcients. Si la matrice (X

X) est de
rang plein (voir la discussion plus loin sur la multicollin earit e parfaite) nous pouvons linverser
an dobtenir
(X

X)
1
X

X = (X

X)
1
X

Y.
Nous avons
(X

X)
1
X

X = I = ,
o` u I est la matrice didentit e de dimensions (k + 1) (k + 1),
I
_

_
1 0 0 . . . 0
0 1 0 . . . 0
0 0 1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . 1
_

_
,
et donc


= (X

X)
1
X

Y.
14
Jai ecrit un chapeau sur pour indiquer quil sagit de notre estimateur MCO. Simple, non ? Cest
la premi` ere fois que nous voyons une application de la diff erentiation de matrices dans le cours.
Ce sera dailleurs presque la derni` ere fois. Rappelez-vous la page D-4 du document que je vous
ai donn e ` a lire (je donne la r ef erence exacte encore une fois ` a la n de ces notes), sp eciquement
lencadr e en bas de la page :
y
y
x
Ax A

A A
x

x 2x
x

Ax Ax +A

Etudiez bien la condition du premier ordre pour etre s ur ` a 100% de comprendre comment on
lobtient en appliquant ces r` egles. Notez bien aussi que, pour les ns de notre diff erentiation, il y
a une fonction (la somme des r esidus carr es) de k + 1 variables explicatives qui sont les el ements
de .
Notez bien que le calcul de

implique linversion dune matrice de dimensions (k+1)(k+1).
Dans le cas g en eral (o` u k > 3), nous savons que nous ne pouvons pas obtenir une expression
alg ebrique pour cette matrice invers ee. R esoudre ce probl` eme equivaut (ou presque) ` a trouver
les racines dun polyn ome dordre k + 1, et il y a un th eor` eme qui dit ceci est impossible en
g en eral (alg ebriquement) pour des polyn omes dordre 5 et plus. La solution alg ebrique pour un
polyn ome dordre 4 s etale sur plusieurs pages, et elle nest pas dune grande utilit e pratique. Si
nous voulions ecrire la solution pour avec k > 3 avec une notation de sommations, ca serait plus
quaffreux, ca serait carr ement impossible. Il y a des moyens de contourner ce probl` eme, mais ce
sont des moyens qui datent davant l epoque dordinateurs personnels puissants. De nos jours, nous
pouvons toujours demander ` a lordinateur dinverser nos matrices (X

X), utilisant des algorithmes


num eriques puissants et efcaces.
15
3.5 Quelques exemples simples des r` egles de diff erentiation
Pour illustrer le fonctionnement de ces r` egles de diff erentiation, prenons quelques exemples
concrets tr` es simples. Dabord, supposons que
y =
_
A
1
A
2
_
_

_
x
1
x
2
_

_
= A
1
x
1
+A
2
x
2
.
La fonction y dans ce cas-ci est une seule fonction (un scalaire donc). Il y a deux arguments de la
fonction (x
1
et x
2
) et donc deux d eriv ees partielles distinctes. Par convention, on ecrit les d eriv ees
partielles en colonne :
y
x

_

_
y
x
1
y
x
2
.
_

_
Nous constatons que
y
x
1
= A
1
et
y
x
2
= A
2
.
Donc,
y
x
=
_

_
A
1
A
2
_

_
= A

,
ce qui est conforme ` a la premi` ere r` egle du tableau.
Maintenant, supposons que
y =
_

_
A
11
A
12
A
21
A
22
_

_
_

_
x
1
x
2
_

_
16
=
_

_
A
11
x
1
+A
12
x
2
A
21
x
1
+A
22
x
2
_

_
y
1
y
2
_

_
Maintenant, y est compos ee de deux fonctions, d enies par les deux rang ees de lexpression ci-
dessus. Il y a deux fonctions avec deux arguments chacune (x
1
et x
2
), et donc on a un total de
quatre d eriv ees partielles. Nous avons
y
1
x
1
= A
11
,
y
1
x
2
= A
12
,
y
2
x
1
= A
21
,
et
y
2
x
2
= A
22
.
Par convention, on ecrit ces quatre d eriv ees en notation matricielle comme
_

_
y
1
x
1
y
2
x
1
y
1
x
2
y
2
x
2
_

_
.
Donc, la convention revient ` a aligner toutes les d eriv ees de la m eme fonction dans la m eme
colonne, et toutes les d eriv ees par rapport au m eme argument dans la m eme rang ee. Dans notre
cas, nous avons
_

_
y
1
x
1
y
2
x
1
y
1
x
2
y
2
x
2
_

_
=
_

_
A
11
A
21
A
12
A
22
_

_
= A

,
et encore une fois la premi` ere r` egle du tableau est respect ee.
Maintenant, supposons que
y =
_
x
1
x
2
_
_

_
A
11
A
12
A
21
A
22
_

_
_

_
x
1
x
2
_

_
17
=
_
x
1
A
11
+x
2
A
21
x
1
A
12
+x
2
A
22
_
_

_
x
1
x
2
_

_
= A
11
x
1
2
+A
21
x
1
x
2
+A
12
x
1
x
2
+A
22
x
2
2
.
Cette fois-ci la fonction y est scalaire. Il y a deux d eriv ees partielles possibles. Nous avons
y
x
1
= 2A
11
x
1
+A
21
x
2
+A
12
x
2
et
y
x
2
= 2A
22
x
2
+A
21
x
1
+A
12
x
1
.

Ecrivant ces r esultats en notation matricielle nous avons


_

_
y
x
1
y
x
2
_

_
=
_

_
A
11
A
12
A
21
A
22
_

_
_

_
x
1
x
2
_

_
+
_

_
A
11
A
21
A
12
A
22
_

_
_

_
x
1
x
2
_

_
= Ax +A

x,
ce qui est conforme ` a la quatri` eme r` egle du tableau.
Pour des cas plus compliqu es (plusieurs fonctions, plusieurs arguments), les expressions non
matricielles peuvent devenir assez longues et assez compliqu ees. Ces r` egles de diff erentiation ma-
tricielle permettent de tenir compte automatiquement et syst ematiquement (sans oublier des ter-
mes !) de toutes les d eriv ees partielles possibles. Elles permettent aussi d ecrire toutes les d eriv ees
partielles dans une notation tr` es compacte.
3.6 Approche non matricielle au probl` eme de minimisation
Le mod` ele de r egression multiple peut s ecrire en notation non matricielle comme suit :
Y
i
=
0
+X
1i

1
+X
2i

2
+. . . + X
ki

k
+u
i
.
18
On veut minimiser la somme des r esidus au carr e. Le probl` eme peut s ecrire comme suit :
min

0
,
1
,...,
k
n

i=1
(Y
i

0
X
1i

1
X
2i

2
. . . X
ki

k
)
2
.
Les conditions du premier ordre pour minimiser cette fonction sont les suivantes (bien s ur, il y a
k + 1 conditions dur premier ordre pusiquil y a k + 1 variables de choix pour minimiser notre
fonction (la somme des r esidus au carr e) :

0
: 0 = 2
n

i=1
(Y
i

0
X
1i

1
. . . X
ki

k
) ;

1
: 0 = 2
n

i=1
X
1i
(Y
i

0
X
1i

1
. . . X
ki

k
) ;

2
: 0 = 2
n

i=1
X
2i
(Y
i

0
X
1i

1
. . . X
ki

k
) ;
. . .

k
: 0 = 2
n

i=1
X
ki
(Y
i

0
X
1i

1
. . . X
ki

k
) .
Il sagit dun syst` eme de k + 1 equations en k + 1 inconnus (les s). Nous pouvons r e ecrire le
syst` eme comme suit :
n

i=1
Y
i
=
n

i=1
(
0
+X
1i

1
+. . . +X
ki

k
) ;
n

i=1
X
1i
Y
i
=
n

i=1
X
1i
(
0
+X
1i

1
+. . . + X
ki

k
) ;
n

i=1
X
2i
Y
i
=
n

i=1
X
2i
(
0
+X
1i

1
+. . . + X
ki

k
) ;
. . .
n

i=1
X
ki
Y
i
=
n

i=1
X
ki
(
0
+X
1i

1
+. . . +X
ki

k
) .
19
Nous pouvons maintenant convertir ses equations en notation matricielle :
_
1 . . . 1
_
_

_
Y
1
.
.
.
Y
n
_

_
=
_
1 . . . 1
_
X

;
_
X
11
. . . X
1k
_
_

_
Y
1
.
.
.
Y
n
_

_
=
_
X
11
. . . X
1k
_
X

;
.
.
.
_
X
11
. . . X
kn
_
_

_
Y
1
.
.
.
Y
n
_

_
=
_
X
k1
. . . X
kn
_
X

,
o` u jai ecrit un chapeau sur pour indiquer quil sagit dun syst` eme d equations dont la solution
nous donne nos estimateurs moindres carr es ordinaires. Soyez s ur de comprendre ce passage ` a la
notation matricielle. Maintenant, en empilant les k + 1 equations les unes pardessus les autres,
nous avons tout de suite
_

_
1 . . . 1
X
11
. . . X
1n
X
21
. . . X
2n
.
.
.
.
.
.
.
.
.
X
k1
. . . X
kn
_

_
_

_
Y
1
.
.
.
Y
n
_

_
=
_

_
1 . . . 1
X
11
. . . X
1n
X
21
. . . X
2n
.
.
.
.
.
.
.
.
.
X
k1
. . . X
kn
_

_
X

Y = X


= (X

X)
1
X

Y.
Nous retrouvons la m eme solution en notation matricielle (ce qui nest point surprenant).
20
4 Propri et es de lestimateur MCO
4.1 Propri et es alg ebriques de lestimateur MCO
Comme dans le chapitre 4, nous allons montrer que lestimateur a des propri et es alg ebriques
qui doivent tenir ind ependamment des hypoth` eses statistiques concernant les variables (explica-
tives et d ependante) du mod` ele. Ces propri et es doivent tenir pour nimporte quel echantillon de
donn ees Nous utiliserons les r esultats de cette section par la suite pour d eriver certaines des pro-
pri et es statistiques de lestimateur MCO. Nous avons, directement ` a partir des CPOs,
X

= X

Y
X

_
X

Y
_
= 0
X

_
Y X

_
= 0.
Entre parenth` eses, nous avons un vecteur de dimensions n 1 qui nous donne les r esidus de la
r egression (variable d ependante moins la valeur pr edite de la variable d ependante donn ee par X

).
Autrement dit,
Y X



U.
Donc, nous avons :
X

U = 0,
o` u

U est le vecteur de r esidus de la r egression. Les r esidus sont orthogonaux aux variables explica-
tives. Par d enition, deux vecteurs Z
1
et Z
2
de dimensions n 1 sont orthogonaux si et seulement
si
Z
1

Z
2
= 0
Cela veut dire que chaque variable explicative (chaque colonne de la matrice X) est orthogonale
aux r esidus de la r egression. Ce r esultat est une g en eralisation du r esultat dans le chapitre sur la
21
r egression simple de lorthogonalit e entre la seule variable explicative (` a part la constante) et les
r esidus. Cest une g en eralisation, mais la preuve est beaucoup plus succincte que celle quon a vue
dans le chapitre sur la r egression simple. Encore un avantage de la notation matricielle.
Nous avons vu dans le chapitre sur le mod` ele de r egression simple que lorthogonalit e est reli ee
` a linterpr etation g eom etrique de la m ethode de MCO. Estimer un mod` ele par MCO revient ` a
projeter la variable d ependante dans lespace travers e par la variable explicative (ou les variables
explicatives dans le cas de la r egression multiple). La Figure 1 ci-dessous reprend le graphique
que nous avons vu dans le chapitre pr ec edent. Cest donc pour le cas o` u il y a deux variables
explicatives. La ligne de r egression est consid er e comme un vecteur. La ligne pointill ee sur le
graphique est un vecteur dont la longueur egale la valeur de u
i
` a ce point. Il forme un angle droit
par rapport ` a la ligne de r egression, do` u le terme

orthogonal

.
Figure 1
Notez que, par convention, la premi` ere colonne de X repr esente la constante et donc contient
un vecteur de valeurs egales ` a un. Si nous d enotons cette premi` ere colonne par X
1
(notez que nous
utilisons ici une notation dalg` ebre lin eaire), nous avons tout de suite
X
1

U =
n

i=1
u
i
= 0.
Donc, la somme des r esidus est egale ` a z ero, comme dans le mod` ele de r egression simple.
D enissons

Y X

,
22
le vecteur de valeurs pr edites de la variable d ependante. Nous avons

U =
_
X (X

X)
1
X

Y
_

U
= Y

X (X

X)
1
X

U = 0.
Les valeurs pr edites de la variable d ependante sont orthogonales aux r esidus.
Finalement, nous avons
X

Y Y
_
= X

_
X (X

X)
1
X

Y Y
_
= X

X (X

X)
1
X

Y X

Y = X

Y X

Y = 0.
Puisque la premi` ere colonne de X est un vecteur de valeurs unitaires, une cons equence directe
de ce r esultat est que la moyenne echantillonnale des valeurs pr edites est egale ` a la moyenne
echantillonnale de la variable d ependante elle-m eme. Autrement dit :
1
n
n

i=1

Y
i
=
1
n
n

i=1
Y

Y ,
un r esultat semblable ` a ce que nous avons vu dans le chapitre sur la r egression simple.
4.2

Ecart type de la r egression
On d enit
SER s
u
,
o` u
s
2
u

1
n k 1
n

i=1
u
2
i
=
SSR
n k 1
,
23
et donc SSR est la somme des r esidus au carr e. On divise par (n k 1) an dobtenir un estim e
non biais e de la variance de lerreur dans l equation de r egression lorsque celle-ci est constante.
5
Je
sais que jinsiste beaucoup l` a-dessus, mais les d emonstrations alg ebriques dans cette section sont
beaucoup plus courtes que leurs equivalents dans le chapitre pr ec edent. Cest dans ce sens que je
dis que lutilisation de la notation matricielle dans le contexte du mod` ele de r egression multiple
simplie enorm ement lanalyse. Sil fallait d eriver les m emes propri et es sans avoir recours aux
matrices, les d emonstrations s etaleraient sur plusieurs pages.
4.3 Mesures dajustement statistique
4.3.1 Le R
2
La mesure R
2
est d enie de la m eme facon que dans le cas du mod` ele de r egression simple :
R
2
=
ESS
TSS
= 1
SSR
TSS
,
o` u on d enit
ESS
n

i=1
_

Y
i


Y
_
2
,
o` u

Y est la moyenne echantillonnale des Y
i
, et
TSS
n

i=1
_
Y
i


Y
_
2
Nous avons suppos e implicitement ici que
TSS = SSR + ESS.
En fait, il faut d emontrer ce r esultat, comme nous avons fait dans le chapitre sur le mod` ele de
5. Ici on suppose implicitement des erreurs homosc edastiques, ou ` a variance constante. Sinon il nest pas logique
de parler de la variance de lerreur.
24
r egression simple. Nous avons
Y

Y =
_
X

+

U
_

_
X

+

U
_
=

U +

U

+

U

U
=

+

U

Y +

U

U =

Y

Y + SSR.
Nous avons utilis e pour passer ` a lavant derni` ere ligne de cette s equence d equations le r esultat que
X

U = 0. Nous avons presque montr e le r esultat voulu en quatre lignes, mais nous avons
TSS (Y

Y)

(Y

Y)
= Y

Y

Y

Y Y

Y +

Y

Y
o` u

Y est un vecteur de constantes avec chaque valeur egale ` a

Y , et nous avons
ESS
_

Y

Y
_

Y

Y
_

Y

Y

Y

Y

Y +

Y

Y.
Donc, nous devons montrer que

Y =

Y


Y
n

i=1

Y
i
=

Y
n

i=1
Y
i

1
n
n

i=1

Y
i
=
1
n
n

i=1
Y
i
=

Y ,
ce qui doit etre le cas puisque nous avons montr e parmi les propri et es alg ebriques de lestimateur
MCO que la moyenne echantillonnale des valeurs pr edites de la variable d ependante doit etre egale
25
a la moyenne echantillonnale de la variable d ependante elle-m eme. Donc, nous venons de montrer
que
TSS = ESS + SSR.
Sachant que Y

Y +

U, une facon plus succincte de le faire est comme suit :
TSS = (Y

Y)

(Y

Y)
=
_

Y +

U

Y
_

Y +

U

Y
_
=
__

Y

Y
_
+

U
_

__

Y

Y
_
+

U
_
=
_

Y

Y
_

Y

Y
_
+
_

Y

Y
_

U +

U

Y

Y
_
+

U

U
=
_

Y

Y
_

Y

Y
_
+

U

U
ESS + SSR,
puisque nous avons montr e auparavant que

Y

U = 0 et

U =
n

i=1

Y U
i
=

Y
n

i=1
U
i
= 0.
4.3.2 Le R
2
ajust e
On peut montrer math ematiquement que le fait de rajouter une variable explicative addition-
nelle ` a un mod` ele de r egression multiple ne peut que faire augmenter son R
2
.
6
De cette facon, nous pouvons toujours

am eliorer

lajustement statistique dune r egression


en ajoutant des variables explicatives. En fait, si nous avons autant de variables explicatives que
dobservations ((k + 1) = n), il est possible datteindre un ajustement statistique

parfait

. Il
6. Si vous etes ` a laise avec les principes de base de loptimisation sous contrainte, ce r esultat est evident. Les-
timateur MCO est la solution ` a un probl` eme de minimisation. Si on minimise la somme des r esidus carr es sujet ` a la
contrainte quun des coefcients est egal ` a z ero (on enl` eve la variable du mod` ele), et puis on minimise la somme des
r esidus carr es en ne pas imposant cette contrainte, la somme des r esidus carr es doit etre au moins aussi petite dans le
dernier cas, puisque nous rel achons une des contraintes du probl` eme de minimisation.
26
faudrait trouver la solution ` a
0 = U = Y X

Y = X

.
Nous avons n equations et n inconnus. Dans la mesure o` u X est de rang plein (rang n), nous avons

= X
1
Y.
Donc, un R
2
elev e nest pas toujours et partout une bonne chose.
Puisque lajustement mesur e par le R
2
ne peut quaugmenter quand on ajoute des variables
explicatives, il serait bien davoir une autre mesure qui p enalise la mesure par un facteur lorsquon
ajoute des variables explicatives. Le R
2
ajust e, d enot e par

R
2
est une telle mesure. Voici sa
d enition :

R
2
1
n 1
n k 1
SSR
TSS
= 1
s
2
u
s
2
Y
.
On peut souligner trois propri et es du

R
2
.
1. Puisque
n1
nk1
> 1, on sait que

R
2
< R
2
.
2. Le fait dajouter une variable explicative suppl ementaire a deux effets sur

R
2
. Dune part, la
somme des r esidus carr es SSR doit baisser, ce qui fait augmenter

R
2
. Dautre part, le facteur
n1
nk1
augmente, ce qui fait diminuer

R
2
.
3. Il est possible que

R
2
soit n egatif.
4.4 Propri et es statistiques : absence de biais
Toutes les propri et es (alg ebriques) de lestimateur MCO que nous avons montr ees jusqu` a
maintenant tiennent ind ependamment des hypoth` eses statistiques de la section (3.3). La seule hy-
poth` ese que nous avons utilis e pour d eriver les propri et es alg ebriques est celle du rang plein en
colonnes de X et donc de la possibilit e de calculer (X

X)
1
.
27
Pour montrer labsence de biais, nous utilisons la strat egie habituelle. Nous remplacons Y
dans la d enition de lestimateur par sa d enition (X + U), nous simplions, et nalement nous
calculons la valeur esp er ee de lestimateur en utilisant la loi des esp erances it er ees.
Nous avons :

= (X

X)
1
X

Y
= (X

X)
1
X

(X +U)
= + (X

X)
1
X

U
E
_

_
= + E
_
(X

X)
1
X

U
_
= + E
_
(X

X)
1
X

E(U|X)
_
= .
La derni` ere egalit e d epend de la loi des esp erances it er ees.
Je ne sais pas si vous etes daccord, mais je crois que la d emonstration de labsence de biais
dans le cas du mod` ele de r egression multiple est beaucoup plus simple que dans le cas du mod` ele de
r egression simple, ` a cause de lutilisation de la notation matricielle. La preuve s ecrit sur quelques
lignes seulement est elle est assez transparente.
4.5 Petite note : th eor` eme de Slutsky
Pour d eriver la convergence de lestimateur

et pour d eriver sa distribution en grand
echantillon, nous allons devoir faire appel au th eor` eme de Slutsky.
L enonc e du th eor` eme se trouve dans le manuel ` a la page 685. Il est utile, sinon tr` es utile, sinon
archi utile. Il dit essentiellement que si une variable al eatoire converge en probabilit e ` a quelque
chose, une fonction continue de la variable al eatoire converge ` a la m eme fonction de ce ` a quoi
converge la variable al eatoire.
Un enonc e un peu plus g en eral du th eor` eme se trouve ` a Wikipedia (

Slutskys Theorem

).
Autrement dit, si
X
n
p
X,
28
alors
h(X
n
)
p
h(X).
Les conditions qui doivent tenir pour que le th eor` eme tienne sont explicit ees dans larticle chez
Wikipedia.
Pourquoi est-ce que ce th eor` eme est si utile ? Si on veut analyser le comportement en grand
echantillon dun estimateur, on peut analyser le comportement de ses composantes, sachant que
(sous certaines conditions), si les composantes convergent en probabilit e ` a quelque chose, et si
lestimateur est une fonction des composantes, lestimateur converge en probabilit e ` a cette fonc-
tion. De facon informelle, si
Z
n
= f (X
n
, Y
n
) ,
et si X
n
p
X et Y
n
p
Y , alors
Z
n
p
f(X, Y ).
Voir l equation (17.9) pour un enonc e un peu plus g en eral. Si a
n
p
a o` u a est une constante et
si S
n
d
S, alors
a
n
+ S
n
d
a +S,
a
n
S
n
d
aS,
et si a = 0,
S
n
a
n
d

S
a
.
Le fait de pouvoir travailler avec des morceaux individuels de nos estimateurs nous facilite
grandement la vie. Notez que la manipulation alg ebrique des limites de probabilit e est beaucoup
plus simple que la manipulation alg ebrique des esp erances. Nous savons quen g en eral,
E(XY ) = E(X)E(Y ),
29
sauf dans le cas de variables al eatoires ind ependantes, et nous savons quen g en eral,
Ef (X) = f (E(X)) ,
sauf dans le cas o` u f est une fonction lin eaire (le cas du fameux encadr e 2.3 qui nous dit entre autres
que lesp erance dune fonction lin eaire de variables al eatoires est egale ` a la fonction lin eaire des
esp erances des variables al eatoires).
4.6 Propri et es statistiques : convergence

= (X

X)
1
X

Y
= (X

X)
1
X

(X +U)
= + (X

X)
1
X


_
=
_
(X

X)
n
_
1
_
(X

U)
n
_
Nous avons divis e et multipli e par le scalaire n an de pouvoir parler de convergence en probabilit e.
(X

X)
n
est une matrice dont l el ement i, j est donn e par
X
i

X
j
n
=
1
n
n

l=1
X
i1,l
X
j1,l
.
Du c ot e gauche on utilise la notation matricielle standard. Du c ot e droit, on utilise la notation
du manuel pour le mod` ele de r egression multiple. Notez encore une fois linversion des indices
inf erieurs entre la notation matricielle standard et la notation du mod` ele de r egression multiple
utilis e dans le livre. Dans li` eme colonne de la matrice, on retrouve les observations sur la variable
explicative i 1. Par une des hypoth` eses du mod` ele de r egression multiple, nous avons
lim
n
X
i

X
j
n
= E(X
i

X
j
) .
30
Ceci veut dire quil y a convergence en probabilit e vers lesp erance de X
i

X
j
. Donc,
(X

X)
n
con-
verge en probabilit e ` a Q
x
, qui est d enie comme
Q
x
E
_
X

X
n
_
.
Cest donc une matrice des deuxi` emes moments des variables explicatives. Notez que ce nest pas
une matrice variance-covariance des variables explicatives puisque nous ne soustrayons pas les
moyennes.
7
Une des hypoth` eses du mod` ele est que la matrice (X

X) est inversible (absence de


multicollin earit e compl` ete). Si cest le cas, X

X satisfait les conditions du th eor` eme de Slutsky,


et donc la limite de probabilit e de linverse de la matrice est linverse de la limite de probabilit e.
Donc, le premier terme converge en probabilit e ` a
(Q
x
)
1
Le deuxi` eme terme converge en probabilit e ` a z ero. Je ne vais pas faire la preuve formelle de cet
enonc e. Par contre, nous avons d ej` a vu que son esp erance est nulle :
E
_
(X

U)
n
_
= E
_
(X

E(U|X))
n
_
= 0.
Sa variance est donn ee par
Var
_
(X

U)
n
_
=
_
1
n
_
2
Var (X

U) .
Il sagit de la variance dun vecteur de dimensions (k + 1) 1. Si on consid` ere li` eme colonne de
7. Nous pouvons en g en eral faire une distinction entre l eni` eme moment brut dune variable al eatoire Y donn e par
E(Y
n
) et l eni` eme moment centr e donn e par E((Y E(Y ))
n
). Revoir le chapitre sur la th eorie des probabilit es pour
un rappel. La covariance entre deux variables al eatoires X et Y , E((Y E(Y )) (X E(X))), est donc un moment
centr e, et notre Q
x
est un moment brut.
31
la matrice X, nous avons
Var
_
1
n
X
i

U
_
=
_
1
n
_
2
Var (X
i

U)
=
_
1
n
_
2
Var
_
n

l=1
X
i1,l
U
l
_
=
_
1
n
_
2 n

l=1
Var (X
i1,l
U
l
) .
D enissons X
i1,l
U
l
V
i,l
. Nous avons
Var
_
1
n
X
i

U
_
=
_
1
n
_
2 n

l=1
Var (V
i,l
)
=
_
1
n
_
2
nVar (V
i
)
=
_
1
n
_
Var (V
i
) .
Nous avons fait des hypoth` eses de quatri` eme moments nis et dobservations i.i.d., et donc la
variance Var (V
i
) est nie et constante. Nous avons
lim
n
_
1
n
Var (V
i
)
_
= 0.
Avec une esp erance de z ero et une variance qui tend vers z ero, on a (presque) la preuve de la
convergence :
(X

U)
n
p
0.
Les hypoth` eses du th eor` eme de Slutsky sont satisfaites, donc la limite de probabilit e du produit
32
est le produit des limites de probabilit e. Donc, nous avons :
_


_
p
0.
4.7 Petite note sur les covariances en notation matricielle
En guise de pr eparation pour la sous-section suivante, on va se pencher dans cette sous-section
sur comment ecrire des covariances en notation matricielle. Prenons un vecteur de k variables
al eatoires Y de dimensions k 1. Nous pouvons ecrire les esp erances de toutes les variables
al eatoires en notation matricielle tout simplement comme :
E(Y ).
Consid erons maintenant la matrice suivante :
(Y E(Y )) (Y E(Y ))

.
Cette matrice est de dimensions k k. L el ement dans li-i` eme rang ee et la j-i` eme colonne de cette
matrice est :
(Y
i
E(Y
i
)) (Y
j
E(Y
j
)) .
Par d enition,
E((Y
i
E(Y
i
)) (Y
j
E(Y
j
)))
nous donne la covariance entre les variables al eatoires Y
i
et Y
j
. Dans le cas o` u i = j, nous avons
par d enition la variance de Y
i
.
Donc, la matrice suivante :
E
_
(Y E(Y )) (Y E(Y ))

_
,
33
est une matrice qui contient toutes les variances des variables al eatoires dans Y (le long de la
diagonale) et toutes les covariances possibles entre les variables al eatoires dans Y . En fait, puisque
Cov (Y
i
, Y
j
) = Cov (Y
j
, Y
i
) ,
la matrice est sym etrique, avec l el ement i, j egal ` a l el ement j, i. Donc, nous pouvons ecrire de
facon succincte toutes les variances et covariances possibles entre les variables al eatoires regroup es
dans un vecteur Y .
4.8 Propri et es statistiques : distribution en grand echantillon
Cette section est un peu ardue. Son but est de d evelopper une expression pour la matrice
variance-covariance de lestimateur

, et de contraster la variance

robuste

(lorsque on ne fait
pas dhypoth` ese particuli` ere concernant lhomosc edasticit e) avec la variance en pr esence dho-
mosc edasticit e. Dans votre travail pratique de tous les jours d econom` etres, vos logiciels (comme
R, STATA ou GRETL) vont faire les calculs d evelopp es dans cette sous-section automatiquement.
Par contre, si jamais vous voulez utiliser un logiciel comme MATLAB ou Excel o` u la matrice
variance-covariance robuste nest pas calcul ee automatiquement, vous allez pouvoir programmer
son calcul vous-m emes.
Nous voulons travailler avec une expression dont la variance ne diminue pas vers z ero lorsque
n . Donc, au lieu de travailler avec
_


_
, qui converge vers une constante (convergence
en probabilit e), nous avons :

n
_


_
=
_
(X

X)
n
_
1
_
(X

U)

n
_
.
Le dernier terme, au lieu de converger ` a une constante, a maintenant une variance qui ne d ecrot
pas avec n. Nous avons donc quelque chose qui va converger en distribution, et non quelque chose
qui va converger en probabilit e vers un vecteur de constantes.
34
Nous avons d ej` a vu dans la sous-section sur labsence de biais que
E
_


_
= 0.
Donc, une expression qui nous donne la matrice de variance-covariance de

n
_


_
est donn ee
par :
E
_
n
_


__

_
Notez bien la multiplication de
_


_
par

n. Dans le mod` ele de r egression simple, nous avons


vu que la variance de lestimateur

1
d ecrot au rythme 1/n et donc tend vers z ero lorsque n tend
vers linni. Nous voulons travailler avec une variable al eatoire (plut ot un vecteur de variables
al eatoires) qui reste une variable al eatoire m eme lorsque la taille de l echantillon tend vers linni.
Pour cette raison, nous multiplions par

n, ce qui nous laissera avec une variance qui ne tend pas


vers z ero et, dautre part, reste nie lorsque n tend vers linni.
Pour evaluer la matrice variance-covariance de

n
_


_
, nous devons examiner le com-
portement en grand echantillon de
_
_
(X

X)
n
_
1
_
(X

U)

n
_
__
_
(X

X)
n
_
1
_
(X

U)

n
_
_

=
_
(X

X)
n
_
1
_
(X

U)

n
__
(X

U)

n
_

_
(X

X)
n
_
1
.
Nous avons d ej` a vu que
_
(X

X)
n
_
1
converge en probabilit e ` a (Q
x
)
1
. Donc, nous devons nous
pencher sur le comportement de
_
(X

U)

n
__
(X

U)

n
_

.
(X

U) est un vecteur de dimensions (k + 1) 1, puisque X est de dimensions n (k + 1) et U


35
est de dimensions n 1. Nous avons :
(X

U) =
n

i=1
_

_
u
i
X
1i
u
i
X
2i
u
i
.
.
.
X
ki
u
i
_

i=1
V
i
.
Par hypoth` ese, selon le

Key Concept 18.1

, les V
i
sont i.i.d. Cela veut dire que
1
n
n

i=1
V
i
converge en probabilit e ` a un vecteur de z eros, et que (par une version du th eor` eme de la limite
centrale),
1

n
n

i=1
V
i
converge en distribution ` a un vecteur de variables normales dont la moyenne est z ero (on sait cela
puisque nous avons montr e labsence de biais) et dont la variance est donn ee par :
E(V
i
V
i

)
V
.
Donc, nous pouvons encore une fois invoquer le th eor` eme de Slutsky pour dire que

n
_


_
d
N
_
0
k+1
, Q
x
1

V
Q
x
1
_
,
o` u nous utilisons 0
k+1
pour d enoter un vecteur de z eros de dimensions (k + 1) 1.
36
4.8.1 Cas homosc edastique
Dans le cas homosc edastique, la variance de u
i
est constante et ind ependante des X
i
. Formelle-
ment, nous pouvons ecrire :
E(UU

) =
2
u
I
n
.
Nous avons :
_
(X

U)

n
__
(X

U)

n
_

=
_
X

UU

X
n
_
p
E
_
1
n

2
u
X

I
n
X
_
= E
_
1
n

2
u
X

X
_
=
2
u
Q
x
.
Donc, lexpression pour la variance de

n
_


_
se simplie beaucoup. Nous avons :

n
_


_
d
N
_
0
k+1
,
2
u
Q
x
1
Q
x
Q
x
1
_
= N
_
0
k+1
,
2
u
Q
x
1
_
.
5 Variance echantillonnale de

Comme dhabitude, notre d erivation de la distribution en grand echantillon de



n
_


_
d epend de quantit es que nous ne connaissons pas, par exemple de
Q
x
E
_
X

X
n
_
.
Il est (presque) toujours le cas que nous ne connaissons pas les vrais moments (moyennes, vari-
ances, moments bruts voir la note de bas de page ` a la page 15) de nos variables al eatoires.
Que faire alors si nous voulons d evelopper une expression pour la variance de notre estimateur

, bas ee sur des quantit es que nous pouvons mesurer ? Nous suivons la strat egie habituelle, que
nous avons d ej` a utilis ee ` a maintes reprises, de remplacer les moments non connus de la population
37
par des estimateurs convergents. Donc, nous remplacons Q
x
par :

Q
x

(X

X)
n
.
Nous remplacons
V
par :

V

1
n k 1
n

i=1
X
i

X
i
( u
i
)
2
,
o` u X
i
est li` eme rang ee de la matrice X.
8
Comme dhabitude, nous divisons par (n k 1)
ici et non par n an dobtenir un estim e non biais e. Nous nallons pas montrer explicitement que
cette expression est un estimateur convergent de
V
, mais nous aurions pu le faire. Nous pouvons
nalement ecrire :

N
_
,
1
n
_

Q
x
_
1

v
_

Q
x
_
1
_
N
_
,

_
.
Jutilise ici la notation

pour capter lid ee que



suit une distribution qui est approxima-
tivement normale. Notez que cest encore le th eor` eme de Slutsky qui nous permet de dire que si
nous avons un produit de trois estimateurs convergents, la limite en probabilit e (ou dans ce cas-ci
la limite en distribution) du produit est le produit de la limite en probabilit e des trois termes.
Tout bon logiciel de r egression, comme R, STATA ou GRETL, calcule la matrice variance-
covariance de

automatiquement. Mais attention ! Il sagit de la matrice variance-covariance ro-
buste (o` u la variance du terme derreur u
i
nest pas forc ement constante et ind ependante des X
i
). Il
faut en g en eral v erier dans la documentation du logiciel sil calcule par d efaut la matrice robuste
o` u la matrice qui impose une hypoth` ese dhomosc edasticit e (sous-section suivante). Si loption
par d efaut est la matrice variance-covariance sous lhypoth` ese dhomosc edasticit e, il faut sp ecier
dans le code de son programme le calcul de la matrice robuste.
Habituellement, loutput du logiciel de r egression ne donne pas la matrice variance-covariance
8. Jutilise la notation matricielle standard ici. Stock et Watson ` a la page 699 du manuel d enissent X
i
comme un
vecteur colonne, ce qui nest pas conforme ` a la notation matricielle standard. Pourquoi introduire encore une autre
incoh erence entre la notation standard et la leur ?
38
au complet, mais se limite plut ot ` a donner l ecart type robuste associ e ` a chaque coefcient in-
dividuel. L ecart type de

i
est la racine carr ee de li-i` eme el ement diagonal de

. Par contre,
le logiciel a besoin de la matrice variance-covariance au complet lorsquil sagit deffectuer un
test dhypoth` eses jointes. Nous nous pencherons sur cette question dans la derni` ere section de ces
notes.
5.1 Cas homosc edastique
Encore une fois, nous suivons la strat egie g en eral de remplacer les moments inconnus par des
estimateurs convergents. Un estimateur convergent de
2
u
est donn e par :
s
2
u

1
n k 1
n

i=1
u
2
i
.
Nous avons d ej` a rencontr e lestimateur convergent de Q
x
:

Q
x

(X

X)
n
.
Donc, nous avons le r esultat suivant :

N
_
,
1
n
s
2
u
_

Q
x
_
1
_
N
_
,

_
,
o` u jutilise

pour d enoter la matrice variance-covariance dans le cas sp ecial de lho-


mosc edasticit e.
Cet estimateur de la matrice variance-covariance est tr` es facile ` a programmer si vous devez le
faire. En notation MATLAB, si

X

est la matrice contenant les observations sur les variables
explicatives et si

Uhat

est le vecteur de r esidus de la r egression, nous avons :


Sigmahat = (Uhat

) Uhat inv(X

X)/(n k 1); .
39
5.2 Homosc edasticit e versus H et erosc edasticit e
Suivant la philosophie du livre de Stock et Watson, nous avons mis laccent sur le cal-
cul d ecarts types pour nos coefcients estim es qui sont robustes ` a la pr esence derreurs
h et erosc edastiques. Jaccepte compl` etement largument de Stock et Watson que les donn ees que
nous utilisons la plupart du temps pour estimer nos mod` eles econom etriques nont pas les erreurs
homosc edastiques.
Par contre, on peut se poser la question suivante : y a-t-il des facons de d etecter la pr esence de
lh et erosc edasticit e ? La r eponse est

Oui

, mais le livre de Stock et Watson est totalement muet


` a cet egard. Commencons par une m ethode informelle ou graphique.
Il sagit de regarder un graphique avec les r esidus de l equation estim ee sur laxe vertical et une
des variables explicatives du mod` ele sur laxe horizontal. Si la grandeur absolue des r esidus varie
syst ematiquement avec la variable explicative, cest un signe de la pr esence de lh et eroscedasticit e.
On peut aussi regarder un graphique o` u on mesure les r esidus au carr e sur laxe vertical. Si les
points on une pente non nulle evidente (positive ou n egative), cest un signe de la pr esence de
lh et erosc edasticit e. Si cest le cas, il est fortement conseill e deffecteur un ou plusieurs tests
formels.
1. Larticle Wikipedia qui sintitule Heteroscedasticity est une bonne introduction au sujet.
2. Le test Goldfeld-Quandt.
3. Le test Breusch-Pagan. On r egresse les r esidus au carr e sur les variables explicatives du
mod` ele. Il y a un bon article sur Wikipedia qui explique le test.
4. Le test de White. Cest peut- etre le test le plus fr equemment utilis e. L econom` etre qui la
d evelopp e a aussi propos e la version robuste de la matrice variance-covariance que lon
pr esente dans le manuel. Pour effectuer le test, on utilise les r esidus au carr e comme la vari-
able d ependante dans une r egression multiple (quon appelle une

r egression auxiliaire

),
ou les variables explicatives sont les variables explicatives du mod` ele original, tous les co-
produits possibles des variables explicatives, et les variables explicatives au carr e. White a
40
montr e que la statistique R
2
de cette r egression suit (en grand echantillon) une distribution

2
avec un nombre de degr es de libert e egal au nombre de variables explicatives dans la
r egression auxiliaire moins un. Il y a un article sur ce test chez Wikipedia, mais il est moins
complet que larticle sur le test Breusch-Pagan.
5. Le test de Glesjer.
Voir larticle

Heteroscedasticity

chez Wikipedia pour plus de d etails sur les tests diff erents
et pour des renvois.
Bon nombre de logiciels econom etriques modernes effectuent le test de White, ou un ou
plusieurs des autres tests lors de lestimation dun mod` ele de r egression multiple, soit automa-
tiquement soit en sp eciant une option simple.
En pr esence dh et erosc edasticit e, si sa forme est connue (si on connat comment d epend la
variance de lerreur en fonction des variables explicatives du mod` ele), il y a des estimateurs plus
efcients des coefcients du mod` ele. Il sagit de lestimateur moindres carr es g en eralis es (

Gen-
eralized Least Squares

en anglais). Nous navons pas le temps d etudier cet estimateur dans ce


cours. Il fait partie des sujets etudi es dans le cours ECO5272.
6 Efcience de lestimateur MCO sous lhomosc edasticit e
Sous les hypoth` eses de base du mod` ele de r egression multiple, et dans le cas de lho-
mosc edasticit e, on peut montrer que lestimateur MCO

a une variance au moins aussi petite que
nimporte quel autre estimateur lin eaire (en Y ) et non biais e. Cest le th eor` eme Gauss-Markov.
Dans le cas dun vecteur de param` etres, il faut comprendre

variance au moins aussi petite
que

dans le sens suivant. Si



est nimporte quel estimateur lin eaire et non biais e de , il faut
que
Var
_
c

_
Var
_
c

_
pour toute combinaison lin eaire c

. Ici, c est un vecteur de constantes de dimensions (k + 1) 1


et donc c

est un scalaire. Il y a une preuve du th eor` eme dans lannexe 18.5 du manuel.
41
Le th eor` eme Gauss-Markov explique limportance de lestimateur MCO dans lhistoire de
l econom etrie et de la statistique.
Tel quindiqu e ` a la n de la section pr ec edente, il est possible, si on connat la forme de
lh et erosc edasticit e (comment elle est reli ee aux variables explicatives du mod` ele), lestimateur
MCG (moindres carr es g en eralis es) sera typiquement plus efcient que lestimateur MCO.
6.1 Preuve du th eor` eme Gauss-Markov
Je reprends ici une preuve relativement simple tir ee de larticle Wikipedia sur le Th eor` eme
Gauss-Markov. Il est tr` es important de noter que pour les ns de cette preuve, les variables ex-
plicatives X sont consid er ees comme etant xes ou non stochastiques.
Soit

= CY un autre estimateur lin eaire de .
9
On suppose que C peut etre e crite comme
(X

X)
1
X

+ D, ou D est une matrice non nulle de dimensions (k + 1) n. Notre but est de


montrer que sa variance doit etre au moins aussi elev ee que celle de

, lestimateur MCO.
Lesp erance de

est donn ee par
E(CY ) = E
__
(X

X)
1
X

+D
_
(X +U)
_
=
_
(X

X)
1
X

+ D
_
X + E
__
(X

X)
1
X

+D
_
U
_
= +DX + E
__
(X

X)
1
X

+D
_
E(U|X)
_
= +DX,
o` u nous avons utilis e la loi des projections it er ees. Nous voulons prouver que

a la plus petite
variance parmi tous les estimateurs lin eaires non biais es. Pour que notre estimateur soit non biais e,
il faut que
DX = 0.
Calculons maintenant sa variance. Il sagit de la variance conditionnelle ( etant donn e les valeurs
9. Il faut aussi prendre les el ements de C comme etant xes ou non stochastiques.
42
de D et de X). Nous avons
Var (CY |X, D) = CVar(Y |X, D)C

= CVar(U|X)C

=
2
CC

=
2
_
(X

X)
1
X

+D
_ _
(X

X)
1
X

+D
_

=
2
_
(X

X)
1
X

X(X

X)
1
+ (X

X)
1
X

+ DX(X

X)
1
+DD

_
=
2
_
(X

X)
1
+DD

_
=
2
(X

X)
1
+
2
DD

puisquil faut que DX = 0 si notre estimateur est non biais e.


La matrice DD

est une matrice positive semi-d enie. Nous avons


Var
_

_
Var
_

_
=
2
DD

Var
_
c

_
Var
_
c

_
=
2
c

DD

c 0,
la derni` ere in egalit e etant la d enition m eme dune matrice positive semi-d enie. Ce qui fut ` a
d emontrer.
43
7 Biais d u ` a des variables omises (bis)
Montrer le biais qui provient de variables omises est beaucoup plus facile en notation ma-
tricielle quavec des sommations. Supposons que le vrai mod` ele peut etre ecrit comme :
Y =
_
X
1
X
2
_
_

2
_

_
+U
X
1

1
+

U.
Ici, X
1
et X
2
ont linterpr etation de sous-matrices et
1
et
2
ont linterp etation de sous-vecteurs.
Donc, la derni` ere equation indique nous avons, de facon erron ee, regroup e des variables ex-
plicatives du mod` ele avec le terme derreur.
Si nous estimons le mod` ele erron e, nous avons :

1
= (X

1
X
1
)
1
(X

1
Y ) = (X

1
X
1
)
1
(X

1
(X +U))
= (X

1
X
1
)
1
_
_
_
X

1
_
_
_
_
X
1
X
2
_
_
_
_

2
_
_
_
+U
_
_
_
_
_
_
= (X

1
X
1
)
1
X

1
X
1

1
+ (X

1
X
1
)
1
X

1
X
2

2
+ (X

1
X
1
)
1
X

1
U
=
1
+ (X

1
X
1
)
1
X

1
X
2

2
+ (X

1
X
1
)
1
X

1
U
Nous avons :
E
_

1
_
=
1
+ E
_
(X

1
X
1
)
1
X

1
X
2

2
_
+ E
_
(X

1
X
1
)
1
X

1
E(U|X)
_
=
1
+ E
_
(X

1
X
1
)
1
X

1
X
2

2
_
=
1
+ E
_
(X

1
X
1
)
1
X

1
X
2
_

2
.
44
Interpr etation : le biais d epend de X
1

X
2
, la matrice de comouvements bruts entre les el ements de
X
1
et les el ements de X
2
ainsi que des vraies valeurs des coefcients
2
.
Notez que
(X

1
X
1
)
1
X

1
X
2
serait tout simplement la matrice de coefcients obtenus si on r egressait chaque variable dans
X
2
sur X
1
. Cest essentiellement la formule dun estimateur MCO, mais cest une g en eralisation
puisque X
2
est une matrice et non un vecteur.
Vous devriez v erier que lexpression d evelopp ee pour le biais au d ebut du chapitre 6 du
manuel est tout simplement un cas sp ecial de cette expression.
An de mieux cerner le concept de biais d u ` a des variables omises, je d eveloppe dans lencadr e
le sujet du mod` ele de r egression partitionn e qui suit.
R egression partitionn ee
Pour de plus amples renseignements, voir Pollock (2007). Reprenons le mod` ele de
r egession multiple en faisant la distinction entre le sous-ensemble de variables explicatives
X
1
et le sous-ensemble X
2
.
Y =
_
X
1
X
2
_
_

2
_

_
+U
= X
1

1
+ X
2

2
+U.
Au lieu de regrouper les variables X
2
avec le terme derreur comme nous avons fait dans la
section pr ec edente, nous allons regarder explicitement comment notre estim e MCO de
1
, soit

1
, est affect e par

2
. Rappelons ce que nous avons appel e les

equations normales

lorsque
45
nous avons trouv e la solution pour lestimateur MCO pour le mod` ele de r egression multiple :
X

X = X

Y.
Nous pouvons ecrire ces equations commme deux sous-ensembles d equations :
X

1
X
1

1
+ X

1
X
2

2
= X

1
Y
et
X

2
X
1

1
+X

2
X
2

2
= X

2
Y.
Du premier de ces 2 ensembles d equations, nous avons
X

1
X
1

1
= X

1
(Y X
2

2
)

1
= (X

1
X
1
)
1
X

1
_
Y X
2

2
_
.
Nous devons maintenant trouver une solution pour

2
. Multiplions le premier sous-ensemble
par X

2
X
1
(X

1
X
1
)
1
pour obtenir
X

2
X
1

1
+ X

2
X
1
(X

1
X
1
)
1
X

1
X
2

2
= X

2
X
1
(X

1
X
1
)
1
X

1
Y.
Maintenant, soustrayons cette equation du deuxi` eme sous-ensemble d equations, obtenant
ainsi
X

2
X
2

2
X

2
X
1
(X

1
X
1
)
1
X

1
X
2

2
= X

2
Y X

2
X
1
(X

1
X
1
)
1
X

1
Y.

_
X

2
X
2
X

2
X
1
(X

1
X
1
)
1
X

1
X
2
_

2
=
_
X

2
X

2
X
1
(X

1
X
1
)
1
X

1
_
Y.
D enissons
P
1
X
1
(X

1
X
1
)
1
X

1
.
46
Nous pouvons ecrire
(X

2
(I P
1
) X
2
)
2
= X

2
(I P
1
) Y
o` u I est la matrice identit e conformable ` a P
1
, et donc

2
= (X

2
(I P
1
) X
2
)
1
X

2
(I P
1
) Y.
Notez que nous avons suivi une m ethodologie semblable ` a celle dans le chapitre sur le mod` ele
de r egression simple. Nous avons trouv e une solution pour

1
en fonction de

2
, et ensuite
nous avons elimin e

1
dans la solution pour

2
par substitution.
Ces solutions permettent de r einterpr eter lestimateur MCO comme un estimateur en deux
etapes. Consid erons dabord la r egression de la variable Y sur X
1
seulement. Si on appelle les
coefcients estim es

1
, nous avons

1
(X

1
X
1
)
1
X

1
Y,

Y = X
1

1
= X
1
(X

1
X
1
)
1
X

1
Y
les valeurs pr edites de Y sur la base de cette r egression, et

U Y X
1
(X

1
X
1
)
1
X

1
Y =
_
I X
1
(X

1
X
1
)
1
X

1
_
Y
le vecteur de r esidus de cette r egression. Consid erons maintenant la r egression des variables
X
2
sur les X
1
. Appelons les coefcients . Nous avons
(X

1
X
1
)
1
X

1
X
2
.
Notez quil sagit dune matrice de coefcients estim es puisquil y a tout un vecteur de vari-
ables d ependantes au lieu dune seule. Appelons

X
2
les valeurs pr edites des variables X
2
. Nous
47
avons

X
2
= X
1
= X
1
(X

1
X
1
)
1
X

1
X
2
,
et

U X
2
X
1
(X

1
X
1
)
1
X

1
X
2
=
_
I X
1
(X

1
X
1
)
1
X

1
_
X
2
= (I P
1
) X
2
la matrice de r esidus de ces r egressions. (Il y a autant de colonnes dans

U que dans X
2
.)
Maintenant, consid erons la r egression de

U sur

U. Appelons le vecteur de coefcients
estim es . Nous avons
=
_

U
_
1

U.
Nous avons

U = X

2
_
I X
1
(X

1
X
1
)
1
X

1
__
I X
1
(X

1
X
1
)
1
X

1
_
X
2
= X

2
(I P
1
) (I P
1
) X
2
= X

2
(I P
1
) X
2
puisque
(I P
1
) (I P
1
)
= (I P
1
) .
Vous pouvez v eriez cette egalit e facilement. Notez quune matrice Z qui a la propri et e que
ZZ = Z est appel ee une matrice idempotente. Donc, nalement nous avons
= (X

2
(I P
1
) X
2
)
1
X

2
(I P
1
) Y.
48
Mais ceci nest rien dautre que la solution que nous avions trouv ee pour

2
.
En r egressant Y sur X
1
et X
2
sur X
1
, on purge leffet des X
1
sur la variable d ependante
Y et sur les autres variables explicatives X
2
. Avec la r egression de

U sur

U, on estime leffet
des X
2
(purg ees de linuence des X
1
) sur Y (purg ee aussi de linuence des X
1
). Mais cest
exactement ce que fait lestimation MCOlorsquon inclut les deux sous-ensembles de variables
explicatives dans le mod` ele en m eme temps. Ce r esultat sappelle le th eor` eme Frisch-Waugh-
Lovell. Pour de plus amples renseignements, voir Lovell (2010).
Supposons maintenant que notre mod` ele de r egression est sans constante. Nous pouvons
toujours r e ecrire le mod` ele de r egression lin eaire de la facon suivante :
Y = X + U

Y =

X +

U

_
Y

Y
_
=
_
X

X
_
+
_
U

U
_
.
Si, comme dhabitude, la premi` ere colonne contient une constante, elle va disparatre de ce
syst` eme d equations et nous aurons

Y =

X

+

U
o` u

Y Y

Y ,

X X

X
et

U U

U
et o` u

X peut etre red enie comme une matrice n k puisque sa premi` ere colonne est une
49
colonne de z eros. Autrement dit, il est toujours possible de r e ecrire le mod` ele de r egression
lin eaire sans une constante en exprimant toutes les variables (explicatives et d ependante)
comme des d eviations par rapport ` a leurs moyennes echantillonnales.
Donc, supposons que notre mod` ele est effectivement sans constante. Quest-ce qui ar-
rive lorsque la corr elation echantillonnale entre X
1
et X
2
est z ero ? Dans ce cas, nous avons
X

1
X
2
= 0, puisque les variables dans X
1
et X
2
sont mesur ees en d eviations par rapport ` a leurs
moyennes echantillonnales. Autrement dit, X
1
et X
2
sont orthogonales. Nous avons dans ce
cas particulier

= (X

X)
1
X

Y
=
_

_
X

1
X
1
X

1
X
2
X

2
X
1
X

2
X
2
_

_
1
_

_
X

1
X

2
_

_
Y
=
_

_
X

1
X
1
0
0 X

2
X
2
_

_
1
_

_
X

1
X

2
_

_
Y
=
_

_
(X

1
X
1
)
1
0
0 (X

2
X
2
)
1
_

_
_

_
X

1
X

2
_

_
Y
=
_

_
(X

1
X
1
)
1
X
1
Y
(X

2
X
2
)
1
X
2
Y
_

_
.
On aurait pu montrer le m eme r esultat ` a partir des solutions d evelopp ees ici pour

1
et

2
.
Faisons-le ici. Nous avons

1
= (X

1
X
1
)
1
X

1
_
Y X
2

2
_
= (X

1
X
1
)
1
X

1
Y (X

1
X
1
)
1
X

1
X
2

2
= (X

1
X
1
)
1
X

1
Y
50
dans le cas de lorthogonalit e. Dans le cas de

2
, nous avons

2
= (X

2
(I P
1
) X
2
)
1
X

2
(I P
1
) Y
=
_
X

2
X
2
X

2
X
1
(X

1
X
1
)
1
X

1
X
2
_
1
_
X

2
Y X

2
X
1
(X

1
X
1
)
1
X

1
Y
_
= (X

2
X
2
)
1
X

2
Y
dans le cas de lorthogonalit e. Dans le cas g en eral (lorsque X
1
et X
2
ne sont pas orthogonales),
les solutions ne sont evidemment pas aussi simples.
Ceci veut dire que, dans le cas de lorthogonalit e, on peut estimer un mod` ele de r egression
(avec Y comme variable d ependante) contenant seulement les variables X
1
, seulement les
variables X
2
, ou avec toutes les variables ensemble, et on va obtenir exactement les m emes
valeurs pour les coefcients estim es. Le th eor` eme Frisch-Waugh-Lovell est assez remarquable.
Nous pouvons aussi r einterpr eter ces r esultats ` a la lumi` ere de ce que nous avons trouv e
concernant le biais d u ` a des variables omises. Dans le cas de lorthogonalit e, X

1
X
2
= 0 et il
ny a pas de biais. On peut r egresser Y sur seulement X
1
ou sur seulement X
2
et il ny a pas
de biais. On obtient des estimateurs non biais es.
On peut aussi r einterpr eter tout ceci en termes g eom etriques. Voir Davidson et MacKinnon
(1999) pour plus de d etails.
Tel que not e par Pollock (2007), les co uts reli es au biais d u ` a des variables omises d ependent
des buts de notre mod elisation. Si parmi les variables X
1
il y a des variables qui seront utilis ees
comme des instruments de politique economique, il est tr` es important dobtenir des estim es non
biais es de leur impact. Si ce qui nous int eressent est surtout la pr ediction de lesp erance de Y
conditionnelle aux valeurs des X, labsence de biais est moins importante.
51
8 Tests dhypoth` eses et ensembles de conance
Tel quindiqu e dans lintroduction, le seul el ement vraiment novateur est le test dhypoth` eses
jointes. Sinon, on peut effectuer des tests dhypoth` eses simples de la m eme mani` ere que dans le
cas de la r egression simple.
8.1 Tests dhypoth` eses simples par rapport ` a un seul coefcient
Il ny a strictement aucun changement par rapport ` a la facon de tester une hypoth` ese simple
dans le cadre du mod` ele de r egression simple. La statistique t de base, pour nimporte quel test,
peut s ecrire :
t =

H
0
i
s

i
,
o` u
H
0
i
est la valeur du coefcient i sous lhypoth` ese nulle,

i
est la valeur du coefcient obtenue
lors de lestimation, et s

i
est un estim e convergent de l ecart type de lestim e du coefcient. Dans
le cas de la r egression multiple, cest la racine carr ee de li-i` eme el ement diagonal de

(cas
h et erosc edastique) ou

(cas homosc edastique).


Toute la discussion du chapitre 4 concernant les p-values et les taux de signicativit e marginaux
sapplique. La statistique t suit approximativement une loi normale centr ee r eduite (si, bien s ur,
l echantillon est sufsamment grand).
Dans le cas dune hypoth` ese alternative ` a deux extr emit es (bilat erale), une grande valeur ab-
solue de la statistique t (peu importe son signe) constitue de l evidence contre H
0
. Soit (|t
a
|)
la valeur de la distribution normale cumul ee pour moins la valeur absolue de la valeur calcul ee de
la statistique t. Nous avons :
(|t
a
|) = Pr (t |t
a
|)
= Pr
_
t

H
0
i
s

_
= Pr
_
t s

H
0
i

_
.
52
Dans le cas o` u

H
0
i
> 0 ceci est egal ` a
Pr
_
t s

i

_

H
0
i
__
= Pr
_
t s

H
0
i

i
_
= Pr
_

i

H
0
i
t s

i
_
,
qui est donc egale ` a la probabilit e dobtenir une valeur au moins aussi petite quune valeur qui est
inf erieure ` a
H
0
i
par t fois son ecart type. Dans le cas o` u

H
0
i
< 0 ceci est egal ` a
Pr
_
t s

H
0
i
_
= Pr
_

i

H
0
i
+t s

i
_
,
qui est donc egale ` a la probabilit e dobtenir une valeur au moins aussi grande quune valeur qui est
sup erieure ` a
H
0
i
par t fois son ecart type.
Tout cela revient ` a dire que la p-value du test avec hypoth` ese alternative bilat erale est donn ee
par 2 (|t
a
|).
Le cas de tests avec hypoth` ese alternative unilat erale est semblable. Lanalyse des tests dhy-
poth` ese pr esent ee dans le chapitre sur le mod` ele de r egression simple est pertinente. Dans le cas
o` u on a
H
0
:
i
=
H
0
i
et
H
1
:
i
>
H
0
i
,
la p-value du test est donn ee par
p = Pr
_
z > t
act
_
= 1
_
t
act
_
.
53
Dans le cas o` u on a
H
0
:
i
=
H
0
i
et
H
1
:
i
<
H
0
i
,
la p-value du test est donn ee par
p = Pr
_
z < t
act
_
=
_
t
act
_
.
8.2 Tests dhypoth` eses simples par rapport ` a une combinaison lin eaire de
coefcients
Souvent, il est possible de tester une telle restriction en estimant une version transform ee du
mod` ele. Nous illustrons lid ee avec un exemple. Reprenons le mod` ele de r egression multiple de
base en notation non matricielle :
Y
i
=
0
+X
1i

1
+X
2i

2
+ . . . + X
ki

k
+u
i
.
Supposons que nous voulons tester la restriction suivante :
H
0
:
1
+
2
= 1,
contre lhypoth` ese alternative
H
1
:
1
+
2
= 1.
Consid erons la version suivante du mod` ele, qui est equivalente ` a la version originale :
Y
i
=
0
+X
1i
(
1
+
2
) + (X
2i
X
1i
)
2
+. . . +X
ki

k
+ u
i
.
54
L equivalence vient du fait que nous avons tout simplement ajout e et soustrait le m eme terme
X
1i

2
. Nous pouvons r e ecrire le mod` ele de la facon suivante :
Y
i
=
0
+ X
1i

1
+ Z
i

2
+. . . +X
ki

k
+u
i
,
o` u Z
i
X
2i
X
1i
et
1

1
+
2
. Maintenant, tester lhypoth` ese H
0
:
1
+
2
= 1 revient
` a tester lhypoth` ese H
0
:
1
= 1. La m ethodologie ` a suivre est identique ` a celle etudi ee dans le
cadre du mod` ele de r egression simple.
Effectuer ce test utilisant un logiciel de r egression comme R, STATA ou GRETL revient ` a cr eer
la variable Z et ` a estimer l equation transform ee par MCO. Rien nemp eche bien s ur dutiliser les
ecarts types robustes pour effectuer le test.
8.3 Pourquoi les tests s equentiels ne sont pas valides
Supposons que nous voulons tester lhypoth` ese jointe suivante :
H
0
:
1
=
2
= 0.
Lhypoth` ese nulle dit que les deux coefcients sont nuls. Lhypoth` ese alternative naturelle dans ce
contexte est que au moins un des deux coefcients est non nul :
H
1
: i, i = 1, 2 tel que
i
= 0.
Pourquoi pas tout simplement tester les deux hypoth` eses de facon s equentielle, o` u les statistiques
t donn ees par :
t
1
=

H
0
1
s

1
,
et ensuite
t
2
=

H
0
2
s

2
.
55
Le probl` eme avec cette id ee est quil sagit de distributions de probabilit e jointes. Supposons pour
simplier que les deux coefcients estim es sont ind ependamment distribu es lun par rapport ` a
lautre. Dans les deux cas, on ne rejetterait pas lhypoth` ese nulle ` a un niveau de signicativit e
marginal de 5% si |t
1
| < 1.96 et |t
2
| < 1.96 si notre echantillon est sufsamment grand (pour
que les statistiques soient distribu ees approximativement selon une loi normale). Avec ce taux de
signicativit e marginal et etant donn ee lind ependance, la probabilit e dobtenir au moins un rejet
en effectuant deux tests si les hypoth` eses nulles sont vraies serait egale ` a 1 0.95
2
. (Pourquoi ?)
Il faudrait au moins ajuster le niveau de signicativit e marginal pour tenir compte de ce fait. Si les
deux coefcients estim es ne sont pas ind ependants, cet ajustement serait encore plus compliqu e.
Lid ee derri` ere les tests dhypoth` ese jointes d evelopp es ci-dessous est pr ecis ement de tenir compte
du fait que les coefcients sont tir es dune distribution de probabilit e jointe.
Notez que lannexe (7.1) du livre d ecrit une facon dajuster les niveaux de signicativit e
marginaux pour tenir compte de la corr elation non nulle entre les coefcients. Cette m ethodologie
peut etre utile dans certains cas, notamment lorsquon lit les r esultats de r egressions rapport es
dans des articles publi es ou des cahiers de recherche. Dans la plupart des cas on rapporte les ecarts
types associ es aux coefcients individuels, mais on ne rapporte pas la matrice variance-covariance
compl` ete des coefcients estim es (ce dont on aurait besoin pour calculer les statistiques d enies
dans la sous-section suivante). En suivant cette m ethodologie le lecteur peut effectuer des tests
dhypoth` eses jointes m eme sil na pas acc` es ` a la matrice variance-covariance compl` ete des coef-
cients estim es.
8.4 Tests dhypoth` eses jointes
Tel quindiqu e dans lintroduction ` a ces notes, je vais mettre laccent ici sur lapproche ma-
tricielle, qui est beaucoup plus g en erale et, je crois, plus simple ` a comprendre.
Pour commencer ` a saisir en quoi consiste cette m ethodologie, reprenons lexemple de la sous-
56
section pr ec edente. Lhypoth` ese nulle ` a tester est :
H
0
:
1
+
2
= 1,
Nous pouvons ecrire cette hypoth` ese sous forme matricielle de la facon suivante :
_
0 1 1 0 . . . 0
_
_

3
.
.
.

k
_

_
= 1
Ceci est de la forme :
R = r,
o` u R est une matrice de constantes et r est un vecteur de constantes. Dans ce cas particulier, o` u il y
a une seule restriction portant sur une combinaison lin eaire de coefcients, R est en fait un vecteur
et r est un scalaire. Mais, dans le cas g en eral, R ainsi que r auront le m eme nombre de rang ees que
le nombre de restrictions.
Prenons un cas plus concret, un cas o` u le nombre de variables explicatives (` a part la constante)
est plus grand que deux. Comment tester lhypoth` ese nulle jointe
H
0
:
1
=
2
= 0
contre lhypoth` ese alternative
i, i = 1, 2 tel que
i
= 0.
57
Sous forme matricielle, nous pouvons ecrire : H
0
:
_

_
0 1 0 0 . . . 0
0 0 1 0 . . . 0
_

_
_

3
.
.
.

k
_

_
=
_

_
0
0
_

_
.
On peut montrer que la statistique suivante ob eit, en grand echantillon et sous H
0
, ` a une loi
F
q,
(r evisez la sous-section sur cette distribution ` a la page 44 du manuel ou dans les notes de
cours) :
F
_
R

r
_

_
R

_
1
_
R

r
_
/q,
o` u q est le nombre de restrictions que lon veut tester, et o` u

est la matrice variance-covariance


de lestim e

. Dans lexemple que nous venons d etudier, q = 2. Autrement dit,
F
d
F
q,
.
Puisque la convergence est asymptotique (lorsque le nombre dobservations tend vers linni), le
deuxi` eme indice inf erieur indique un nombre de degr es de libert e inni.
Largument pourquoi la statistique F converge en distribution ` a une loi F
q,
se trouve ` a la page
714 du manuel. Largument est tr` es succinct (pour ne pas dire tr` es dense). Je vous invite ` a le lire
mais, bien s ur, il ne faut pas le retenir pour les ns de lexamen nal. Un argument plus simple,
pour le cas de 2 restrictions, se trouve ` a la page 228.
Comme dhabitude, le manuel met laccent sur le cas o` u l echantillon est sufsamment grand
pour parler de convergence approximative en probabilit e et/ou en distribution. Pour que nos

statistiques F

suivent une loi F m eme en petit echantillon, il faudrait pouvoir les exprimer
comme des ratios de variables al eatoires
2
m eme en petit echantillon (voir la page 44), et donc
58
il faudrait supposer la normalit e des erreurs (il faut aussi supposer lhomosc edasticit e). Dans la
mesure o` u ceci est rarement plausible dans des contextes appliqu es, il est mieux de se tourner vers
linf erence asymptotique si nous avons sufsamment dobservations.
La loi F d epend de deux param` etres. Typiquement on parle dune variable al eatoire qui ob eit
` a une loi F
m,n
, o` u le param` etre m fait r ef erence au nombre de restrictions impos ees, et n fait
r ef erence au nombre de degr es de libert e (nombre dobservations moins nombre de param` etres
estim es). Notez en consultant les Tables 5A, 5B et 5C dans le manuel les petits ecarts entre les
valeurs critiques lorsque n = 120 et lorsque n .
La plupart des logiciels de r egression, dont R, STATA et GRETL, offrent ` a lutilisateur la possi-
bilit e de sp ecier les equivalents de R et r an de tester des hypoth` eses jointes quelconques.
8.5 Que faire lorsque

nest pas disponible ?


Il y a des situations o` u on na pas toute la matrice variance-covariance des param` etres estim es
` a sa disposition. Par exemple, quand on lit des articles publi es qui r esument les r esultats de les-
timation dun mod` ele de r egression multiple, il est souvent le cas quon rapporte les ecarts types
associ es aux coefcients individuels, mais non les covariances entre les coefcients estim es.
Il est possible de contourner ce probl` eme en utilisant la

correction de Bonferroni

, qui
tient compte de la simultan eit e lorsque on fait un test dhypoth` eses jointes. Notez que cette
m ethodologie donne des tests qui sont moins puissants (qui ont une probabilit e moins elev ee de
rejeter lhypoth` ese nulle lorsquelle est fausse) que si on utilise la matrice

pour effectuer le test.


Ce que fait la correction est de donner la bonne p-value de tests s equentiels (la bonne probabilit e
de rejeter les hypoth` eses nulles jointes lorsquelles sont vraies).
Le test de Bonferroni permet de tester des hypoth` eses jointes sur la base des statistiques t
pour les hypoth` eses individuelles. Il faut choisir la valeur critique an d etre s ur que la prob-
abilit e de rejeter lhypoth` ese nulle jointe ne d epasse pas la probabilit e de la rejeter si on tient
compte de la non-ind ependance entre les hypoth` eses faisant partie de lhypoth` ese jointe.
59
On rejette lhypoth` ese nulle si on rejette au moins une des hypoth` eses individuelles. Dans
le cas dune hypoth` ese jointe qui comporte deux hypoth` eses simples, appelons A l ev enement
que nous rejetons la premi` ere des deux hypoth` eses, et B l ev enement que nous rejetons la
deuxi` eme hypoth` ese simple. Nous savons que
Pr (A B) Pr (A) + Pr (B) ,
o` u le symbole indique lunion des deux ev enements, autrement dit l ev enement que A se
produit, ou que B se produit, ou que les deux se produisent. Si on choisit des p-values iden-
tiques pour les deux tests des hypoth` eses individuelles, on va choisir des p-values tel que leur
somme soit egale ` a la p-value d esir ee du test joint. Par exemple, si on veut etre s ur de ne pas
rejeter lhypoth` ese nulle jointe plus que 5% du temps lorsquelle est vraie, on va choisir des
p-values de 2.5% pour chacune des tests individuels.
Le test Bonferroni est tr` es consevateur. Son but est de minimiser la probabilit e de rejeter les
hypoth` eses jointes si elles sont vraies. En g en eral, il fait augmenter la probabilit e daccepter les
hypoth` eses lorsquelles sont fausses. Ainsi, il na pas beaucoup de puissance (d enie comme
la probabilit e de rejeter une hypoth` ese lorsquelle est fausse). Il y a des techniques pour aug-
menter la puissance du test lorsquon doit tester une hypoth` ese jointe avec une s equence de
tests dhypoth` eses simples. Voir Simes (1986).
Pour de plus amples renseignements concernant cette m ethodologie, consultez lannexe 7.1
au Chapitre 7 du manuel.
8.6 Une seule restriction comme un cas sp ecial
On peut montrer dans le cas dune seule restriction portant sur un coefcient (q = 1), la statis-
tique F est le carr e de la statistique t. Ceci revient ` a dire par contre que nous ne pouvons pas
faire la distinction entre une statistique t qui serait grande en valeur absolue et n egative et une
60
statistique t grande en valeur absolue et positive. Cela veut dire quil ny aurait pas de diff erence
entre les r esultats avec une statistique F et une statistique t si lhypoth` ese alternative est une hy-
poth` ese alternative ` a deux extr emit es, mais nous ne pouvons pas vraiment tester lhypoth` ese nulle
contre lhypoth` ese alternative H
1
:

i
<
i
o` u ce ne sont que les grandes valeurs n egatives de la
statistique t qui nous am` enent ` a rejeter lhypoth` ese nulle.
Pour montrer l equivalence entre la statistique F et le carr e de la statistique t dans un cas
simple, prenons lexemple de lhypoth` ese nulle H
0
:
1
= 0. Dans ce cas, nous pouvons ecrire la
restriction sous forme matricielle comme
_
0 1 0 . . . 0
_
_

2
.
.
.

k
_

_
=
1
= 0.
Dans ce cas R

r prend la forme de la statistique calcul ee (la valeur estim ee de


1
) moins
sa valeur sous lhypoth` ese nulle, ou tout simplement le num erateur de la statistique t que lon
utiliserait pour tester lhypoth` ese. Nous avons dans ce cas
F =
_

1
0
_
_
_
_
_
_
_
_
_
_
_
_
_
_
0 1 0 . . . 0
_

_
0
1
0
.
.
.
0
_

_
_
_
_
_
_
_
_
_
_
_
_
_
1
_

1
0
_
.
61
On peut facilement v erier que dans ce cas-ci (vous devriez le faire sur papier pour etre s ur)
_
0 1 0 . . . 0
_

_
0
1
0
.
.
.
0
_

_
= s
2

1
,
l element (scalaire) sur la diagonale de

qui correspond ` a lestimateur convergent de la variance


de

1
. Donc, nous avons
F =
_

1
0
s

1
_
2
= t
2
.
La statistique F est effectivement le carr e de la statistique t quon utiliserait pour effectuer le test.
On peut aussi consid erer un deuxi` eme exemple pour montrer ce que donne la formule g en erale
lorsquil ny a quune seule restriction test ee. Consid erons lhypoth` ese nulle suivante :
H
0
:
1
+
2
= 1,
qui peut etre ecrite sous forme matricelle comme
_
0 1 1 0 . . . 0
_
_

3
.
.
.

k
_

_
=
1
+
2
= 1.
Encore une fois, R

r prend la forme de la statistique calcul ee (

1
+

2
) moins sa valeur sous
62
lhypoth` ese nulle. Nous avons dans ce cas
F =
_

1
+

2
1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
0 1 1 0 . . . 0
_

_
0
1
1
0
.
.
.
0
_

_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1
_

1
+

2
1
_
.
On peut v erier (encore une fois ce serait un bon exercice de le faire sur papier) que
_
0 1 1 0 . . . 0
_

_
0
1
1
0
.
.
.
0
_

_
= s
2

1
+s
2

2
+ 2s

1
,

2
o` u s

1
,

2
est l el ement hors-diagonale de la matrice variance-covariance, qui est un estim e con-
vergent de la covariance entre

1
et

2
. Il sagit donc de lestimateur convergent de la variance
de

1
+

2
, qui suit les r` egles de base pour le calcul de variances de combinaisons lin eaires de
variables al eatoires. La statistique F devient
F =

1
+

2
1
s
2

1
+s
2

2
+ 2s

1
,

2
= t
2
.
Encore une fois, on voit l equivalence entre la statistique F et le carr e de la statistique t.
63
8.7 Signicativit e de la r egression
Souvent, on veut tester lhypoth` ese nulle selon laquelle tous les coefcients de la r egression
sauf la constante sont egaux ` a z ero. Nous pouvons ecrire lhypoth` ese nulle de la facon suivante :
H
0
:
1
=
2
= . . . =
k
= 0,
avec
H
1
: i, i = 1 . . . k tel que
i
= 0.
Nous pouvons ecrire cette restriction sous forme matricielle sans probl` eme, avec :
R =
_

_
0 1 0 0 . . . 0
0 0 1 0 . . . 0
0 0 0 1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 0 . . . 1
_

_
,
une matrice de dimensions k (k + 1) et
r =
_

_
0
0
0
.
.
.
0
_

_
,
un vecteur de dimensions (k + 1) 1.
Avec cette ecriture, tester la signicativit e jointe de tous les coefcients sauf la constante (
0
)
nest quun cas particulier de la r` egle g en erale.
64
8.8 Tests dhypoth` ese en pr esence dhomosc edasticit e
Le cas de lhomosc edasticit e ne pr esente en principe rien de diff erent par rapport au cas g en eral.
On peut en principe remplacer

dans la formule ci-dessus pour F par


qui provient de la sous-


section (5.1) ci-dessus. Donc, nous avons :
F
_
R

r
_

_
R

_
1
_
R

r
_
/q,
Par contre, dans le cas homosc edastique, il y a une facon plus simple deffectuer des tests
dhypoth` ese. On peut estimer le mod` ele sous lhypoth` ese nulle et sous lhypoth` ese alternative, et
utiliser la formule suivante :
F =
(SSR
restricted
SSR
unrestricted
) /q
SSR
unrestricted
/ (n k
unrestricted
1)
,
o` u SSR
restricted
est la somme des r esidus carr es du mod` ele estim e en imposant les contraintes et
SSR
unrestricted
est la somme des r esidus carr es du mod` ele estim e sans imposer les contraintes.
Lhypoth` ese nulle que lon veut tester revient ` a imposer des contraintes sur les valeurs des coef-
cients. Une formule equivalente est la suivante :
F =
(R
2
unrestricted
R
2
restricted
) /q
(1 R
2
unrestricted
) / (n k
unrestricted
1)
,
o` u R
2
restricted
est la mesure de lajustement statistique R
2
du mod` ele estim e en imposant les con-
traintes et SSR
unrestricted
est le R
2
du mod` ele estim e sans imposer les contraintes. Vous devriez
montrer alg ebriquement comment passer de la premi` ere ` a la deuxi` eme version de ce test. La
d emonstration est en fait tr` es simple.
Nous nallons pas montrer formellement pourquoi les statistiques F dans le cas ho-
mosc edastique peuvent etre transform ees pour etre ecrites sous cette forme. On peut trouver une
d emonstration dans la plupart des manuels d econom etrie avanc es comme Greene (2000, section
7.2.3). Je reproduis la preuve dans lencadr e qui suit. La lecture de cet encadr e est recommand e
65
seulement ` a ceux qui sy int eressent vraiment.
La preuve passe par lestimation du mod` ele de r egression multiple sujet aux contraintes
que nous voulons tester. Le probl` eme peut s ecrire
min

(Y X)

(Y X)
sujet ` a la contrainte
R = r.
Nous pouvons ecrire le probl` eme de minimisation ` a laide dun vecteur de multiplicateurs de
Lagrange comme suit, d enissant S comme lexpression lagrangienne ` a minimiser.
min
,
S = (Y X)

(Y X) + 2

(R r) .
Les conditions du premier ordre du probl` eme sont
S

= 0 = 2X

(y X) + 2R

;
S

= 0 = 2 (R r) .
Je vous invite ` a faire le lien entre ces conditions du premier ordre et les r` egles de diff erentiation
matricielle que nous avons vues en d ebut de chapitre.
Nous pouvons regrouper les CPO ensemble en notation matricielle comme suit.
_

_
X

X R

R 0
_

_
_

_
=
_

_
X

Y
r
_

_
o` u jai ecrit des sur les inconnus du probl` eme pour souligner le fait que les solutions au
probl` eme constituent notre estimateur MCO sous contraints.
66
La solution est donn ee par
_

_
=
_

_
X

X R

R 0
_

_
1
_

_
X

Y
r
_

_
.
Je suppose ici que la matrice quil faut inverser est non singuli` ere. Pour trouver linverse de la
matrice, nous pouvons utiliser la formule suivante pour les matrices partitionn ees.
_

_
A
11
A
12
A
21
A
22
_

_
1
=
_

_
A
11
1
_
I +A
12
F
2
A
21
A
11
1
_
A
11
1
A
12
F
2
F
2
A
21
A
11
1
F
2
_

_
o` u
F
2

_
A
22
A
21
A
11
1
A
12
_
1
.
Je vous invite ` a v erier quil sagit bel et bien de linverse de la matrice originale en faisant les
multiplications matricielles pour retrouver la matrice identit e. Appliquant cette formule dans
le cas qui nous pr eoccupe, nous obtenons

=

(X

X)
1
R

_
R(X

X)
1
R

_
1
_
R

r
_
et

=
_
R(X

X)
1
R

_
1
_
R

r
_
o` u

= (X

X)
1
X

Y . Notez que la solution pour



contient
_
R

r
_
. Si lestimateur satis-
fait ces restrictions exactement (autrement dit si R

= r), alors nous avons



= 0 et lestima-
teur des MCO sous contraintes devient egal ` a lestimateur MCO sans contrainte.
67
Nous sommes sur le point de pouvoir montrer que la formule g en erale pour la statistique
F se r eduit au cas sp ecial sous lhypoth` ese de lhomosc edasticit e. Je prends ` a ce stade-ci un
raccourci en faisant appel ` a un r esultat d evelopp e dans larticle de Greene et Seaks (1991), qui
montrent que la variance de lestimateur

(sous lhomosc edasticit e) est donn ee par
Var
_

|X
_
=
2
(X

X)
1

2
R

_
R(X

X)
1
R

_
1
R(X

X)
1
.
o` u

2
Var (u
i
|X
i
) .
Notez que le premier terme est la variance de lestimateur MCO

sous lhypoth` ese dho-
mosc edasticit e. Pour calculer la variance de

, il faut soustraire une matrice qui (on peut
montrer) est une matrice positive-d enie. Cela veut dire que la variance de

est

plus pe-
tite que

la variance de

, la diff erence etant une matrice positive-d enie. Linterpr etation,
cest que le fait dimposer les contraintes et donc dimposer de linformation additionnelle
concernant les valeurs des param` etres r eduit la variance de lestimateur.
Apr` es cette petite parenth` ese, proc edons maintenant ` a notre d emonstration. D enissons

U Y X

= Y X

X
_

_
=

U X
_

_
.
Nous avons

U =
_

U X
_

__

U X
_

__
=

U

U

U

X
_

_
X

U +
_

_
X

X
_

_
=

U

U +
_

_
X

X
_

_
68
o` u les deux termes dans lavant derni` ere expression sont egaux ` a z ero puisque les r esidus MCO
sont orthogonaux ` a X. Donc

U =

U

U +
_

X
_

U.
Notez que dans ce cas

U

U et

U

U sont des scalaires, et donc lin egalit e est une in egalit e


ordinaire. Le dernier terme du c ot e droit dans cette equation est une forme quadratique est donc
doit etre positif.
`
A moins que

=

, il va etre strictement positif. Ceci est logique.

U

U est
une somme de r esidus au carr e qui r esulte de la solution dun probl` eme de minimisation sous
contrainte, tandis que

U

U est une somme de r esidus au carr e qui r esulte de la solution du m eme


probl` eme de minimisation, sans imposer la contrainte. Il est normal que le minimum trouv e
comme solution au probl` eme non contraint soit inf erieur au minimum trouv e au probl` eme sous
contrainte.
Cela veut dire que

U

U

U

U est une mesure de la d et erioration de lajustement en im-


posant les restrictions, et peut etre utilis e pour construire le test F. La solution que nous avons
trouv ee pour

nous donne
_

_
= (X

X)
1
R

_
R(X

X)
1
R

_
1
_
R

r
_
.
Substituant, on a

U

U

U =
_

X
_

_
=
_
R

r
_

_
R(X

X)
1
R

_
1
(X

X)
1
R(X

X)
1
X

X (X

X)
1
R

_
R(X

X)
1
R

_
1
_
R

r
_
=
_
R

r
_

_
R(X

X)
1
R

_
1
_
R(X

X)
1
R

_
69
_
R(X

X)
1
R

_
1
_
R

r
_
=
_
R

r
_

_
R(X

X)
1
R

_
1
_
R

r
_
.
Notez aussi que dans ce cas,

U SSR
restricted
et

U SSR
unrestricted
.
Derni` ere etape dans largument. Sous lhypoth` ese nulle (que R = r), puisque

suit
(asymptotiquement ou approximativement) une distribution normale, alors
_
R

= r
_
suit une
distribution asymptotiquement normale aussi, puisquil sagit dune combinaison lin eaire de
variables al eatoires (asymptotiquement) normales. Sa variance est donn ee par
Var
_
R

r
_
= R
_
Var

_
R

=
2
R(X

X)
1
R

sous lhypoth` ese dhomosc edasticit e. Pour cette raison, nous pouvons montrer que
_
R

r
_

2
R(X

X)
1
R

__
R

r
_
suit (asymptotiquement ou approximativement en echantillon ni) une distribution chi-carr e
avec q degr es de libert e, o` u comme dhabitude q est le nombre de restrictions. Le probl` eme,
cest que
2
nest pas observable. La derni` ere etape est de convertir en une statistique que nous
pouvons calculer avec les donn ees que nous avons. Nous pouvons montrer que
F
70
_
R

r
_
_

2
R(X

X)
1
R

_
_
R

r
_
/q
[(n k 1) s
2
/
2
] / (n k 1)
est le ratio de deux variables chi-carr e (encore une fois asymptotiquement ou approximative-
ment en echantillon ni), chacune divis ee par son nombre de degr es de libert e. Les
2
au
num erateur et au d enominateur sannulent, et nous savons que notre estimateur (convergent et
non biais e) s
2
est donn e par
s
2

U
(n k 1)
= SSR
unrestricted
/ (n k 1) .
(n k 1) s
2
= SSR
unrestricted
Donc nous avons
F =
_
R

r
_
_
R(X

X)
1
R

_
_
R

r
_
/q
SSR
unrestricted
/ (n k
unrestricted
1)
=
(SSR
restricted
SSR
unrestricted
) /q
SSR
unrestricted
/ (n k
unrestricted
1)
,
ce qui fut ` a montrer. Le ratio de ces variables chi-carr e, les deux divis ees par les degr es de
libert e, suit une distribution F. Encore une fois, si nous ne sommes pas pr ets ` a faire lhypoth` ese
que les erreurs du mod` ele non contraint u
i
sont g en er ees par une loi normale, ce r esultat est un
r esultat asymptotique et ne tient que de facon approximative en echantillon ni. Puisque nous
utilisons un r esultat qui tient asymptotiquement ou approximativement en grand echantillon,
nous utilisons la fonction de distribution cumul ee de F
q,
.
Ces tests sont faciles ` a calculer et ont une interpr etation intuitive simple. Par contre, ils ne sont
valides que dans le cas derreurs homosc edastiques.
Un exemple concret pourrait aider ` a rendre plus clair le concept

estimer le mod` ele en im-
posant les contraintes

. Soit le mod` ele de r egression multiple standard, ecrit en notation non


71
matricielle :
Y
i
=
0
+X
1i

1
+X
2i

2
+ . . . + X
ki

k
+u
i
.
Nous voulons tester lhypoth` ese nulle que
1
+
2
= 1. Notez que lhypoth` ese nulle revient ` a
imposer une restriction (contrainte) sur la valeur de ces deux coefcients. Isolant
2
nous donne

2
= 1
1
.
Maintenant, substituant dans le mod` ele, nous avons :
Y
i
=
0
+X
1i

1
+ X
2i
(1
1
) + . . . + X
ki

k
+u
i
,
que nous pouvons r e ecrire comme :
Y
i
X
2i
=
0
+ (X
1i
X
2i
)
1
+ X
3i

3
+. . . +X
ki

k
+u
i
.
On peut estimer ce mod` ele (la version contrainte) avec un logiciel comme R, STATA ou GRETL en
d enissant une nouvelle variable d ependante

Y
i
Y
i
X
2i
et une nouvelle variable explicative
Z
i
X
1i
X
2i
. Le mod` ele ` a estimer devient :

Y
i
=
0
+ Z
i

1
+X
3i

3
+. . . +X
ki

k
+ u
i
.
Notez que ce que nous venons de faire nest pas la m eme chose que ce que nous avons fait pour
transformer le mod` ele pour tester une seule hypoth` ese dans le cadre dune combinaison lin eaire de
coefcients. Dans ce dernier cas, nous avons propos e destimer un mod` ele equivalent au mod` ele
initial. Puisquil etait equivalent, lestimation etait valide sans imposer des hypoth` eses addition-
nelles. Dans le pr esent contexte, le mod` ele transform e nest pas equivalent au mod` ele initial. Il
nest valide que sous les contraintes de H
0
.
Nous savons que la loi F est d enie seulement pour des valeurs positives de la variable
72
al eatoire. Dans ce cas, les estim es MCO du mod` ele contraint proviennent de la solution ` a un
probl` eme de minimisation contraint, o` u la contrainte est lhypoth` ese nulle que nous voulons tester.
Les estim es MCO du mod` ele non contraint proviennent de la solution ` a un probl` eme de minimi-
sation o` u cette contrainte nest pas impos ee. Pour cette raison, la somme des r esidus carr es du
mod` ele contraint doit etre au moins aussi elev ee que pour le mod` ele non contraint, et la statistique
F calcul ee par une des formules ou par lautre doit etre positive.
10
Lextension au cas dhypoth` eses jointes est directe.
8.9 Test de signicativit e de la r egression dans le cas homosc edastique
Dans ce cas, la version contrainte du mod` ele prend une forme sp eciale. Dabord, nous avons
q = k. Ensuite, si tous les coefcients sauf la constante sont egaux ` a z ero, le mod` ele est (sous
forme non matricielle)
Y
i
=
0
+u
i
.
Nous avons d ej` a vu (dans le chapitre de rappel sur la th eorie des probabilit es et la statistique) que
dans ce cas lestimateur MCO de
0
est tout simplement la moyenne echantillonnale de Y , soit

Y .
Autrement dit,

0
=

Y .
Nous savons que la somme totale des carr es (TSS) est donn ee par
TSS =
n

i=1
_
Y
i


Y
_
2
,
et dans ce cas-ci nous avons
Y
i
=

Y + u
i
TSS
n

=1
_
Y
i


Y
_
2
=
n

i=1
u
2
i
SSR
10. Ce r esultat est d u tout simplement aux propri et es alg ebriques de la minimisation sous contrainte. La valeur min-
imale dune fonction sous une contrainte doit etre au moins aussi elev ee que la valeur minimale lorsque la contrainte
nest pas impos ee.
73
Donc, dans ce cas nous avons forc ement une statistique R
2
egale ` a z ero. Nous navons pas besoin
destimer le mod` ele contraint, sachant que son R
2
est forc ement z ero. La deuxi` eme forme de la
statistique F devient dans ce cas
F =
(R
2
) /k
(1 R
2
) / (n k 1)
=
R
2
(1 R
2
)
(n k 1)
k
,
o` u je nai pas ecrit explicitement

R
2
unrestricted

pusiquil ny a pas dambigut e (on estime
seulement le mod` ele non contraint).
8.10 Tests exacts
Tous les tests d evelopp es dans cette section des notes sont valides en grand echantillon. Ils
reposent sur lid ee de la convergence en distribution. Si on est pr et ` a faire les hypoth` eses h eroques
que les erreurs sont homosc edastiques, i.i.d., et distribu ees selon une loi normale, nous pou-
vons montrer que la statistique F est distribu ee selon une loi F
q,nk
unrestricted
1
m eme en pe-
tit echantillon. Donc, ces hypoth` eses nous permettent de faire ce que jai appel e de linf erence

exacte

(bas ee sur des formes distributionnelles connues) au lieu de faire ce que jai appel e
de linf erence

approximative

ou

asymptotique

(bas ee sur lhypoth` ese que l echantillon


est assez grand pour penser quune version de la loi des grands nombres et/ou le th eor` eme de
la limite centrale tient approximativement). Vous devriez comparer les valeurs tabl ees de F
q,
et F
q,nk
unrestricted
1
pour des valeurs diff erentes de n an de d evelopper une id ee de la taille
d echantillon o` u les diff erences entre les deux deviennent n egligeables.
Je partage lopinion des auteurs du manuel quil est mieux de privil egier linf erence approxi-
mative, surtout dans le cas de banques de donn ees micro economiques avec des milliers sinon des
dizaines de milliers dobservations.
74
8.11 Ensembles de conance
Comme dans le cas du mod` ele de r egression simple, lid ee densembles de conance est une
extension naturelle de lid ee de tests dhypoth` ese. Il faut parler

densembles

au lieu

dinter-
valles

parce quil sagit de plus quun coefcient. Un point (des valeurs donn ees des coefcients)
est dans lensemble de conance de X% si nous ne pouvons rejeter ces valeurs ` a un niveau de sig-
nicativit e marginal de (100 X)% sous lhypoth` ese nulle que les vraies valeurs des coefcients
sont egales ` a celles obtenues par lestimation MCO.
G eom etriquement, un ensemble de conance prend la forme dune ellipse dans le plan des
coefcients pour lesquels on le calcule (donc, si on calcule un ensemble de conance pour plus
que deux coefcients, le

plan

aura plus que deux dimensions).


Supposons que nous voulons etablir un ensemble de conance pour les coefcients
1
,
2
et
4
,
pour une r egression o` u le nombre de variables explicatives ` a part la constante est au moins egal ` a
quatre. Si nous voulons savoir si le point (
1,0
,
2,0
,
4,0
) est dans lensemble de conance autour
des valeurs estim ees de ces param` etres, nous testons, etant donn e l echantillon dobservations,
lhypoth` ese nulle jointe suivante :
H
0
:
1,0
=

1
,
2,0
=

2
,
4,0
=

4
.
Si H
0
est accept ee ` a un niveau de signicativit e marginal de (100X)%, le point est dans lensem-
ble de conance.
Dans le cas dun intervalle de conance, il est tr` es facile de d ecrire explicitement ses bornes,
puisquil sagit de 2 points. Dans le cas dun ensemble de conance, m eme lorsquil sagit dune
ellipse en seulement deux dimensions, le nombre de points dans la borne de lellipse est inni. Pour
cette raison, il est beaucoup plus difcile de d ecrire explicitement les ensembles de conance. Nous
venons de r esumer tout ce quil est n ecessaire de savoir en principe pour calculer les ensembles de
conance. Il y a des formules explicites, bas ees sur la formule pour la statistique F utilis ee pour
tester si un point fait partie de lensemble de conance, mais nous nallons pas etudier ces formules
75
dans ce cours.
9 Multicollin earit e
Il faut distinguer entre ce quon appelle la multicollin earit e parfaite et la multicollin earit e
imparfaite.
9.1 Multicollin earit e parfaite
Dans ce cas, il existe une relation lin eaire exacte qui relie un sous-ensemble des variables ex-
plicatives. Dans la majorit e des cas, il r esulte dun probl` eme logique dans le choix des r egresseurs.
Il y a plusieurs types de situations o` u cela peut arriver.
Lexemple le plus connu de ce probl` eme est la soi-disant

trappe des variables di-
chotomiques

, que nous pouvons illustrer avec un exemple simple. Supposons que nous
avons un echantillon avec des individus, et une des caract eristiques est le sexe de lindividu.
Nous pourrions construire deux variables dichotomiques, dont la premi` ere prend la valeur de
un lorsque lindividu est une femme et z ero autrement, et la deuxi` eme prend la valeur de un
lorsque lindividu est un homme et z ero autrement. Appelons ces deux variables X
1
et X
2
.
Nous pourrions avoir, par exemple :
X
1
=
_

_
1
0
1
1
0
.
.
.
0
_

_
, X
2
=
_

_
0
1
0
0
1
.
.
.
1
_

_
.
76
Il est evident que
X
1
+ X
2
=
_

_
1
1
1
1
1
.
.
.
1
_

_
.
Maintenant, si nous essayons destimer une r egression et dinclure une constante, X
1
et X
2
comme variables explicatives, la constante sera tout simplement la somme de X
1
et X
2
.
Donc, cest le cas que nous pouvons exprimer une des variables explicatives comme une
combinaison lin eaire des autres variables explicatives du mod` ele de r egression.
Il y a plusieurs autres exemples classiques de multicollin earit e parfaite. Voir la section 6.7
du manuel.
La multicollin earit e parfaite nous emp echera m eme destimer notre r egression. Il est facile de
montrer que, en pr esence dun probl` eme de multicollin earit e parfaite, la matrice X

X nest pas
de rang plein. Il est impossible que calculer (X

X)
1
, et lestimateur

= (X

X)
1
X

Y nexiste
m eme pas. Un logiciel de r egression comme R, STATA ou GRETL va tout simplement imprimer
un message derreur. En fait, un message derreur signalant que la matrice X

X est singuli` ere est


presque toujours un signe de multicollin earit e parfaite. Le rem` ede est de r eexaminer le choix des
variables explicatives du mod` ele.
9.2 Multicollin earit e imparfaite
Il sagit maintenant dune situation o` u ce nest pas le cas quune variable explicative est une
combinaison lin eaire exacte des autres variables explicatives du mod` ele, mais plut ot une situation
o` u une variable explicative est tr` es fortement corr el ee avec une autre variable explicative ou avec
une combinaison lin eaire de ces variables. Dans ce cas, la matrice X

X nest pas singuli` ere, mais


77
elle peut souvent etre presque singuli` ere. Elle aura une valeur caract eristique pr` es de z ero, et
beaucoup plus faible que les autres valeurs caract eristiques de la matrice X

X.
La multicollin earit e imparfaite nest typiquement pas un signe dune erreur logique dans le
choix des variables explicatives du mod` ele, mais est due aux donn ees utilis ees et ` a la question ` a
laquelle on essaie de r epondre en sp eciant le mod` ele de r egression multiple.
Il y a une cons equence de cette situation qui est strictement dans le domaine de lanalyse
num erique. Avec une matrice X

X qui est presque singuli` ere, m eme si lordinateur est capable


de calculer son inverse, le r esultat du calcul sera en g en eral sujet ` a des erreurs num eriques im-
portantes. Les coefcients estim es seront impr ecis non au sens statistique mais plut ot au sens
num erique. Souvent, dans ces cas, un logiciel de r egression comme R, STATA ou GRETL va cal-
culer les r esultats de la r egression, mais il va indiquer parmi loutput que la matrice X

X est
presque singuli` ere ou

mal conditionn ee

.
Lautre cons equence de la multicollin earit e imparfaite est que les ecarts types des coefcients
estim es risquent d etre plut ot elev es. Par cons equent, les intervalles de conance pour les coef-
cients individuels seront tr` es larges et les tests dhypoth` ese nauront pas beaucoup de puissance.
Il est difcile de montrer rigoureusement ce r esultat (que les ecarts types des coefcients es-
tim es seront grands) dans le cas g en eral. LAnnexe 6.2 du manuel pr esente un exemple sp ecique
qui illustre le principe. Dans le cas dun mod` ele de r egression multiple avec deux variables ex-
plicatives et erreurs homosc edastiques (Var (u
i
|X
1,i
, X
2,i
) =
2
u
), nous avons

1
d
N
_

1
,
2

1
_
o` u

1
=
1
n
_
1
1
2
X
1
,X
2
_

2
u

2
X
1
,
o` u
X
1
,X
2
est la corr elation (dans la population) entre les deux variables explicatives de la
r egression. On voit ` a partir de cette equation que, toutes choses etant egales par ailleurs, plus
elev ee est la corr elation entre les deux variables explicatives, plus elev ee est la variance de

1
.
78
Dans ce cas, le mod` ele de r egression nest pas forc ement mal sp eci e. Par contre, il peut etre tr` es
difcile sinon impossible destimer avec pr ecision et d etablir la signicativit e dun coefcient
dune variable dont la corr elation avec au moins une autre variable explicative est tr` es forte.
La preuve de cette formule dans le cas o` u k = 2 est relativement facile. Le mod` ele au
d epart est donn e par
Y
i
=
0
+
1
X
1i
+
2
X
2i
+u
i
.
Nous avons

Y =
0
+
1

X
1
+
2

X
2
+ u
o` u, comme dhabitude, une barre indique la moyenne echantillonnale dune variable. Ceci nous
donne
Y
i


Y =
1
_
X
1i


X
1
_
+
2
_
X
2i


X
2
_
+ (u
i
u)
ou
Y = X
_

2
_

_
+U
o` u par construction la variable d ependante et les variables explicatives ont des moyennes
echantillonnales de z ero et o` u on soustrait la moyenne echantillonnale des erreurs de chaque u
i
(bien s ur, puisque nous nobservons pas les u
i
nous nobservons pas non plus u. Lestimateur
MCO est donn e par la formule habituelle
_

2
_

_
= (X

X)
1
X

Y
Dans ce cas, la matrice variance-covariance du vecteur de param` etres estim es est donn ee
par

=

2
u
n
_

2
X
1

X
1
,X
2

X
1
,X
2

2
X
2
_

_
1
.
79
Notez que cette formule repose sur une hypoth` ese dhomosc edasticit e de lerreur. Puisque nous
avons soustrait les moyennes des variables X
1
et X
2
, la matrice Q qui normalement est une
matrice de moments bruts sav` ere etre aussi la matrice variance-covariance des variables X
1
et X
2
. Aussi, puisquil sagit dans ce cas dune matrice de dimensions 2 2, on sait comment
ecrire une expression alg ebrique pour son inverse. Il est facile de v erier que dans ce cas-ci
nous avons
_

2
X
1

X
1
,X
2

X
1
,X
2

2
X
2
_

_
1
=
1

2
X
1

2
X
2
(
X
1
,X
2
)
2
_

2
X
2

X
1
,X
2

X
1
,X
2

2
X
1
_

_
,
ce qui donne

1
=

2
u
n
_

2
X
2

2
X
1

2
X
2
(
X
1
,X
2
)
2
_
=
1
n
_

_
1

2
X
1

(
X
1
,X
2
)
2

2
X
2
_

2
u
=
1
n
_

_
1
1
(
X
1
,X
2
)
2

2
X
1

2
X
2
_

2
u

2
X
1
=
1
n
_
1
1
2
X
1
,X
2
_

2
u

2
X
1
,
o` u
2
X
1
,X
2
est le coefcient de corr elation entre X
1
et X
2
au carr e. En regardant cette ex-
pression, il est clair que la variance
2

1
du param` etre estim e

1
va crotre avec la valeur absolue
du coefcient de corr elation entre X
1
et X
2
. On peut aussi montrer que la variance de

2
est
donn ee par

2
=
1
n
_
1
1
2
X
1
,X
2
_

2
u

2
X
2
.
80
Encore une fois, sa variance augmente avec la valeur absolue du coefcient de corr eltation
entre X
1
et X
2
.
La multicollin earit e imparfaite traduit le fait quil peut etre tr` es difcile (sinon impossible),
statistiquement parlant, disoler limpact individuel de chacune de deux variables explicatives qui
sont fortement corr el ees. Cest possible que chacune des deux variables soit non signicative sur
la base dun test dhypoth` ese simple (bas e sur une statistique t), tandis quun test de lhypoth` ese
nulle jointe que les deux variables sont non signicatives rejette cette hypoth` ese nulle sur la base
dune statistique F. En interpr etant les r esultats dune telle r egression, il est important dinsister
sur limportance du bloc de deux variables pour expliquer la variable d ependante, tout en soulig-
nant limpossibilit e dattribuer limportance ` a une variable particuli` ere ` a cause du probl` eme de
multicollin earit e imparfaite.
9.3 Trucs pratiques
Si vous avez une banque de donn ees avec plusieurs variables explicatives potentielles,
il pourrait etre int eressant de calculer la matrice de tous les coefcients de corr elation
entre toutes les paires de variables. Ceci peut faire apparatre des probl` emes potentiels
de multicollin earit e.
Lorsque vous estimez un mod` ele de r egression multiple, il pourrait etre int eressant,
si votre logiciel permet de le faire facilement, de calculer la valeur du

condition-
nement

de la matrice (X

X), donn ee par le ratio de la plus grande valeur car-


act eristique de la matrice sur la plus petite valeur caract eristique. Si ce chiffre est tr` es
elev ee, on dit que la matrice est

mal conditionn ee

, ce qui peut occasionner des erreurs


num eriques importantes. Une matrice mal conditionn ee est presque singuli` ere.
81
10 Un Exemple
Je pr esente ici un autre exemple en code R pour illustrer sa puissance et le fait que (m eme
en nutilisant pas une des interfaces graphiques disponibles) il est relativement facile ` a utiliser.
On peut t el echarger une banque de donn ees, estimer un mod` ele de r egression multiple, et faire
imprimer les r esultats dans un chier en six lignes de code. Notez que les commandes coeftest
et linearHypothesis se trouvent dans les librarys lmtest et car. Il faut les charger
en m emoire et il faut aussi les installer si ce nest pas d ej` a fait. On peut les installer avec les
commandes suivantes.
R> install.packages("car")
R> install.packages("lmtest")
Par la suite, on les charge en m emoire avec les commandes suivantes.
R> library("car")
R> library("lmtest")
Voci lexemple.
Voici un exemple destimation dun mod` ele de r egression multiple avec le logiciel R. Encore
une fois, vous pouvez facilement jouer avec le code une fois que le logiciel est install e.
R> data("CPS1988", package="AER")
R> CPS lm <- lm(log(wage) experience + I(experience2) +
education + ethnicity, data=CPS1988)
R> summary(CPS lm)
R> outfile <- file("regsumm.out", "w")
82
R> capture.output(summary(CPS lm), file=outfile)
R> close(outfile)
Les donn ees sont dans une banque de donn ees qui sappelle

CPS1988

. Il sagit dune
coupe transversale de 28 155 observations recueillies par le Bureau du Recensement aux

Etats
Unis dans le cadre du sondage Current Population Survey. Les donn ees portent sur les hommes
ag es de 18 ` a 70 ans avec un revenu sup erieur ` a 50 $ qui ne sont ni travailleurs autonomes ni en
train de travailler sans r emun eration. Voir la description plus d etaill ee dans Kleiber et Zeileis
(2008, p.65).
La variable d ependante du mod` ele est le salaire r eel (dollars par semaine) mesur e en
logs. La variable explicative experience est lexp erience de travail mesur ee en ann ees,
la variable education est le nombre dann ees de formation mesur e en ann ees, et la vari-
able ethnicity est une variable dichotomiques prenant les valeurs cauc (blanc) et afam
(afro-am ericain). Notez quil sagit dune variable dichotomique qui ne prend pas des valeurs
chiffr ees (0 ou 1 par exemple) : R va pouvoir tenir compte de ceci automatiquement.
Il faut avoir install e le paquetage

AER

avec la commande suivante :


install.packages("AER")
Cette commande va t el echarger et installer le paquetage automatiquement ` a partir dun des
d ep ots darchives R. (Notez que sous Linux il est pr ef erable dinstaller le paquetage comme
administrateur du syst` eme, autrement dit comme super-utilisateur).
Il est possible de g en erer un r esum e des propri et es des donn ees avec les commande suiv-
ante.
R> data(CPS1988)
R> summary(CPS1988)
Voir Kleiber et Zeileis (2008, p.66) pour les r esultats de cette commande.
83
La commande data() charge la banque de donn ees.
La commande lm() estime le mod` ele de r egression multiple par MCO, et la commande
jour lm<- place les r esultats dans la variable jour lm.
La commande summary() imprime les r esultats de la r egression ` a l ecran.
La commande outfile<- cr ee un chier texte o` u on peut envoyer les r esultats.
La commande capture.output() envoie les r esultats dans le chier qui a et e cr e e.
La commande close() ferme le chier.
La fonction I() dit ` a R dinterpr eter lop erateur comme un op erateur alg ebrique stan-
dard, puisquil a aussi une interpr etation sp eciale en R.
Les r esultats de lestimation sont comme suit :
Call:
lm(formula = log(wage) experience + I(experience2) + education +
ethnicity, data = CPS1988)
Residuals:
Min 1Q Median 3Q Max
-2.943 -0.316 0.058 0.376 4.383
Coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) 4.321395 0.019174 225.4 <2e-16
experience 0.077473 0.000880 88.0 <2e-16
I(experience2) -0.001316 0.000019 -69.3 <2e-16
education 0.085673 0.001272 67.3 <2e-16
ethnicityafam -0.243364 0.012918 -18.8 <2e-16
Residual standard error: 0.584 on 28150 degrees of freedom
Multiple R-squared: 0.335, Adjusted R-squared: 0.335
F-statistic: 3.54e+03 on 4 and 28150 DF, p-value: <2e-16
84
Vous devriez etre en mesure de comprendre tous les el ements de loutput, ` a part la signica-
tion du coefcient ethnicityafam. Ce coefcient est cr e e automatiquement par R, qui a
choisi de traiter la cat egorie cauc comme la cat egorie de r ef erence et de cr eer une variable
dichotomique pour la cat egorie afam. La section de ces notes sur la multicollin earit e parfaite
nous a appris que nous ne pouvons pas inclure une constante, une variable dichotomique pour
la cat egorie cauc, et une variable dichotomique pour la cat egorie afam.
Comme dans le cas du mod` ele de r egression simple, le code ci-dessus estime le mod` ele
par MCO utilisant les options par d efaut. La fonction lm utilise par d efaut une hypoth` ese
dhomosc edasticit e. Donc, les ecarts types des deux coefcients ne sont pas des ecarts types
robustes. An dobtenir des ecarts types robustes ` a la pr esence de lh et erosc edasticit e, il faut
utiliser la commande suivante :
R> coeftest(CPS lm, vcov=vcovHC)
Les r esultats de cette commande sont comme suit :
t test of coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) 4.3214e+00 2.0614e-02 209.630 <2e-16
experience 7.7473e-02 1.0188e-03 76.046 <2e-16
I(experience2) -1.3161e-03 2.3486e-05 -56.035 <2e-16
education 8.5673e-02 1.3755e-03 62.283 <2e-16
ethnicityafam -2.4336e-01 1.3119e-02 -18.550 <2e-16
Comme dans lexemple pr esent e dans le chapitre pr ec edent, ce mod` ele est un exemple dun
mod` ele o` u il ny a pas une grande diff erence entre les ecarts types robustes et non robustes.
Puisque lordinateur est capable de calculer les ecarts types en une fraction de seconde, il co ute
presque rien de les calculer des deux facons an de v erier si les r esultats sont semblables ou
non.
85
Nous pouvons aussi effectuer des tests de restrictions sur le mod` ele estim e. Nous pouvons
sp ecier la matrice R et le vecteur r comme dans les notes de cours. La forme g en erale dun
test dhypoth` eses lin eaires dans R est
linearHypothesis(unrestricted,bigr,littler)
Ici,

unrestricted

est le nom du mod` ele lin eaire estim e,



bigr

est la matrice R,
et

littler

est le vecteur r des notes. An dutiliser la matrice de variance-covariance


robuste, il faut sp ecier la commande de la mani` ere suivante :
linearHypothesis(unrestricted,bigr,littler,white.adjust=HC)
Voici un exemple de test dans le contexte du mod` ele estim e dans cet encadr e. si on voulait,
par exemple, tester la signicativit e de lexp erience, il faut test la signicativit e de deux co-
efcients, le terme lin eaire et le terme au carrr e. Lhypoth` ese nulle jointe serait
1
=
2
= 0.
Sous forme matricielle, on aurait
_

_
0 1 0 0 0
0 0 1 0 0
_

_
_

4
_

_
=
_

_
0
0
_

_
Dabord, il faut d enir les matrices R et r dans le langage R.
R> bigr <- rbind(c(0,1,0,0,0),c(0,0,1,0,0))
R> littler <- rbind(0,0)
Pour plus de pr ecisions, on peut invoquer la commande help(rbind). Maintenant, on peut
invoquer la commande linearHypothesis telle que sp eci ee ci-dessus.
86
11 Un Autre Exemple
Je pr esente ici un autre exemple d etaill e, bas e sur la derni` ere question du dernier tp du trimestre
dhiver 2012. Le code R est comment e et donc les commandes devraient etre compr ehensible au
lecteur.
Dabord, voici la question du tp.
Pr eambule
Lexercice est bas e sur larticle de Mankiw, Romer et Weil (1992). Soit la fonction de
production agr eg ee donn ee par
Y
t
= K
t

(A
t
L
t
)
(1)
o` u Y
t
est le PIB r eel, K
t
le stock de capital, A
t
le niveau du progr` es technique, et L
t
lemploi
total. On peut transformer cette equation de la mani` ere suivante :
_
Y
t
L
t
_
= A
t
_
K
t
A
t
L
t
_

Supposons que le progr` es technique crot ` en moyenne ` a un rythme constant et egal ` a travers
les pays diff erents :
A
i,t
= A
i,0
e
gt
o` u g est le taux de croissance du progr` es technique, A
i,0
le niveau initial du progr` es technique
pour le pays i, et A
i,t
le niveau du progr` es technique au pays i en p eriode t. Le mod` ele de
Solow pr edit qu` a long terme le ratio du capital par travailleur effectif est donn e par
_
K
t
A
t
L
t
_
k
t
= k

=
s
n + g +
87
o` u n est le taux de croissance de la population active et est le taux de d epr eciation du capital.
Supposons un niveau initial du progr` es technique qui peut d ependre du pays (dotation initiale
en ressources naturelles, etc., tel que
ln (A
i,0
) = a +
i
.
Donc, nous avons qu` a long terme
_
Y
i,t
L
i,t
_
= A
i,t
k

+
i
ln
_
Y
i,t
L
i,t
_
= a +gt + s
i
(n
i
+ g +) +
i
o` u nous supposons g et constants ` a travers les pays diff erents. Si on suppose t = 0 pour
simplier nous pouvons ecrire
ln
_
Y
i
L
i
_
= a +s
i
(n
i
+g +) +
i
. (2)
Si on ajoute le capital humain au mod` ele, la fonction de production devient
Y
t
= K
t

H
t

(A
t
L
t
)
(1)
,
o` u H
t
est le capital humain. On peut montrer (voir larticle pour les d etails) que l equivalent
de (2) devient
ln
_
Y
i
L
i
_
= a +

1
s
i
+

1
s
h
i

+
1
(n
i
+g +) +
i
. (3)
La variable s
h
i
est le taux dinvestissement dans le capital humain.
88
Donn ees
T el echargez le chier de donn ees (en format STATA) :
http://www.er.uqam.ca/nobel/r10735/4272/GrowthDJ.dta
Vous devriez etre capables de les importer facilement avec GRETL. Si vous utilisez R, la base
de donn ees se retrouve dans la

library

AER. Les donn ees sont pour un echantillon de 121


pays et sont :
oil : pays o` u lindustrie p etroli` ere est lindustrie dominante (yes) ou non
inter : pays avec une population au moins egale ` a un million en 1960 et avec des donn ees
relativement ables selon Heston et Summers (1987) (yes) ou non
oecd : pays membre de lOCD

E (yes) ou non
gdp60 : niveau r eel du PIB par habitant en 1960
gdp85 : niveau r eel du PIB par habitant en 1985
gdpgrowth : taux de croissance moyen du PIB r eel par habitant entre 1960 et 1985
popgrowth : taux de croissance moyen de la population entre 1960 et 1985
invest : valeur moyenne du ratio investissement sur PIB entre 1960 et 1985
school : ratio moyen des inscriptions ` a l ecole secondaire sur la population en age de
travailler.
literacy60 : taux dalphab etisation en 1960
Les donn ees correspondent ` a lAnnexe de larticle de Mankiw, Romer et Weil (1992). Pour
lidentit e des pays, il faut r ef erer ` a cette annexe.
Exercice
1. Estimez un mod` ele de r egression multiple o` u gdp85 est la variable d ependante
et les variables explicatives sont une constante, invest pour mesurer s
i
et
(popgrowth+0.05) pour mesurer (n
i
+g +) (nous supposons quapproximativement
g + = 0.05). Ce mod` ele equivaut au mod` ele de Solow sans capital humain. Estimez
89
en calculant des ecarts types non robustes et robustes. Commentez ce que vous trouvez.
Pour les sous-questions qui suivent, vous pouvez vous limiter ` a des estimations et des
tests qui utilisent la matrice de variance-covariance robuste.
2. Le mod` ele de Solow pr edit que les coefcients sur le taux d epargne s
i
et le taux de
croissance de la population (n
i
+ 0.05) devraient etre de signe oppos e mais egaux en
valeur absolue. Testez cette hypoth` ese. Le mod` ele pr edit aussi que ces deux coefcients
devraient etre egaux en valeur absolue ` a la part du capital dans le revenu national (),
soit environ 1/3. Testez cette hypoth` ese jointe.
3. Enlevez de l echantillon les pays o` u lindustrie p etroli` ere est lindustrie dominante. Re-
faites les estimations et tests des 2 premi` eres sous-parties.
4. Enlevez maintenant les pays o` u lindustrie p etroli` ere est dominante et les pays qui ont
une population inf erieure ` a un million en 1960 ou qui ont des donn ees relativement
peu ables. Refaites les estimations et tests des 2 premi` eres sous-parties. Gardez cet
echantillon restreint pour le reste des sous-parties. En principe vous devriez avoir 75
observations.
5. Maintenant, supposons que les pays membres de lOCDE ont un comportement diff erent
des autres pays. Soit oecd la variable qui prend une valeur unitaire si le pays est mem-
bre de lOCDE et z ero autrement. Incluez comme variables explicatives des variables
dinteraction entre oecd et les autres variables explicatives ` a part la constante.
6. Testez signicitivit e (individuelle et jointe) de ces termes dinteraction.
7. Ajoutez la variable school au mod` ele comme proxy pour s
h
, avec un terme dinterac-
tion pour les pays de lOCDE. Le mod` ele maintenant equivaut au mod` ele de Solow avec
lajout du capital humain, avec un terme dinteraction pour les pays de lOCDE.
8. Testez la signicativit e des deux variables additionelles (school et le terme dinterac-
tion entre school et le fait d etre membre de lOCDE).
90
9. Le mod` ele augment e pr edit que coefcient de la variable associ e au taux d epargne s
devrait maintenant etre sup erieur ` a la part du capital. Testez cette hypoth` ese en appli-
quant un test avec hypoth` ese alternative unilat erale au coefcient associ e ` a school
seulement.
10. Le mod` ele augment e pr edit que la somme des coefcients sur school et invest de-
vrait etre egale ` a moins le coefcient sur (popgrowth+0.05). Testez cette hypoth` ese,
pour les pays non membres de lOCDE seulement.
11. Ajoutez le niveau du PIB par habitant en 1960 au mod` ele mesur e par gdp60, avec un
terme dinteraction entre gdp60 et le fait d etre membre de lOCDE. La signicatitivit e
du coefcient associ e ` a cette variable nous permet de tester lhypoth` ese de convergence.
Testez la signicativit e de la variable gdp60. Testez maintenant la signicativit e jointe
de cette variable et du coefcient associ e au terme dinteraction.
12. Revenez au mod` ele sans le niveau du PIBpar habitant en 1960. Construisez un graphique
avec les r esidus au carr e sur laxe vertical et la variable d ependante sur laxe horizontal.
Est-ce que vous rep erez des valeurs aberrantes (outliers) ? Quest-ce qui arrive si vous re-
faites lanalyse en enlevant les observations associ ees aux valeurs aberrantes des r esidus
au carr e ?
13. Commentez la validit e de vos tests dhypoth` ese. Est-ce quil y a assez dobservations
pour supposer la normalit e approximative des statistiques calcul ees ? Par contre, bas e
sur une analyse des r esidus, est-ce que les erreurs du mod` ele semblent etre normales
et homosc edastiques, ce qui permettrait dutiliser de tests exacts en echantillon ni ?
Justiez.
91
R ef erences
Mankiw, N. Gregory, David Romer et Philippe Weil (1992), A Contribution to the Empirics
of Economic Growth. Quarterly Journal of Economics 107, 407437
Heston, Alan et Robert Summers (1987), A New Set of International Comparisons of Real
Product and Price Levels : Estimates for 130 Countries 195085. Reviewof Income and Wealth
34, 126
Maintenant, voici le code en R pour estimer le mod` ele et r epondre aux questions du tp.
Les m emes remarques sappliquent que pour lexemple pr ec edent. Les commandes coeftest
et linearHypothesis d ependent de librarys qui doivent etre install ees et charg ees en
m emoire.
#
# Charger en memoire la biblioth`eque AER.
#
library("AER")
#
# Charger en memoire les biblioth`eques necessaires
# pour effectuer les tests dhypoth`eses multiples.
# La biblioth`eque AER requiert les autres
# biblioth`eques, alors ces commandes ne sont pas
# strictement necessaires, mais pourraient letre
# pour dautres applications.
#
library("car")
library("sandwich")
92
library("lmtest")
#
# Charger en memoire les donnees de la banque
# GrowthDJ.
#
data("GrowthDJ",package="AER")
#
# Imprimer un resume des donnees dans GrowthDJ.
#
attributes(GrowthDJ)
#
# Imprimer des statistique descriptives concernant
# les variables dans GrowthDJ.
#
summary(GrowthDJ)
#
# Estimer le premier mod`ele.
#
growth_mod < lm(log(gdp85) log(invest) + I(popgrowth+0.05),
data=GrowthDJ)
#
# Imprimer les resultats sous lhomoscedasticite.
#
summary(growth_mod)
#
# Imprimer les resultats sous lheteroscedasticite
93
# pour comparaison.
#
coeftest(growth_mod,vcov=vcovHC)
#
# Tester lhypoth`ese que les 2 coefficients sont
# egaux mais de signe oppose.
#
linearHypothesis(growth_mod,c(0,1,-1),0,white.adjust=FALSE)
#
# Meme test, heteroscedasticite.
#
linearHypothesis(growth_mod,c(0,1,-1),0,white.adjust=TRUE)
#
# Enlever les observations de pays qui dependent du
# petrole.
#
Growth2 < subset(GrowthDJ,GrowthDJ$oil=="no")
#
# Reestimer le mod`ele avec lechantillon restreint.
#
growth_mod2 < lm(log(gdp85) log(invest) + I(popgrowth+0.05),
data=Growth2)
#
# Imprimer les resultats destimation sous
# lhomoscedasticite.
#
94
summary(growth_mod2)
#
# Imprimer les resultats destimation avec
# ecarts types robustes.
#
coeftest(growth_mod2,vcov=vcovHC)
#
# Tester lhypoth`ese que les 2 coefficients sont
# egaux mais de signe oppose.
#
linearHypothesis(growth_mod2,c(0,1,-1),0,white.adjust=FALSE)
#
# Meme test, matrice variance-covariance robuste.
#
linearHypothesis(growth_mod2,c(0,1,-1),0,white.adjust=TRUE)
#
# Enlever les observations de pays trop petits
# et/ou avec donnees non fiables.
#
Growth3 < subset(GrowthDJ,GrowthDJ$oil=="no")
Growth3 < subset(Growth3,Growth3$inter=="yes")
#
# Estimer le nouveau mod`ele.
#
growth_mod3 < lm(log(gdp85) log(invest) + I(popgrowth+0.05),
data=Growth3)
95
#
# Imprimer les resultats sous lhomoscedasticite.
#
summary(growth_mod3)
#
# Imprimer les resultats sous lheteroscedasticite
# pour comparaison.
#
coeftest(growth_mod3,vcov=vcovHC)
#
# Estimer le mod`ele avec termes dinteraction pour
# les pays de lOCDE.
#
growth_mod4 < lm(log(gdp85) log(invest) + I(popgrowth+0.05)
+
log(invest):oecd + I(popgrowth+0.05):oecd, data=Growth3)
#
# Imprimer les resultats sous lhomoscedasticite.
#
summary(growth_mod4)
#
# Imprimer les resultats sous lheteroscedasticite
# pour comparaison.
#
coeftest(growth_mod4,vcov=vcovHC)
#
96
# Tester la significativite jointe des 2 termes
# dinteraction.
#
bigr < rbind(c(0,0,0,1,0),c(0,0,0,0,1))
litr < rbind(0,0)
linearHypothesis(growth_mod4,bigr,litr,white.adjust=FALSE)
#
# Meme test avec matrice variance-covariance
# robuste.
#
linearHypothesis(growth_mod4,bigr,litr,white.adjust=HC)
#
# Estimer le mod`ele en ajoutant school.
#
growth_mod5 < lm(log(gdp85) log(invest) + I(popgrowth+0.05)
+ school
+ log(invest):oecd + I(popgrowth+0.05):oecd + school:oecd,
data=Growth3)
#
# Tester la restriction sur les 3 coefficients
#
bigr < c(0,1,1,-1,0,0,0)
litr < 0
linearHypothesis(growth_mod5,bigr,litr,white.adjust=FALSE)
#
# Meme test avec matrice variance-covariance
97
# robuste.
#
linearHypothesis(growth_mod5,bigr,litr,white.adjust=TRUE)
#
# Estimer le mod`ele avec gdp60.
#
growth_mod6 < lm(log(gdp85) log(invest) + I(popgrowth+0.05)
+ school + log(gdp60) + log(invest):oecd +
I(popgrowth+0.05):oecd
+ school:oecd + log(gdp60):oecd, data=Growth3)
#
# Tester la significativite de la convergence.
#
bigr < rbind(c(0,0,0,0,1,0,0,0,0),c(0,0,0,0,0,0,0,0,1))
litr < rbind(0,0)
linearHypothesis(growth_mod6,bigr,litr,white.adjust-FALSE)
linearHypothesis(growth_mod6,bigr,litr,white.adjust=TRUE)
Loutput de ces commandes se trouve ci-dessous. Jai converti les tableaux R en format L
A
T
E
X ` a
laide du package texreg. Pour linstant, jai inclus seulement les r esultats destimation des
mod` eles diff erents sous lhypoth` ese dhomosc edasticit e.
98
Model 1
(Intercept) 3.95

(0.54)
log(invest) 1.51

(0.16)
I(popgrowth + 0.05) -0.01
(0.08)
R
2
0.47
Adj. R
2
0.46
Num. obs. 107
***
p < 0.01,
**
p < 0.05,
*
p < 0.1
Model 2
(Intercept) 4.69

(0.49)
log(invest) 1.44

(0.14)
I(popgrowth + 0.05) -0.27

(0.08)
R
2
0.59
Adj. R
2
0.59
Num. obs. 98
***
p < 0.01,
**
p < 0.05,
*
p < 0.1
99
Model 3
(Intercept) 5.20

(0.58)
log(invest) 1.33

(0.17)
I(popgrowth + 0.05) -0.28

(0.08)
R
2
0.59
Adj. R
2
0.58
Num. obs. 75
***
p < 0.01,
**
p < 0.05,
*
p < 0.1
100
Model 4
(Intercept) 5.08

(0.55)
log(invest) 1.03

(0.18)
I(popgrowth + 0.05) 0.03
(0.13)
log(invest) :oecdyes 0.34

(0.14)
I(popgrowth + 0.05) :oecdyes -0.11
(0.24)
R
2
0.66
Adj. R
2
0.64
Num. obs. 75
***
p < 0.01,
**
p < 0.05,
*
p < 0.1
101
Model 5
(Intercept) 5.56

(0.47)
log(invest) 0.55

(0.17)
I(popgrowth + 0.05) 0.06
(0.10)
school 0.14

(0.03)
log(invest) :oecdyes 0.42

(0.19)
I(popgrowth + 0.05) :oecdyes -0.21
(0.20)
school :oecdyes -0.05
(0.06)
R
2
0.77
Adj. R
2
0.75
Num. obs. 75
***
p < 0.01,
**
p < 0.05,
*
p < 0.1
102
Model 6
(Intercept) 1.51

(0.54)
log(invest) 0.48

(0.12)
I(popgrowth + 0.05) 0.05
(0.07)
school 0.05

(0.02)
log(gdp60) 0.63

(0.07)
log(invest) :oecdyes 0.08
(0.29)
I(popgrowth + 0.05) :oecdyes -0.17
(0.13)
school :oecdyes -0.04
(0.04)
log(gdp60) :oecdyes 0.07
(0.12)
R
2
0.90
Adj. R
2
0.89
Num. obs. 75
***
p < 0.01,
**
p < 0.05,
*
p < 0.1
103
12 Concepts ` a retenir
La sp ecication matricielle du mod` ele de r egression multiple.
Les hypoth` eses de base du mod` ele de r egression multiple.


Etre capable de suivre et comprendre le calcul de lestimateur MCO en notation matricielle.


Etre capable de suivre et comprendre le calcul de lestimateur MCO en notation non ma-
tricielle.


Etre capable de suivre les preuves des propri et es alg ebriques de lestimateur MCO et de
retenir les propri et es elles-m emes (orthogonalit e entre variables explicatives et r esidus,
somme des r esidus egale ` a 0, orthogonalit e entre valeurs pr edites et r esidus).
Comprendre la distinction entre la mesure R
2
de lajustement statistique et la mesure

R
2
de
lajustement statistique. Comprendre pourquoi le R
2
ne peut quaugmenter si on ajoute une
ou des variables explicatives au mod` ele de r egression.
Les grandes lignes des propri et es de lestimateur MCOdans le mod` ele de r egression multiple
(absence de biais, convergence).
Les hypoth` eses additionnelles qui doivent tenir pour que le th eor` eme Gauss-Markov soit
valide et donc pour que lestimateur MCO soit efcient.
Comprendre la distinction entre la matrice de variance-covariance robuste des coefcients et
la matrice de variance-covariance qui suppose lhomosc edasticit e des erreurs. Comprendre
limportance de savoir quelle est la version de la matrice de variance-covariance qui est
calcul ee par d efaut par son logiciel econom etrique de choix.
Comment effectuer un test dhypoth` ese simple.
Comment effectuer un test dhypoth` ese simple portant sur une combinaison lin eaire de co-
efcients par une version transform ee mais equivalente du mod` ele.
Comment effectuer un test dhypoth` eses jointes, et la facon g en erale dexprimer les con-
traintes ` a tester sous forme matricielle.
Lid ee que la statistique F pour tester une hypoth` ese simple est le carr e de la statistique t
pour tester la m eme hypoth` ese.
104
Comment tester une ou des restrictions en estimant le mod` ele restreint, et les hypoth` eses
qui doivent etre v eri ees pour que cette facon de proc eder soit valide (notamment lho-
mosc edasticit e).
Lid ee que les ensembles de conance sont des ellipses, et quils sont des ensembles de
valeurs pour lesquelles on ne peut rejeter lhypoth` ese jointe que les coefcients sont egaux
` a ces valeurs, sous lhypoth` ese nulle des valeurs obtenues par le biais de notre r egression
MCO.
Le principe de base concernant comment etablir si des valeurs donn ees de plusieurs coef-
cients se retrouvent dans lensemble de conance de X% pour ces coefcients.
La distinction entre multicollin earit e parfaite et multicollin earit e imparfaite.
Lid ee que la multicollin earit e parfaite indique un probl` eme logique dans la s election des
variables explicatives.
Lid ee que la multicollin earit e imparfaite re` ete une corr elation forte entre sous-ensembles
de variables explicatives et non une erreur logique dans la s election des variables explica-
tives.
Lid ee quun groupe de variables puisse etre signicatif pour expliquer la variable
d ependante sans forc ement la possibilit e dattribuer cette importance ` a une des variables
individuelles du groupe en particulier.
Comprendre des techniques informelles pour d etecter un probl` eme de multicollin earit e im-
parfaite (notamment un calcul de la matrice de toutes les corr elations possibles entre les
variables explicatives, et le calcul du conditionnement de la matrice (X

X)).
13 R ef erences
Pour le calcul diff erentiel en notation matricielle, voir :
Introduction to Finite Element Methods (ASEN 5007), Appendix D. Department of Aerospace
Engineering Sciences, University of Colorado at Boulder, 2007
105
Je ne retrouve plus le chier sur le site de lUniversity of Colorado. Il est disponible sur mon site
` a ladresse suivante :
http://www.er.uqam.ca/nobel/r10735/4272/matrixcalculus.pdf
Les quatre premi` eres pages de cet article sont particuli` erement pertinentes pour les ns de ce cours.
Pour dautres r ef erences portant sur le mod` ele de r egression multiple, voir :
http://www.er.uqam.ca/nobel/r10735/4272/referenc.pdf
Derni` ere modication : 04/03/2013
106