Vous êtes sur la page 1sur 121

ECO 4272 : Introduction à l’économétrie

Notes sur la Régression Multiple


Steve Ambler∗
Département des sciences économiques
École des sciences de la gestion
Université du Québec à Montréal
c 2018 : Steve Ambler
Hiver 2018


Ces notes sont en cours de développement. J’ai besoin de vos commentaires et de vos suggestions pour
les améliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message à
ambler.steven@uqam.ca.

1
Table des matières
1 Introduction 4

2 Biais dû à une variable omise 4


2.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Modèle de régression multiple 10


3.1 Spécification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Spécification matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3 Hypothèses de base du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.4 Estimateur MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.4.1 Différentiation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4.2 Quelques exemples simples des règles de différentiation . . . . . . . . . . 18
3.5 Approche non matricielle au problème de minimisation . . . . . . . . . . . . . . . 20

4 Propriétés algébriques de l’estimateur MCO 23


4.1 Orthogonalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 Somme des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Valeurs prédites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4 Écart type de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.5 Mesures d’ajustement statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.5.1 Le R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.5.2 Le R2 ajusté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5 Propriétés statistiques de l’estimateur MCO 37


5.1 Propriétés statistiques : absence de biais . . . . . . . . . . . . . . . . . . . . . . . 37
5.2 Petite note : théorème de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3 Propriétés statistiques : convergence . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.4 Petite note sur les covariances en notation matricielle . . . . . . . . . . . . . . . . 45
5.5 Propriétés statistiques : distribution en grand échantillon . . . . . . . . . . . . . . 46
5.5.1 Cas homoscédastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6 Variance échantillonnale de β̂ 49
6.1 Cas homoscédastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.2 Homoscédasticité versus Hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . 53

7 Efficience de l’estimateur MCO sous l’homoscédasticité 54


7.1 Preuve du théorème Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 55

8 Biais dû à des variables omises (bis) 57

9 Tests d’hypothèses et ensembles de confiance 65


9.1 Tests d’hypothèses simples par rapport à un seul coefficient . . . . . . . . . . . . . 65
9.2 Tests d’hypothèses simples par rapport à une combinaison linéaire de coefficients . 67
9.2.1 Méthode indirecte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

2
9.2.2 Méthode directe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
9.3 Pourquoi les tests séquentiels ne sont pas valides . . . . . . . . . . . . . . . . . . 70
9.4 Tests d’hypothèses jointes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
9.5 Que faire lorsque Σ̂β̂ n’est pas disponible ? . . . . . . . . . . . . . . . . . . . . . . 74
9.6 Une seule restriction comme un cas spécial . . . . . . . . . . . . . . . . . . . . . 75
9.7 Significativité de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
9.8 Tests d’hypothèse en présence d’homoscédasticité . . . . . . . . . . . . . . . . . . 80
9.9 Test de significativité de la régression dans le cas homoscédastique . . . . . . . . . 88
9.10 Tests exacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.11 Ensembles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

10 Multicollinéarité 91
10.1 Multicollinéarité parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
10.2 Multicollinéarité imparfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
10.3 Trucs pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

11 Un Exemple 97

12 Un Autre Exemple 102

13 Concepts à retenir 119

14 Références 121

3
1 Introduction

Dans ce chapitre sur le modèle de régression multiple, il n’y a presque rien de fondamentalement
nouveau par rapport au modèle de régression simple. Une lecture de la table des matières de ces
notes servira à vous convaincre que ce sont les mêmes sujets qui reviennent. C’est comme si on
allait réapprendre la matière sur le modèle de régression simple mais en notation matricielle.
C’est donc une bonne occasion de faire de la révision, surtout en ce qui concerne les propriétés de
l’estimateur MCO. À peu près le seul aspect novateur (à part la notation matricielle elle-même)
sera l’idée de tester des hypothèses jointes (et une notion qui y est très reliée, celle des ensembles
de confiance). 1
Une fois la notation matricielle apprise, toutes les dérivations algébriques concernant les
propriétés algébriques de l’estimateur MCO et les propriétés statistiques de l’estimateur MCO
sont plus simples en notation matricielle qu’en notation de sommations. J’espère vous convaincre
de ce principe avant de terminer notre étude sur le modèle de régression multiple.

2 Biais dû à une variable omise

On peut motiver le modèle de régression multiple en montrant que, si nous voulons analyser
l’impact d’une variable explicative sur une variable dépendante et si nous omettons une ou des
variables qui ont un impact sur la variable dépendante, notre estimé de cet impact sera en général
biaisé, dans la mesure où la corrélation entre cette variable omise ou ces variables omises et la
variable explicative du modèle est non nulle.
Cela veut dire que, même si nous ne nous intéressons pas particulièrement à l’impact de ces
variables omises, il faut néanmoins en tenir compte dans notre modèle de régression afin
d’obtenir un estimé non biaisé de l’impact de notre variable d’intérêt (pour utiliser l’exemple
empirique du manuel, l’impact de la taille moyenne des classes sur le rendement scolaire).
1. Le concept de tester une hypothèse simple qui porte sur une combinaison de coefficients est nouveau aussi,
mais nous allons montrer comment transformer le modèle de régression multiple pour traiter ce cas comme un test
d’une hypothèse nulle qui porte sur un seul coefficient. Voir la sous-section 9.2.

4
On sait à partir de notre étude du modèle de régression simple, que l’estimateur du coefficient de
pente β1 est égal à :
1
Pn 
n i=1 Xi − X̄ ui
β̂1 = β1 + Pn 2 .
1
n i=1 Xi − X̄
Maintenant, on modifie nos hypothèses statistiques par rapport au modèle de régression simple
étudié dans le dernier chapitre. On n’impose plus que l’espérance (conditionnelle à la valeur
observée Xi ) soit égale à zéro. Maintenant, on a :

n
1X  p
Xi − X̄ ui →
− Cov (u , X) = Corr (u , X) σu σX ,
n i=1

et
n
1X 2 p 2
Xi − X̄ → − σX .
n i=1

Donc, par le théorème de Slutsky (voir la section 5.2 ci-dessous), ce qui nous permet d’étudier
séparément les propriétés en grand échantillon du numérateur et du dénominateur du deuxième
terme dans l’expression pour la valeur de notre estimateur β̂1 , on a :

p Corr (u , X) σu σX σu
β̂1 →
− β1 + 2
= β1 + Corr (u , X) .
σX σX

L’estimateur n’est plus convergent. Il y a un biais, même asymptotiquement (lorsque le nombre


d’observations tend vers l’infini). Le signe du biais dépend du signe de la corrélation entre la
variable explicative Xi et le terme d’erreur ui .
Notez que, dans ce cas, les hypothèses de base du modèle ne sont pas respectées. La variable
omise, qui est incluse dans le terme d’erreur du modèle, est corrélée avec la variable explicative
du modèle X. Autrement dit, l’hypothèse

E (ui |X = Xi ) = 0

ne tient plus. Dans le cadre d’une étude empirique, il faut évaluer la plausibilité de cette

5
hypothèse avec les données qu’on a. S’il y a une variable dans la banque de données qui en
principe pourrait affecter la variable dépendante de l’étude et qui risque d’être corrélée avec une
variable qui est incluse comme variable explicative dans le modèle, il y a probablement un
problème de variable omise. 2
Une solution possible est d’inclure les variables omises explicitement comme variables
explicatives additionnelles dans le modèle de régression. Le modèle de régression simple devient
un modèle de régression multiple. Nous verrons dans la section suivante la spécification du
modèle de régression multiple et les hypothèses standard qui permettront, comme dans le modèle
de régression simple, de démontrer certaines propriétés souhaitables de l’estimateur MCO des
coefficients.

2.1 Exemple

Nous pouvons être encore plus explicites. Supposons que le vrai modèle est donné par

Yi = β0 + β1 X1i + β2 X2i + ui

tandis que le modèle estimé est


Yi = β0 + β1 X1i + ũi

où
ũi ≡ β2 X2i + ui .

Le terme d’erreur du modèle estimé incorpore la variable omise X2i avec le vrai terme d’erreur
ui . Nous avons
1
Pn  
n i=1 X1i − X̄1 Yi − Ȳ
β̂1 = Pn 2
1
n i=1 X1i − X̄1
2. Dans des cours plus avancés, vous allez apprendre des façons formelles de tester l’absence de corrélation entre
les variables explicatives du modèle et le terme d’erreur. Voir par exemple McFadden (2002). Sans ces méthodologies
avancées, il faut se fier à la logique et à son intuition.

6
1
Pn  
n i=1 X1i − X̄1 β0 + β1 X1i + β2 X2i + ui − β0 − β1 X̄1 − β2 X̄2 − ū
= Pn 2
1
n i=1 X1i − X̄1

1
Pn 2 1
Pn  
i=1 X1i − X̄1 i=1 X1i − X̄1 X2i − X̄2
= β1 n Pn 2 + β2 n
Pn 2
1 1
n
X1i − X̄1
i=1 n i=1 X1i − X̄1
1
Pn 
n i=1 X1i − X̄1 (ui − ū)
+ Pn 2
1
n i=1 X1i − X̄1

1
Pn   1
Pn 
X 1i − X̄ 1 X 2i − X̄ 2 X 1i − X̄ 1 (ui − ū)
= β1 + β2 n i=1 Pn 2 + n i=1 n 2 .
1 1
 P
n i=1 X 1i − X̄ 1 n i=1 X 1i − X̄ 1

Calculant l’espérance de β̂1 , nous obtenons

1
Pn  !
 
n i=1 X 1i − X̄ 1 X 2i − X̄ 2
E β̂1 = β1 + β2 E Pn 2
1
n i=1 X1i − X̄1

Pn !
1

n
X1i − X̄1 E ((ui − ū) |X11 , X12 , . . . , X1n )
i=1
+E + Pn 2
1
n i=1 X1i − X̄1

1
Pn  !
X 1i − X̄ 1 X 2i − X̄ 2
= β1 + β2 E n i=1 Pn 2
1
n i=1 X1i − X̄1

par la loi des espérances itérées. En général,

1
Pn  !
n i=1 X 1i − X̄ 1 X 2i − X̄ 2
E Pn 2 6= 0.
1
n i=1 X 1i − X̄ 1

L’estimateur est biaisé, le biais étant donné par la valeur de l’espérance dans l’équation
précédente.
Nous pouvons dire plus que cela, au moins asymptotiquement (lorsque la taille de l’échantillon n
tend vers l’infini). L’expression

n
1X  
X1i − X̄1 X2i − X̄2
n i=1

est tout simplement la covariance échantillonnale entre X1 et X2 . (C’est différent par un facteur

7
de n/(n − 1) qui est presqu’égal à un si n est grand.) L’expression

n
1X 2
X1i − X̄1
n i=1

est tout simplement (ou presque) la variance échantillonnale de X1 . Si les deux expressions sont
des estimateurs convergents de leurs équivalents dans la population, nous avons :

n
1X   p
X1i − X̄1 X2i − X̄2 →− Cov (X1 , X2 )
n i=1

et
n
1X 2 p
X1i − X̄1 → − Var (X1 ) .
n i=1

Par le théorème de Slutsky (voir la section 5.2 ci-dessous), nous avons

p Cov (X1 , X2 )
β̂1 →
− β1 + β2
Var (X1 )

La différence entre β̂1 et sa vraie valeur est approximativement égale à la vraie valeur de β2 fois le
ratio de la covariance entre X1 et X2 et la variance de X2 . Si on connaı̂t au moins le signe de β2
(on pourrait avoir de l’information a priori sur le signe de β2 ) et de la covariance, on peut prédire
le signe de cet écart. Aussi, nous savons que

Cov (X1 , X2 )
Var (X1 )

est la valeur (asymptotiquement) du coefficient de pente d’une régression où X2 est la variable
dépendante et X1 est la variable explicative, cela veut dire l’estimation du modèle de régression
linéaire simple suivant :
X2i = γ0 + γ1 X1i + εi .

8
Dans cet encadré, j’élabore un peu sur cette interprétation alernative.

Si on remonte un peu en arrière nous constatons que nous pouvons exprimer notre estimateur
β̂1 comme

1
Pn   1
Pn 
n i=1 X1i − X̄1 X2i − X̄2 n i=1 X1i − X̄1 (ui − ū)
β̂1 = β1 + β2 Pn 2 + Pn 2 .
1 1
n i=1 X1i − X̄1 n i=1 X1i − X̄1

Nous constatons aussi que le terme qui multiplie β2 , soit

1
Pn  
n i=1 X 1i − X̄ 1 X 2i − X̄ 2
1
Pn 2
n i=1 X 1i − X̄ 1

ressemble à quelque chose que nous connaissons. Il est égal (presque) à la covariance
échantillonnale entre X1 et X2 divisée par la variance échantillonnale de X1 . C’est
exactement ce que l’on obtiendrait si on estimait un modèle de régression simple avec X2
comme variable dépendante et X1 comme la seule variable explicative (à part la constante).
Autrement dit, avec ce que l’on pourrait appeler le modèle  auxiliaire  suivant :

X2i = γ0 + γ1 X1i + εi

on obtiendrait l’estimateur MCO suivant :

1
Pn  
n i=1 X1i − X̄1 X2i − X̄2
γ̂= Pn 2 .
1
n i=1 X1i − X̄1

Nous obtenons donc

1
Pn 
n i=1 X1i − X̄1 (ui − ū)
β̂1 = β1 + β2 γ̂1 + Pn 2 .
1
n i=1 X1i − X̄1

Ainsi, si
p
− γ10
γ̂1 →

9
nous avons
p
− β1 + β2 γ10 .
β̂1 →

On ne peut présumer que l’estimateur γ̂1 est un estimateur convergent, puisqu’il faudrait faire
des hypothèses statistiques maintenues (notamment concernant l’espérance conditionnelle de
l’erreur εi ) afin de pouvoir montrer cette convergence. C’est pourquoi j’ai écrit γ10 ici et non
γ1 .
Nous allons montrer une généralisation de ce résultat dans la section (8) ci-dessous, où X1
pourrait être un vecteur de plusieurs variables explicatives incluses et X2 pourrait être un
vecteur de plusieurs variables omises.

3 Modèle de régression multiple

À la lumière de ce que nous venons de montrer que l’omission d’une variable qui est pertinente
pour la prédiction de la variable dépendante Yi peut mener à un estimateur biaisé de l’influence
d’une variable d’intérêt X1i sur la variable dépendante. Donc, si nous voulons estimer son impact
sans biais, il faut en principe inclure toutes les variables qui pourraient aider à prédire Yi et qui
sont potentiellement corrélées avec X1i . 3 Ceci nous mène au modèle de régression multiple.

3.1 Spécification

Yi = β0 + X1i β1 + X2i β2 + . . . + Xki βk + ui . (1)


3. Est-il possible d’inclure toutes les variables qui peuvent aider à prédire Yi ? La réponse à cette question est
 non  pour des raisons que nous allons étudier plus tard. Alors, quelles variables inclure ? Le choix de va-
riables à inclure dans un modèle de régression multiple peut être une question très compliquée. Nous allons voir
quelques critères de sélection dans ce chapitre. Voir le vidéoclip https://www.youtube.com/watch?v=
HP3RhjLhRjY pour une discussion qui n’est pas trop technique. Voir aussi https://www.youtube.com/
watch?v=kl4RxV37ebk.

10
Chaque variable explicative porte deux indices inférieurs. Le premier fait référence à son identité.
Le deuxième fait référence à l’unité d’observation (ou période dans le cas de séries
chronologiques). Cette convention suit la convention du manuel. On suppose un échantillon de n
observations.

3.2 Spécification matricielle

Y = Xβ + U,

où
 0
Y ≡ Y1 Y2 . . . Yn ,

 
 1 X11 X21 . . . Xk1 
 
 1 X12 X22 . . . Xk2 
X≡ ,
 
.. .. .. .. .. 

 . . . . . 

 
1 X1n X2n . . . Xkn
 0
β≡ β0 β1 β2 . . . βk ,

 0
U≡ u1 u2 . . . un .

donc, Y est un vecteur colonne de dimensions n × 1, X est une matrice de dimensions


n × (k + 1), β est un vecteur colonne de dimensions (k + 1) × 1, et U est un vecteur colonne de
dimensions n × 1. Le modèle contient une constante β0 et par convention la première colonne de
X contient un vecteur de valeurs égales à un.
Notez que la convention concernant les indices inférieurs associés aux variables explicatives du
modèle (qui, répétons-le, suit la notation du chapitre 6 du manuel), qui stipule que Xij est la
j-ième observation de la i-ième variable explicative, n’est pas strictement conforme avec la
notation conventionnelle de l’algèbre linéaire ou des matrices. Soit X une matrice de dimensions

11
k × l. En algèbre linéaire on peut faire référence à un élément de la matrice X par le biais
d’indices inférieurs. La convention est que  Xij  est l’élément dans l’i-ième rangée et la j-ième
colonne. Donc, il s’agit d’un mariage malheureux entre deux notations qui sont incompatibles.
Dans ces notes, la notation Xij fera référence par défaut à la spécification du modèle dans
l’équation (1). Lorsque je veux utiliser la notation conventionnelle de l’algèbre linéaire, je vais
l’écrire explicitement. 4
Relire le paragraphe précédent. Il est très important de saisir la différence entre la notation utilisée
par Stock et Watson et la notation matricielle standard.
Pour l’instant, il ne s’agit que de la notation. L’avantage d’introduire cette notation est la
simplification de l’algèbre. Nous verrons de quoi il s’agit lors de la dérivation de l’estimateur
MCO. 5 Avant de dériver l’estimateur MCO, nous allons nous pencher dans la sous-section
suivante sur les hypothèses statistiques derrière le modèle de régression multiple.

3.3 Hypothèses de base du modèle

Les hypothèses sont les équivalents des hypothèses de base du modèle de régression simple du
chapitre 4.
Voir l’encadré  Key Concept 18.1  à la page 707 du manuel (version anglaise — la traduction
française omet ce chapitre).

1. E (ui |Xi ) = 0. Cette hypothèse est reliée à la preuve que l’estimateur MCO de β est un
estimateur non biaisé.

2. (Xi , Yi ) i.i.d. Cette hypothèse est reliée à la preuve que l’estimateur MCO de β est un
estimateur convergent.

3. Xi et ui ont des quatrièmes moments non nuls et finis. Cette hypothèse est aussi reliée à la
preuve que l’estimateur MCO de β est un estimateur convergent. 6
4. Si vous soupçonnez qu’il y a des incohérences de notation, je vous prie de bien vouloir me les signaler.
5. Toutes les preuves que nous allons voir (absence de biais de l’estimateur MCO, propriétés échantillonnales de
l’estimateur, etc., sont beaucoup plus faciles à montrer en notation matricielle qu’en utilisant des sommations. J’espère
que vous allez finir par être convaincus de ce principe.
6. Cette hypothèse réduit l’importance et l’influence d’observations aberrantes, des observations qui sont très

12
4. X est de rang plein en colonnes. Cela revient à dire qu’il n’y a pas une colonne de la
matrice X qui peut être exprimée comme une combinaison linéaire exacte des autres
colonnes de la matrice. Une des conséquences de cette hypothèse sera que la matrice
(X 0 X) (qui est une matrice carrée par construction) sera une matrice de rang plein (k + 1),
et donc il sera possible de calculer son inverse (X 0 X)−1 . Cet inverse (voir ci-dessous) fait
partie de la définition de l’estimateur MCO de β. Donc, sans cette hypothèse, l’estimateur
MCO de β ne sera même pas bien défini.

5. Var (ui |Xi ) = σu2 .

6. La distribution de ui conditionnelle à la valeur de Xi suit une loi normale.

Les quatre premières hypothèses sont les hypothèses retenues par défaut. Nous n’aurons besoin
des deux dernières hypothèses que pour des cas spéciaux. L’avant dernière hypothèse s’applique
seulement dans le cas spécial d’erreurs homoscédastiques. Si nous sommes prêts à supposer des
erreurs homoscédastiques, nous obtiendrons une version plus simple de la matrice de
variance-covariance des estimateurs MCO. Cette simplification correspond à ce que nous avons
vu dans le cadre du modèle de régression simple dans le cas homoscédastique. Cette hypothèse
correspond aussi au cas où l’estimateur MCO est l’estimateur linéaire le plus efficient, autrement
dit l’estimateur linéaire non biaisé avec la plus petite variance (théorème Gauss-Markov). Le
terme consacré en anglais est l’estimateur  BLUE  (Best Linear Unbiased Estimator). Avec
l’avant-dernière hypothèse plus la dernière concernant la normalité des erreurs, on pourra
effectuer des tests d’hypothèse exacts — les statistiques t pour tester des hypothèses simples
auront des distributions t de Student même en petit échantillon, et les statistiques F de Fisher
pour tester des hypothèse jointes (voir plus loin dans le chapitre) auront des distributions F même
en petit échantillon.
loin de la moyenne (si la moyenne existe).

13
3.4 Estimateur MCO

Nous voulons choisir les valeurs des éléments de β qui minimisent la somme des résidus carrés.
Pourquoi l’estimateur MCO et non un autre type d’estimateur ? Nous avons déjà vu des
justifications pour l’utilisation de la somme des erreurs au carré dans le chapitre sur le modèle de
régression simple.

1. L’algèbre est relativement simple. Le critère (la fonction à minimiser) est une expression
quadratique (du deuxième degré), et donc les conditions du premier ordre donnent un
système d’équations linéaires. Il est très facile de résoudre un système d’équations
linéaires, soit par substitution soit par le calcul de l’inverse d’une matrice de constantes
(voir ci-dessous).

2. L’autre justification se trouve plus loin, dans la section 7 de ces notes. On peut montrer
que, sous les hypothèses de base du modèle et sous l’homoscédasticité des erreurs,
l’estimateur MCO est l’estimateur le plus efficient dans la classe d’estimateurs linéaires
(une fonction linéaire des observations Yi ) et non biaisés. C’est le théorème
Gauss-Markov, célèbre dans l’histoire de la pensée en statistique et en économétrie.

Comme nous avons vu dans le chapitre sur le modèle de régression simple, il y a d’autres
estimateurs possibles à part l’estimateur MCO. Il y en a aussi qui satisfont un ou plusieurs des
critères souhaitables d’un estimateur (absence de biais, convergence, etc.) même s’ils sont moins
efficients. Il faut aussi signaler l’existence d’estimateurs qui peuvent être robustes en présence
d’observations aberrantes. Voir la remarque ci-dessus à propos d’une de nos hypothèses
statistiques de base, l’existence de quatrièmes moments finis pour Xi et ui . J’invite ceux qui
s’intéressent à poursuivre plus loin ce sujet à consulter l’article  Robust Statistics  sur
Wikipedia.
Le problème peut s’écrire comme
min U 0 U.
β

14
Simple, non ? Remplaçons U par sa définition. Le problème devient :

min (Y − Xβ)0 (Y − Xβ) ,


β

ce qui est équivalent à :

min (Y 0 Y − β 0 X 0 Y − Y 0 Xβ + β 0 X 0 Xβ) .
β

Vous devez être parfaitement à l’aise avec cette multiplication matricielle. On applique les mêmes
règles que pour la multiplication de scalaires en faisant bien attention à l’orientation (est-ce
qu’elles sont transposées ou non ?) des matrices.
Dérivant par rapport à β, nous obtenons :

0
−X 0 Y − X 0 Y + X 0 Xβ + (X 0 X) β = 0.

Ici, on applique les règles de différenciation matricielle auxquelles nous reviendrons dans la
sous-section suivante. Notez aussi que le  0  du côté droit est implicitement un vecteur de
zéros. L’expression du côté gauche est de dimensions (k + 1) × 1 et donc l’expression du côté
droit doit être conforme. Lorsqu’il n’y a pas d’ambiguı̈té entre scalaire et vecteur nous allons
utiliser cette notation. Pour dénoter explicitement un vecteur de zéros au lieu d’un scalaire
lorsqu’il pourrait y avoir ambiguı̈té, nous utiliserons 0 ou le nombre de colonnes sera défini selon
le contexte : si nous voulons être encore plus explicites concernant les dimensions du vecteur
nous allons utiliser 0m pour dénoter un vecteur de zéros de dimensions m × 1. Ceci nous donne

X 0 Xβ = X 0 Y.

Cet ensemble d’équations s’appelle communément les  équations normales  de l’estimation


MCO. Notez qu’il y a (k + 1) équations. Les inconnus sont les valeurs des coefficients, dont il y a

15
(k + 1). Les équations sont des fonctions linéaires des coefficients. Si la matrice (X 0 X) est de
rang plein nous pouvons l’inverser afin d’obtenir

−1 −1
(X 0 X) X 0 Xβ = (X 0 X) X 0 Y.

En fait, l’hypothèse de la possibilité d’inverser la matrice X 0 X fait partie des hypothèses de base
du modèle de régression multiple. (Voir quand même la discussion plus loin sur la
multicollinéarité parfaite.) Nous avons

−1
(X 0 X) X 0 Xβ = Iβ = β,

où I est la matrice d’identité de dimensions (k + 1) × (k + 1),

 
1 0 0 ... 0
 
 

 0 1 0 ... 0 

 
I≡
 0 0 1 ... 0 ,

.. .. .. . . ..
 
. . . . .
 
 
 
0 0 0 ... 1

et donc
−1
β ≡ β̂ = (X 0 X) X 0 Y.

J’ai écrit un chapeau sur β pour indiquer qu’il s’agit de notre estimateur MCO. Simple, non ?
C’est la première fois que nous voyons une application de la différentiation de matrices dans le
cours. Ce sera d’ailleurs presque la dernière fois.

3.4.1 Différentiation matricielle

Rappelez-vous la page D-4 du document que je vous ai donné à lire (je donne la référence exacte
encore une fois à la fin de ces notes), spécifiquement l’encadré en bas de la page :

16
∂y
y ∂x

Ax A0
x0 A A
x0 x 2x
x0 Ax Ax + A0 x

Étudiez bien la condition du premier ordre pour être sûr à 100% de comprendre comment on
l’obtient en appliquant ces règles. Notez bien aussi que, pour les fins de notre différentiation, il y
a une fonction (la somme des résidus carrés) de k + 1 variables explicatives qui sont les éléments
de β.
Notez bien que le calcul de β̂ implique l’inversion d’une matrice de dimensions
(k + 1) × (k + 1). Dans le cas général (où k > 3), nous savons que nous ne pouvons pas obtenir
une expression algébrique pour cette matrice inversée. Résoudre ce problème équivaut (ou
presque) à trouver les racines d’un polynôme d’ordre k + 1, et il y a un théorème qui dit ceci est
impossible en général (algébriquement) pour des polynômes d’ordre 5 et plus. La solution
algébrique pour un polynôme d’ordre 4 s’étale sur plusieurs pages, et elle n’est pas d’une grande
utilité pratique. Si nous voulions écrire la solution pour β avec k > 3 avec une notation de
sommations, ça serait plus qu’affreux, ça serait carrément impossible. Il y a des moyens de
contourner ce problème, mais ce sont des moyens qui datent d’avant l’époque d’ordinateurs
personnels puissants. De nos jours, nous pouvons toujours demander à l’ordinateur d’inverser nos
matrices (X 0 X), utilisant des algorithmes numériques puissants et efficaces.

17
3.4.2 Quelques exemples simples des règles de différentiation

Pour illustrer le fonctionnement de ces règles de différentiation, prenons quelques exemples


concrets très simples. D’abord, supposons que
 
 x1 
 
y= A1 A2  
x2

= A1 x1 + A2 x2 .

La fonction y dans ce cas-ci est une seule fonction (un scalaire donc). Il y a deux arguments de la
fonction (x1 et x2 ) et donc deux dérivées partielles distinctes. Par convention, on écrit les dérivées
partielles en colonne :  
∂y
∂y  ∂x1
≡

∂x

∂y
∂x2
.

Nous constatons que


∂y
= A1
∂x1

et
∂y
= A2 .
∂x2

Donc,  
∂y  A1  0
= =A,
∂x A2

ce qui est conforme à la première règle du tableau ci-dessus.


Maintenant, supposons que   
 A11 A12   x1 
y=  
A21 A22 x2

18
   
 A11 x1 + A12 x2   y1 
= ≡ 
A21 x1 + A22 x2 y2

Maintenant, y est composée de deux fonctions, définies par les deux rangées de l’expression
ci-dessus. Il y a deux fonctions avec deux arguments chacune (x1 et x2 ), et donc on a un total de
quatre dérivées partielles. Nous avons
∂y1
= A11 ,
∂x1
∂y1
= A12 ,
∂x2
∂y2
= A21 ,
∂x1

et
∂y2
= A22 .
∂x2

Par convention, on écrit ces quatre dérivées en notation matricielle comme


 
∂y1 ∂y2
∂x1 ∂x1
.
 

∂y1 ∂y2
∂x2 ∂x2

Donc, la convention revient à aligner toutes les dérivées de la même fonction dans la même
colonne, et toutes les dérivées par rapport au même argument dans la même rangée. Dans notre
cas, nous avons    
∂y1 ∂y2
∂x1 ∂x1   A11 A21  0
= =A,


∂y1 ∂y2
∂x2 ∂x2
A12 A22

et encore une fois la première règle du tableau est respectée.


Maintenant, supposons que
  
 A11 A12   x1 
 
y= x1 x2   
A21 A22 x2

19
 
 x1 
 
= x1 A11 + x2 A21 x1 A12 + x2 A22  
x2

= A11 x1 2 + A21 x1 x2 + A12 x1 x2 + A22 x2 2 .

Cette fois-ci la fonction y est scalaire. Il y a deux dérivées partielles possibles. Nous avons

∂y
= 2A11 x1 + A21 x2 + A12 x2
∂x1

et
∂y
= 2A22 x2 + A21 x1 + A12 x1 .
∂x2

Écrivant ces résultats en notation matricielle nous avons


       
∂y
∂x1   A11 A12   x1   A11 A21   x1  0
= +  = Ax + A x,

  
∂y
∂x2
A21 A22 x2 A12 A22 x2

ce qui est conforme à la quatrième règle du tableau (il est important de vérifier ceci).
Pour des cas plus compliqués (plusieurs fonctions, plusieurs arguments), les expressions non
matricielles peuvent devenir assez longues et assez compliquées. Ces règles de différentiation
matricielle permettent de tenir compte automatiquement et systématiquement (sans oublier des
termes !) de toutes les dérivées partielles possibles. Elles permettent aussi d’écrire toutes les
dérivées partielles dans une notation très compacte.

3.5 Approche non matricielle au problème de minimisation

Nous pouvons facilement vérifier qu’une approche non matricielle au problème de minimisation
mène à exactement les mêmes résultats que l’approche matricielle, comme il se doit. C’est le but
de cette sous-section des notes.
Nous avons vu que le modèle de régression multiple peut s’écrire en notation non matricielle

20
comme suit :
Yi = β0 + X1i β1 + X2i β2 + . . . + Xki βk + ui .

On veut minimiser la somme des résidus au carré. Le problème peut s’écrire comme suit :

n
X
min (Yi − β0 − X1i β1 − X2i β2 − . . . − Xki βk )2 .
β0 ,β1 ,...,βk
i=1

Les conditions du premier ordre pour minimiser cette fonction sont les suivantes (bien sûr, il y a
k + 1 conditions dur premier ordre puisqu’il y a k + 1 variables de choix pour minimiser notre
fonction (la somme des résidus au carré) :

n
X
β0 : 0 = −2 (Yi − β0 − X1i β1 − . . . − Xki βk ) ;
i=1

n
X
β1 : 0 = −2 X1i (Yi − β0 − X1i β1 − . . . − Xki βk ) ;
i=1

n
X
β2 : 0 = −2 X2i (Yi − β0 − X1i β1 − . . . − Xki βk ) ;
i=1

...
n
X
βk : 0 = −2 Xki (Yi − β0 − X1i β1 − . . . − Xki βk ) .
i=1

Il s’agit d’un système de k + 1 équations en k + 1 inconnus (les βs). S’il n’y a pas de dépendance
linéaire exacte entre les k + 1 équations (cette condition est l’équivalent non matriciel à notre
hypothèse concernant le rang de la matrice X), il y a une solution unique pour les inconnus. Nous
pouvons réécrire le système comme suit :

n
X n
X
Yi = (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1

n
X n
X
X1i Yi = X1i (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1

21
n
X n
X
X2i Yi = X2i (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1

...
n
X n
X
Xki Yi = Xki (β0 + X1i β1 + . . . + Xki βk ) .
i=1 i=1

Nous pouvons maintenant convertir ses équations en notation matricielle :


 
  Y1   
 .. 
 = 1 . . . 1 X β̂;
1 ... 1 
 . 
 
Yn

 
   Y1   
 . 
X11 . . . X1n  ..  = X X β̂;
  11 . . . X1n
 
Yn

..
.
 
  Y1   
 .. 
= X
Xk1 . . . Xkn 
 .  k1 . . . Xkn X β̂,
 
Yn

où j’ai écrit un chapeau sur β pour indiquer qu’il s’agit d’un système d’équations dont la solution
nous donne nos estimateurs moindres carrés ordinaires. Soyez sûr de comprendre ce passage à la
notation matricielle. Maintenant, en empilant les k + 1 équations les unes pardessus les autres,
nous avons tout de suite
   
1 ... 1 1 ... 1
    
   
 X11 . . . X1n Y1   X11 . . . X1n
  
  

 X
 ..  
= X

 X β̂
 21 . . . X2n .   21 . . . X2n

 
 .. .. ..
    . .. ..

 .
 . . . Yn  . . .
 
 
   
Xk1 . . . Xkn Xk1 . . . Xkn

22
⇒ X 0 Y = X 0 X β̂

⇒ β̂ = (X 0 X)−1 X 0 Y.

Nous retrouvons la même solution en notation matricielle (ce qui n’est point surprenant).

4 Propriétés algébriques de l’estimateur MCO

Comme dans le chapitre 4, nous allons montrer que l’estimateur a des propriétés algébriques qui
doivent tenir indépendamment des hypothèses statistiques concernant les variables (explicatives
et dépendante) du modèle. Ces propriétés doivent tenir pour n’importe quel échantillon de
données Nous utiliserons les résultats de cette section par la suite pour dériver certaines des
propriétés statistiques de l’estimateur MCO.

4.1 Orthogonalité

Nous avons, directement à partir des CPOs (ou à partir de la CPO matricielle),

X 0 X β̂ = X 0 Y

 
⇒ X 0 X β̂ − Y = 0
 
⇒ X 0 Y − X β̂ = 0.

Entre parenthèses, nous avons un vecteur de dimensions n × 1 qui nous donne les résidus de la
régression (variable dépendante moins la valeur prédite de la variable dépendante donnée par
X 0 β̂). Autrement dit,
Y − X β̂ ≡ U
b.

Donc, nous avons :


X 0U
b = 0,

23
où U
b est le vecteur de résidus de la régression. Les résidus sont orthogonaux aux variables

explicatives. Par définition, deux vecteurs Z1 et Z2 de dimensions n × 1 sont orthogonaux si et


seulement si
Z1 0 Z2 = 0

Cela veut dire que chaque variable explicative (chaque colonne de la matrice X) est orthogonale
aux résidus de la régression. Ce résultat est une généralisation du résultat dans le chapitre sur la
régression simple de l’orthogonalité entre la seule variable explicative (à part la constante) et les
résidus. C’est une généralisation, mais la preuve est beaucoup plus succincte que celle qu’on a
vue dans le chapitre sur la régression simple. Encore un avantage de la notation matricielle.
Nous avons vu dans le chapitre sur le modèle de régression simple que l’orthogonalité est reliée à
l’interprétation géométrique de la méthode de MCO. Estimer un modèle par MCO revient à
projeter la variable dépendante dans l’espace traversé par la variable explicative (ou les variables
explicatives dans le cas de la régression multiple). La Figure 1 ci-dessous reprend le graphique
que nous avons vu dans le chapitre précédent. C’est donc pour le cas où il y a deux variables
explicatives. La ligne de régression est considéré comme un vecteur. La ligne pointillée sur le
graphique est un vecteur dont la longueur égale la valeur de ûi à ce point. Il forme un angle droit
par rapport à la ligne de régression, d’où le terme  orthogonal . 7

Figure 1
7. Pour plus de détails voir Davidson et MacKinnon (1999) et Kachapova et Kachapova (2010). Les références
détaillées sont dans le chapitre de références.

24
4.2 Somme des résidus

Notez que, par convention, la première colonne de X représente la constante et donc contient un
vecteur de valeurs égales à un. Si nous dénotons cette première colonne par X1 (notez que nous
utilisons ici une notation d’algèbre linéaire), nous avons tout de suite

n
X
X1 0 U
b = 10 U
b= ûi = 0.
i=1

Une preuve sur une seule ligne !


Donc, la somme des résidus est égale à zéro, comme dans le modèle de régression simple. Notez
que ce résultat découle directement du résultat concernant l’orthogonalité.

4.3 Valeurs prédites

Définissons
Ŷ ≡ X β̂,

le vecteur de valeurs prédites de la variable dépendante. Nous avons

 0
0b 0 −1 0
Ŷ U = X (X X) X Y U b

−1
= Y 0 X (X 0 X) X 0U
b = 0.

Les valeurs prédites de la variable dépendante sont orthogonales aux résidus.


Finalement, nous avons
 
X 0 Ŷ − Y
 
0 0 −1 0
=X X (X X) X Y −Y

−1
= X 0 X (X 0 X) X 0 Y − X 0 Y = X 0 Y − X 0 Y = 0.

Puisque la première colonne de X est un vecteur de valeurs unitaires, une conséquence directe de

25
ce résultat est que la moyenne échantillonnale des valeurs prédites est égale à la moyenne
échantillonnale de la variable dépendante elle-même. Autrement dit :

n n
1X 1X
Ŷi = Y ≡ Ȳ ,
n i=1 n i=1

un résultat semblable à ce que nous avons vu dans le chapitre sur la régression simple.

4.4 Écart type de la régression

On définit
SER ≡ su ,

où
n
1 X SSR
s2u ≡ û2i = ,
n − k − 1 i=1 n−k−1

et donc SSR est la somme des résidus au carré. On divise par (n − k − 1) afin d’obtenir un estimé
non biaisé de la variance de l’erreur dans l’équation de régression lorsque celle-ci est constante. 8
Je sais que j’insiste beaucoup là-dessus, mais les démonstrations algébriques dans cette section
sont beaucoup plus courtes que leurs équivalents dans le chapitre précédent. C’est dans ce sens
que je dis que l’utilisation de la notation matricielle dans le contexte du modèle de régression
multiple simplifie énormément l’analyse. S’il fallait dériver les mêmes propriétés sans avoir
recours aux matrices, les démonstrations s’étaleraient sur plusieurs pages.
8. Ici on suppose implicitement des erreurs homoscédastiques, ou à variance constante. Sinon il n’est pas logique
de parler de  la  variance de l’erreur.

26
4.5 Mesures d’ajustement statistique

4.5.1 Le R2

La mesure R2 est définie de la même façon que dans le cas du modèle de régression simple :

ESS SSR
R2 = =1− ,
TSS TSS

où on définit
n 
X 2
ESS ≡ Ŷi − Ȳ ,
i=1

où Ȳ est la moyenne échantillonnale des Yi , et

n
X 2
TSS ≡ Yi − Ȳ
i=1

Nous avons supposé implicitement ici que

TSS = SSR + ESS.

En fait, il faut démontrer ce résultat, comme nous avons fait dans le chapitre sur le modèle de
régression simple. Nous avons

 0  
Y 0 Y = X β̂ + U
b X β̂ + U
b

= β̂ 0 X 0 X β̂ + β̂ 0 X 0 U b 0 X β̂ + U
b +U b 0U
b

= β̂ 0 X 0 X β̂ + U
b 0U
b

b 0U
≡ Ŷ 0 Ŷ + U b = Yb 0 Yb + SSR.

Nous avons utilisé pour passer à l’avant dernière ligne de cette séquence d’équations le résultat

27
que X 0 U
b = 0. Nous avons presque montré le résultat voulu en quatre lignes, mais nous avons

0
TSS ≡ (Y − Ȳ) (Y − Ȳ)

0 0
= Y 0 Y − Ȳ Y − Y 0 Ȳ + Ȳ Ȳ

où Ȳ est un vecteur de constantes avec chaque valeur égale à Ȳ , et nous avons

 0  
ESS ≡ Ŷ − Ȳ Ŷ − Ȳ

0 0
Ŷ 0 Ŷ − Ȳ Ŷ − Ŷ 0 Ȳ + Ȳ Ȳ.

Donc, nous devons montrer que


0 0
Ȳ Ŷ = Ȳ Y
n
X n
X
⇐⇒ Ȳ Ŷi = Ȳ Yi
i=1 i=1

n n
1X 1X
⇐⇒ Ŷi = Yi = Ȳ ,
n i=1 n i=1

ce qui doit être le cas puisque nous avons montré parmi les propriétés algébriques de l’estimateur
MCO que la moyenne échantillonnale des valeurs prédites de la variable dépendante doit être
égale a la moyenne échantillonnale de la variable dépendante elle-même. Donc, nous venons de
montrer que
TSS = ESS + SSR.

Sachant que Y ≡ Ŷ + U
b , une façon plus succincte de le faire est comme suit :

0
TSS = (Y − Ȳ) (Y − Ȳ)

 0  
= Ŷ + U − Ȳ
b Ŷ + U − Ȳ
b

28
  0   
= Ŷ − Ȳ + U
b Ŷ − Ȳ + U
b

 0    0  
= Ŷ − Ȳ Ŷ − Ȳ + Ŷ − Ȳ U b +U b 0U
b 0 Ŷ − Ȳ + U b

 0  
= Ŷ − Ȳ b 0U
Ŷ − Ȳ + U b

≡ ESS + SSR,

puisque nous avons montré auparavant que Ŷ 0 U


b = 0 et

n n
0b
X X
Ȳ U = Ȳ Ûi = Ȳ Ûi = 0.
i=1 i=1

Dans le chapitre sur le modèle de régression simple, nous avons appris que l’ajustement
statistique R2 était égal au coefficient de corrélation (échantillonalle) au carré entre la variable
dépendante et la (seule) variable explicative. Il y a un résultat semblable pour le modèle de
régression multiple. Nous pouvons montrer que le R2 est égale au coefficient de corrélation
(échantillonnale) au carré entre Y et Ŷ , le vecteur de valeurs prédites de la variable
dépendante.
La preuve de ce résultat est facile, mais il faut introduire un peu de notation pour la rendre
plus succincte. (Pour plus d’explications, voir le 3e chapitre du livre de Greene, 2011.) Soit i
le vecteur colonne où chaque élément est égal à un. La longueur du vecteur (nombre de
rangées) dépendra du contexte. Définissons

 
−1
M 0 ≡ I − i (i0 i) i0 .

Si on prémultiplie un vecteur quelconque Y par M 0 la multiplication aura pour effet de


soustraire la moyenne Ȳ de chaque élément du vecteur Y . Nous avons

 
−1
M 0 Y = I − i (i0 i) i0 Y

29
−1 0
= Y − i (i0 i) iY
n
1X
=Y −i Yi
n i=1

= Y − iȲ ≡ Y − Ȳ,

puisque (i0 i)−1 =


Pn
1
n
et i0 Y = i=1 Yi . Il est aussi facile de montrer que

0
M0 = M0

et
M 0M 0 = M 0.

Une matrice qui a ces propriétés est appelée une matrice  idempotente . De cette façon,
nous pouvons redéfinir le R2 comme

 0  
ESS Ŷ − Ȳ Ŷ − Ȳ
R2 ≡ = 0
T SS (Y − Ȳ) (Y − Ȳ)

Ŷ 0 M 0 Ŷ
= .
Y 0M 0Y

Nous avons aussi


M 0 Û = Û

puisque la somme des résidus est zéro. Donc, nous avons

 
Ŷ 0 M 0 Ŷ = Ŷ 0 M 0 Y − Û

= Ŷ 0 M 0 Y − Ŷ 0 M 0 Û

= Ŷ 0 M 0 Y − Ŷ 0 Û

30
= Ŷ 0 M 0 Y − β̂ 0 X 0 Û

(puisque Ŷ ≡ X β̂)
= Ŷ 0 M 0 Y − 0 = Ŷ M 0 Y

puisque X 0 Û = 0 (orthogonalité entre les variables expicatives et les résidus).


Nous pouvons donc écrire le R2 comme

Ŷ 0 M 0 Y
R2 =
Y 0M 0Y

Ŷ 0 M 0 Y Ŷ 0 M 0 Y
=
Y 0 M 0 Y Ŷ 0 M 0 Y

(multipliant numérateur et dénominateur par la même chose)


  
Ŷ 0 M 0 Y
Ŷ 0 M 0 Y
=  
0 0 0
(Y M Y ) Ŷ M Y 0

  
Ŷ 0 M 0 Y Ŷ 0 M 0 Y
=  .
(Y 0 M 0 Y ) Ŷ 0 M 0 Ŷ

On peut réécrire ceci en notation non matricielle pour obtenir


     
0 0 0 0 0 0 0 0 0 0
Ŷ M Y Ŷ M Y Ŷ M M Y Ŷ M M Y
  =  
(Y 0 M 0 Y ) Ŷ 0 M 0 Ŷ (Y 0 M 0 M 0 Y ) Ŷ 0 M 0 M 0 Ŷ

P
n
  2
i=1 Ŷi − Ȳ Yi − Ȳ
=  2 
Pn 2  Pn 
i=1 Yi − Ȳ i=1 Ŷi − Ȳ


1
Pn   2
n−1 i=1 Ŷi − Ȳ Yi − Ȳ
=  2 
1
Pn 
2 1
P 
n
n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ

31
 2
1
Pn   
 n−1
Ŷi − Ȳ Yi − Ȳ
i=1 
=
q r 

2 
1
Pn 2 1
Pn
n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ

  2
≡ Corr Y, Ŷ .

Ceci permet de réinterpréter notre mesure d’ajustement statistique. Dans un contexte de


prévision, le R2 nous dit à quel point le modèle de régression permet de prédire les variations
de la variable dépendante autour de sa moyenne, mesuré par la corrélation entre les valeurs
prédites et les valeurs réalisées.

Notez aussi que ce résultat ne dépend pas du nombre de colonnes dans X. Il s’applique aussi
bien au modèle de régression simple qu’au modèle de régression multiple. Dans le cas du
modèle de régression simple, nous avons

  
Ŷi − Ȳ = Xi − X̄ β̂1 ,

où maintenant Xi est un scalaire. Nous avons tout de suite

 2
1
Pn   
 n−1 i=1 Ŷi − Ȳ Yi − Ȳ 
 r 
q Pn 2  2 
1 1
Pn
n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ

 2
1
Pn    
 n−1 i=1 Xi − X̄ β̂1 Yi − Ȳ 
=
q r 

2 
1
Pn 2 1
Pn 
n−1 i=1 Yi − Ȳ n−1 i=1 Xi − X̄ β̂1

 Pn 2
1
 
n−1 i=1 X i − X̄ Y i − Ȳ
= q Pn 2 q 1 Pn 2

1
n−1 i=1 Yi − Ȳ n−1 i=1 Xi − X̄

2
≡ Corr (Y, X) .

32
On voit que le résultat trouvé dans le chapitre sur le modèle de régression simple n’est qu’un
cas spécial du résultat général développé ici.

4.5.2 Le R2 ajusté

On peut facilement montrer mathématiquement que le fait de rajouter une variable explicative
additionnelle à un modèle de régression multiple ne peut que faire augmenter son R2 . Si vous êtes
à l’aise avec les principes de base de l’optimisation sous contrainte, ce résultat est évident.
L’estimateur MCO est la solution à un problème de minimisation. Si on minimise la somme des
résidus carrés sujet à la contrainte qu’un des coefficients est égal à zéro (on enlève la variable du
modèle), et puis on minimise la somme des résidus carrés en ne pas imposant cette contrainte, la
somme des résidus carrés doit être au moins aussi petite dans le dernier cas, puisque nous
relâchons une des contraintes du problème de minimisation.
De cette façon, nous pouvons toujours  améliorer  l’ajustement statistique d’une régression en
ajoutant des variables explicatives. En fait, si nous avons autant de variables explicatives que
d’observations ((k + 1) = n), il est possible d’atteindre un ajustement statistique  parfait . Il
faudrait trouver la solution à
0 = U = Y − X β̂

⇒ Y = X β̂.

Nous avons n équations et n inconnus. Dans la mesure où X est de rang plein (rang n), nous
avons
β̂ = X −1 Y.

Donc, un R2 élevé n’est pas toujours et partout une bonne chose.


Puisque l’ajustement mesuré par le R2 ne peut qu’augmenter quand on ajoute des variables
explicatives, il serait bien d’avoir une autre mesure qui pénalise la mesure par un facteur
lorsqu’on ajoute des variables explicatives. Le R2 ajusté, dénoté par R̄2 est une telle mesure.

33
Voici sa définition :
n − 1 SSR s2
R̄2 ≡ 1 − = 1 − 2û .
n − k − 1 TSS sY

On peut souligner trois propriétés du R̄2 .


n−1
1. Puisque n−k−1
> 1, on sait que R̄2 < R2 .

2. Le fait d’ajouter une variable explicative supplémentaire a deux effets sur R̄2 . D’une part,
la somme des résidus carrés SSR doit baisser, ce qui fait augmenter R̄2 . D’autre part, le
n−1
facteur n−k−1
augmente, ce qui fait diminuer R̄2 .

3. Il est possible que R̄2 soit négatif.

La pénalité pour l’ajout d’une variable explicative additionnelle peut sembler arbitraire. Par
contre, on peut montrer que la mesure R̄2 est reliée au concept de tests d’hypothèse. Voir
Edwards (1969) ou Giles (2013b). Je présente dans cet encadré la preuve telle que présentée
par Giles. Je suggère de revenir en arrière pour relire cet encadré une fois que vous aurez lu la
section (9) sur les tests d’hypothèse, puisqu’il s’agit ici de tester une hypothèse jointe, un
sujet que nous n’avons pas encore couvert.
Considérez le modèle de régression linéaire donné par

Y = Xβ + U.

Nous avons, comme d’habitude,


b ≡ Y − X β̂.
U

Nous avons aussi


SSR Ub 0U
b
R2 ≡ 1 − =1− 0
T SS

Y − Ȳ Y − Ȳ

et
SSR/(n − k − 1) Ub 0U
b /(n − k − 1)
2
R̄ ≡ 1 − =1− 0 .
T SS/(n − 1)

Y − Ȳ Y − Ȳ /(n − 1)

34
Considérez maintenant le modèle où on laisse tomber j des variables explicatives du modèle
initial. (Notez qu’au lieu de raisonner en termes de l’ajout de variables explicatives, nous
raisonnons en termes de ce qui arrive si on laisse tomber des variables explicatives.) Appelons
la mesure d’ajustement statistique de ce nouveau modèle Rr2 où l’indice inférieur est censé
faire penser à  restreint . Nous avons

SSRr Ubr0 U
br
Rr2 ≡ 1 − =1− 0
T SS

Y − Ȳ Y − Ȳ

et
SSRr /(n − k − 1 + j) b0U
U r r /(n − k − 1 + j)
b
R̄r2 ≡ 1 − =1− 0
T SS/(n − 1)

Y − Ȳ Y − Ȳ /(n − 1)

où U
br est le vecteur de résidus du modèle contraint où nous laissons tomber j des variables

explicatives et SSRr est la somme des résidus au carré de ce modèle contraint. Nous avons
maintenant
SSR/(n−k−1)
R̄2 1 − T SS/(n−1)
=
R̄r2 1 − SSRTrSS/(n−1)
/(n−k−1+j)

T SS/(n − 1) − SSR/(n − k − 1)
= .
T SS/(n − 1) − SSRr /(n − k − 1 + j)

Nous pouvons voir tout de suite que R̄2 > R̄r2 si

T SS/(n − 1) − SSR/(n − k − 1) > T SS/(n − 1) − SSRr /(n − k − 1 + j)

⇒ SSRr /(n − k − 1 + j) > SSR/(n − k − 1)

⇒ SSR(n − k − 1 + j) < SSRr (n − k − 1)

⇒ SSR(n − k − 1) + SSRj < SSRr (n − k − 1)

⇒ SSRr > SSR + SSRj/(n − k − 1)

35
⇒ (SSRr − SSR) /j > SSR/(n − k − 1)

(SSRr − SSR) /j
⇒ > 1.
SSR/(n − k − 1)

Le bras gauche de cette dernière inégalité est à comparer avec la stastique F pour tester j
restrictions linéaires dans le cas d’erreurs homoscédastiques dans la sous-section 9.8.
(Nous n’avons pas encore introduit le concept de tester des hypothèses jointes : il fera l’objet
de la section 9).
Donc, le R̄2 va augmenter avec l’ajout de j variables explicatives si la statistique F pour
tester leur significativité a une valeur supérieure à un. Ceci n’est pas un critère très restrictif.
Comment peut-on savoir que ce n’est pas un critère très restrictif ? Par exemple, pour la
distribution F avec 3 et 1000 degrés de liberté, la fonction de distribution cumulée évaluée à
Fact = 1 est égale à 0.462. Donc, si on ajoute 3 variables à un modèle de régression (estimé
avec un échantillon d’un peu plus de 1000 observations) qui, par construction n’aident pas à
prédire la variable dépendante, on va rejeter l’hypothèse nulle de la non-significativité de ces
trois variables plus que la moitié du temps (avec une probabilité de 1 − 0.462 = 0.538) même
si on sait qu’elle est vraie.
On montre dans la section 9 sur les tests d’hypothèse que dans le cas d’une seule restriction
(j = 1), la statistique F est égale au carré de la statistique t. Donc, lorsqu’on ajoute une seule
variable explicative à un modèle de régression, le R̄2 va augmenter si la statistique t pour
tester sa significativité a une valeur absolue supérieure à un. Pour une variable aléatoire qui
suit une loi normale centrée réduite, la probabilité d’obtenir une valeur supérieure à un en
valeur absolue est approximativement égale à 32%. Donc, l’ajout d’une variable au modèle de
régression fait augmenter le R̄2 si le taux de significativité marginale pour un test de sa
significativité est égal à 0.32 ou moins, ce qui n’est pas un critère très conservateur ou très
exigeant.

36
5 Propriétés statistiques de l’estimateur MCO

5.1 Propriétés statistiques : absence de biais

Toutes les propriétés (algébriques) de l’estimateur MCO que nous avons montrées jusqu’à
maintenant tiennent indépendamment des hypothèses statistiques de la section 3.3. La seule
hypothèse que nous avons utilisé pour dériver les propriétés algébriques est celle du rang plein en
colonnes de X et donc de la possibilité de calculer (X 0 X)−1 .
Pour montrer l’absence de biais, nous utilisons la stratégie habituelle. Nous remplaçons Y dans la
définition de l’estimateur par sa définition (Xβ + U ), nous simplifions, et finalement nous
calculons la valeur espérée de l’estimateur en utilisant la loi des espérances itérées.
Nous avons :
β̂ = (X 0 X)−1 X 0 Y

= (X 0 X)−1 X 0 (Xβ + U )

= β + (X 0 X)−1 X 0 U
 
→ E β̂ = β + E (X 0 X)−1 X 0 U


= β + E E (X 0 X)−1 X 0 U |X


= β + E (X 0 X)−1 X 0 E (U |X) = β.


L’avant-dernière égalité dépend de la loi des espérances itérées.


Je ne sais pas si vous êtes d’accord, mais je crois que la démonstration de l’absence de biais dans
le cas du modèle de régression multiple est beaucoup plus simple que dans le cas du modèle de
régression simple, à cause de l’utilisation de la notation matricielle. La preuve s’écrit sur quelques
lignes seulement est elle est assez transparente.

37
5.2 Petite note : théorème de Slutsky

Pour dériver la convergence de l’estimateur β̂ et pour dériver sa distribution en grand échantillon,


nous allons devoir faire appel au théorème de Slutsky.
L’énoncé du théorème se trouve dans le manuel à la page 685. Il est utile, sinon très utile, sinon
archi utile. Il dit essentiellement que si une variable aléatoire converge en probabilité à quelque
chose, une fonction continue de la variable aléatoire converge à la même fonction de ce à quoi
converge la variable aléatoire.
Un énoncé un peu plus général du théorème se trouve à Wikipedia ( Slutsky’s Theorem ). Il dit
que si
p
Xn →
− X,

alors
p
h (Xn ) →
− h(X),

où h(·) est une fonction quelconque (pas tout à fait quelconque, puisqu’il faut imposer certaines
restrictions techniques, quant à la continuité par exemple). Les conditions qui doivent tenir pour
que le théorème tienne sont explicitées dans l’article chez Wikipedia.
Pourquoi est-ce que ce théorème est si utile ? Si on veut analyser le comportement en grand
échantillon d’un estimateur, on peut analyser le comportement de ses composantes, sachant que
(sous certaines conditions techniques) si les composantes convergent en probabilité à quelque
chose, et si l’estimateur est une fonction des composantes, l’estimateur converge en probabilité à
cette fonction. De façon informelle, si

Zn = f (Xn , Yn ) ,

p p
et si Xn →
− X et Yn →
− Y , alors
p
Zn →
− f (X, Y ).

Voir l’équation (17.9) du manuel (version anglaise) pour un énoncé un peu plus général. Si

38
p d
an →
− a où a est une constante et si Sn →
− S, alors

d
an + Sn →
− a + S,

d
an S n →
− aS,

et si a 6= 0,
Sn d S

− .
an a

Le fait de pouvoir travailler avec des morceaux individuels de nos estimateurs nous facilite
grandement la vie. Notez que la manipulation algébrique des limites de probabilité est beaucoup
plus simple que la manipulation algébrique des espérances. Nous savons qu’en général,

E (XY ) 6= E(X)E(Y ),

sauf dans le cas de variables aléatoires indépendantes, et nous savons aussi qu’en général

Ef (X) 6= f (E(X)) ,

sauf dans le cas où f est une fonction linéaire (le cas du fameux encadré 2.3 qui nous dit entre
autres que l’espérance d’une fonction linéaire de variables aléatoires est égale à la fonction
linéaire des espérances des variables aléatoires).

5.3 Propriétés statistiques : convergence

β̂ = (X 0 X)−1 X 0 Y

= (X 0 X)−1 X 0 (Xβ + U )

= β + (X 0 X)−1 X 0 U

39
−1 
(X 0 X) (X 0 U )
   
→ β̂ − β =
n n

Nous avons divisé et multiplié par le scalaire n afin de pouvoir parler de convergence en
(X 0 X)
probabilité. n
est une matrice dont l’élément i, j est donné par

n
X i 0 Xj 1X
= Xi−1,l Xj−1,l .
n n l=1

Du côté gauche on utilise la notation matricielle standard. Du côté droit, on utilise la notation du
manuel pour le modèle de régression multiple. Notez encore une fois l’inversion des indices
inférieurs entre la notation matricielle standard et la notation du modèle de régression multiple
utilisé dans le livre. Dans l’ième colonne de la matrice, on retrouve les observations sur la
variable explicative i − 1. Par une des hypothèses du modèle de régression multiple, nous avons

Xi 0 X j
lim = E (Xi 0 Xj ) .
n→∞ n

(X 0 X)
Ceci veut dire qu’il y a convergence en probabilité vers l’espérance de Xi 0 Xj . Donc, n

converge en probabilité à Qx , qui est définie comme

X 0X
 
Qx ≡ E .
n

C’est donc une matrice des deuxièmes moments des variables explicatives. Notez que ce n’est pas
une matrice variance-covariance des variables explicatives puisque nous ne soustrayons pas les
moyennes. 9 Une des hypothèses du modèle est que la matrice (X 0 X) est inversible (absence de
multicollinéarité complète). Si c’est le cas, X 0 X satisfait les conditions du théorème de Slutsky, et
donc la limite de probabilité de l’inverse de la matrice est l’inverse de la limite de probabilité.
9. Comme nous avons vu dans le chapitre de rappel sur la théorie des probabilités, nous pouvons en général faire
une distinction entre l’énième moment brut d’une variable aléatoire Y donné par E (Y n ) et l’énième moment centré
n
donné par E ((Y − E(Y )) ). Revoir le chapitre sur la théorie des probabilités pour un rappel. La covariance entre deux
variables aléatoires X et Y , E ((Y − E(Y )) (X − E(X))), est donc un moment centré, et notre Qx est un moment
brut.

40
Donc, le premier terme converge en probabilité à

(Qx )−1

Le deuxième terme converge en probabilité à zéro. Je ne vais pas faire la preuve formelle de cet
énoncé. Par contre, nous avons déjà vu que son espérance est nulle :

(X 0 U ) (X 0 E (U |X))
   
E =E = 0.
n n

Sa variance est donnée par


(X 0 U )
 
Var
n
 2
1
= Var (X 0 U ) .
n

Il s’agit de la variance d’un vecteur de dimensions (k + 1) × 1. Si on considère l’ième colonne de


la matrice X, nous avons
 
1 0
Var Xi U
n
 2
1
= Var (Xi 0 U )
n
 2 n
!
1 X
= Var Xi−1,l Ul
n l=1
 2 Xn
1
= Var (Xi−1,l Ul ) .
n l=1

Définissons Xi−1,l Ul ≡ Vi,l . Nous avons

 
1 0
Var Xi U
n

 2 Xn
1
= Var (Vi,l )
n l=1

41
 2
1
= nVar (Vi )
n
 
1
= Var (Vi ) .
n

Nous avons fait des hypothèses de quatrième moments finis et d’observations i.i.d., et donc la
variance Var (Vi ) est finie et constante. Nous avons

 
1
lim Var (Vi ) = 0.
n→∞ n

Avec une espérance de zéro et une variance qui tend vers zéro, on a (presque) la preuve de la
convergence :
(X 0 U ) p

− 0.
n

Les hypothèses du théorème de Slutsky sont satisfaites, donc la limite de probabilité du produit
est le produit des limites de probabilité. Donc, nous avons :

 
p
β̂ − β →− 0.

Interprétation alternative de l’estimateur MCO

Nous avons maintenant étudié la convergence en probabilité de l’estimateur MCO, ce qui


nous permet de mentionner une autre interprétation possible de l’estimateur. Je vous
encourage fortement à lire cet encadré et même à retenir les étapes algébriques, qui sont
extrêmement simples.
Nous savons que nous pouvons écrire le modèle de régression multiple comme

Y = Xβ + U.

42
Nous pouvons prémultiplier les deux membres de l’équation par X 0 pour obtenir

X 0 Y = X 0 Xβ + X 0 U.

Maintenant, laissons tomber le dernier terme X 0 U et remplaçons tout de suite β par β̂ pour
obtenir
X 0 Y = X 0 X β̂.

Prémultipliant l’équation par (X 0 X)−1 nous obtenons

−1
β̂ = (X 0 X) X 0Y

Il faut avouer que ceci est une dérivation ultra simple de l’estimateur. Quelle est la
justification de procéder ainsi ? Nous avons tout de suite que

 
X X β̂ − β = X 0 Y − X 0 Y + X 0 U = X 0 U.
0

Avec les hypothèses statistiques que nous faisons nous avons

1 0 p
XU→
− 0
n

et donc
1 0  
p
X X β̂ − β →− 0
n
 
p
⇒ β̂ − β →− 0.

Avec nos hypothèses de base nous avons, en quelques lignes seulement, la dérivation de
l’estimateur MCO (sans même résoudre un problème de minimisation !) et une démonstration
de sa convergence.

43
Cette logique va aussi nous permettre de dériver facilement l’estimateur IV (variables
instrumentales) vers la fin du cours et vers la fin du chapitre sur les tests diagnostics.

Encore une interprétation alternative

Parmi nos hypothèses statistiques de base nous avons celle concernant la moyenne
conditionnelle du terme d’erreur :
E (U |X) = 0.

Par la loi des espérances itérées nous avons

E (U ) = E (E (U |X)) = 0

et
E (X 0 U ) = E (E (X 0 U |X)) = E (X 0 E (U |X)) = 0.

Pour cette raison nous avons

Cov (X, U ) = E (X 0 U ) − E (X 0 ) E (U ) = 0.

Donc, nous avons


E (X 0 Y ) = E (X 0 (Xβ + U ))

= E (X 0 Xβ) + E (X 0 U ) = E (X 0 X) β

−1
⇒ β = (E (X 0 X)) E (X 0 Y )

Les vraies valeurs des β doivent être égales à cette fonction de matrices d’espérances
(moments). Ceci suggère que l’on pourrait trouver un estimateur convergent de β en
remplaçant les espérances (moments) dans la population par leurs équivalents

44
échantillonnaux :

 −1  
1 0 1 −1
β̂IV ≡ (X X) (X Y ) = (X 0 X) X 0 Y.
0
n−1 n−1

Donc, selon cette interprétation, l’estimateur IV est un estimateur où on estime des moments
dans la population par leurs équivalents échantillonnaux. En fait, c’est un exemple d’un
estimateur dans la classe d’estimateurs par la méthode des moments.

5.4 Petite note sur les covariances en notation matricielle

En guise de préparation pour la sous-section suivante, on va se pencher dans cette sous-section


sur comment écrire des covariances en notation matricielle. Prenons un vecteur de k variables
aléatoires Y de dimensions k × 1. Nous pouvons écrire les espérances de toutes les variables
aléatoires en notation matricielle tout simplement comme :

E(Y ).

Considérons maintenant la matrice suivante :

(Y − E(Y )) (Y − E(Y ))0 .

Cette matrice est de dimensions k × k. L’élément dans l’i-ième rangée et la j-ième colonne de
cette matrice est :
(Yi − E (Yi )) (Yj − E (Yj )) .

Par définition,
E ((Yi − E (Yi )) (Yj − E (Yj )))

45
nous donne la covariance entre les variables aléatoires Yi et Yj . Dans le cas où i = j, nous avons
par définition la variance de Yi .
Donc, la matrice suivante :
E (Y − E(Y )) (Y − E(Y ))0 ,


est une matrice qui contient toutes les variances des variables aléatoires dans Y (le long de la
diagonale) et toutes les covariances possibles entre les variables aléatoires dans Y . En fait,
puisque
Cov (Yi , Yj ) = Cov (Yj , Yi ) ,

la matrice est symétrique, avec l’élément i, j égal à l’élément j, i. Donc, nous pouvons écrire de
façon succincte toutes les variances et covariances possibles entre les variables aléatoires
regroupés dans un vecteur Y .

5.5 Propriétés statistiques : distribution en grand échantillon

Cette section est un peu ardue. Son but est de développer une expression pour la matrice
variance-covariance de l’estimateur β̂, et de contraster la variance  robuste  (lorsque on ne fait
pas d’hypothèse particulière concernant l’homoscédasticité) avec la variance en présence
d’homoscédasticité. Dans votre travail pratique de tous les jours d’économètres, vos logiciels
(comme R, STATA ou GRETL) vont faire les calculs développés dans cette sous-section
automatiquement. Par contre, si jamais vous voulez utiliser un logiciel comme MATLAB ou Excel
où la matrice variance-covariance robuste n’est pas calculée automatiquement, vous allez pouvoir
programmer son calcul vous-mêmes.
Nous voulons travailler avec une expression dont la variance ne diminue pas vers zéro lorsque
 
n → ∞. Donc, au lieu de travailler avec β̂ − β , qui converge vers une constante (convergence
en probabilité), nous avons :
√  
n β̂ − β

46
−1 
(X 0 X) (X 0 U )
 
= √ .
n n

Le dernier terme, au lieu de converger à une constante, a maintenant une variance qui ne décroı̂t
pas avec n. Nous avons donc quelque chose qui va converger en distribution, et non quelque
chose qui va converger en probabilité vers un vecteur de constantes.
Nous avons déjà vu dans la sous-section sur l’absence de biais que

 
E β̂ − β = 0.

√  
Donc, une expression qui nous donne la matrice de variance-covariance de n β̂ − β est
donnée par :
   0 
E n β̂ − β β̂ − β
  √
Notez bien la multiplication de β̂ − β par n. Dans le modèle de régression simple, nous
avons vu que la variance de l’estimateur β̂1 décroı̂t au rythme 1/n et donc tend vers zéro lorsque
n tend vers l’infini. Nous voulons travailler avec une variable aléatoire (plutôt un vecteur de
variables aléatoires) qui reste une variable aléatoire même lorsque la taille de l’échantillon tend

vers l’infini. Pour cette raison, nous multiplions par n, ce qui nous laissera avec une variance
qui ne tend pas vers zéro et, d’autre part, reste finie lorsque n tend vers l’infini.
√  
Pour évaluer la matrice variance-covariance de n β̂ − β , nous devons examiner le
comportement en grand échantillon de

−1  !  −1  !0


(X 0 X) (X 0 U ) (X 0 X) (X 0 U )

√ √
n n n n

−1  0   0 0  0 −1
(X 0 X)

(X U ) (X U ) (X X)
= √ √ .
n n n n
 0 −1
Nous avons déjà vu que (XnX) converge en probabilité à (Qx )−1 . Donc, nous devons nous

47
pencher sur le comportement de

0
(X 0 U ) (X 0 U )
 
√ √ .
n n

(X 0 U ) est un vecteur de dimensions (k + 1) × 1, puisque X est de dimensions n × (k + 1) et U


est de dimensions n × 1. Nous avons :

 
ui
 
 
 X1i ui 
Xn  n
 X
0
 
(X U ) =  X u ≡ Vi .
 2i i 
i=1
 ..  i=1
 
 . 
 
Xki ui

Par hypothèse, selon le  Key Concept 18.1 , les Vi sont i.i.d. Cela veut dire que

n
1X
Vi
n i=1

converge en probabilité à un vecteur de zéros, et que (par une version du théorème de la limite
centrale),
n
1 X
√ Vi
n i=1

converge en distribution à un vecteur de variables normales dont la moyenne est zéro (on sait cela
puisque nous avons montré l’absence de biais) et dont la variance est donnée par :

E (Vi Vi 0 ) ≡ ΣV .

Donc, nous pouvons encore une fois invoquer le théorème de Slutsky pour dire que

√  
d
− N 0k+1 , Qx −1 ΣV Qx −1 ,

n β̂ − β →

48
où nous utilisons 0k+1 pour dénoter un vecteur de zéros de dimensions (k + 1) × 1.

5.5.1 Cas homoscédastique

Dans le cas homoscédastique, la variance de ui est constante et indépendante des Xi .


Formellement, nous pouvons écrire :

E (U U 0 |X) = E (U U 0 ) = σu2 In .

Nous avons :
  0 0
(X 0 U )

(X U )
√ √
n n
 0
X U U 0X p
    
1 2 0 1 2 0
= →
− E σ X In X = E σ XX
n n u n u

= σu2 Qx .

√  
Donc, l’expression pour la variance de n β̂ − β se simplifie beaucoup. Nous avons :

√  
d
− N 0k+1 , σu2 Qx −1 Qx Qx −1 = N 0k+1 , σu2 Qx −1 .
 
n β̂ − β →

6 Variance échantillonnale de β̂
√  
Comme d’habitude, notre dérivation de la distribution en grand échantillon de n β̂ − β
dépend de quantités que nous ne connaissons pas, par exemple de

X 0X
 
Qx ≡ E .
n

Il est (presque) toujours le cas que nous ne connaissons pas les vrais moments (moyennes,
variances, moments bruts – voir la note de bas de page à la page 15) de nos variables aléatoires.
Que faire alors si nous voulons développer une expression pour la variance de notre estimateur β̂,

49
basée sur des quantités que nous pouvons mesurer ? Nous suivons la stratégie habituelle, que nous
avons déjà utilisée à maintes reprises, de remplacer les moments non connus de la population par
des estimateurs convergents. Donc, nous remplaçons Qx par :

(X 0 X)
Q̂x ≡ .
n

Nous remplaçons ΣV par :


n
1 X
Σ̂V ≡ Xi 0 Xi (ûi )2 , (2)
n − k − 1 i=1

où Xi est l’ième rangée de la matrice X. 10 Comme d’habitude, nous divisons par (n − k − 1) ici
et non par n afin d’obtenir un estimé non biaisé. Nous n’allons pas montrer explicitement que
cette expression est un estimateur convergent de ΣV , mais nous aurions pu le faire.
Nous pouvons dire un peu plus sur la justification d’utiliser cet estimateur de la matrice
variance-covariance ΣV . Nous avons vu que ΣV peut s’écrire

ΣV = E (Vi Vi 0 )

  0 
 ui   ui  
  
 X1i ui   X1i ui 
   
 
    
= E 
 
X2i ui   X2i ui  
  
 
 . .

 ..   .. 
   
 
  
 
Xki ui Xki ui

10. J’utilise la notation matricielle standard ici. Stock et Watson à la page 699 du manuel définissent Xi comme un
vecteur colonne, ce qui n’est pas conforme à la notation matricielle standard. Pourquoi introduire encore une autre
incohérence entre la notation standard et la leur ?

50
 
2 2 2 2
ui X1i ui X2i ui ... Xki ui
 
 X1i ui 2 X1i 2 ui 2 X1i X2i ui 2
 
 . . . X1i Xki ui 2 

 
= E 2
 X2i ui X2i X1i ui
 2
X2i 2 ui 2 . . . X2i Xki ui 2  .

.. .. .. ... ..
 
. . . .
 
 
 
Xki ui 2 Xki X1i ui 2 Xki X2i ui 2 ... Xki 2 ui 2

Il est maintenant possible de voir clairement que l’estimateur défini dans (2) revient à remplacer
les espérances des produits de variables aléatoires dans la matrice par leurs équivalents
échantillonnaux. Donc, c’est une application de la stratégie habituelle de remplacer un moment
dans la population par le moment échantillonnal équivalent.
Nous pouvons finalement écrire :

 
1  −1  −1  
β̂ ≈ N β, Q̂x Σ̂v Q̂x ≡ N β , Σ̂β̂ .
n

J’utilise ici la notation  ≈  pour capter l’idée que β̂ suit une distribution qui est
approximativement normale. Notez que c’est encore le théorème de Slutsky qui nous permet de
dire que si nous avons un produit de trois estimateurs convergents, la limite en probabilité (ou
dans ce cas-ci la limite en distribution) du produit est le produit de la limite en probabilité des
trois termes.
Notez que tous les éléments de la matrice variance-covariance de notre estimateur β̂ diminuent au
rythme 1/n, comme nous avons vu dans la section précédente. Ceci reflète le fait que, sous les
hypothèses statistiques utilisées, β̂ est un estimateur convergent des vraies valeurs de β.
Tout bon logiciel de régression, comme R, STATA ou GRETL, calcule la matrice
variance-covariance de β̂ automatiquement. Mais attention ! Nous avons développé ici une
expression pour la matrice variance-covariance robuste (où la variance du terme d’erreur ui n’est
pas forcément constante et indépendante des Xi ). Il faut en général vérifier dans la documentation
du logiciel s’il calcule par défaut la matrice robuste où la matrice qui impose une hypothèse
d’homoscédasticité (sous-section suivante). Si l’option par défaut est la matrice

51
variance-covariance sous l’hypothèse d’homoscédasticité, il faut spécifier dans le code de son
programme le calcul de la matrice robuste.
Habituellement, l’output du logiciel de régression ne donne pas la matrice variance-covariance au
complet, mais se limite plutôt à donner l’écart type robuste associé à chaque coefficient
individuel. L’écart type de β̂i est la racine carrée de l’i-ième élément diagonal de Σ̂β̂ . Par contre,
le logiciel a besoin de la matrice variance-covariance au complet lorsqu’il s’agit d’effectuer un
test d’hypothèses jointes. Nous nous pencherons sur cette question dans la dernière section de ces
notes.

6.1 Cas homoscédastique

Encore une fois, nous suivons la stratégie général de remplacer les moments inconnus par des
estimateurs convergents. Un estimateur convergent de σu2 est donné par :

n
1 X
s2u ≡ û2 .
n − k − 1 i=1 i

Il s’agit de la même expression que nous avons vue qui mène à la définition de l’écart type de la
régression.
Nous avons déjà rencontré l’estimateur convergent de Qx :

(X 0 X)
Q̂x ≡ .
n

Donc, nous avons le résultat suivant :

 
1 2  −1  
β̂ ≈ N β , su Q̂x ≡ N β , Σ̃β̂ ,
n

où j’utilise Σ̃β̂ pour dénoter la matrice variance-covariance dans le cas spécial de
l’homoscédasticité.
Cet estimateur de la matrice variance-covariance est très facile à programmer si vous devez le

52
faire. En notation MATLAB, si  X  est la matrice contenant les observations sur les variables
explicatives et si  Uhat  est le vecteur de résidus de la régression, nous avons :

Sigmahat = (Uhat0 ) ∗ Uhat ∗ inv(X 0 X)/(n − k − 1); .

6.2 Homoscédasticité versus Hétéroscédasticité

Suivant la philosophie du livre de Stock et Watson, nous avons mis l’accent sur le calcul d’écarts
types pour nos coefficients estimés qui sont robustes à la présence d’erreurs hétéroscédastiques.
J’accepte complètement l’argument de Stock et Watson que les données que nous utilisons la
plupart du temps pour estimer nos modèles économétriques n’ont pas des erreurs
homoscédastiques.
Par contre, on peut se poser la question suivante : y a-t-il des façons de détecter la présence de
l’hétéroscédasticité ? La réponse est  Oui , mais le livre de Stock et Watson est totalement muet
à cet égard. Commençons par une méthode informelle ou graphique.
Il s’agit de regarder un graphique avec les résidus de l’équation estimée sur l’axe vertical et une
des variables explicatives du modèle sur l’axe horizontal. Si la grandeur absolue des résidus varie
systématiquement avec la variable explicative, c’est un signe de la présence de
l’hétéroscedasticité. On peut aussi regarder un graphique où on mesure les résidus au carré sur
l’axe vertical. Si les points on une pente non nulle évidente (positive ou négative), c’est un signe
de la présence de l’hétéroscédasticité. Si c’est le cas, il est fortement conseillé d’effecteur un ou
plusieurs tests formels.

1. L’article Wikipedia qui s’intitule Heteroscedasticity est une bonne introduction au sujet.

2. Le test Goldfeld-Quandt.

3. Le test Breusch-Pagan. On régresse les résidus au carré sur les variables explicatives du
modèle. Il y a un bon article sur Wikipedia qui explique le test.

4. Le test de White. C’est peut-être le test le plus fréquemment utilisé. L’économètre qui l’a

53
développé a aussi proposé la version robuste de la matrice variance-covariance que l’on
présente dans le manuel. Pour effectuer le test, on utilise les résidus au carré comme la
variable dépendante dans une régression multiple (qu’on appelle une  régression
auxiliaire ), ou les variables explicatives sont les variables explicatives du modèle
original, tous les co-produits possibles des variables explicatives, et les variables
explicatives au carré. White a montré que la statistique R2 de cette régression suit (en
grand échantillon) une distribution χ2 avec un nombre de degrés de liberté égal au nombre
de variables explicatives dans la régression auxiliaire moins un. Il y a un article sur ce test
chez Wikipedia, mais il est moins complet que l’article sur le test Breusch-Pagan.

5. Le test de Glesjer.

Voir l’article  Heteroscedasticity  chez Wikipedia pour plus de détails sur les tests différents et
pour des renvois. Nous allons revenir sur cette question dans le dernier chapitre du plan de cours
sur les tests diagnostics.
Bon nombre de logiciels économétriques modernes effectuent le test de White, ou un ou plusieurs
des autres tests lors de l’estimation d’un modèle de régression multiple, soit automatiquement soit
en spécifiant une option simple.
En présence d’hétéroscédasticité, si sa forme est connue (si on connaı̂t comment dépend la
variance de l’erreur en fonction des variables explicatives du modèle), il y a des estimateurs plus
efficients des coefficients du modèle. Il s’agit de l’estimateur moindres carrés généralisés
( Generalized Least Squares  en anglais). Nous n’avons pas le temps d’étudier cet estimateur
dans ce cours. Il fait partie des sujets étudiés dans le cours ECO5272.

7 Efficience de l’estimateur MCO sous l’homoscédasticité

Sous les hypothèses de base du modèle de régression multiple, et dans le cas de


l’homoscédasticité, on peut montrer que l’estimateur MCO β̂ a une variance au moins aussi petite
que n’importe quel autre estimateur linéaire (en Y ) et non biaisé. C’est le théorème

54
Gauss-Markov. Dans le cas d’un vecteur de paramètres, la notion de  variance au moins aussi
petite que  est ambiguë pusiqu’il y a plusieurs éléments dans β. Il faut la comprendre de la
manière suivante. Si β̃ est n’importe quel estimateur linéaire et non biaisé de β, il faut que

   
Var c0 β̂ ≤ Var c0 β̃

pour toute combinaison linéaire c0 β. Ici, c est un vecteur de constantes de dimensions (k + 1) × 1


et donc c0 β est un scalaire. Il y a une preuve du théorème dans l’annexe 18.5 du manuel. Notez
qu’il ne faut pas supposer la normalité du terme d’erreur pour montrer l’efficience de l’estimateur
MCO. Voir Giles (2011b) pour une discussion détaillée.
Le théorème Gauss-Markov explique l’importance de l’estimateur MCO dans l’histoire de
l’économétrie et de la statistique.
Tel qu’indiqué à la fin de la section précédente, il est possible, si on connaı̂t la forme de
l’hétéroscédasticité (comment elle est reliée aux variables explicatives du modèle), l’estimateur
MCG (moindres carrés généralisés) sera typiquement plus efficient que l’estimateur MCO.

7.1 Preuve du théorème Gauss-Markov

Je reprends ici une preuve relativement simple tirée de l’article Wikipedia sur le Théorème
Gauss-Markov. Il est très important de noter que pour les fins de cette preuve, les variables
explicatives X sont considérées comme étant fixes ou non stochastiques.
Soit β̃ = CY un autre estimateur linéaire de β. 11 On suppose que C peut être ećrite comme
(X 0 X)−1 X 0 + D, où D est une matrice non nulle de dimensions (k + 1) × n. Notre but est de
montrer que sa variance doit être au moins aussi élevée que celle de β̂, l’estimateur MCO.
L’espérance de β̃ est donnée par

(X 0 X)−1 X 0 + D (Xβ + U )
 
E (CY ) = E
11. Il faut aussi prendre les éléments de C comme étant fixes ou non stochastiques.

55
= (X 0 X)−1 X 0 + D Xβ + E (X 0 X)−1 X 0 + D U
  

(X 0 X)−1 X 0 + D E (U |X)
 
= β + DXβ + E

= β + DXβ,

où nous avons utilisé la loi des projections itérées. Nous voulons prouver que β̂ a la plus petite
variance parmi tous les estimateurs linéaires non biaisés. Pour que notre estimateur soit non
biaisé, il faut que
DX = 0.

Calculons maintenant sa variance. Il s’agit de la variance conditionnelle (étant donné les valeurs
de D et de X). Nous avons

Var (CY |X, D) = CVar(Y |X, D)C 0

= CVar(U |X)C 0

2
= σ CC 0

2 0
(X 0 X)−1 X 0 + D (X 0 X)−1 X 0 + D


= σ 2 (X 0 X)−1 X 0 X(X 0 X)−1 + (X 0 X)−1 X 0 D0 + DX(X 0 X)−1 + DD0




2
(X 0 X)−1 + DD0


2
= σ 2 (X 0 X)−1 + σ DD0

puisqu’il faut que DX = 0 si notre estimateur est non biaisé.


La matrice DD0 est une matrice positive semi-définie. Nous avons

   
Var β̃ − Var β̂ = σ 2 DD0

56
   
⇒ Var c0 β̃ − Var c0 β̂ = σ 2 c0 DD0 c ≥ 0,

la dernière inégalité étant la définition même d’une matrice positive semi-définie. Ce qui fut à
démontrer.

8 Biais dû à des variables omises (bis)

Montrer le biais qui provient de variables omises est beaucoup plus facile en notation matricielle
qu’avec des sommations. Supposons que le vrai modèle peut être écrit comme :
 
 β1 
 
Y = X1 X2  +U
β2

≡ X1 β1 + Ū .

Ici, X1 et X2 ont l’interprétation de sous-matrices et β1 et β2 ont l’interpétation de sous-vecteurs.


Donc, la dernière équation indique nous avons, de façon erronée, regroupé des variables
explicatives du modèle avec le terme d’erreur.
Si nous estimons le modèle erroné, nous avons :

β̂1 = (X10 X1 )−1 (X10 Y ) = (X10 X1 )−1 (X10 (Xβ + U ))

    
 β1 
 
= (X10 X1 )−1 X10  X1 X2   + U 
  
β2

= (X10 X1 )−1 X10 X1 β1 + (X10 X1 )−1 X10 X2 β2 + (X10 X1 )−1 X10 U

= β1 + (X10 X1 )−1 X10 X2 β2 + (X10 X1 )−1 X10 U

57
Nous avons :

 
E βˆ1 = β1 + E (X10 X1 )−1 X10 X2 β2 + E (X10 X1 )−1 X10 E (U |X)
 

= β1 + E (X10 X1 )−1 X10 X2 β2




= β1 + E (X10 X1 )−1 X10 X2 β2 .




Interprétation : le biais dépend de X1 0 X2 , la matrice de comouvements bruts entre les éléments de


X1 et les éléments de X2 ainsi que des vraies valeurs des coefficients β2 .
Notez que
(X10 X1 )−1 X10 X2

serait tout simplement la matrice de coefficients obtenus si on régressait chaque variable dans X2
sur X1 . C’est essentiellement la formule d’un estimateur MCO, mais c’est une généralisation
puisque X2 est une matrice et non un vecteur.
Vous devriez vérifier que l’expression développée pour le biais au début du chapitre 6 du manuel
est tout simplement un cas spécial de cette expression.
Afin de mieux cerner le concept de biais dû à des variables omises, je développe dans l’encadré le
sujet du modèle de régression partitionné qui suit.

Régression partitionnée

Pour de plus amples renseignements, voir Pollock (2007). Reprenons le modèle de régession
multiple en faisant la distinction entre le sous-ensemble de variables explicatives X1 et le
sous-ensemble X2 .  
 β1 
 
Y = X1 X2  +U
β2

= X1 β1 + X2 β2 + U.

58
Au lieu de regrouper les variables X2 avec le terme d’erreur comme nous avons fait dans la
section précédente, nous allons regarder explicitement comment notre estimé MCO de β1 , soit
β̂1 , est affecté par β̂2 . Rappelons ce que nous avons appelé les  équations normales  lorsque
nous avons trouvé la solution pour l’estimateur MCO pour le modèle de régression multiple :

X 0 Xβ = X 0 Y.

Nous pouvons écrire ces équations commme deux sous-ensembles d’équations :

X10 X1 β1 + X10 X2 β2 = X10 Y

et
X20 X1 β1 + X20 X2 β2 = X20 Y.

Du premier de ces 2 ensembles d’équations, nous avons

X10 X1 β1 = X10 (Y − X2 β2 )

 
−1
⇒ β̂1 = (X10 X1 ) X10 Y − X2 β̂2 .

Nous devons maintenant trouver une solution pour β̂2 . Multiplions le premier sous-ensemble
par X20 X1 (X10 X1 )−1 pour obtenir

−1 −1
X20 X1 β1 + X20 X1 (X10 X1 ) X10 X2 β2 = X20 X1 (X10 X1 ) X10 Y.

Maintenant, soustrayons cette équation du deuxième sous-ensemble d’équations, obtenant


ainsi
−1 −1
X20 X2 β2 − X20 X1 (X10 X1 ) X10 X2 β2 = X20 Y − X20 X1 (X10 X1 ) X10 Y.

59
   
−1 −1
⇒ X20 X2 − X20 X1 (X10 X1 ) X10 X2 β2 = X20 − X20 X1 (X10 X1 ) X10 Y.

Définissons
−1
P1 ≡ X1 (X10 X1 ) X10 .

Nous pouvons écrire


(X20 (I − P1 ) X2 ) β2 = X20 (I − P1 ) Y

où I est la matrice identité conformable à P1 , et donc

−1
β̂2 = (X20 (I − P1 ) X2 ) X20 (I − P1 ) Y.

Notez que nous avons suivi une méthodologie semblable à celle dans le chapitre sur le modèle
de régression simple. Nous avons trouvé une solution pour β̂1 en fonction de β̂2 , et ensuite
nous avons éliminé β̂1 dans la solution pour β̂2 par substitution.

Ces solutions permettent de réinterpréter l’estimateur MCO comme un estimateur en deux


étapes. Considérons d’abord la régression de la variable Y sur X1 seulement. Si on appelle
les coefficients estimés β̃1 , nous avons

−1
β̃1 ≡ (X10 X1 ) X10 Y,

−1
Ỹ = X1 β̃1 = X1 (X10 X1 ) X10 Y

les valeurs prédites de Y sur la base de cette régression, et

 
−1 −1
Ũ ≡ Y − X1 (X10 X1 ) X10 Y = I− X1 (X10 X1 ) X10 Y

le vecteur de résidus de cette régression. Considérons maintenant la régression des variables

60
X2 sur les X1 . Appelons les coefficients γ̃. Nous avons

−1
γ̃ ≡ (X10 X1 ) X10 X2 .

Notez qu’il s’agit d’une matrice de coefficients estimés puisqu’il y a tout un vecteur de
variables dépendantes au lieu d’une seule. Appelons X̃2 les valeurs prédites des variables X2 .
Nous avons
−1
X̃2 = X1 γ̃ = X1 (X10 X1 ) X10 X2 ,

et
−1
Ū ≡ X2 − X1 (X10 X1 ) X10 X2
 
−1
= I − X1 (X10 X1 ) X10 X2

= (I − P1 ) X2

la matrice de résidus de ces régressions. (Il y a autant de colonnes dans Ū que dans X2 .)

Maintenant, considérons la régression de Ũ sur Ū . Appelons le vecteur de coefficients estimés


γ̄. Nous avons
−1
γ̄ = Ū 0 Ū Ū 0 Ũ .

Nous avons

  
−1 −1
Ū 0 Ū = X20 I − X1 (X10 X1 ) X10 I − X1 (X10 X1 ) X10 X2

= X20 (I − P1 ) (I − P1 ) X2

= X20 (I − P1 ) X2

puisque
(I − P1 ) (I − P1 )

61
= (I − P1 ) .

Vous pouvez vérifiez cette égalité facilement. La matrice (I − P1 ) est une matrice
idempotente. Donc, finalement nous avons

−1
γ̄ = (X20 (I − P1 ) X2 ) X20 (I − P1 ) Y.

Mais ceci n’est rien d’autre que la solution que nous avions trouvée pour β̂2 .

En régressant Y sur X1 et X2 sur X1 , on purge l’effet des X1 sur la variable dépendante Y et


sur les autres variables explicatives X2 . Avec la régression de Ũ sur Ū , on estime l’effet des
X2 (purgées de l’influence des X1 ) sur Y (purgée aussi de l’influence des X1 ). Mais c’est
exactement ce que fait l’estimation MCO lorsqu’on inclut les deux sous-ensembles de
variables explicatives dans le modèle en même temps. Ce résultat s’appelle le théorème
Frisch-Waugh-Lovell. Pour de plus amples renseignements, voir Lovell (2010).

Supposons maintenant que notre modèle de régression est sans constante. Nous pouvons
toujours réécrire le modèle de régression linéaire de la façon suivante :

Y = Xβ + U

Ȳ = X̄β + Ū

  
⇒ Y − Ȳ = X − X̄ β + U − Ū .

Si, comme d’habitude, la première colonne contient une constante, elle va disparaı̂tre de ce
système d’équations et nous aurons

Ỹ = X̃ β̃ + Ũ

62
où
Ỹ ≡ Y − Ȳ ,

X̃ ≡ X − X̄

et
Ũ ≡ U − Ū

et où X̃ peut être redéfinie comme une matrice n × k puisque sa première colonne est une
colonne de zéros. Autrement dit, il est toujours possible de réécrire le modèle de régression
linéaire sans une constante en exprimant toutes les variables (explicatives et dépendante)
comme des déviations par rapport à leurs moyennes échantillonnales.
Donc, supposons que notre modèle est effectivement sans constante. Qu’est-ce qui arrive
lorsque la corrélation échantillonnale entre X1 et X2 est zéro ? Dans ce cas, nous avons
X10 X2 = 0, puisque les variables dans X1 et X2 sont mesurées en déviations par rapport à
leurs moyennes échantillonnales. Autrement dit, X1 et X2 sont orthogonales. Nous avons
dans ce cas particulier
−1
β̂ = (X 0 X) X 0Y
 −1  
0 0 0
 X1 X 1 X 1 X2   X1 
=   Y
X20 X1 X20 X2 0
X2
 −1  
0 0
 X1 X 1 0  X1 
= Y

 
0 X20 X2 0
X2
  
(X10 X1 )−1 0 X10
= Y
  

0 (X20 X2 )−1 X20
 
0 −1
 (X1 X1 ) X1 Y 
= .
0 −1
(X2 X2 ) X2 Y

63
On aurait pu montrer le même résultat à partir des solutions développées ici pour β̂1 et β̂2 .
Faisons-le ici. Nous avons

 
−1
β̂1 = (X10 X1 ) X10 Y − X2 β̂2

−1 −1
= (X10 X1 ) X10 Y − (X10 X1 ) X10 X2 β̂2

−1
= (X10 X1 ) X10 Y

dans le cas de l’orthogonalité. Dans le cas de β̂2 , nous avons

−1
β̂2 = (X20 (I − P1 ) X2 ) X20 (I − P1 ) Y

 −1  
−1 −1
= X20 X2 − X20 X1 (X10 X1 ) X10 X2 X20 Y − X20 X1 (X10 X1 ) X10 Y

−1
= (X20 X2 ) X20 Y

dans le cas de l’orthogonalité. Dans le cas général (lorsque X1 et X2 ne sont pas


orthogonales), les solutions ne sont évidemment pas aussi simples.

Ceci veut dire que, dans le cas de l’orthogonalité, on peut estimer un modèle de régression
(avec Y comme variable dépendante) contenant seulement les variables X1 , seulement les
variables X2 , ou avec toutes les variables ensemble, et on va obtenir exactement les mêmes
valeurs pour les coefficients estimés. Le théorème Frisch-Waugh-Lovell est assez
remarquable.

Nous pouvons aussi réinterpréter ces résultats à la lumière de ce que nous avons trouvé
concernant le biais dû à des variables omises. Dans le cas de l’orthogonalité, X10 X2 = 0 et il
n’y a pas de biais. On peut régresser Y sur seulement X1 ou sur seulement X2 et il n’y a pas
de biais. On obtient des estimateurs non biaisés.

On peut aussi réinterpréter tout ceci en termes géométriques. Voir Davidson et MacKinnon

64
(1999) et Sosa Escudero (2001) pour plus de détails.

Tel que noté par Pollock (2007), les coûts reliés au biais dû à des variables omises dépendent des
buts de notre modélisation. Si parmi les variables X1 il y a des variables qui seront utilisées
comme des instruments de politique économique, il est très important d’obtenir des estimés non
biaisés de leur impact. Si ce qui nous intéressent est surtout la prédiction de l’espérance de Y
conditionnelle aux valeurs des X, l’absence de biais est sans doute moins importante.

9 Tests d’hypothèses et ensembles de confiance

Tel qu’indiqué dans l’introduction, le seul élément vraiment novateur est le test d’hypothèses
jointes. Sinon, on peut effectuer des tests d’hypothèses simples de la même manière que dans le
cas de la régression simple.

9.1 Tests d’hypothèses simples par rapport à un seul coefficient

Il n’y a strictement aucun changement par rapport à la façon de tester une hypothèse simple dans
le cadre du modèle de régression simple. La statistique t de base, pour n’importe quel test, peut
s’écrire :
β̂i − βiH0
t= ,
sβ̂i

où βiH0 est la valeur du coefficient i sous l’hypothèse nulle, β̂i est la valeur du coefficient obtenue
lors de l’estimation, et sβ̂i est un estimé convergent de l’écart type de l’estimé du coefficient.
Dans le cas de la régression multiple, c’est la racine carrée de l’i-ième élément diagonal de Σ̂β̂
(cas hétéroscédastique) ou Σ̃β̂ (cas homoscédastique).
Toute la discussion du chapitre 4 concernant les p-values et les taux de significativité marginaux
s’applique. La statistique t suit approximativement une loi normale centrée réduite (si, bien sûr,
l’échantillon est suffisamment grand).

65
Dans le cas d’une hypothèse alternative à deux extrémités (bilatérale), une grande valeur absolue
de la statistique t (peu importe son signe) constitue de l’évidence contre H0 . Soit Φ (−|ta |) la
valeur de la distribution normale cumulée pour moins la valeur absolue de la valeur calculée de la
statistique t. Nous avons :
Φ (−|ta |) = Pr (t ≤ −|ta |)
!
β̂i − βiH0
= Pr t ≤ −
sβ̂i
 
= Pr t sβ̂i ≤ − β̂i − βiH0 .

Dans le cas où β̂i − βiH0 > 0 ceci est égal à

  
Pr t sβ̂i ≤ − β̂i − βiH0

 
= Pr t sβ̂i − βiH0 ≤ −β̂i
 
= Pr β̂i ≤ βiH0 − t sβ̂i ,

qui est donc égale à la probabilité d’obtenir une valeur au moins aussi petite qu’une valeur qui est
inférieure à βiH0 par t fois son écart type. Dans le cas où β̂i − βiH0 < 0 ceci est égal à

 
Pr t sβ̂i ≤ β̂i − βiH0

 
= Pr β̂i ≥ βiH0 + t sβ̂i ,

qui est donc égale à la probabilité d’obtenir une valeur au moins aussi grande qu’une valeur qui
est supérieure à βiH0 par t fois son écart type.
Tout cela revient à dire que la p-value du test avec hypothèse alternative bilatérale est donnée par
2 × Φ (−|ta |).
Le cas de tests avec hypothèse alternative unilatérale est semblable. L’analyse des tests
d’hypothèse présentée dans le chapitre sur le modèle de régression simple est pertinente. Dans le

66
cas où on a
H0 : βi = βiH0

et
H1 : βi > βiH0 ,

la p-value du test est donnée par

p = Pr z > tact = 1 − Φ tact .


 

Dans le cas où on a


H0 : βi = βiH0

et
H1 : βi < βiH0 ,

la p-value du test est donnée par

p = Pr z < tact = Φ tact .


 

9.2 Tests d’hypothèses simples par rapport à une combinaison linéaire de

coefficients

9.2.1 Méthode indirecte

Souvent, il est possible de tester une telle restriction en estimant une version transformée du
modèle. Si on procède de cette façon, on réécrit le modèle pour redéfinir la combinaison linéaire
de paramètres comme un paramètre simple du modèle transformé. De cette façon, on peut
appliquer la méthodologie standard pour tester une hypothèse simple avec un test t, telle que
développée dans la sous-section précédente. Nous illustrons l’idée avec un exemple. Reprenons le

67
modèle de régression multiple de base en notation non matricielle :

Yi = β0 + X1i β1 + X2i β2 + . . . + Xki βk + ui .

Supposons que nous voulons tester la restriction suivante :

H0 : β1 + β2 = 1,

contre l’hypothèse alternative


H1 : β1 + β2 6= 1.

Considérons la version suivante du modèle, qui est équivalente à la version originale :

Yi = β0 + X1i (β1 + β2 ) + (X2i − X1i ) β2 + . . . + Xki βk + ui .

L’équivalence vient du fait que nous avons tout simplement ajouté et soustrait le même terme
X1i β2 . Nous pouvons réécrire le modèle de la façon suivante :

Yi = β0 + X1i γ1 + Zi β2 + . . . + Xki βk + ui ,

où Zi ≡ X2i − X1i et γ1 ≡ β1 + β2 . Maintenant, tester l’hypothèse H0 : β1 + β2 = 1 revient à


tester l’hypothèse H0 : γ1 = 1. La méthodologie à suivre est identique à celle étudiée dans le
cadre du modèle de régression simple.
Effectuer ce test utilisant un logiciel de régression comme R, STATA ou GRETL revient à créer la
variable Z et à estimer l’équation transformée par MCO. Rien n’empêche bien sûr d’utiliser les
écarts types robustes pour effectuer le test.

68
9.2.2 Méthode directe

Sans estimer une version équivalente du modèle, nous pouvons tester la restriction directement.
Supposons que nous pouvons écrire la restriction portant sur la combinaison linéaire des
paramètres sous la forme suivante :
Rβ = r

où R est un vecteur de dimensions 1 × (k + 1) et r est une constante (scalaire). 12 Comme


d’habitude, nous pouvons écrire la statistique t comme la valeur calculée de la statistique (Rβ̂),
moins sa valeur sous l’hypothèse nulle (r), le tout divisé par la racine carrée de sa variance. Nous
savons déjà calculer la variance d’une combinaison linéaire de variables aléatoires. Donc, nous
avons
Rβ̂ − r
t= r  .
Var Rβ̂

Si chaque élément dans β̂ converge en distribution vers une loi normale, la combinaison linéaire
 
converge en distribution vers une loi normale. Puisqu’on soustrait r (qui est égal à E Rβ̂ sous
r  
l’hypothèse nulle) et on divise par Var Rβ̂ , la statistique normalisée converge en distribution
vers une loi normale centrée réduite :

Rβ̂ − r d
r  →− N (0, 1) .
Var Rβ̂

Dans la section sur les tests d’hyothèses jointes, nous allons voir (comme des cas spéciaux) un ou
deux exemples de calcul de la variance de combinaisons linéaires de coefficients.
12. Notez que nous allons généraliser cette façon d’écrire des restrictions sur les valeurs de paramètres dans la
section sur comment tester des hypothèses jointes.

69
9.3 Pourquoi les tests séquentiels ne sont pas valides

Supposons que nous voulons tester l’hypothèse jointe suivante :

H0 : β1 = β2 = 0.

L’hypothèse nulle dit que les deux coefficients sont nuls. L’hypothèse alternative naturelle dans ce
contexte est que au moins un des deux coefficients est non nul :

H1 : ∃i, i = 1, 2 tel que βi 6= 0.

Pourquoi pas tout simplement tester les deux hypothèses de façon séquentielle, où les statistiques
t données par :
β̂1 − β1H0
t1 = ,
sβ̂1

et ensuite
β̂2 − β2H0
t2 = .
sβ̂2

Le problème avec cette idée est qu’il s’agit de distributions de probabilité jointes. Supposons pour
simplifier que les deux coefficients estimés sont indépendamment distribués l’un par rapport à
l’autre. Dans les deux cas, on ne rejetterait pas l’hypothèse nulle à un niveau de significativité
marginal de 5% si |t1 | < 1.96 et |t2 | < 1.96 si notre échantillon est suffisamment grand (pour que
les statistiques soient distribuées approximativement selon une loi normale). Avec ce taux de
significativité marginal et étant donnée l’indépendance, la probabilité d’obtenir au moins un rejet
en effectuant deux tests si les hypothèses nulles sont vraies serait égale à 1 − 0.952 . (Pourquoi ?
Vous devez être capable de répondre à cette question.) Il faudrait au moins ajuster le niveau de
significativité marginal pour tenir compte de ce fait. Si les deux coefficients estimés ne sont pas
indépendants, cet ajustement serait encore plus compliqué. L’idée derrière les tests d’hypothèse
jointes développés ci-dessous est précisément de tenir compte du fait que les coefficients sont
tirés d’une distribution de probabilité jointe.

70
Notez que l’annexe (7.1) du livre décrit une façon d’ajuster les niveaux de significativité
marginaux pour tenir compte de la corrélation non nulle entre les coefficients. Cette méthodologie
peut être utile dans certains cas, notamment lorsqu’on lit les résultats de régressions rapportés
dans des articles publiés ou des cahiers de recherche. Dans la plupart des cas on rapporte les
écarts types associés aux coefficients individuels, mais on ne rapporte pas la matrice
variance-covariance complète des coefficients estimés (ce dont on aurait besoin pour calculer les
statistiques définies dans la sous-section suivante). En suivant cette méthodologie le lecteur peut
effectuer des tests d’hypothèses jointes même s’il n’a pas accès à la matrice variance-covariance
complète des coefficients estimés.

9.4 Tests d’hypothèses jointes

Tel qu’indiqué dans l’introduction à ces notes, je vais mettre l’accent ici sur l’approche
matricielle, qui est beaucoup plus générale et, je crois, plus simple à comprendre.
Pour commencer à saisir en quoi consiste cette méthodologie, reprenons l’exemple de la
sous-section précédente. L’hypothèse nulle à tester est :

H0 : β1 + β2 = 1,

Nous pouvons écrire cette hypothèse sous forme matricielle de la façon suivante :
 
 β0 
 

 β1 
 
β2 
  

0 1 1 0 ... 0  =1
 

 β3 
 .. 

 . 

 
βk

71
Ceci est de la forme :
Rβ = r,

où R est une matrice de constantes et r est un vecteur de constantes. Dans ce cas particulier, où il
y a une seule restriction portant sur une combinaison linéaire de coefficients, R est en fait un
vecteur et r est un scalaire. Mais, dans le cas général, R ainsi que r auront le même nombre de
rangées que le nombre de restrictions.
Prenons un cas plus concret, un cas où le nombre de variables explicatives (à part la constante) est
plus grand que deux. Comment tester l’hypothèse nulle jointe

H0 : β1 = β2 = 0

contre l’hypothèse alternative

∃i, i = 1, 2 tel que βi 6= 0.

Sous forme matricielle, nous pouvons écrire : H0 :


 
 β0 
 
 β1 
 

  

 0 1 0 0 ... 0  β2   0 
 
   =  .
 
0 0 1 0 ... 0  β3  0
 .. 


 . 
 
βk

On peut montrer que la statistique suivante obéit, en grand échantillon et sous H0 , à une loi Fq,∞
(révisez la sous-section sur cette distribution à la page 44 du manuel ou dans les notes de cours) :

 0 h i−1  
0
F ≡ Rβ̂ − r RΣ̂β̂ R Rβ̂ − r /q,

72
où q est le nombre de restrictions que l’on veut tester, et où Σ̂β̂ est la matrice variance-covariance
de l’estimé β̂. Dans l’exemple que nous venons d’étudier, q = 2. Autrement dit,

d
F →
− Fq,∞ .

Puisque la convergence est asymptotique (lorsque le nombre d’observations tend vers l’infini), le
deuxième indice inférieur indique un nombre de degrés de liberté infini.
L’argument pourquoi la statistique F converge en distribution à une loi Fq,∞ se trouve à la page
714 du manuel. L’argument est très succinct (pour ne pas dire très dense). Je vous invite à le lire
mais, bien sûr, il ne faut pas le retenir pour les fins de l’examen final. Un argument plus simple,
pour le cas de 2 restrictions, se trouve à la page 228.
Comme d’habitude, le manuel met l’accent sur le cas où l’échantillon est suffisamment grand
pour parler de convergence approximative en probabilité et/ou en distribution. Pour que nos
 statistiques F  suivent une loi F même en petit échantillon, il faudrait pouvoir les exprimer
comme des ratios de variables aléatoires χ2 même en petit échantillon (voir la page 44), et donc il
faudrait supposer la normalité des erreurs (il faut aussi supposer l’homoscédasticité). Dans la
mesure où ceci est rarement plausible dans des contextes appliqués, il est mieux de se tourner vers
l’inférence asymptotique si nous avons suffisamment d’observations.
La loi F dépend de deux paramètres. Typiquement on parle d’une variable aléatoire qui obéit à
une loi Fm,n , où le paramètre m fait référence au nombre de restrictions imposées, et n fait
référence au nombre de degrés de liberté (le nombre d’observations moins le nombre de
paramètres estimés). Notez en consultant les Tables 5A, 5B et 5C dans le manuel les petits écarts
entre les valeurs critiques lorsque n = 120 et lorsque n → ∞.
La plupart des logiciels de régression, dont R, STATA et GRETL, offrent à l’utilisateur la
possibilité de spécifier les équivalents de R et r afin de tester des hypothèses jointes quelconques.

73
9.5 Que faire lorsque Σ̂β̂ n’est pas disponible ?

Il y a des situations où on n’a pas toute la matrice variance-covariance des paramètres estimés à sa
disposition. Par exemple, quand on lit des articles publiés qui résument les résultats de
l’estimation d’un modèle de régression multiple, il est souvent le cas qu’on rapporte les écarts
types associés aux coefficients individuels, mais non les covariances entre les coefficients estimés.
Il est possible de contourner ce problème en utilisant la  correction de Bonferroni  , qui tient
compte de la simultanéité lorsque on fait un test d’hypothèses jointes. Notez que cette
méthodologie donne des tests qui sont moins puissants (qui ont une probabilité moins élevée de
rejeter l’hypothèse nulle lorsqu’elle est fausse) que si on utilise la matrice Σ̂β̂ pour effectuer le
test. Ce que fait la correction est de donner la bonne p-value de tests séquentiels (la bonne
probabilité de rejeter les hypothèses nulles jointes lorsqu’elles sont vraies).

Le test de Bonferroni permet de tester des hypothèses jointes sur la base des statistiques t
pour les hypothèses individuelles. Il faut choisir la valeur critique afin d’être sûr que la
probabilité de rejeter l’hypothèse nulle jointe ne dépasse pas la probabilité de la rejeter si on
tient compte de la non-indépendance entre les hypothèses faisant partie de l’hypothèse jointe.
On rejette l’hypothèse nulle si on rejette au moins une des hypothèses individuelles. Dans le
cas d’une hypothèse jointe qui comporte deux hypothèses simples, appelons A l’événement
que nous rejetons la première des deux hypothèses, et B l’événement que nous rejetons la
deuxième hypothèse simple. Nous savons que

Pr (A ∪ B) ≤ Pr (A) + Pr (B) ,

où le symbole ∪ indique l’union des deux événements, autrement dit l’événement que A se
produit, ou que B se produit, ou que les deux se produisent. Si on choisit des p-values
identiques pour les deux tests des hypothèses individuelles, on va choisir des p-values tel que
leur somme soit égale à la p-value désirée du test joint. Par exemple, si on veut être sûr de ne

74
pas rejeter l’hypothèse nulle jointe plus que 5% du temps lorsqu’elle est vraie, on va choisir
des p-values de 2.5% pour chacune des tests individuels.
Le test Bonferroni est très conservateur. Son but est de minimiser la probabilité de rejeter les
hypothèses jointes si elles sont vraies. En général, il fait augmenter la probabilité d’accepter
les hypothèses lorsqu’elles sont fausses. Ainsi, il n’a pas beaucoup de puissance (définie
comme la probabilité de rejeter une hypothèse lorsqu’elle est fausse). Il y a des techniques
pour augmenter la puissance du test lorsqu’on doit tester une hypothèse jointe avec une
séquence de tests d’hypothèses simples. Voir Simes (1986).
Pour de plus amples renseignements concernant cette méthodologie, consultez l’annexe 7.1
au Chapitre 7 du manuel.

9.6 Une seule restriction comme un cas spécial

On peut montrer dans le cas d’une seule restriction portant sur un coefficient (q = 1), la statistique
F est le carré de la statistique t. Ceci revient à dire par contre que nous ne pouvons pas faire la
distinction entre une statistique t qui serait grande en valeur absolue et négative et une statistique
t grande en valeur absolue et positive. Cela veut dire qu’il n’y aurait pas de différence entre les
résultats avec une statistique F et une statistique t si l’hypothèse alternative est une hypothèse
alternative à deux extrémités (bilatérale), mais nous ne pouvons pas vraiment tester l’hypothèse
nulle contre l’hypothèse alternative H1 : β̂i < βi où ce ne sont que les grandes valeurs négatives
de la statistique t qui nous amènent à rejeter l’hypothèse nulle.
Pour montrer l’équivalence entre la statistique F et le carré de la statistique t dans un cas simple,
prenons l’exemple de l’hypothèse nulle H0 : β1 = 0. Dans ce cas, nous pouvons écrire la

75
restriction sous forme matricielle comme
 
β0
 
 


 β1 

 
0 1 0 ... 0 
 β2 

..
 
.
 
 
 
βk

= β1 = 0.

Dans ce cas Rβ̂ − r prend la forme de la statistique calculée (la valeur estimée de β̂1 ) moins sa
valeur sous l’hypothèse nulle, ou tout simplement le numérateur de la statistique t que l’on
utiliserait pour tester l’hypothèse. Nous avons dans ce cas

  −1
0
  
  
  1 
 
      
 
F = β̂1 − 0 
 0 1 0 . . . 0 Σ̂β̂
 0 
  β̂1 − 0 .
 .. 
  
 . 


  
0

On peut facilement vérifier que dans ce cas-ci (vous devriez le faire sur papier pour être sûr)

 
0
 
 
 

 1 

 
0 1 0 . . . 0 Σ̂β̂  0  = s2 ,
  β̂1
..
 
.
 
 
 
0

l’élement (scalaire) sur la diagonale de Σ̂β̂ qui correspond à l’estimateur convergent de la

76
variance de β̂1 . Donc, nous avons

!2
β̂1 − 0
F = = t2 .
sβ̂1

La statistique F est effectivement le carré de la statistique t qu’on utiliserait pour effectuer le test.
On peut aussi considérer un deuxième exemple pour montrer ce que donne la formule générale
lorsqu’il n’y a qu’une seule restriction testée. Considérons l’hypothèse nulle suivante :

H0 : β1 + β2 = 1,

qui peut être écrite sous forme matricelle comme


 
 β0 
 

 β1 
 
β2 
  

0 1 1 0 ... 0 




 β3 
 .. 

 . 

 
βk

= β1 + β2 = 1.

Encore une fois, Rβ̂ − r prend la forme de la statistique calculée (β̂1 + β̂2 ) moins sa valeur sous

77
l’hypothèse nulle. Nous avons dans ce cas

  −1
  0 
  
  1 
  
  
 1 
 
      
F = β̂1 + β̂2 − 1 
 0 1 1 0 . . . 0 Σ̂β̂
 
  β̂1 + β̂2 − 1 .
  0 
  
  . 
  .. 
  
  
0

On peut vérifier (encore une fois ce serait un bon exercice de le faire sur papier) que
 
 0 
 

 1 
 
1 
   

0 1 1 0 . . . 0 Σ̂β̂   = s2 + s2 + 2s
  β̂1 β̂2 β̂1 ,β̂2

 0 
 .. 

 . 

 
0

où sβ̂1 ,β̂2 est l’élément hors-diagonale de la matrice variance-covariance, qui est un estimé
convergent de la covariance entre β̂1 et β̂2 . Il s’agit donc de l’estimateur convergent de la variance
de β̂1 + β̂2 , qui suit les règles de base pour le calcul de variances de combinaisons linéaires de
variables aléatoires. La statistique F devient

 2
β̂1 + β̂2 − 1
F = = t2 .
s2β̂ + s2β̂ + 2sβ̂1 ,β̂2
1 2

Encore une fois, on voit l’équivalence entre la statistique F et le carré de la statistique t.

78
9.7 Significativité de la régression

Souvent, on veut tester l’hypothèse nulle selon laquelle tous les coefficients de la régression sauf
la constante sont égaux à zéro. Nous pouvons écrire l’hypothèse nulle de la façon suivante :

H0 : β1 = β2 = . . . = βk = 0,

avec
H1 : ∃i, i = 1 . . . k tel que βi 6= 0.

Nous pouvons écrire cette restriction sous forme matricielle sans problème, avec :

 
0 1 0 0 ... 0
 
 

 0 0 1 0 ... 0 

 
R=
 0 0 0 1 ... 0 ,

.. .. .. .. . . ..
 
. . . . . .
 
 
 
0 0 0 0 ... 1

une matrice de dimensions k × (k + 1) et

 
0
 
 

 0 

 
r=
 0 ,

..
 
.
 
 
 
0

un vecteur de dimensions (k + 1) × 1. Chaque fois qu’on fait référence à  tester la significativité


de la régression , on fait référence à cette hypothèse nulle.
Avec cette écriture, tester la significativité jointe de tous les coefficients sauf la constante (β0 )
n’est qu’un cas particulier de la règle générale.

79
9.8 Tests d’hypothèse en présence d’homoscédasticité

Le cas de l’homoscédasticité ne présente en principe rien de différent par rapport au cas général.
On peut en principe remplacer Σ̂β̂ dans la formule ci-dessus pour F par Σ̃β̂ qui provient de la
sous-section 6.1 ci-dessus. Donc, nous avons :

 0 h i−1  
F ≡ Rβ̂ − r RΣ̃β̂ R0 Rβ̂ − r /q,

Par contre, dans le cas homoscédastique, il y a une façon plus simple d’effectuer des tests
d’hypothèse. On peut estimer le modèle sous l’hypothèse nulle et sous l’hypothèse alternative, et
utiliser la formule suivante :

(SSRrestricted − SSRunrestricted ) /q
F = ,
SSRunrestricted / (n − kunrestricted − 1)

où SSRrestricted est la somme des résidus carrés du modèle estimé en imposant les contraintes et
SSRunrestricted est la somme des résidus carrés du modèle estimé sans imposer les contraintes.
L’hypothèse nulle que l’on veut tester revient à imposer des contraintes sur les valeurs des
coefficients. Une formule équivalente est la suivante :

2 2
(Runrestricted − Rrestricted ) /q
F = 2
,
(1 − Runrestricted ) / (n − kunrestricted − 1)

2
où Rrestricted est la mesure de l’ajustement statistique R2 du modèle estimé en imposant les
contraintes et SSRunrestricted est le R2 du modèle estimé sans imposer les contraintes. Vous
devriez montrer algébriquement comment passer de la première à la deuxième version de ce test.
La démonstration est en fait très simple.
Nous n’allons pas montrer formellement pourquoi les statistiques F dans le cas homoscédastique
peuvent être transformées pour être écrites sous cette forme. On peut trouver une démonstration
dans la plupart des manuels d’économétrie avancés comme Greene (2000, section 7.2.3). Je
reproduis la preuve dans l’encadré qui suit. La lecture de cet encadré est recommandé seulement à

80
ceux qui s’y intéressent vraiment.

Dans cet encadré je montre l’équivalance


La preuve passe par l’estimation du modèle de régression multiple sujet aux contraintes que
nous voulons tester. Le problème peut s’écrire

min (Y − Xβ)0 (Y − Xβ)


β

sujet à la contrainte
Rβ = r.

Nous pouvons écrire le problème de minimisation à l’aide d’un vecteur de multiplicateurs de


Lagrange λ comme suit, définissant S comme l’expression lagrangienne à minimiser.

min S = (Y − Xβ)0 (Y − Xβ) + 2λ0 (Rβ − r) .


β,λ

Les conditions du premier ordre du problème sont

∂S
= 0 = 2X 0 (y − Xβ) + 2R0 λ;
∂β

∂S
= 0 = 2 (Rβ − r) .
∂λ

Je vous invite à faire le lien entre ces conditions du premier ordre et les règles de
différentiation matricielle que nous avons vues en début de chapitre.
Nous pouvons regrouper les CPO ensemble en notation matricielle comme suit.
    
0 0 0
 X X R   β̃   X Y 
   =  
R 0 λ̃ r

où j’ai écrit des ˜ sur les inconnus du problème pour souligner le fait que les solutions au

81
problème constituent notre estimateur MCO sous contraintes.

La solution est donnée par

   −1  
0 0 0
 β̃   X X R   XY 
 =   .
λ̃ R 0 r

Je suppose ici que la matrice qu’il faut inverser est non singulière. Pour trouver l’inverse de la
matrice, nous pouvons utiliser la formule suivante pour les matrices partitionnées.

 −1
 A11 A12 
 
A21 A22

=  
−1 −1 −1

 A11 I + A12 F2 A21 A11 −A11 A12 F2 
 
−F2 A21 A11 −1 F2

où
−1
F2 ≡ A22 − A21 A11 −1 A12 .

Je vous invite à vérifier qu’il s’agit bel et bien de l’inverse de la matrice originale en faisant
les multiplications matricielles appropriées pour retrouver la matrice identité. Appliquant
cette formule dans le cas qui nous préoccupe, nous obtenons

h i−1  
−1 −1
β̃ = β̂ − (X 0 X) R0 R (X 0 X) R0 Rβ̂ − r

et
h i−1  
−1
λ̃ = R (X 0 X) R0 Rβ̂ − r
 
0 −1 0
où β̂ = (X X) X Y . Notez que la solution pour λ̃ contient Rβ̂ − r . Si l’estimateur
satisfait ces restrictions exactement (autrement dit si Rβ̂ = r), alors nous avons λ̃ = 0 et

82
l’estimateur des MCO sous contraintes devient égal à l’estimateur MCO sans contrainte.

Nous sommes sur le point de pouvoir montrer que la formule générale pour la statistique F se
réduit au cas spécial sous l’hypothèse de l’homoscédasticité. Je prends à ce stade-ci un
raccourci en faisant appel à un résultat développé dans l’article de Greene et Seaks (1991),
qui montrent que la variance de l’estimateur β̃ (sous l’hypothèse de l’homoscédasticité) est
donnée par

  h i−1
−1 −1 −1
Var β̃|X = σ 2 (X 0 X) − σ 2 R0 R (X 0 X) R0 R (X 0 X) .

où
σ 2 ≡ Var (ui |Xi ) .

Notez que le premier terme est la variance de l’estimateur MCO β̂ sous l’hypothèse
d’homoscédasticité. Pour calculer la variance de β̃, il faut soustraire une matrice qui (on peut
montrer) est une matrice positive-définie. Cela veut dire que la variance de β̃ est  plus petite
que  la variance de β̂, la différence étant une matrice positive-définie. L’interprétation, c’est
que le fait d’imposer les contraintes et donc d’imposer de l’information additionnelle
concernant les valeurs des paramètres β réduit la variance de l’estimateur.

Après cette petite parenthèse, procédons maintenant à notre démonstration. Définissons

Ũ ≡ Y − X β̃

 
= Y − X β̂ − X β̃ − β̂
 
= Û − X β̃ − β̂ .

Nous avons
  0   
Ũ 0 Ũ = Û − X β̃ − β̂ Û − X β̃ − β̂

83
       
0 0 0 0
= Û Û − Û X β̃ − β̂ − β̃ − β̂ X Û + β̃ − β̂ X X β̃ − β̂
   
= Û 0 Û + β̃ − β̂ X 0 X β̃ − β̂

où les deux termes dans l’avant dernière expression sont égaux à zéro puisque les résidus
MCO sont orthogonaux à X. Donc

 0  
Ũ 0 Ũ = Û 0 Û + β̃ − β̂ X 0 X β̃ − β̂ ≥ Û 0 Û .

Notez que dans ce cas Ũ 0 Ũ et Û 0 Û sont des scalaires, et donc l’inégalité est une inégalité
ordinaire. Le dernier terme du côté droit dans cette équation est une forme quadratique est
donc doit être positif. À moins que β̃ = β̂, il va être strictement positif. Ceci est logique. Ũ 0 Ũ
est une somme de résidus au carré qui résulte de la solution d’un problème de minimisation
sous contrainte, tandis que Û 0 Û est une somme de résidus au carré qui résulte de la solution
du même problème de minimisation, sans imposer la contrainte. Il est normal que le minimum
trouvé comme solution au problème non contraint soit inférieur au minimum trouvé au
problème sous contrainte.

Cela veut dire que Ũ 0 Ũ − Û 0 Û est une mesure de la détérioration de l’ajustement en imposant
les restrictions, et peut être utilisé pour construire le test F . La solution que nous avons
trouvée pour β̃ nous donne

  h i−1  
−1 −1
β̃ − β̂ = − (X 0 X) R0 R (X 0 X) R0 Rβ̂ − r .

Substituant, on a
 0  
Ũ 0 Ũ − Û 0 Û = β̃ − β̂ X 0 X β̃ − β̂
 0 h i−1
0 −1 0 −1
= Rβ̂ − r R (X X) R (X 0 X)

−1 −1
R (X 0 X) X 0 X (X 0 X) R0

84
h i−1  
−1
R (X 0 X) R0 Rβ̂ − r
 0 h i−1 h i
−1 −1
= Rβ̂ − r R (X 0 X) R0 R (X 0 X) R0
h i−1  
0 −1 0
R (X X) R Rβ̂ − r
 0 h i−1  
−1
= Rβ̂ − r R (X 0 X) R0 Rβ̂ − r .

Notez aussi que dans ce cas,


Ũ 0 Ũ ≡ SSRrestricted

et
Û 0 Û ≡ SSRunrestricted .

Voici la dernière étape dans l’argument. Sous l’hypothèse nulle (que Rβ = r), puisque β̂ suit
 
(asymptotiquement ou approximativement) une distribution normale, alors Rβ̂ = r suit
une distribution asymptotiquement normale aussi, puisqu’il s’agit d’une combinaison linéaire
de variables aléatoires (asymptotiquement) normales. Sa variance est donnée par

   
−1
Var Rβ̂ − r = R Varβ̂ R0 = σ 2 R (X 0 X) R0

sous l’hypothèse d’homoscédasticité. Pour cette raison, nous pouvons montrer que

 0   
2 0 −1 0
Rβ̂ − r σ R (X X) R Rβ̂ − r

suit (asymptotiquement ou approximativement en échantillon fini) une distribution chi-carré


avec q degrés de liberté, où comme d’habitude q est le nombre de restrictions. Le problème,
c’est que σ 2 n’est pas observable. La dernière étape est de convertir en une statistique que

85
nous pouvons calculer avec les données que nous avons. Nous pouvons montrer que

F ≡
 0  
Rβ̂ − r σ 2 R (X 0 X)−1 R0 Rβ̂ − r /q
[(n − k − 1) s2 /σ 2 ] / (n − k − 1)

est le ratio de deux variables chi-carré (encore une fois asymptotiquement ou


approximativement en échantillon fini), chacune divisée par son nombre de degrés de liberté.
Les σ 2 au numérateur et au dénominateur s’annulent, et nous savons que notre estimateur
(convergent et non biaisé) s2 est donné par

Û 0 Û
s2 ≡ = SSRunrestricted / (n − k − 1) .
(n − k − 1)

⇒ (n − k − 1) s2 = SSRunrestricted

Donc nous avons  0


0 −1 0
 
Rβ̂ − r R (X X) R Rβ̂ − r /q
F =
SSRunrestricted / (n − kunrestricted − 1)
(SSRrestricted − SSRunrestricted ) /q
= ,
SSRunrestricted / (n − kunrestricted − 1)

ce qui fut à montrer. Le ratio de ces variables chi-carré, les deux divisées par les degrés de
liberté, suit une distribution F . Encore une fois, si nous ne sommes pas prêts à faire
l’hypothèse que les erreurs du modèle non contraint ui sont générées par une loi normale, ce
résultat est un résultat asymptotique et ne tient que de façon approximative en échantillon fini.
Puisque nous utilisons un résultat qui tient asymptotiquement ou approximativement en grand
échantillon, nous utilisons la fonction de distribution cumulée de Fq,∞ .

Ces tests sont faciles à calculer et ont une interprétation intuitive simple. Par contre, ils ne sont
valides que dans le cas d’erreurs homoscédastiques.

86
Un exemple concret pourrait aider à rendre plus clair le concept  estimer le modèle en imposant
les contraintes . Soit le modèle de régression multiple standard, écrit en notation non matricielle :

Yi = β0 + X1i β1 + X2i β2 + . . . + Xki βk + ui .

Nous voulons tester l’hypothèse nulle que β1 + β2 = 1. Notez que l’hypothèse nulle revient à
imposer une restriction (contrainte) sur la valeur de ces deux coefficients. Isolant β2 nous donne

β2 = 1 − β1 .

Maintenant, substituant dans le modèle, nous avons :

Yi = β0 + X1i β1 + X2i (1 − β1 ) + . . . + Xki βk + ui ,

que nous pouvons réécrire comme :

Yi − X2i = β0 + (X1i − X2i ) β1 + X3i β3 + . . . + Xki βk + ui .

On peut estimer ce modèle (la version contrainte) avec un logiciel comme R, STATA ou GRETL
en définissant une nouvelle variable dépendante Ỹi ≡ Yi − X2i et une nouvelle variable
explicative Zi ≡ X1i − X2i . Le modèle à estimer devient :

Ỹi = β0 + Zi β1 + X3i β3 + . . . + Xki βk + ui .

Notez bien que ce que nous venons de faire n’est pas la même chose que ce que nous avons fait
pour transformer le modèle pour tester une seule hypothèse dans le cadre d’une combinaison
linéaire de coefficients. Dans ce dernier cas, nous avons proposé d’estimer un modèle équivalent
au modèle initial. Puisqu’il était équivalent, l’estimation était valide sans imposer des hypothèses
additionnelles. Dans le présent contexte, le modèle transformé n’est pas équivalent au modèle

87
initial. Il n’est valide que sous les contraintes de H0 .
Nous savons que la loi F est définie seulement pour des valeurs positives de la variable aléatoire.
Dans ce cas, les estimés MCO du modèle contraint proviennent de la solution à un problème de
minimisation contraint, où la contrainte est l’hypothèse nulle que nous voulons tester. Les estimés
MCO du modèle non contraint proviennent de la solution à un problème de minimisation où cette
contrainte n’est pas imposée. Pour cette raison, la somme des résidus carrés du modèle contraint
doit être au moins aussi élevée que pour le modèle non contraint, et la statistique F calculée par
une des formules ou par l’autre doit être positive. 13
L’extension au cas d’hypothèses jointes est directe.

9.9 Test de significativité de la régression dans le cas homoscédastique

Dans ce cas, la version contrainte du modèle prend une forme spéciale. D’abord, nous avons
q = k. Ensuite, si tous les coefficients sauf la constante sont égaux à zéro, le modèle est (sous
forme non matricielle)
Yi = β0 + ui .

Nous avons déjà vu (dans le chapitre de rappel sur la théorie des probabilités et la statistique) que
dans ce cas l’estimateur MCO de β0 est tout simplement la moyenne échantillonnale de Y , soit Ȳ .
Autrement dit,
β̂0 = Ȳ .

Nous savons que la somme totale des carrés (T SS) est donnée par

n
X 2
T SS = Yi − Ȳ ,
i=1

13. Ce résultat est dû tout simplement aux propriétés algébriques de la minimisation sous contrainte. La valeur mi-
nimale d’une fonction sous une contrainte doit être au moins aussi élevée que la valeur minimale lorsque la contrainte
n’est pas imposée.

88
et dans ce cas-ci nous avons
Yi = Ȳ + ûi
n n
X 2 X
⇒ T SS ≡ Yi − Ȳ = û2i ≡ SSR
=1 i=1

Donc, dans ce cas nous avons forcément une statistique R2 égale à zéro. Nous n’avons pas besoin
d’estimer le modèle contraint, sachant que son R2 est forcément zéro. La deuxième forme de la
statistique F devient dans ce cas

(R2 ) /k
F =
(1 − R2 ) / (n − k − 1)

R2 (n − k − 1)
= ,
(1 − R2 ) k
2
où je n’ai pas écrit explicitement  Runrestricted  puisqu’il n’y a pas d’ambiguı̈té (on estime

seulement le modèle non contraint).

9.10 Tests exacts

Tous les tests développés dans cette section des notes sont valides en grand échantillon. Ils
reposent sur l’idée de la convergence en distribution. Si on est prêt à faire les hypothèses
héroı̈ques que les erreurs sont homoscédastiques, i.i.d., et distribuées selon une loi normale, nous
pouvons montrer que la statistique F est distribuée selon une loi Fq,n−kunrestricted −1 même en petit
échantillon. Donc, ces hypothèses nous permettent de faire ce que j’ai appelé de l’inférence
 exacte  (basée sur des formes distributionnelles connues) au lieu de faire ce que j’ai appelé de
l’inférence  approximative  ou  asymptotique  (basée sur l’hypothèse que l’échantillon est
assez grand pour penser qu’une version de la loi des grands nombres et/ou le théorème de la
limite centrale tient approximativement). Vous devriez comparer les valeurs tablées de Fq,∞ et
Fq,n−kunrestricted −1 pour des valeurs différentes de n afin de développer une idée de la taille
d’échantillon où les différences entre les deux deviennent négligeables.
Je partage l’opinion des auteurs du manuel qu’il est mieux de privilégier l’inférence

89
approximative, surtout dans le cas de banques de données microéconomiques avec des milliers
sinon des dizaines de milliers d’observations.

9.11 Ensembles de confiance

Comme dans le cas du modèle de régression simple, l’idée d’ensembles de confiance est une
extension naturelle de l’idée de tests d’hypothèse. Il faut parler  d’ensembles  au lieu
 d’intervalles  parce qu’il s’agit de plus qu’un coefficient. Un point (des valeurs données des
coefficients) est dans l’ensemble de confiance de X% si nous ne pouvons rejeter ces valeurs à un
niveau de significativité marginal de (100 − X)% sous l’hypothèse nulle que les vraies valeurs
des coefficients sont égales à celles obtenues par l’estimation MCO.
Géométriquement, un ensemble de confiance prend la forme d’une ellipse dans le plan des
coefficients pour lesquels on le calcule (donc, si on calcule un ensemble de confiance pour plus
que deux coefficients, le  plan  aura plus que deux dimensions).
Supposons que nous voulons établir un ensemble de confiance pour les coefficients β1 , β2 et β4 ,
pour une régression où le nombre de variables explicatives à part la constante est au moins égal à
quatre. Si nous voulons savoir si le point (β1,0 , β2,0 , β4,0 ) est dans l’ensemble de confiance
autour des valeurs estimées de ces paramètres, nous testons, étant donné l’échantillon
d’observations, l’hypothèse nulle jointe suivante :

H0 : β1,0 = β̂1 , β2,0 = β̂2 , β4,0 = β̂4 .

Si H0 est acceptée à un niveau de significativité marginal de (100 − X)%, le point est dans
l’ensemble de confiance.
Dans le cas d’un intervalle de confiance, il est très facile de décrire explicitement ses bornes,
puisqu’il s’agit de 2 points. Dans le cas d’un ensemble de confiance, même lorsqu’il s’agit d’une
ellipse en seulement deux dimensions, le nombre de points dans la borne de l’ellipse est infini.
Pour cette raison, il est beaucoup plus difficile de décrire explicitement les ensembles de

90
confiance. Nous venons de résumer tout ce qu’il est nécessaire de savoir en principe pour calculer
les ensembles de confiance. Il y a des formules explicites, basées sur la formule pour la statistique
F utilisée pour tester si un point fait partie de l’ensemble de confiance, mais nous n’allons pas
étudier ces formules dans ce cours.

10 Multicollinéarité

Il faut distinguer entre ce qu’on appelle la multicollinéarité parfaite et la multicollinéarité


imparfaite.

10.1 Multicollinéarité parfaite

Dans ce cas, il existe une relation linéaire exacte qui relie un sous-ensemble des variables
explicatives. Dans la majorité des cas, il résulte d’un problème logique dans le choix des
régresseurs. Il y a plusieurs types de situations où cela peut arriver.
• L’exemple le plus connu de ce problème est la soi-disant  trappe des variables
dichotomiques , que nous pouvons illustrer avec un exemple simple. Supposons que nous
avons un échantillon avec des individus, et une des caractéristiques est le sexe de
l’individu. Nous pourrions construire deux variables dichotomiques, dont la première
prend la valeur de un lorsque l’individu est une femme et zéro autrement, et la deuxième
prend la valeur de un lorsque l’individu est un homme et zéro autrement. Appelons ces

91
deux variables X1 et X2 . Nous pourrions avoir, par exemple :

   
 1   0 
   

 0 

 1 
   
1  0 
   
 
   
X1 =  1 , X2 =  0 .
   
   
   

 0 

 1 
 ..   .. 

 . 


 . 

   
0 1

Il est évident que  


1
 
 
 1 
 
 
 1 
 
 
X1 + X 2 =  1  .
 
 
 
 1 
 
 . 
 .. 
 
 
1

Maintenant, si nous essayons d’estimer une régression et d’inclure une constante, X1 et


X2 comme variables explicatives, la constante sera tout simplement la somme de X1 et
X2 . Donc, c’est le cas que nous pouvons exprimer une des variables explicatives comme
une combinaison linéaire des autres variables explicatives du modèle de régression.
• Il y a plusieurs autres exemples classiques de multicollinéarité parfaite. Voir la section 6.7
du manuel.
La multicollinéarité parfaite nous empêchera même d’estimer notre régression. Il est facile de
montrer que, en présence d’un problème de multicollinéarité parfaite, la matrice X 0 X n’est pas de
rang plein. Il est impossible que calculer (X 0 X)−1 , et l’estimateur β̂ = (X 0 X)−1 X 0 Y n’existe
même pas. Un logiciel de régression comme R, STATA ou GRETL va tout simplement imprimer

92
un message d’erreur. En fait, un message d’erreur signalant que la matrice X 0 X est singulière est
presque toujours un signe de multicollinéarité parfaite. Le remède est de réexaminer le choix des
variables explicatives du modèle.

10.2 Multicollinéarité imparfaite

Il s’agit maintenant d’une situation où ce n’est pas le cas qu’une variable explicative est une
combinaison linéaire exacte des autres variables explicatives du modèle, mais plutôt une situation
où une variable explicative est très fortement corrélée avec une autre variable explicative ou avec
une combinaison linéaire de ces variables. Dans ce cas, la matrice X 0 X n’est pas singulière, mais
elle peut souvent être presque singulière. Elle aura une valeur caractéristique près de zéro, et
beaucoup plus faible que les autres valeurs caractéristiques de la matrice X 0 X.
La multicollinéarité imparfaite n’est typiquement pas un signe d’une erreur logique dans le choix
des variables explicatives du modèle, mais est due aux données utilisées et à la question à laquelle
on essaie de répondre en spécifiant le modèle de régression multiple.
Il y a une conséquence de cette situation qui est strictement dans le domaine de l’analyse
numérique. Avec une matrice X 0 X qui est presque singulière, même si l’ordinateur est capable de
calculer son inverse, le résultat du calcul sera en général sujet à des erreurs numériques
importantes. Les coefficients estimés seront imprécis non au sens statistique mais plutôt au sens
numérique. Souvent, dans ces cas, un logiciel de régression comme R, STATA ou GRETL va
calculer les résultats de la régression, mais il va indiquer parmi l’output que la matrice X 0 X est
presque singulière ou  mal conditionnée .
L’autre conséquence de la multicollinéarité imparfaite est que les écarts types des coefficients
estimés risquent d’être plutôt élevés. Par conséquent, les intervalles de confiance pour les
coefficients individuels seront très larges et les tests d’hypothèse n’auront pas beaucoup de
puissance.
Il est difficile de montrer rigoureusement ce résultat (que les écarts types des coefficients estimés
seront grands) dans le cas général. L’Annexe 6.2 du manuel présente un exemple spécifique qui

93
illustre le principe. Dans le cas d’un modèle de régression multiple avec deux variables
explicatives et erreurs homoscédastiques (Var (ui |X1,i , X2,i ) = σu2 ), nous avons

 
d
− N β1 , σβ̂21
β̂1 →

où " #
1 1 σu2
σβ̂21 = ,
n 1 − ρ2X1 ,X2 σX2
1

où ρX1 ,X2 est la corrélation (dans la population) entre les deux variables explicatives de la
régression. On voit à partir de cette équation que, toutes choses étant égales par ailleurs, plus
élevée est la corrélation entre les deux variables explicatives, plus élevée est la variance de β̂1 .
Dans ce cas, le modèle de régression n’est pas forcément mal spécifié. Par contre, il peut être très
difficile sinon impossible d’estimer avec précision et d’établir la significativité d’un coefficient
d’une variable dont la corrélation avec au moins une autre variable explicative est très forte.

La preuve de cette formule dans le cas où k = 2 est relativement facile. Le modèle au départ
est donné par
Yi = β0 + β1 X1i + β2 X2i + ui .

Nous avons
Ȳ = β0 + β1 X̄1 + β2 X̄2 + ū

où, comme d’habitude, une barre indique la moyenne échantillonnale d’une variable. Ceci
nous donne
 
Yi − Ȳ = β1 X1i − X̄1 + β2 X2i − X̄2 + (ui − ū)

ou  
 β1 
Y =X +U
β2

où par construction la variable dépendante et les variables explicatives ont des moyennes

94
échantillonnales de zéro et où on soustrait la moyenne échantillonnale des erreurs de chaque
ui (bien sûr, puisque nous n’observons pas les ui nous n’observons pas non plus ū.
L’estimateur MCO est donné par la formule habituelle
 
 β̂1  0 −1 0
  = (X X) X Y
β̂2

Dans ce cas, la matrice variance-covariance du vecteur de paramètres estimés est donnée par

 −1
2
σu2  σX1 σX1 ,X2 
Σ2β̂ = .
n
 
2
σX1 ,X2 σX 2

Notez que cette formule repose sur une hypothèse d’homoscédasticité de l’erreur. Puisque
nous avons soustrait les moyennes des variables X1 et X2 , la matrice Q qui normalement est
une matrice de moments bruts s’avère être aussi la matrice variance-covariance des variables
X1 et X2 . Aussi, puisqu’il s’agit dans ce cas d’une matrice de dimensions 2 × 2, on sait
comment écrire une expression algébrique pour son inverse. Il est facile de vérifier que dans
ce cas-ci nous avons  −1
2
 σX 1
σX1 ,X2 
 
2
σX1 ,X2 σX 2

 
2
1  σX2 −σX1 ,X2 
= 2 2  ,
σX σ2
1 X2
− (σX1 ,X2 ) −σX1 ,X2 2
σX1

ce qui donne " #


2
σu2 σX
σβ̂21 = 2
2
n σX 2
σ 2
1 X2
− (σX1 ,X2 )
 
1 1  2
=  2  σu

n 2 (σX1 ,X2 )
σX 1
− 2
σX
2

95
 
1 1  σu2
=  2

n (σX1 ,X2 )  σ2X1
1− 2 σ2
σX X
1 2

" #
1 1 σu2
= ,
n 1 − ρ2X1 ,X2 σX2
1

où ρ2X1 ,X2 est le coefficient de corrélation entre X1 et X2 au carré. En regardant cette
expression, il est clair que la variance σβ̂2 du paramètre estimé β̂1 va croı̂tre avec la valeur
1

absolue du coefficient de corrélation entre X1 et X2 . On peut aussi montrer que la variance de


β̂2 est donnée par " #
1 1 σu2
σβ̂22 = .
n 1 − ρ2X1 ,X2 σX2
2

Encore une fois, sa variance augmente avec la valeur absolue du coefficient de corréltation
entre X1 et X2 .

La multicollinéarité imparfaite traduit le fait qu’il peut être très difficile (sinon impossible),
statistiquement parlant, d’isoler l’impact individuel de chacune de deux variables explicatives qui
sont fortement corrélées. C’est possible que chacune des deux variables soit non significative sur
la base d’un test d’hypothèse simple (basé sur une statistique t), tandis qu’un test de l’hypothèse
nulle jointe que les deux variables sont non significatives rejette cette hypothèse nulle sur la base
d’une statistique F . En interprétant les résultats d’une telle régression, il est important d’insister
sur l’importance du bloc de deux variables pour expliquer la variable dépendante, tout en
soulignant l’impossibilité d’attribuer l’importance à une variable particulière à cause du problème
de multicollinéarité imparfaite.

10.3 Trucs pratiques

96
• Si vous avez une banque de données avec plusieurs variables explicatives potentielles,
il pourrait être intéressant de calculer la matrice de tous les coefficients de corrélation
entre toutes les paires de variables. Ceci peut faire apparaı̂tre des problèmes potentiels
de multicollinéarité.
• Lorsque vous estimez un modèle de régression multiple, il pourrait être intéressant, si
votre logiciel permet de le faire facilement, de calculer la valeur du
 conditionnement  de la matrice (X 0 X), donnée par le ratio de la plus grande valeur
caractéristique de la matrice sur la plus petite valeur caractéristique. Si ce chiffre est
très élevée, on dit que la matrice est  mal conditionnée , ce qui peut occasionner des
erreurs numériques importantes. Une matrice mal conditionnée est presque singulière.

11 Un Exemple

Je présente ici un autre exemple en code R pour illustrer sa puissance et le fait que (même en
n’utilisant pas une des interfaces graphiques disponibles) il est relativement facile à utiliser. On
peut télécharger une banque de données, estimer un modèle de régression multiple, et faire
imprimer les résultats dans un fichier en six lignes de code. Notez que les commandes
coeftest et linearHypothesis se trouvent dans les packages lmtest et car. Il faut les
charger en mémoire et il faut aussi les installer si ce n’est pas déjà fait. On peut les installer avec
les commandes suivantes.

R> install.packages("car")
R> install.packages("lmtest")
En Linux, il est toujours conseillé d’installer les packages comme administrateur ou
super-utilisateur :
R> sudo install.packages("car")
R> sudo install.packages("lmtest")

97
Par la suite, on les charge en mémoire avec les commandes suivantes.

R> library("car")
R> library("lmtest")

Voci l’exemple.

Voici un exemple d’estimation d’un modèle de régression multiple avec le logiciel R. Encore
une fois, vous pouvez facilement jouer avec le code une fois que le logiciel est installé.

R> data("CPS1988", package="AER")


R> CPS lm <- lm(log(wage) ∼ experience + I(experienceˆ2) +
education + ethnicity, data=CPS1988)
R> summary(CPS lm)
R> outfile <- file("regsumm.out", "w")
R> capture.output(summary(CPS lm), file=outfile)
R> close(outfile)

Les données sont dans une banque de données qui s’appelle  CPS1988 . Il s’agit d’une
coupe transversale de 28 155 observations recueillies par le Bureau du Recensement aux États
Unis dans le cadre du sondage Current Population Survey. Les données portent sur les
hommes agés de 18 à 70 ans avec un revenu supérieur à 50 $ qui ne sont ni travailleurs
autonomes ni en train de travailler sans rémunération. Voir la description plus détaillée dans
Kleiber et Zeileis (2008, p.65).
La variable dépendante du modèle est le salaire réel (dollars par semaine) mesuré en logs. La
variable explicative experience est l’expérience de travail mesurée en années, la variable
education est le nombre d’années de formation mesuré en années, et la variable
ethnicity est une variable dichotomiques prenant les valeurs cauc (blanc) et afam
(afro-américain). Notez qu’il s’agit d’une variable dichotomique qui ne prend pas des valeurs

98
chiffrées (0 ou 1 par exemple) : R va pouvoir tenir compte de ceci automatiquement.
Il faut avoir installé le paquetage  AER  avec la commande suivante :

install.packages("AER")

Cette commande va télécharger et installer le paquetage automatiquement à partir d’un des


dépôts d’archives R. (Notez que sous Linux il est préférable d’installer le paquetage comme
administrateur du système, autrement dit comme super-utilisateur).
Il est possible de générer un résumé des propriétés des données avec les commande suivante.

R> data(¨CPS1988¨)
R> summary(CPS1988)

Voir Kleiber et Zeileis (2008, p.66) pour les résultats de cette commande.
• La commande data(·) charge la banque de données.
• La commande lm(·) estime le modèle de régression multiple par MCO, et la
commande jour lm<- place les résultats dans la variable jour lm.
• La commande summary(·) imprime les résultats de la régression à l’écran.
• La commande outfile<- crée un fichier texte où on peut envoyer les résultats.
• La commande capture.output(·) envoie les résultats dans le fichier qui a été créé.
• La commande close(·) ferme le fichier.
La fonction I() dit à R d’interpréter l’opérateur ˆ comme un opérateur algébrique standard,
puisqu’il a aussi une interprétation spéciale en R.
Les résultats de l’estimation sont comme suit :
Call:

lm(formula = log(wage) ∼ experience + I(experienceˆ2) + education +

ethnicity, data = CPS1988)

Residuals:
Min 1Q Median 3Q Max

-2.943 -0.316 0.058 0.376 4.383

99
Coefficients:
Estimate Std. Error t value Pr(> |t|)

(Intercept) 4.321395 0.019174 225.4 <2e-16

experience 0.077473 0.000880 88.0 <2e-16

I(experienceˆ2) -0.001316 0.000019 -69.3 <2e-16

education 0.085673 0.001272 67.3 <2e-16

ethnicityafam -0.243364 0.012918 -18.8 <2e-16


Residual standard error: 0.584 on 28150 degrees of freedom

Multiple R-squared: 0.335, Adjusted R-squared: 0.335

F-statistic: 3.54e+03 on 4 and 28150 DF, p-value: <2e-16

Vous devriez être en mesure de comprendre tous les éléments de l’output, à part la
signification du coefficient ethnicityafam. Ce coefficient est créé automatiquement par
R, qui a choisi de traiter la catégorie cauc comme la catégorie de référence et de créer une
variable dichotomique pour la catégorie afam. La section de ces notes sur la multicollinéarité
parfaite nous a appris que nous ne pouvons pas inclure une constante, une variable
dichotomique pour la catégorie cauc, et une variable dichotomique pour la catégorie afam.
Comme dans le cas du modèle de régression simple, le code ci-dessus estime le modèle par
MCO utilisant les options par défaut. La fonction lm utilise par défaut une hypothèse
d’homoscédasticité. Donc, les écarts types des deux coefficients ne sont pas des écarts types
robustes. Afin d’obtenir des écarts types robustes à la présence de l’hétéroscédasticité, il faut
utiliser la commande suivante :
R> coeftest(CPS lm, vcov=vcovHC)

Les résultats de cette commande sont comme suit :


t test of coefficients:
Estimate Std. Error t value Pr(> |t|)

(Intercept) 4.3214e+00 2.0614e-02 209.630 <2e-16

experience 7.7473e-02 1.0188e-03 76.046 <2e-16

I(experienceˆ2) -1.3161e-03 2.3486e-05 -56.035 <2e-16

education 8.5673e-02 1.3755e-03 62.283 <2e-16


100
ethnicityafam -2.4336e-01 1.3119e-02 -18.550 <2e-16
Comme dans l’exemple présenté dans le chapitre précédent, ce modèle est un exemple d’un
modèle où il n’y a pas une grande différence entre les écarts types robustes et non robustes.
Puisque l’ordinateur est capable de calculer les écarts types en une fraction de seconde, il
coûte presque rien de les calculer des deux façons afin de vérifier si les résultats sont
semblables ou non.

Nous pouvons aussi effectuer des tests de restrictions sur le modèle estimé. Nous pouvons
spécifier la matrice R et le vecteur r comme dans les notes de cours. La forme générale d’un
test d’hypothèses linéaires dans R est

linearHypothesis(unrestricted,bigr,littler)

Ici,  unrestricted  est le nom du modèle linéaire estimé,  bigr  est la matrice R,
et  littler  est le vecteur r des notes. Afin d’utiliser la matrice de variance-covariance
robuste, il faut spécifier la commande de la manière suivante :

linearHypothesis(unrestricted,bigr,littler,white.adjust=HC)

Voici un exemple de test dans le contexte du modèle estimé dans cet encadré. si on voulait,
par exemple, tester la significativité de l’expérience, il faut test la significativité de deux
coefficients, le terme linéaire et le terme au carrré. L’hypothèse nulle jointe serait
β1 = β2 = 0. Sous forme matricielle, on aurait

 
β
 0 
 
 β   
 1 
 0 1 0 0 0    0 
 β2  =  

 
0 0 1 0 0   0
 β3 
 
 
β4

D’abord, il faut définir les matrices R et r dans le langage R.

R> bigr <- rbind(c(0,1,0,0,0),c(0,0,1,0,0))


R> littler <- rbind(0,0)

101
Pour plus de précisions, on peut invoquer la commande help(rbind). Maintenant, on peut
invoquer la commande linearHypothesis telle que spécifiée ci-dessus.

12 Un Autre Exemple

Je présente ici un autre exemple détaillé, basé sur la dernière question du dernier tp du trimestre
d’hiver 2012. Le code R est commenté et donc les commandes devraient être compréhensible au
lecteur.
D’abord, voici la question du tp.

Préambule

L’exercice est basé sur l’article de Mankiw, Romer et Weil (1992). Soit la fonction de
production agrégée donnée par
Yt = Kt α (At Lt )(1−α)

où Yt est le PIB réel, Kt le stock de capital, At le niveau du progrès technique, et Lt l’emploi
total. On peut transformer cette équation de la manière suivante :

   α
Yt Kt
= At
Lt At Lt

Supposons que le progrès technique croı̂t èn moyenne à un rythme constant et égal à travers
les pays différents :
Ai,t = Ai,0 egt

où g est le taux de croissance du progrès technique, Ai,0 le niveau initial du progrès technique
pour le pays i, et Ai,t le niveau du progrès technique au pays i en période t. Le modèle de

102
Solow prédit qu’à long terme le ratio du capital par travailleur effectif est donné par

 
Kt s
≡ kt = k ∗ =
At Lt n+g+δ

où n est le taux de croissance de la population active et δ est le taux de dépréciation du


capital. Supposons un niveau initial du progrès technique qui peut dépendre du pays (dotation
initiale en ressources naturelles, etc., tel que

ln (Ai,0 ) = a + εi .

Donc, nous avons qu’à long terme

 
Yi,t
= Ai,t ki∗ α + εi
Li,t

 
Yi,t
⇒ ln = a + gt + αsi − α (ni + g + δ) + εi
Li,t

où nous supposons g et δ constants à travers les pays différents. Si on suppose t = 0 pour
simplifier nous pouvons écrire

 
Yi
ln = a + αsi − α(ni + g + δ) + εi . (3)
Li

Si on ajoute le capital humain au modèle, la fonction de production devient

Yt = Kt α Ht β (At Lt )(1−α−β) ,

103
où Ht est le capital humain. On peut montrer (voir l’article pour les détails) que l’équivalent
de (3) devient

 
Yi α β α+β
ln =a+ si + shi − (ni + g + δ) + εi . (4)
Li 1−α−β 1−α−β 1−α−β

La variable shi est le taux d’investissement dans le capital humain.

Données

Téléchargez le fichier de données (en format STATA) :


http://www.er.uqam.ca/nobel/r10735/4272/GrowthDJ.dta
Vous devriez être capables de les importer facilement avec GRETL. Si vous utilisez R, la base
de données se retrouve dans la  library  AER. Les données sont pour un échantillon de 121
pays et sont :

• oil : pays où l’industrie pétrolière est l’industrie dominante (yes) ou non
• inter : pays avec une population au moins égale à un million en 1960 et avec des
données relativement fiables selon Heston et Summers (1987) (yes) ou non
• oecd : pays membre de l’OCDÉ (yes) ou non
• gdp60 : niveau réel du PIB par habitant en 1960
• gdp85 : niveau réel du PIB par habitant en 1985
• gdpgrowth : taux de croissance moyen du PIB réel par habitant entre 1960 et 1985
• popgrowth : taux de croissance moyen de la population entre 1960 et 1985
• invest : valeur moyenne du ratio investissement sur PIB entre 1960 et 1985
• school : ratio moyen des inscriptions à l’école secondaire sur la population en âge de
travailler.
• literacy60 : taux d’alphabétisation en 1960

Les données correspondent à l’Annexe de l’article de Mankiw, Romer et Weil (1992). Pour

104
l’identité des pays, il faut référer à cette annexe.

Exercice

1. Estimez un modèle de régression multiple où gdp85 est la variable dépendante et les
variables explicatives sont une constante, invest pour mesurer si et
(popgrowth+0.05) pour mesurer (ni + g + δ) (nous supposons
qu’approximativement g + δ = 0.05). Ce modèle équivaut au modèle de Solow sans
capital humain. Estimez en calculant des écarts types non robustes et robustes.
Commentez ce que vous trouvez. Pour les sous-questions qui suivent, vous pouvez
vous limiter à des estimations et des tests qui utilisent la matrice de
variance-covariance robuste.

2. Le modèle de Solow prédit que les coefficients sur le taux d’épargne si et le taux de
croissance de la population (ni + 0.05) devraient être de signe opposé mais égaux en
valeur absolue. Testez cette hypothèse. Le modèle prédit aussi que ces deux
coefficients devraient être égaux en valeur absolue à la part du capital dans le revenu
national (α), soit environ 1/3. Testez cette hypothèse jointe.

3. Enlevez de l’échantillon les pays où l’industrie pétrolière est l’industrie dominante.
Refaites les estimations et tests des 2 premières sous-parties.

4. Enlevez maintenant les pays où l’industrie pétrolière est dominante et les pays qui ont
une population inférieure à un million en 1960 ou qui ont des données relativement
peu fiables. Refaites les estimations et tests des 2 premières sous-parties. Gardez cet
échantillon restreint pour le reste des sous-parties. En principe vous devriez avoir 75
observations.

5. Maintenant, supposons que les pays membres de l’OCDE ont un comportement


différent des autres pays. Soit oecd la variable qui prend une valeur unitaire si le pays
est membre de l’OCDE et zéro autrement. Incluez comme variables explicatives des

105
variables d’interaction entre oecd et les autres variables explicatives à part la
constante.

6. Testez significitivité (individuelle et jointe) de ces termes d’interaction.

7. Ajoutez la variable school au modèle comme proxy pour sh , avec un terme


d’interaction pour les pays de l’OCDE. Le modèle maintenant équivaut au modèle de
Solow avec l’ajout du capital humain, avec un terme d’interaction pour les pays de
l’OCDE.

8. Testez la significativité des deux variables additionelles (school et le terme


d’interaction entre school et le fait d’être membre de l’OCDE).

9. Le modèle augmenté prédit que coefficient de la variable associé au taux d’épargne s


devrait maintenant être supérieur à la part du capital. Testez cette hypothèse en
appliquant un test avec hypothèse alternative unilatérale au coefficient associé à
school seulement.

10. Le modèle augmenté prédit que la somme des coefficients sur school et invest
devrait être égale à moins le coefficient sur (popgrowth+0.05). Testez cette
hypothèse, pour les pays non membres de l’OCDE seulement.

11. Ajoutez le niveau du PIB par habitant en 1960 au modèle mesuré par gdp60, avec un
terme d’interaction entre gdp60 et le fait d’être membre de l’OCDE. La
significatitivité du coefficient associé à cette variable nous permet de tester l’hypothèse
de convergence. Testez la significativité de la variable gdp60. Testez maintenant la
significativité jointe de cette variable et du coefficient associé au terme d’interaction.

12. Revenez au modèle sans le niveau du PIB par habitant en 1960. Construisez un
graphique avec les résidus au carré sur l’axe vertical et la variable dépendante sur
l’axe horizontal. Est-ce que vous repérez des valeurs aberrantes (outliers) ? Qu’est-ce
qui arrive si vous refaites l’analyse en enlevant les observations associées aux valeurs
aberrantes des résidus au carré ?

106
13. Commentez la validité de vos tests d’hypothèse. Est-ce qu’il y a assez d’observations
pour supposer la normalité approximative des statistiques calculées ? Par contre, basé
sur une analyse des résidus, est-ce que les erreurs du modèle semblent être normales et
homoscédastiques, ce qui permettrait d’utiliser de tests exacts en échantillon fini ?
Justifiez.

Références

Mankiw, N. Gregory, David Romer et Philippe Weil (1992), “A Contribution to the Empirics
of Economic Growth.” Quarterly Journal of Economics 107, 407–437
Heston, Alan et Robert Summers (1987), “A New Set of International Comparisons of Real
Product and Price Levels : Estimates for 130 Countries 1950–85.” Review of Income and
Wealth 34, 1–26

Maintenant, voici le code en R pour estimer le modèle et répondre aux questions du tp. Les
mêmes remarques s’appliquent que pour l’exemple précédent. Les commandes coeftest et
linearHypothesis dépendent de librarys qui doivent être installées et chargées en
mémoire.

#
# Charger en mémoire la bibliothèque AER.
#
library("AER")
#
# Charger en mémoire les bibliothèques nécessaires
# pour effectuer les tests d’hypothèses multiples.
# La bibliothèque AER requiert les autres

107
# bibliothèques, alors ces commandes ne sont pas
# strictement nécessaires, mais pourraient l’être
# pour d’autres applications.
#
library("car")
library("sandwich")
library("lmtest")
#
# Charger en mémoire les données de la banque
# GrowthDJ.
#
data("GrowthDJ",package="AER")
#
# Imprimer un résumé des données dans GrowthDJ.
#
attributes(GrowthDJ)
#
# Imprimer des statistique descriptives concernant
# les variables dans GrowthDJ.
#
summary(GrowthDJ)
#
# Estimer le premier modèle.
#
growth_mod < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05),
data=GrowthDJ)

108
#
# Imprimer les résultats sous l’homoscédasticité.
#
summary(growth_mod)
#
# Imprimer les résultats sous l’hétéroscédasticité
# pour comparaison.
#
coeftest(growth_mod,vcov=vcovHC)
#
# Tester l’hypothèse que les 2 coefficients sont
# égaux mais de signe opposé.
#
linearHypothesis(growth_mod,c(0,1,-1),0,white.adjust=FALSE)

#
# Même test, hétéroscédasticité.
#
linearHypothesis(growth_mod,c(0,1,-1),0,white.adjust=TRUE)

#
# Enlever les observations de pays qui dépendent du
# pétrole.
#
Growth2 < − subset(GrowthDJ,GrowthDJ$oil=="no")
#
# Réestimer le modèle avec l’échantillon restreint.
#

109
growth_mod2 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05),
data=Growth2)
#
# Imprimer les résultats d’estimation sous
# l’homoscédasticité.
#
summary(growth_mod2)
#
# Imprimer les résultats d’estimation avec
# écarts types robustes.
#
coeftest(growth_mod2,vcov=vcovHC)
#
# Tester l’hypothèse que les 2 coefficients sont
# égaux mais de signe opposé.
#
linearHypothesis(growth_mod2,c(0,1,-1),0,white.adjust=FALSE)

#
# Même test, matrice variance-covariance robuste.
#
linearHypothesis(growth_mod2,c(0,1,-1),0,white.adjust=TRUE)

#
# Enlever les observations de pays trop petits
# et/ou avec données non fiables.
#
Growth3 < − subset(GrowthDJ,GrowthDJ$oil=="no")

110
Growth3 < − subset(Growth3,Growth3$inter=="yes")
#
# Estimer le nouveau modèle.
#
growth_mod3 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05),
data=Growth3)
#
# Imprimer les résultats sous l’homoscédasticité.
#
summary(growth_mod3)
#
# Imprimer les résultats sous l’hétéroscédasticité
# pour comparaison.
#
coeftest(growth_mod3,vcov=vcovHC)
#
# Estimer le modèle avec termes d’interaction pour
# les pays de l’OCDE.
#
growth_mod4 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05)
+
log(invest):oecd + I(popgrowth+0.05):oecd, data=Growth3)
#
# Imprimer les résultats sous l’homoscédasticité.
#
summary(growth_mod4)

111
#
# Imprimer les résultats sous l’hétéroscédasticité
# pour comparaison.
#
coeftest(growth_mod4,vcov=vcovHC)
#
# Tester la significativité jointe des 2 termes
# d’interaction.
#
bigr < − rbind(c(0,0,0,1,0),c(0,0,0,0,1))
litr < − rbind(0,0)
linearHypothesis(growth_mod4,bigr,litr,white.adjust=FALSE)

#
# Même test avec matrice variance-covariance
# robuste.
#
linearHypothesis(growth_mod4,bigr,litr,white.adjust=HC)

#
# Estimer le modèle en ajoutant school.
#
growth_mod5 < − lm(log(gdp85) log(invest) + I(popgrowth+0.05)
+ school
+ log(invest):oecd + I(popgrowth+0.05):oecd + school:oecd,
data=Growth3)
#
# Tester la restriction sur les 3 coefficients

112
#
bigr < − c(0,1,1,-1,0,0,0)
litr < − 0
linearHypothesis(growth_mod5,bigr,litr,white.adjust=FALSE)

#
# Même test avec matrice variance-covariance
# robuste.
#
linearHypothesis(growth_mod5,bigr,litr,white.adjust=TRUE)

#
# Estimer le modèle avec gdp60.
#
growth_mod6 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05)
+ school + log(gdp60) + log(invest):oecd +
I(popgrowth+0.05):oecd
+ school:oecd + log(gdp60):oecd, data=Growth3)
#
# Tester la significativité de la convergence.
#
bigr < − rbind(c(0,0,0,0,1,0,0,0,0),c(0,0,0,0,0,0,0,0,1))
litr < − rbind(0,0)
linearHypothesis(growth_mod6,bigr,litr,white.adjust-FALSE)

linearHypothesis(growth_mod6,bigr,litr,white.adjust=TRUE)

L’output de ces commandes se trouve ci-dessous. J’ai converti les tableaux R en format LATEX à
l’aide du package texreg. Pour l’instant, j’ai inclus seulement les résultats d’estimation des
modèles différents sous l’hypothèse d’homoscédasticité.

113
Model 1

(Intercept) 3.95∗∗∗
(0.54)
log(invest) 1.51∗∗∗
(0.16)
I(popgrowth + 0.05) -0.01
(0.08)

R2 0.47
Adj. R2 0.46
Num. obs. 107

***
p < 0.01, ** p < 0.05, * p < 0.1

Model 2

(Intercept) 4.69∗∗∗
(0.49)
log(invest) 1.44∗∗∗
(0.14)
I(popgrowth + 0.05) -0.27∗∗∗
(0.08)

R2 0.59
Adj. R2 0.59
Num. obs. 98

***
p < 0.01, ** p < 0.05, * p < 0.1

114
Model 3

(Intercept) 5.20∗∗∗
(0.58)
log(invest) 1.33∗∗∗
(0.17)
I(popgrowth + 0.05) -0.28∗∗∗
(0.08)

R2 0.59
Adj. R2 0.58
Num. obs. 75

***
p < 0.01, ** p < 0.05, * p < 0.1

115
Model 4

(Intercept) 5.08∗∗∗
(0.55)
log(invest) 1.03∗∗∗
(0.18)
I(popgrowth + 0.05) 0.03
(0.13)
log(invest) :oecdyes 0.34∗∗
(0.14)
I(popgrowth + 0.05) :oecdyes -0.11
(0.24)

R2 0.66
Adj. R2 0.64
Num. obs. 75

***
p < 0.01, ** p < 0.05, * p < 0.1

116
Model 5

(Intercept) 5.56∗∗∗
(0.47)
log(invest) 0.55∗∗∗
(0.17)
I(popgrowth + 0.05) 0.06
(0.10)
school 0.14∗∗∗
(0.03)
log(invest) :oecdyes 0.42∗∗
(0.19)
I(popgrowth + 0.05) :oecdyes -0.21
(0.20)
school :oecdyes -0.05
(0.06)

R2 0.77
Adj. R2 0.75
Num. obs. 75

***
p < 0.01, ** p < 0.05, * p < 0.1

117
Model 6

(Intercept) 1.51∗∗∗
(0.54)
log(invest) 0.48∗∗∗
(0.12)
I(popgrowth + 0.05) 0.05
(0.07)
school 0.05∗∗∗
(0.02)
log(gdp60) 0.63∗∗∗
(0.07)
log(invest) :oecdyes 0.08
(0.29)
I(popgrowth + 0.05) :oecdyes -0.17
(0.13)
school :oecdyes -0.04
(0.04)
log(gdp60) :oecdyes 0.07
(0.12)

R2 0.90
Adj. R2 0.89
Num. obs. 75

***
p < 0.01, ** p < 0.05, * p < 0.1

118
13 Concepts à retenir

• La spécification matricielle du modèle de régression multiple.


• Les hypothèses de base du modèle de régression multiple.
• Être capable de suivre et comprendre le calcul de l’estimateur MCO en notation
matricielle.
• Être capable de suivre et comprendre le calcul de l’estimateur MCO en notation non
matricielle.
• Être capable de suivre les preuves des propriétés algébriques de l’estimateur MCO et de
retenir les propriétés elles-mêmes (orthogonalité entre variables explicatives et résidus,
somme des résidus égale à 0, orthogonalité entre valeurs prédites et résidus).
• Comprendre la distinction entre la mesure R2 de l’ajustement statistique et la mesure R̄2
de l’ajustement statistique. Comprendre pourquoi le R2 ne peut qu’augmenter si on ajoute
une ou des variables explicatives au modèle de régression. Ce point est très important. Si
vous regardez les examens passés, vous allez constater qu’il y a souvent une question
courte qui porte sur ce concept.
• Les grandes lignes des propriétés de l’estimateur MCO dans le modèle de régression
multiple (absence de biais, convergence).
• Les hypothèses additionnelles qui doivent tenir pour que le théorème Gauss-Markov soit
valide et donc pour que l’estimateur MCO soit efficient. Notez bien que l’hypothèse
cruciale est celle de l’homoscédasticité du terme d’erreur du modèle.
• Comprendre la distinction entre la matrice de variance-covariance robuste des coefficients
et la matrice de variance-covariance qui suppose l’homoscédasticité des erreurs.
Comprendre l’importance de savoir quelle est la version de la matrice de
variance-covariance qui est calculée par défaut par son logiciel économétrique de choix.
• Comment effectuer un test d’hypothèse simple.
• Comment effectuer un test d’hypothèse simple portant sur une combinaison linéaire de
coefficients par une version transformée mais équivalente du modèle.

119
• Comment effectuer un test d’hypothèses jointes, et la façon générale d’exprimer les
contraintes à tester sous forme matricielle.
• L’idée que la statistique F pour tester une hypothèse simple est le carré de la statistique t
pour tester la même hypothèse. L’idée que l’utilisation d’un test F pour tester une
hypothèse simple suppose forcément un hypothèse alternative bilatérale (puisque le signe
d’une statistique F est toujours positif).
• Comment tester une ou des restrictions en estimant le modèle restreint, et les hypothèses
qui doivent être vérifiées pour que cette façon de procéder soit valide (notamment
l’homoscédasticité).
• Connaı̂tre la différence entre l’estimation d’un modèle restreint ou contraint, et
l’estimation d’un modèle équivalent.
• L’idée que les ensembles de confiance sont des ellipses, et qu’ils sont des ensembles de
valeurs pour lesquelles on ne peut rejeter l’hypothèse jointe que les coefficients sont égaux
à ces valeurs, sous l’hypothèse nulle des valeurs obtenues par le biais de notre régression
MCO.
• Le principe de base concernant comment établir si des valeurs données de plusieurs
coefficients se retrouvent dans l’ensemble de confiance de X% pour ces coefficients.
• La distinction entre multicollinéarité parfaite et multicollinéarité imparfaite.
• L’idée que la multicollinéarité parfaite indique un problème logique dans la sélection des
variables explicatives.
• L’idée que la multicollinéarité imparfaite reflète une corrélation forte entre
sous-ensembles de variables explicatives et non une erreur logique dans la sélection des
variables explicatives.
• L’idée qu’un groupe de variables puisse être significatif pour expliquer la variable
dépendante sans forcément la possibilité de pouvoir attribuer cette importance à une des
variables individuelles du groupe en particulier.
• Comprendre des techniques informelles pour détecter un problème de multicollinéarité

120
imparfaite (notamment un calcul de la matrice de toutes les corrélations possibles entre les
variables explicatives, et le calcul du conditionnement de la matrice (X 0 X)).

14 Références

Pour le calcul différentiel en notation matricielle, voir le document suivant :


“Introduction to Finite Element Methods (ASEN 5007), Appendix D.” Department of Aerospace
Engineering Sciences, University of Colorado at Boulder, 2007
Je ne retrouve plus le fichier sur le site de l’University of Colorado. Il est disponible sur mon site
à l’adresse suivante :
http://www.steveambler.uqam.ca/4272/articles/matrixcalculus.pdf
Les quatre premières pages de cet article sont particulièrement pertinentes pour les fins de ce
cours.

Pour d’autres références portant sur le modèle de régression multiple, voir :


http://www.steveambler.uqam.ca/4272/chapitres/referenc.pdf

Dernière modification : 20/03/2018

121

Vous aimerez peut-être aussi