Reg Multiple

ECO 4272 : Introduction à l’économétrie
Notes sur la Régression Multiple

Steve Ambler∗
Département des sciences économiques
École des sciences de la gestion
Université du Québec à Montréal
c 2018 : Steve Ambler
Hiver 2018
∗
Ces notes sont en cours de développement. J’ai besoin de vos commentaires et de vos suggestions pour
les améliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message à
ambler.steven@uqam.ca.
1
Table des matières
1 Introduction 4
2 Biais dû à une variable omise 4

2.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Modèle de régression multiple 10

3.1 Spécification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Spécification matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3 Hypothèses de base du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.4 Estimateur MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.4.1 Différentiation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4.2 Quelques exemples simples des règles de différentiation . . . . . . . . . . 18
3.5 Approche non matricielle au problème de minimisation . . . . . . . . . . . . . . . 20
4 Propriétés algébriques de l’estimateur MCO 23

4.1 Orthogonalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 Somme des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Valeurs prédites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4 Écart type de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.5 Mesures d’ajustement statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.5.1 Le R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.5.2 Le R2 ajusté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5 Propriétés statistiques de l’estimateur MCO 37

5.1 Propriétés statistiques : absence de biais . . . . . . . . . . . . . . . . . . . . . . . 37
5.2 Petite note : théorème de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3 Propriétés statistiques : convergence . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.4 Petite note sur les covariances en notation matricielle . . . . . . . . . . . . . . . . 45
5.5 Propriétés statistiques : distribution en grand échantillon . . . . . . . . . . . . . . 46
5.5.1 Cas homoscédastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6 Variance échantillonnale de β̂ 49
6.1 Cas homoscédastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.2 Homoscédasticité versus Hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . 53
7 Efficience de l’estimateur MCO sous l’homoscédasticité 54

7.1 Preuve du théorème Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 55
8 Biais dû à des variables omises (bis) 57
9 Tests d’hypothèses et ensembles de confiance 65

9.1 Tests d’hypothèses simples par rapport à un seul coefficient . . . . . . . . . . . . . 65
9.2 Tests d’hypothèses simples par rapport à une combinaison linéaire de coefficients . 67
9.2.1 Méthode indirecte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2
9.2.2 Méthode directe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
9.3 Pourquoi les tests séquentiels ne sont pas valides . . . . . . . . . . . . . . . . . . 70
9.4 Tests d’hypothèses jointes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
9.5 Que faire lorsque Σ̂β̂ n’est pas disponible ? . . . . . . . . . . . . . . . . . . . . . . 74
9.6 Une seule restriction comme un cas spécial . . . . . . . . . . . . . . . . . . . . . 75
9.7 Significativité de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
9.8 Tests d’hypothèse en présence d’homoscédasticité . . . . . . . . . . . . . . . . . . 80
9.9 Test de significativité de la régression dans le cas homoscédastique . . . . . . . . . 88
9.10 Tests exacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.11 Ensembles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
10 Multicollinéarité 91
10.1 Multicollinéarité parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
10.2 Multicollinéarité imparfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
10.3 Trucs pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
11 Un Exemple 97
12 Un Autre Exemple 102
13 Concepts à retenir 119
14 Références 121
3
1 Introduction
Dans ce chapitre sur le modèle de régression multiple, il n’y a presque rien de fondamentalement
nouveau par rapport au modèle de régression simple. Une lecture de la table des matières de ces
notes servira à vous convaincre que ce sont les mêmes sujets qui reviennent. C’est comme si on
allait réapprendre la matière sur le modèle de régression simple mais en notation matricielle.
C’est donc une bonne occasion de faire de la révision, surtout en ce qui concerne les propriétés de
l’estimateur MCO. À peu près le seul aspect novateur (à part la notation matricielle elle-même)
sera l’idée de tester des hypothèses jointes (et une notion qui y est très reliée, celle des ensembles
de confiance). 1
Une fois la notation matricielle apprise, toutes les dérivations algébriques concernant les
propriétés algébriques de l’estimateur MCO et les propriétés statistiques de l’estimateur MCO
sont plus simples en notation matricielle qu’en notation de sommations. J’espère vous convaincre
de ce principe avant de terminer notre étude sur le modèle de régression multiple.
2 Biais dû à une variable omise
On peut motiver le modèle de régression multiple en montrant que, si nous voulons analyser
l’impact d’une variable explicative sur une variable dépendante et si nous omettons une ou des
variables qui ont un impact sur la variable dépendante, notre estimé de cet impact sera en général
biaisé, dans la mesure où la corrélation entre cette variable omise ou ces variables omises et la
variable explicative du modèle est non nulle.
Cela veut dire que, même si nous ne nous intéressons pas particulièrement à l’impact de ces
variables omises, il faut néanmoins en tenir compte dans notre modèle de régression afin
d’obtenir un estimé non biaisé de l’impact de notre variable d’intérêt (pour utiliser l’exemple
empirique du manuel, l’impact de la taille moyenne des classes sur le rendement scolaire).
1. Le concept de tester une hypothèse simple qui porte sur une combinaison de coefficients est nouveau aussi,
mais nous allons montrer comment transformer le modèle de régression multiple pour traiter ce cas comme un test
d’une hypothèse nulle qui porte sur un seul coefficient. Voir la sous-section 9.2.
4
On sait à partir de notre étude du modèle de régression simple, que l’estimateur du coefficient de
pente β1 est égal à :
1
Pn
n i=1 Xi − X̄ ui
β̂1 = β1 + Pn 2 .
1
n i=1 Xi − X̄
Maintenant, on modifie nos hypothèses statistiques par rapport au modèle de régression simple
étudié dans le dernier chapitre. On n’impose plus que l’espérance (conditionnelle à la valeur
observée Xi ) soit égale à zéro. Maintenant, on a :
n
1X p
Xi − X̄ ui →
− Cov (u , X) = Corr (u , X) σu σX ,
n i=1
et
n
1X 2 p 2
Xi − X̄ → − σX .
n i=1
Donc, par le théorème de Slutsky (voir la section 5.2 ci-dessous), ce qui nous permet d’étudier
séparément les propriétés en grand échantillon du numérateur et du dénominateur du deuxième
terme dans l’expression pour la valeur de notre estimateur β̂1 , on a :
p Corr (u , X) σu σX σu
β̂1 →
− β1 + 2
= β1 + Corr (u , X) .
σX σX
L’estimateur n’est plus convergent. Il y a un biais, même asymptotiquement (lorsque le nombre

d’observations tend vers l’infini). Le signe du biais dépend du signe de la corrélation entre la
variable explicative Xi et le terme d’erreur ui .
Notez que, dans ce cas, les hypothèses de base du modèle ne sont pas respectées. La variable
omise, qui est incluse dans le terme d’erreur du modèle, est corrélée avec la variable explicative
du modèle X. Autrement dit, l’hypothèse
E (ui |X = Xi ) = 0
ne tient plus. Dans le cadre d’une étude empirique, il faut évaluer la plausibilité de cette
5
hypothèse avec les données qu’on a. S’il y a une variable dans la banque de données qui en
principe pourrait affecter la variable dépendante de l’étude et qui risque d’être corrélée avec une
variable qui est incluse comme variable explicative dans le modèle, il y a probablement un
problème de variable omise. 2
Une solution possible est d’inclure les variables omises explicitement comme variables
explicatives additionnelles dans le modèle de régression. Le modèle de régression simple devient
un modèle de régression multiple. Nous verrons dans la section suivante la spécification du
modèle de régression multiple et les hypothèses standard qui permettront, comme dans le modèle
de régression simple, de démontrer certaines propriétés souhaitables de l’estimateur MCO des
coefficients.
2.1 Exemple
Nous pouvons être encore plus explicites. Supposons que le vrai modèle est donné par
Yi = β0 + β1 X1i + β2 X2i + ui
tandis que le modèle estimé est

Yi = β0 + β1 X1i + ũi
où
ũi ≡ β2 X2i + ui .
Le terme d’erreur du modèle estimé incorpore la variable omise X2i avec le vrai terme d’erreur
ui . Nous avons
1
Pn
n i=1 X1i − X̄1 Yi − Ȳ
β̂1 = Pn 2
1
n i=1 X1i − X̄1
2. Dans des cours plus avancés, vous allez apprendre des façons formelles de tester l’absence de corrélation entre
les variables explicatives du modèle et le terme d’erreur. Voir par exemple McFadden (2002). Sans ces méthodologies
avancées, il faut se fier à la logique et à son intuition.
6
1
Pn
n i=1 X1i − X̄1 β0 + β1 X1i + β2 X2i + ui − β0 − β1 X̄1 − β2 X̄2 − ū
= Pn 2
1
n i=1 X1i − X̄1
1
Pn 2 1
Pn
i=1 X1i − X̄1 i=1 X1i − X̄1 X2i − X̄2
= β1 n Pn 2 + β2 n
Pn 2
1 1
n
X1i − X̄1
i=1 n i=1 X1i − X̄1
1
Pn
n i=1 X1i − X̄1 (ui − ū)
+ Pn 2
1
n i=1 X1i − X̄1
1
Pn 1
Pn
X 1i − X̄ 1 X 2i − X̄ 2 X 1i − X̄ 1 (ui − ū)
= β1 + β2 n i=1 Pn 2 + n i=1 n 2 .
1 1
P
n i=1 X 1i − X̄ 1 n i=1 X 1i − X̄ 1
Calculant l’espérance de β̂1 , nous obtenons
1
Pn !

n i=1 X 1i − X̄ 1 X 2i − X̄ 2
E β̂1 = β1 + β2 E Pn 2
1
n i=1 X1i − X̄1
Pn !
1

n
X1i − X̄1 E ((ui − ū) |X11 , X12 , . . . , X1n )
i=1
+E + Pn 2
1
n i=1 X1i − X̄1
1
Pn !
X 1i − X̄ 1 X 2i − X̄ 2
= β1 + β2 E n i=1 Pn 2
1
n i=1 X1i − X̄1
par la loi des espérances itérées. En général,
1
Pn !
n i=1 X 1i − X̄ 1 X 2i − X̄ 2
E Pn 2 6= 0.
1
n i=1 X 1i − X̄ 1
L’estimateur est biaisé, le biais étant donné par la valeur de l’espérance dans l’équation
précédente.
Nous pouvons dire plus que cela, au moins asymptotiquement (lorsque la taille de l’échantillon n
tend vers l’infini). L’expression
n
1X
X1i − X̄1 X2i − X̄2
n i=1
est tout simplement la covariance échantillonnale entre X1 et X2 . (C’est différent par un facteur
7
de n/(n − 1) qui est presqu’égal à un si n est grand.) L’expression
n
1X 2
X1i − X̄1
n i=1
est tout simplement (ou presque) la variance échantillonnale de X1 . Si les deux expressions sont
des estimateurs convergents de leurs équivalents dans la population, nous avons :
n
1X p
X1i − X̄1 X2i − X̄2 →− Cov (X1 , X2 )
n i=1
et
n
1X 2 p
X1i − X̄1 → − Var (X1 ) .
n i=1
Par le théorème de Slutsky (voir la section 5.2 ci-dessous), nous avons
p Cov (X1 , X2 )
β̂1 →
− β1 + β2
Var (X1 )
La différence entre β̂1 et sa vraie valeur est approximativement égale à la vraie valeur de β2 fois le
ratio de la covariance entre X1 et X2 et la variance de X2 . Si on connaı̂t au moins le signe de β2
(on pourrait avoir de l’information a priori sur le signe de β2 ) et de la covariance, on peut prédire
le signe de cet écart. Aussi, nous savons que
Cov (X1 , X2 )
Var (X1 )
est la valeur (asymptotiquement) du coefficient de pente d’une régression où X2 est la variable
dépendante et X1 est la variable explicative, cela veut dire l’estimation du modèle de régression
linéaire simple suivant :
X2i = γ0 + γ1 X1i + εi .
8
Dans cet encadré, j’élabore un peu sur cette interprétation alernative.
Si on remonte un peu en arrière nous constatons que nous pouvons exprimer notre estimateur
β̂1 comme
1
Pn 1
Pn
n i=1 X1i − X̄1 X2i − X̄2 n i=1 X1i − X̄1 (ui − ū)
β̂1 = β1 + β2 Pn 2 + Pn 2 .
1 1
n i=1 X1i − X̄1 n i=1 X1i − X̄1
Nous constatons aussi que le terme qui multiplie β2 , soit
1
Pn
n i=1 X 1i − X̄ 1 X 2i − X̄ 2
1
Pn 2
n i=1 X 1i − X̄ 1
ressemble à quelque chose que nous connaissons. Il est égal (presque) à la covariance
échantillonnale entre X1 et X2 divisée par la variance échantillonnale de X1 . C’est
exactement ce que l’on obtiendrait si on estimait un modèle de régression simple avec X2
comme variable dépendante et X1 comme la seule variable explicative (à part la constante).
Autrement dit, avec ce que l’on pourrait appeler le modèle auxiliaire suivant :
X2i = γ0 + γ1 X1i + εi
on obtiendrait l’estimateur MCO suivant :
1
Pn
n i=1 X1i − X̄1 X2i − X̄2
γ̂= Pn 2 .
1
n i=1 X1i − X̄1
Nous obtenons donc
1
Pn
n i=1 X1i − X̄1 (ui − ū)
β̂1 = β1 + β2 γ̂1 + Pn 2 .
1
n i=1 X1i − X̄1
Ainsi, si
p
− γ10
γ̂1 →
9
nous avons
p
− β1 + β2 γ10 .
β̂1 →
On ne peut présumer que l’estimateur γ̂1 est un estimateur convergent, puisqu’il faudrait faire
des hypothèses statistiques maintenues (notamment concernant l’espérance conditionnelle de
l’erreur εi ) afin de pouvoir montrer cette convergence. C’est pourquoi j’ai écrit γ10 ici et non
γ1 .
Nous allons montrer une généralisation de ce résultat dans la section (8) ci-dessous, où X1
pourrait être un vecteur de plusieurs variables explicatives incluses et X2 pourrait être un
vecteur de plusieurs variables omises.
3 Modèle de régression multiple
À la lumière de ce que nous venons de montrer que l’omission d’une variable qui est pertinente
pour la prédiction de la variable dépendante Yi peut mener à un estimateur biaisé de l’influence
d’une variable d’intérêt X1i sur la variable dépendante. Donc, si nous voulons estimer son impact
sans biais, il faut en principe inclure toutes les variables qui pourraient aider à prédire Yi et qui
sont potentiellement corrélées avec X1i . 3 Ceci nous mène au modèle de régression multiple.
3.1 Spécification
Yi = β0 + X1i β1 + X2i β2 + . . . + Xki βk + ui . (1)

3. Est-il possible d’inclure toutes les variables qui peuvent aider à prédire Yi ? La réponse à cette question est
non pour des raisons que nous allons étudier plus tard. Alors, quelles variables inclure ? Le choix de va-
riables à inclure dans un modèle de régression multiple peut être une question très compliquée. Nous allons voir
quelques critères de sélection dans ce chapitre. Voir le vidéoclip https://www.youtube.com/watch?v=
HP3RhjLhRjY pour une discussion qui n’est pas trop technique. Voir aussi https://www.youtube.com/
watch?v=kl4RxV37ebk.
10
Chaque variable explicative porte deux indices inférieurs. Le premier fait référence à son identité.
Le deuxième fait référence à l’unité d’observation (ou période dans le cas de séries
chronologiques). Cette convention suit la convention du manuel. On suppose un échantillon de n
observations.
3.2 Spécification matricielle
Y = Xβ + U,
où
0
Y ≡ Y1 Y2 . . . Yn ,
 
 1 X11 X21 . . . Xk1 
 
 1 X12 X22 . . . Xk2 
X≡ ,
 
.. .. .. .. .. 

 . . . . . 

 
1 X1n X2n . . . Xkn
0
β≡ β0 β1 β2 . . . βk ,
0
U≡ u1 u2 . . . un .
donc, Y est un vecteur colonne de dimensions n × 1, X est une matrice de dimensions

n × (k + 1), β est un vecteur colonne de dimensions (k + 1) × 1, et U est un vecteur colonne de
dimensions n × 1. Le modèle contient une constante β0 et par convention la première colonne de
X contient un vecteur de valeurs égales à un.
Notez que la convention concernant les indices inférieurs associés aux variables explicatives du
modèle (qui, répétons-le, suit la notation du chapitre 6 du manuel), qui stipule que Xij est la
j-ième observation de la i-ième variable explicative, n’est pas strictement conforme avec la
notation conventionnelle de l’algèbre linéaire ou des matrices. Soit X une matrice de dimensions
11
k × l. En algèbre linéaire on peut faire référence à un élément de la matrice X par le biais
d’indices inférieurs. La convention est que Xij est l’élément dans l’i-ième rangée et la j-ième
colonne. Donc, il s’agit d’un mariage malheureux entre deux notations qui sont incompatibles.
Dans ces notes, la notation Xij fera référence par défaut à la spécification du modèle dans
l’équation (1). Lorsque je veux utiliser la notation conventionnelle de l’algèbre linéaire, je vais
l’écrire explicitement. 4
Relire le paragraphe précédent. Il est très important de saisir la différence entre la notation utilisée
par Stock et Watson et la notation matricielle standard.
Pour l’instant, il ne s’agit que de la notation. L’avantage d’introduire cette notation est la
simplification de l’algèbre. Nous verrons de quoi il s’agit lors de la dérivation de l’estimateur
MCO. 5 Avant de dériver l’estimateur MCO, nous allons nous pencher dans la sous-section
suivante sur les hypothèses statistiques derrière le modèle de régression multiple.
3.3 Hypothèses de base du modèle
Les hypothèses sont les équivalents des hypothèses de base du modèle de régression simple du
chapitre 4.
Voir l’encadré Key Concept 18.1 à la page 707 du manuel (version anglaise — la traduction
française omet ce chapitre).
1. E (ui |Xi ) = 0. Cette hypothèse est reliée à la preuve que l’estimateur MCO de β est un
estimateur non biaisé.
2. (Xi , Yi ) i.i.d. Cette hypothèse est reliée à la preuve que l’estimateur MCO de β est un
estimateur convergent.
3. Xi et ui ont des quatrièmes moments non nuls et finis. Cette hypothèse est aussi reliée à la
preuve que l’estimateur MCO de β est un estimateur convergent. 6
4. Si vous soupçonnez qu’il y a des incohérences de notation, je vous prie de bien vouloir me les signaler.
5. Toutes les preuves que nous allons voir (absence de biais de l’estimateur MCO, propriétés échantillonnales de
l’estimateur, etc., sont beaucoup plus faciles à montrer en notation matricielle qu’en utilisant des sommations. J’espère
que vous allez finir par être convaincus de ce principe.
6. Cette hypothèse réduit l’importance et l’influence d’observations aberrantes, des observations qui sont très
12
4. X est de rang plein en colonnes. Cela revient à dire qu’il n’y a pas une colonne de la
matrice X qui peut être exprimée comme une combinaison linéaire exacte des autres
colonnes de la matrice. Une des conséquences de cette hypothèse sera que la matrice
(X 0 X) (qui est une matrice carrée par construction) sera une matrice de rang plein (k + 1),
et donc il sera possible de calculer son inverse (X 0 X)−1 . Cet inverse (voir ci-dessous) fait
partie de la définition de l’estimateur MCO de β. Donc, sans cette hypothèse, l’estimateur
MCO de β ne sera même pas bien défini.
5. Var (ui |Xi ) = σu2 .
6. La distribution de ui conditionnelle à la valeur de Xi suit une loi normale.
Les quatre premières hypothèses sont les hypothèses retenues par défaut. Nous n’aurons besoin
des deux dernières hypothèses que pour des cas spéciaux. L’avant dernière hypothèse s’applique
seulement dans le cas spécial d’erreurs homoscédastiques. Si nous sommes prêts à supposer des
erreurs homoscédastiques, nous obtiendrons une version plus simple de la matrice de
variance-covariance des estimateurs MCO. Cette simplification correspond à ce que nous avons
vu dans le cadre du modèle de régression simple dans le cas homoscédastique. Cette hypothèse
correspond aussi au cas où l’estimateur MCO est l’estimateur linéaire le plus efficient, autrement
dit l’estimateur linéaire non biaisé avec la plus petite variance (théorème Gauss-Markov). Le
terme consacré en anglais est l’estimateur BLUE (Best Linear Unbiased Estimator). Avec
l’avant-dernière hypothèse plus la dernière concernant la normalité des erreurs, on pourra
effectuer des tests d’hypothèse exacts — les statistiques t pour tester des hypothèses simples
auront des distributions t de Student même en petit échantillon, et les statistiques F de Fisher
pour tester des hypothèse jointes (voir plus loin dans le chapitre) auront des distributions F même
en petit échantillon.
loin de la moyenne (si la moyenne existe).
13
3.4 Estimateur MCO
Nous voulons choisir les valeurs des éléments de β qui minimisent la somme des résidus carrés.
Pourquoi l’estimateur MCO et non un autre type d’estimateur ? Nous avons déjà vu des
justifications pour l’utilisation de la somme des erreurs au carré dans le chapitre sur le modèle de
régression simple.
1. L’algèbre est relativement simple. Le critère (la fonction à minimiser) est une expression
quadratique (du deuxième degré), et donc les conditions du premier ordre donnent un
système d’équations linéaires. Il est très facile de résoudre un système d’équations
linéaires, soit par substitution soit par le calcul de l’inverse d’une matrice de constantes
(voir ci-dessous).
2. L’autre justification se trouve plus loin, dans la section 7 de ces notes. On peut montrer
que, sous les hypothèses de base du modèle et sous l’homoscédasticité des erreurs,
l’estimateur MCO est l’estimateur le plus efficient dans la classe d’estimateurs linéaires
(une fonction linéaire des observations Yi ) et non biaisés. C’est le théorème
Gauss-Markov, célèbre dans l’histoire de la pensée en statistique et en économétrie.
Comme nous avons vu dans le chapitre sur le modèle de régression simple, il y a d’autres
estimateurs possibles à part l’estimateur MCO. Il y en a aussi qui satisfont un ou plusieurs des
critères souhaitables d’un estimateur (absence de biais, convergence, etc.) même s’ils sont moins
efficients. Il faut aussi signaler l’existence d’estimateurs qui peuvent être robustes en présence
d’observations aberrantes. Voir la remarque ci-dessus à propos d’une de nos hypothèses
statistiques de base, l’existence de quatrièmes moments finis pour Xi et ui . J’invite ceux qui
s’intéressent à poursuivre plus loin ce sujet à consulter l’article Robust Statistics sur
Wikipedia.
Le problème peut s’écrire comme
min U 0 U.
β
14
Simple, non ? Remplaçons U par sa définition. Le problème devient :
min (Y − Xβ)0 (Y − Xβ) ,

β
ce qui est équivalent à :
min (Y 0 Y − β 0 X 0 Y − Y 0 Xβ + β 0 X 0 Xβ) .
β
Vous devez être parfaitement à l’aise avec cette multiplication matricielle. On applique les mêmes
règles que pour la multiplication de scalaires en faisant bien attention à l’orientation (est-ce
qu’elles sont transposées ou non ?) des matrices.
Dérivant par rapport à β, nous obtenons :
0
−X 0 Y − X 0 Y + X 0 Xβ + (X 0 X) β = 0.
Ici, on applique les règles de différenciation matricielle auxquelles nous reviendrons dans la
sous-section suivante. Notez aussi que le 0 du côté droit est implicitement un vecteur de
zéros. L’expression du côté gauche est de dimensions (k + 1) × 1 et donc l’expression du côté
droit doit être conforme. Lorsqu’il n’y a pas d’ambiguı̈té entre scalaire et vecteur nous allons
utiliser cette notation. Pour dénoter explicitement un vecteur de zéros au lieu d’un scalaire
lorsqu’il pourrait y avoir ambiguı̈té, nous utiliserons 0 ou le nombre de colonnes sera défini selon
le contexte : si nous voulons être encore plus explicites concernant les dimensions du vecteur
nous allons utiliser 0m pour dénoter un vecteur de zéros de dimensions m × 1. Ceci nous donne
X 0 Xβ = X 0 Y.
Cet ensemble d’équations s’appelle communément les équations normales de l’estimation

MCO. Notez qu’il y a (k + 1) équations. Les inconnus sont les valeurs des coefficients, dont il y a
15
(k + 1). Les équations sont des fonctions linéaires des coefficients. Si la matrice (X 0 X) est de
rang plein nous pouvons l’inverser afin d’obtenir
−1 −1
(X 0 X) X 0 Xβ = (X 0 X) X 0 Y.
En fait, l’hypothèse de la possibilité d’inverser la matrice X 0 X fait partie des hypothèses de base
du modèle de régression multiple. (Voir quand même la discussion plus loin sur la
multicollinéarité parfaite.) Nous avons
−1
(X 0 X) X 0 Xβ = Iβ = β,
où I est la matrice d’identité de dimensions (k + 1) × (k + 1),
 
1 0 0 ... 0
 
 

 0 1 0 ... 0 

 
I≡
 0 0 1 ... 0 ,

.. .. .. . . ..
 
. . . . .
 
 
 
0 0 0 ... 1
et donc
−1
β ≡ β̂ = (X 0 X) X 0 Y.
J’ai écrit un chapeau sur β pour indiquer qu’il s’agit de notre estimateur MCO. Simple, non ?
C’est la première fois que nous voyons une application de la différentiation de matrices dans le
cours. Ce sera d’ailleurs presque la dernière fois.
3.4.1 Différentiation matricielle
Rappelez-vous la page D-4 du document que je vous ai donné à lire (je donne la référence exacte
encore une fois à la fin de ces notes), spécifiquement l’encadré en bas de la page :
16
∂y
y ∂x
Ax A0
x0 A A
x0 x 2x
x0 Ax Ax + A0 x
Étudiez bien la condition du premier ordre pour être sûr à 100% de comprendre comment on
l’obtient en appliquant ces règles. Notez bien aussi que, pour les fins de notre différentiation, il y
a une fonction (la somme des résidus carrés) de k + 1 variables explicatives qui sont les éléments
de β.
Notez bien que le calcul de β̂ implique l’inversion d’une matrice de dimensions
(k + 1) × (k + 1). Dans le cas général (où k > 3), nous savons que nous ne pouvons pas obtenir
une expression algébrique pour cette matrice inversée. Résoudre ce problème équivaut (ou
presque) à trouver les racines d’un polynôme d’ordre k + 1, et il y a un théorème qui dit ceci est
impossible en général (algébriquement) pour des polynômes d’ordre 5 et plus. La solution
algébrique pour un polynôme d’ordre 4 s’étale sur plusieurs pages, et elle n’est pas d’une grande
utilité pratique. Si nous voulions écrire la solution pour β avec k > 3 avec une notation de
sommations, ça serait plus qu’affreux, ça serait carrément impossible. Il y a des moyens de
contourner ce problème, mais ce sont des moyens qui datent d’avant l’époque d’ordinateurs
personnels puissants. De nos jours, nous pouvons toujours demander à l’ordinateur d’inverser nos
matrices (X 0 X), utilisant des algorithmes numériques puissants et efficaces.
17
3.4.2 Quelques exemples simples des règles de différentiation
Pour illustrer le fonctionnement de ces règles de différentiation, prenons quelques exemples

concrets très simples. D’abord, supposons que
 
 x1 

y= A1 A2  
x2
= A1 x1 + A2 x2 .
La fonction y dans ce cas-ci est une seule fonction (un scalaire donc). Il y a deux arguments de la
fonction (x1 et x2 ) et donc deux dérivées partielles distinctes. Par convention, on écrit les dérivées
partielles en colonne :  
∂y
∂y  ∂x1
≡

∂x

∂y
∂x2
.
Nous constatons que

∂y
= A1
∂x1
et
∂y
= A2 .
∂x2
Donc,  
∂y  A1  0
= =A,
∂x A2
ce qui est conforme à la première règle du tableau ci-dessus.

Maintenant, supposons que   
 A11 A12   x1 
y=  
A21 A22 x2
18
   
 A11 x1 + A12 x2   y1 
= ≡ 
A21 x1 + A22 x2 y2
Maintenant, y est composée de deux fonctions, définies par les deux rangées de l’expression
ci-dessus. Il y a deux fonctions avec deux arguments chacune (x1 et x2 ), et donc on a un total de
quatre dérivées partielles. Nous avons
∂y1
= A11 ,
∂x1
∂y1
= A12 ,
∂x2
∂y2
= A21 ,
∂x1
et
∂y2
= A22 .
∂x2
Par convention, on écrit ces quatre dérivées en notation matricielle comme

 
∂y1 ∂y2
∂x1 ∂x1
.
 

∂y1 ∂y2
∂x2 ∂x2
Donc, la convention revient à aligner toutes les dérivées de la même fonction dans la même
colonne, et toutes les dérivées par rapport au même argument dans la même rangée. Dans notre
cas, nous avons    
∂y1 ∂y2
∂x1 ∂x1   A11 A21  0
= =A,


∂y1 ∂y2
∂x2 ∂x2
A12 A22
et encore une fois la première règle du tableau est respectée.

Maintenant, supposons que
  
 A11 A12   x1 

y= x1 x2   
A21 A22 x2
19
 
 x1 

= x1 A11 + x2 A21 x1 A12 + x2 A22  
x2
= A11 x1 2 + A21 x1 x2 + A12 x1 x2 + A22 x2 2 .
Cette fois-ci la fonction y est scalaire. Il y a deux dérivées partielles possibles. Nous avons
∂y
= 2A11 x1 + A21 x2 + A12 x2
∂x1
et
∂y
= 2A22 x2 + A21 x1 + A12 x1 .
∂x2
Écrivant ces résultats en notation matricielle nous avons

       
∂y
∂x1   A11 A12   x1   A11 A21   x1  0
= +  = Ax + A x,

  
∂y
∂x2
A21 A22 x2 A12 A22 x2
ce qui est conforme à la quatrième règle du tableau (il est important de vérifier ceci).
Pour des cas plus compliqués (plusieurs fonctions, plusieurs arguments), les expressions non
matricielles peuvent devenir assez longues et assez compliquées. Ces règles de différentiation
matricielle permettent de tenir compte automatiquement et systématiquement (sans oublier des
termes !) de toutes les dérivées partielles possibles. Elles permettent aussi d’écrire toutes les
dérivées partielles dans une notation très compacte.
3.5 Approche non matricielle au problème de minimisation
Nous pouvons facilement vérifier qu’une approche non matricielle au problème de minimisation
mène à exactement les mêmes résultats que l’approche matricielle, comme il se doit. C’est le but
de cette sous-section des notes.
Nous avons vu que le modèle de régression multiple peut s’écrire en notation non matricielle
20
comme suit :
Yi = β0 + X1i β1 + X2i β2 + . . . + Xki βk + ui .
On veut minimiser la somme des résidus au carré. Le problème peut s’écrire comme suit :
n
X
min (Yi − β0 − X1i β1 − X2i β2 − . . . − Xki βk )2 .
β0 ,β1 ,...,βk
i=1
Les conditions du premier ordre pour minimiser cette fonction sont les suivantes (bien sûr, il y a
k + 1 conditions dur premier ordre puisqu’il y a k + 1 variables de choix pour minimiser notre
fonction (la somme des résidus au carré) :
n
X
β0 : 0 = −2 (Yi − β0 − X1i β1 − . . . − Xki βk ) ;
i=1
n
X
β1 : 0 = −2 X1i (Yi − β0 − X1i β1 − . . . − Xki βk ) ;
i=1
n
X
β2 : 0 = −2 X2i (Yi − β0 − X1i β1 − . . . − Xki βk ) ;
i=1
...
n
X
βk : 0 = −2 Xki (Yi − β0 − X1i β1 − . . . − Xki βk ) .
i=1
Il s’agit d’un système de k + 1 équations en k + 1 inconnus (les βs). S’il n’y a pas de dépendance
linéaire exacte entre les k + 1 équations (cette condition est l’équivalent non matriciel à notre
hypothèse concernant le rang de la matrice X), il y a une solution unique pour les inconnus. Nous
pouvons réécrire le système comme suit :
n
X n
X
Yi = (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1
n
X n
X
X1i Yi = X1i (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1
21
n
X n
X
X2i Yi = X2i (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1
...
n
X n
X
Xki Yi = Xki (β0 + X1i β1 + . . . + Xki βk ) .
i=1 i=1
Nous pouvons maintenant convertir ses équations en notation matricielle :

 
 Y1 
 .. 
 = 1 . . . 1 X β̂;
1 ... 1 
 . 
 
Yn
 
 Y1 
 . 
X11 . . . X1n  ..  = X X β̂;
  11 . . . X1n
 
Yn
..
.
 
 Y1 
 .. 
= X
Xk1 . . . Xkn 
 .  k1 . . . Xkn X β̂,
 
Yn
où j’ai écrit un chapeau sur β pour indiquer qu’il s’agit d’un système d’équations dont la solution
nous donne nos estimateurs moindres carrés ordinaires. Soyez sûr de comprendre ce passage à la
notation matricielle. Maintenant, en empilant les k + 1 équations les unes pardessus les autres,
nous avons tout de suite
   
1 ... 1 1 ... 1
    
   
 X11 . . . X1n Y1   X11 . . . X1n
  
  

 X
 ..  
= X

 X β̂
 21 . . . X2n .   21 . . . X2n

 
 .. .. ..
    . .. ..

 .
 . . . Yn  . . .
 
 
   
Xk1 . . . Xkn Xk1 . . . Xkn
22
⇒ X 0 Y = X 0 X β̂
⇒ β̂ = (X 0 X)−1 X 0 Y.
Nous retrouvons la même solution en notation matricielle (ce qui n’est point surprenant).
4 Propriétés algébriques de l’estimateur MCO
Comme dans le chapitre 4, nous allons montrer que l’estimateur a des propriétés algébriques qui
doivent tenir indépendamment des hypothèses statistiques concernant les variables (explicatives
et dépendante) du modèle. Ces propriétés doivent tenir pour n’importe quel échantillon de
données Nous utiliserons les résultats de cette section par la suite pour dériver certaines des
propriétés statistiques de l’estimateur MCO.
4.1 Orthogonalité
Nous avons, directement à partir des CPOs (ou à partir de la CPO matricielle),
X 0 X β̂ = X 0 Y

⇒ X 0 X β̂ − Y = 0

⇒ X 0 Y − X β̂ = 0.
Entre parenthèses, nous avons un vecteur de dimensions n × 1 qui nous donne les résidus de la
régression (variable dépendante moins la valeur prédite de la variable dépendante donnée par
X 0 β̂). Autrement dit,
Y − X β̂ ≡ U
b.
Donc, nous avons :

X 0U
b = 0,
23
où U
b est le vecteur de résidus de la régression. Les résidus sont orthogonaux aux variables
explicatives. Par définition, deux vecteurs Z1 et Z2 de dimensions n × 1 sont orthogonaux si et

seulement si
Z1 0 Z2 = 0
Cela veut dire que chaque variable explicative (chaque colonne de la matrice X) est orthogonale
aux résidus de la régression. Ce résultat est une généralisation du résultat dans le chapitre sur la
régression simple de l’orthogonalité entre la seule variable explicative (à part la constante) et les
résidus. C’est une généralisation, mais la preuve est beaucoup plus succincte que celle qu’on a
vue dans le chapitre sur la régression simple. Encore un avantage de la notation matricielle.
Nous avons vu dans le chapitre sur le modèle de régression simple que l’orthogonalité est reliée à
l’interprétation géométrique de la méthode de MCO. Estimer un modèle par MCO revient à
projeter la variable dépendante dans l’espace traversé par la variable explicative (ou les variables
explicatives dans le cas de la régression multiple). La Figure 1 ci-dessous reprend le graphique
que nous avons vu dans le chapitre précédent. C’est donc pour le cas où il y a deux variables
explicatives. La ligne de régression est considéré comme un vecteur. La ligne pointillée sur le
graphique est un vecteur dont la longueur égale la valeur de ûi à ce point. Il forme un angle droit
par rapport à la ligne de régression, d’où le terme orthogonal . 7
Figure 1
7. Pour plus de détails voir Davidson et MacKinnon (1999) et Kachapova et Kachapova (2010). Les références
détaillées sont dans le chapitre de références.
24
4.2 Somme des résidus
Notez que, par convention, la première colonne de X représente la constante et donc contient un
vecteur de valeurs égales à un. Si nous dénotons cette première colonne par X1 (notez que nous
utilisons ici une notation d’algèbre linéaire), nous avons tout de suite
n
X
X1 0 U
b = 10 U
b= ûi = 0.
i=1
Une preuve sur une seule ligne !

Donc, la somme des résidus est égale à zéro, comme dans le modèle de régression simple. Notez
que ce résultat découle directement du résultat concernant l’orthogonalité.
4.3 Valeurs prédites
Définissons
Ŷ ≡ X β̂,
le vecteur de valeurs prédites de la variable dépendante. Nous avons
0
0b 0 −1 0
Ŷ U = X (X X) X Y U b
−1
= Y 0 X (X 0 X) X 0U
b = 0.
Les valeurs prédites de la variable dépendante sont orthogonales aux résidus.

Finalement, nous avons

X 0 Ŷ − Y

0 0 −1 0
=X X (X X) X Y −Y
−1
= X 0 X (X 0 X) X 0 Y − X 0 Y = X 0 Y − X 0 Y = 0.
Puisque la première colonne de X est un vecteur de valeurs unitaires, une conséquence directe de
25
ce résultat est que la moyenne échantillonnale des valeurs prédites est égale à la moyenne
échantillonnale de la variable dépendante elle-même. Autrement dit :
n n
1X 1X
Ŷi = Y ≡ Ȳ ,
n i=1 n i=1
un résultat semblable à ce que nous avons vu dans le chapitre sur la régression simple.
4.4 Écart type de la régression
On définit
SER ≡ su ,
où
n
1 X SSR
s2u ≡ û2i = ,
n − k − 1 i=1 n−k−1
et donc SSR est la somme des résidus au carré. On divise par (n − k − 1) afin d’obtenir un estimé
non biaisé de la variance de l’erreur dans l’équation de régression lorsque celle-ci est constante. 8
Je sais que j’insiste beaucoup là-dessus, mais les démonstrations algébriques dans cette section
sont beaucoup plus courtes que leurs équivalents dans le chapitre précédent. C’est dans ce sens
que je dis que l’utilisation de la notation matricielle dans le contexte du modèle de régression
multiple simplifie énormément l’analyse. S’il fallait dériver les mêmes propriétés sans avoir
recours aux matrices, les démonstrations s’étaleraient sur plusieurs pages.
8. Ici on suppose implicitement des erreurs homoscédastiques, ou à variance constante. Sinon il n’est pas logique
de parler de la variance de l’erreur.
26
4.5 Mesures d’ajustement statistique
4.5.1 Le R2
La mesure R2 est définie de la même façon que dans le cas du modèle de régression simple :
ESS SSR
R2 = =1− ,
TSS TSS
où on définit
n
X 2
ESS ≡ Ŷi − Ȳ ,
i=1
où Ȳ est la moyenne échantillonnale des Yi , et
n
X 2
TSS ≡ Yi − Ȳ
i=1
Nous avons supposé implicitement ici que
TSS = SSR + ESS.
En fait, il faut démontrer ce résultat, comme nous avons fait dans le chapitre sur le modèle de
régression simple. Nous avons
0
Y 0 Y = X β̂ + U
b X β̂ + U
b
= β̂ 0 X 0 X β̂ + β̂ 0 X 0 U b 0 X β̂ + U
b +U b 0U
b
= β̂ 0 X 0 X β̂ + U
b 0U
b
b 0U
≡ Ŷ 0 Ŷ + U b = Yb 0 Yb + SSR.
Nous avons utilisé pour passer à l’avant dernière ligne de cette séquence d’équations le résultat
27
que X 0 U
b = 0. Nous avons presque montré le résultat voulu en quatre lignes, mais nous avons
0
TSS ≡ (Y − Ȳ) (Y − Ȳ)
0 0
= Y 0 Y − Ȳ Y − Y 0 Ȳ + Ȳ Ȳ
où Ȳ est un vecteur de constantes avec chaque valeur égale à Ȳ , et nous avons
0
ESS ≡ Ŷ − Ȳ Ŷ − Ȳ
0 0
Ŷ 0 Ŷ − Ȳ Ŷ − Ŷ 0 Ȳ + Ȳ Ȳ.
Donc, nous devons montrer que

0 0
Ȳ Ŷ = Ȳ Y
n
X n
X
⇐⇒ Ȳ Ŷi = Ȳ Yi
i=1 i=1
n n
1X 1X
⇐⇒ Ŷi = Yi = Ȳ ,
n i=1 n i=1
ce qui doit être le cas puisque nous avons montré parmi les propriétés algébriques de l’estimateur
MCO que la moyenne échantillonnale des valeurs prédites de la variable dépendante doit être
égale a la moyenne échantillonnale de la variable dépendante elle-même. Donc, nous venons de
montrer que
TSS = ESS + SSR.
Sachant que Y ≡ Ŷ + U
b , une façon plus succincte de le faire est comme suit :
0
TSS = (Y − Ȳ) (Y − Ȳ)
0
= Ŷ + U − Ȳ
b Ŷ + U − Ȳ
b
28
0
= Ŷ − Ȳ + U
b Ŷ − Ȳ + U
b
0 0
= Ŷ − Ȳ Ŷ − Ȳ + Ŷ − Ȳ U b +U b 0U
b 0 Ŷ − Ȳ + U b
0
= Ŷ − Ȳ b 0U
Ŷ − Ȳ + U b
≡ ESS + SSR,
puisque nous avons montré auparavant que Ŷ 0 U

b = 0 et
n n
0b
X X
Ȳ U = Ȳ Ûi = Ȳ Ûi = 0.
i=1 i=1
Dans le chapitre sur le modèle de régression simple, nous avons appris que l’ajustement
statistique R2 était égal au coefficient de corrélation (échantillonalle) au carré entre la variable
dépendante et la (seule) variable explicative. Il y a un résultat semblable pour le modèle de
régression multiple. Nous pouvons montrer que le R2 est égale au coefficient de corrélation
(échantillonnale) au carré entre Y et Ŷ , le vecteur de valeurs prédites de la variable
dépendante.
La preuve de ce résultat est facile, mais il faut introduire un peu de notation pour la rendre
plus succincte. (Pour plus d’explications, voir le 3e chapitre du livre de Greene, 2011.) Soit i
le vecteur colonne où chaque élément est égal à un. La longueur du vecteur (nombre de
rangées) dépendra du contexte. Définissons

−1
M 0 ≡ I − i (i0 i) i0 .
Si on prémultiplie un vecteur quelconque Y par M 0 la multiplication aura pour effet de

soustraire la moyenne Ȳ de chaque élément du vecteur Y . Nous avons

−1
M 0 Y = I − i (i0 i) i0 Y
29
−1 0
= Y − i (i0 i) iY
n
1X
=Y −i Yi
n i=1
= Y − iȲ ≡ Y − Ȳ,
puisque (i0 i)−1 =

Pn
1
n
et i0 Y = i=1 Yi . Il est aussi facile de montrer que
0
M0 = M0
et
M 0M 0 = M 0.
Une matrice qui a ces propriétés est appelée une matrice idempotente . De cette façon,
nous pouvons redéfinir le R2 comme
0
ESS Ŷ − Ȳ Ŷ − Ȳ
R2 ≡ = 0
T SS (Y − Ȳ) (Y − Ȳ)
Ŷ 0 M 0 Ŷ
= .
Y 0M 0Y
Nous avons aussi

M 0 Û = Û
puisque la somme des résidus est zéro. Donc, nous avons

Ŷ 0 M 0 Ŷ = Ŷ 0 M 0 Y − Û
= Ŷ 0 M 0 Y − Ŷ 0 M 0 Û
= Ŷ 0 M 0 Y − Ŷ 0 Û
30
= Ŷ 0 M 0 Y − β̂ 0 X 0 Û
(puisque Ŷ ≡ X β̂)
= Ŷ 0 M 0 Y − 0 = Ŷ M 0 Y
puisque X 0 Û = 0 (orthogonalité entre les variables expicatives et les résidus).

Nous pouvons donc écrire le R2 comme
Ŷ 0 M 0 Y
R2 =
Y 0M 0Y
Ŷ 0 M 0 Y Ŷ 0 M 0 Y
=
Y 0 M 0 Y Ŷ 0 M 0 Y
(multipliant numérateur et dénominateur par la même chose)

Ŷ 0 M 0 Y
Ŷ 0 M 0 Y
=
0 0 0
(Y M Y ) Ŷ M Y 0

Ŷ 0 M 0 Y Ŷ 0 M 0 Y
= .
(Y 0 M 0 Y ) Ŷ 0 M 0 Ŷ
On peut réécrire ceci en notation non matricielle pour obtenir

0 0 0 0 0 0 0 0 0 0
Ŷ M Y Ŷ M Y Ŷ M M Y Ŷ M M Y
=
(Y 0 M 0 Y ) Ŷ 0 M 0 Ŷ (Y 0 M 0 M 0 Y ) Ŷ 0 M 0 M 0 Ŷ
P
n
2
i=1 Ŷi − Ȳ Yi − Ȳ
= 2
Pn 2 Pn
i=1 Yi − Ȳ i=1 Ŷi − Ȳ

1
Pn 2
n−1 i=1 Ŷi − Ȳ Yi − Ȳ
= 2
1
Pn
2 1
P
n
n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ
31
 2
1
Pn
 n−1
Ŷi − Ȳ Yi − Ȳ
i=1 
=
q r

2 
1
Pn 2 1
Pn
n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ
2
≡ Corr Y, Ŷ .
Ceci permet de réinterpréter notre mesure d’ajustement statistique. Dans un contexte de

prévision, le R2 nous dit à quel point le modèle de régression permet de prédire les variations
de la variable dépendante autour de sa moyenne, mesuré par la corrélation entre les valeurs
prédites et les valeurs réalisées.
Notez aussi que ce résultat ne dépend pas du nombre de colonnes dans X. Il s’applique aussi
bien au modèle de régression simple qu’au modèle de régression multiple. Dans le cas du
modèle de régression simple, nous avons

Ŷi − Ȳ = Xi − X̄ β̂1 ,
où maintenant Xi est un scalaire. Nous avons tout de suite
 2
1
Pn
 n−1 i=1 Ŷi − Ȳ Yi − Ȳ 
 r 
q Pn 2 2 
1 1
Pn
n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ
 2
1
Pn
 n−1 i=1 Xi − X̄ β̂1 Yi − Ȳ 
=
q r

2 
1
Pn 2 1
Pn
n−1 i=1 Yi − Ȳ n−1 i=1 Xi − X̄ β̂1
 Pn 2
1

n−1 i=1 X i − X̄ Y i − Ȳ
= q Pn 2 q 1 Pn 2

1
n−1 i=1 Yi − Ȳ n−1 i=1 Xi − X̄
2
≡ Corr (Y, X) .
32
On voit que le résultat trouvé dans le chapitre sur le modèle de régression simple n’est qu’un
cas spécial du résultat général développé ici.
4.5.2 Le R2 ajusté
On peut facilement montrer mathématiquement que le fait de rajouter une variable explicative
additionnelle à un modèle de régression multiple ne peut que faire augmenter son R2 . Si vous êtes
à l’aise avec les principes de base de l’optimisation sous contrainte, ce résultat est évident.
L’estimateur MCO est la solution à un problème de minimisation. Si on minimise la somme des
résidus carrés sujet à la contrainte qu’un des coefficients est égal à zéro (on enlève la variable du
modèle), et puis on minimise la somme des résidus carrés en ne pas imposant cette contrainte, la
somme des résidus carrés doit être au moins aussi petite dans le dernier cas, puisque nous
relâchons une des contraintes du problème de minimisation.
De cette façon, nous pouvons toujours améliorer l’ajustement statistique d’une régression en
ajoutant des variables explicatives. En fait, si nous avons autant de variables explicatives que
d’observations ((k + 1) = n), il est possible d’atteindre un ajustement statistique parfait . Il
faudrait trouver la solution à
0 = U = Y − X β̂
⇒ Y = X β̂.
Nous avons n équations et n inconnus. Dans la mesure où X est de rang plein (rang n), nous
avons
β̂ = X −1 Y.
Donc, un R2 élevé n’est pas toujours et partout une bonne chose.

Puisque l’ajustement mesuré par le R2 ne peut qu’augmenter quand on ajoute des variables
explicatives, il serait bien d’avoir une autre mesure qui pénalise la mesure par un facteur
lorsqu’on ajoute des variables explicatives. Le R2 ajusté, dénoté par R̄2 est une telle mesure.
33
Voici sa définition :
n − 1 SSR s2
R̄2 ≡ 1 − = 1 − 2û .
n − k − 1 TSS sY
On peut souligner trois propriétés du R̄2 .

n−1
1. Puisque n−k−1
> 1, on sait que R̄2 < R2 .
2. Le fait d’ajouter une variable explicative supplémentaire a deux effets sur R̄2 . D’une part,
la somme des résidus carrés SSR doit baisser, ce qui fait augmenter R̄2 . D’autre part, le
n−1
facteur n−k−1
augmente, ce qui fait diminuer R̄2 .
3. Il est possible que R̄2 soit négatif.
La pénalité pour l’ajout d’une variable explicative additionnelle peut sembler arbitraire. Par
contre, on peut montrer que la mesure R̄2 est reliée au concept de tests d’hypothèse. Voir
Edwards (1969) ou Giles (2013b). Je présente dans cet encadré la preuve telle que présentée
par Giles. Je suggère de revenir en arrière pour relire cet encadré une fois que vous aurez lu la
section (9) sur les tests d’hypothèse, puisqu’il s’agit ici de tester une hypothèse jointe, un
sujet que nous n’avons pas encore couvert.
Considérez le modèle de régression linéaire donné par
Y = Xβ + U.
Nous avons, comme d’habitude,

b ≡ Y − X β̂.
U
Nous avons aussi

SSR Ub 0U
b
R2 ≡ 1 − =1− 0
T SS

Y − Ȳ Y − Ȳ
et
SSR/(n − k − 1) Ub 0U
b /(n − k − 1)
2
R̄ ≡ 1 − =1− 0 .
T SS/(n − 1)

Y − Ȳ Y − Ȳ /(n − 1)
34
Considérez maintenant le modèle où on laisse tomber j des variables explicatives du modèle
initial. (Notez qu’au lieu de raisonner en termes de l’ajout de variables explicatives, nous
raisonnons en termes de ce qui arrive si on laisse tomber des variables explicatives.) Appelons
la mesure d’ajustement statistique de ce nouveau modèle Rr2 où l’indice inférieur est censé
faire penser à restreint . Nous avons
SSRr Ubr0 U
br
Rr2 ≡ 1 − =1− 0
T SS

Y − Ȳ Y − Ȳ
et
SSRr /(n − k − 1 + j) b0U
U r r /(n − k − 1 + j)
b
R̄r2 ≡ 1 − =1− 0
T SS/(n − 1)

Y − Ȳ Y − Ȳ /(n − 1)
où U
br est le vecteur de résidus du modèle contraint où nous laissons tomber j des variables
explicatives et SSRr est la somme des résidus au carré de ce modèle contraint. Nous avons
maintenant
SSR/(n−k−1)
R̄2 1 − T SS/(n−1)
=
R̄r2 1 − SSRTrSS/(n−1)
/(n−k−1+j)
T SS/(n − 1) − SSR/(n − k − 1)
= .
T SS/(n − 1) − SSRr /(n − k − 1 + j)
Nous pouvons voir tout de suite que R̄2 > R̄r2 si
T SS/(n − 1) − SSR/(n − k − 1) > T SS/(n − 1) − SSRr /(n − k − 1 + j)
⇒ SSRr /(n − k − 1 + j) > SSR/(n − k − 1)
⇒ SSR(n − k − 1 + j) < SSRr (n − k − 1)
⇒ SSR(n − k − 1) + SSRj < SSRr (n − k − 1)
⇒ SSRr > SSR + SSRj/(n − k − 1)
35
⇒ (SSRr − SSR) /j > SSR/(n − k − 1)
(SSRr − SSR) /j
⇒ > 1.
SSR/(n − k − 1)
Le bras gauche de cette dernière inégalité est à comparer avec la stastique F pour tester j
restrictions linéaires dans le cas d’erreurs homoscédastiques dans la sous-section 9.8.
(Nous n’avons pas encore introduit le concept de tester des hypothèses jointes : il fera l’objet
de la section 9).
Donc, le R̄2 va augmenter avec l’ajout de j variables explicatives si la statistique F pour
tester leur significativité a une valeur supérieure à un. Ceci n’est pas un critère très restrictif.
Comment peut-on savoir que ce n’est pas un critère très restrictif ? Par exemple, pour la
distribution F avec 3 et 1000 degrés de liberté, la fonction de distribution cumulée évaluée à
Fact = 1 est égale à 0.462. Donc, si on ajoute 3 variables à un modèle de régression (estimé
avec un échantillon d’un peu plus de 1000 observations) qui, par construction n’aident pas à
prédire la variable dépendante, on va rejeter l’hypothèse nulle de la non-significativité de ces
trois variables plus que la moitié du temps (avec une probabilité de 1 − 0.462 = 0.538) même
si on sait qu’elle est vraie.
On montre dans la section 9 sur les tests d’hypothèse que dans le cas d’une seule restriction
(j = 1), la statistique F est égale au carré de la statistique t. Donc, lorsqu’on ajoute une seule
variable explicative à un modèle de régression, le R̄2 va augmenter si la statistique t pour
tester sa significativité a une valeur absolue supérieure à un. Pour une variable aléatoire qui
suit une loi normale centrée réduite, la probabilité d’obtenir une valeur supérieure à un en
valeur absolue est approximativement égale à 32%. Donc, l’ajout d’une variable au modèle de
régression fait augmenter le R̄2 si le taux de significativité marginale pour un test de sa
significativité est égal à 0.32 ou moins, ce qui n’est pas un critère très conservateur ou très
exigeant.
36
5 Propriétés statistiques de l’estimateur MCO
5.1 Propriétés statistiques : absence de biais
Toutes les propriétés (algébriques) de l’estimateur MCO que nous avons montrées jusqu’à
maintenant tiennent indépendamment des hypothèses statistiques de la section 3.3. La seule
hypothèse que nous avons utilisé pour dériver les propriétés algébriques est celle du rang plein en
colonnes de X et donc de la possibilité de calculer (X 0 X)−1 .
Pour montrer l’absence de biais, nous utilisons la stratégie habituelle. Nous remplaçons Y dans la
définition de l’estimateur par sa définition (Xβ + U ), nous simplifions, et finalement nous
calculons la valeur espérée de l’estimateur en utilisant la loi des espérances itérées.
Nous avons :
β̂ = (X 0 X)−1 X 0 Y
= (X 0 X)−1 X 0 (Xβ + U )
= β + (X 0 X)−1 X 0 U

→ E β̂ = β + E (X 0 X)−1 X 0 U

= β + E E (X 0 X)−1 X 0 U |X

= β + E (X 0 X)−1 X 0 E (U |X) = β.

L’avant-dernière égalité dépend de la loi des espérances itérées.

Je ne sais pas si vous êtes d’accord, mais je crois que la démonstration de l’absence de biais dans
le cas du modèle de régression multiple est beaucoup plus simple que dans le cas du modèle de
régression simple, à cause de l’utilisation de la notation matricielle. La preuve s’écrit sur quelques
lignes seulement est elle est assez transparente.
37
5.2 Petite note : théorème de Slutsky
Pour dériver la convergence de l’estimateur β̂ et pour dériver sa distribution en grand échantillon,

nous allons devoir faire appel au théorème de Slutsky.
L’énoncé du théorème se trouve dans le manuel à la page 685. Il est utile, sinon très utile, sinon
archi utile. Il dit essentiellement que si une variable aléatoire converge en probabilité à quelque
chose, une fonction continue de la variable aléatoire converge à la même fonction de ce à quoi
converge la variable aléatoire.
Un énoncé un peu plus général du théorème se trouve à Wikipedia ( Slutsky’s Theorem ). Il dit
que si
p
Xn →
− X,
alors
p
h (Xn ) →
− h(X),
où h(·) est une fonction quelconque (pas tout à fait quelconque, puisqu’il faut imposer certaines
restrictions techniques, quant à la continuité par exemple). Les conditions qui doivent tenir pour
que le théorème tienne sont explicitées dans l’article chez Wikipedia.
Pourquoi est-ce que ce théorème est si utile ? Si on veut analyser le comportement en grand
échantillon d’un estimateur, on peut analyser le comportement de ses composantes, sachant que
(sous certaines conditions techniques) si les composantes convergent en probabilité à quelque
chose, et si l’estimateur est une fonction des composantes, l’estimateur converge en probabilité à
cette fonction. De façon informelle, si
Zn = f (Xn , Yn ) ,
p p
et si Xn →
− X et Yn →
− Y , alors
p
Zn →
− f (X, Y ).
Voir l’équation (17.9) du manuel (version anglaise) pour un énoncé un peu plus général. Si
38
p d
an →
− a où a est une constante et si Sn →
− S, alors
d
an + Sn →
− a + S,
d
an S n →
− aS,
et si a 6= 0,
Sn d S
→
− .
an a
Le fait de pouvoir travailler avec des morceaux individuels de nos estimateurs nous facilite
grandement la vie. Notez que la manipulation algébrique des limites de probabilité est beaucoup
plus simple que la manipulation algébrique des espérances. Nous savons qu’en général,
E (XY ) 6= E(X)E(Y ),
sauf dans le cas de variables aléatoires indépendantes, et nous savons aussi qu’en général
Ef (X) 6= f (E(X)) ,
sauf dans le cas où f est une fonction linéaire (le cas du fameux encadré 2.3 qui nous dit entre
autres que l’espérance d’une fonction linéaire de variables aléatoires est égale à la fonction
linéaire des espérances des variables aléatoires).
5.3 Propriétés statistiques : convergence
β̂ = (X 0 X)−1 X 0 Y
= (X 0 X)−1 X 0 (Xβ + U )
= β + (X 0 X)−1 X 0 U
39
−1
(X 0 X) (X 0 U )

→ β̂ − β =
n n
Nous avons divisé et multiplié par le scalaire n afin de pouvoir parler de convergence en
(X 0 X)
probabilité. n
est une matrice dont l’élément i, j est donné par
n
X i 0 Xj 1X
= Xi−1,l Xj−1,l .
n n l=1
Du côté gauche on utilise la notation matricielle standard. Du côté droit, on utilise la notation du
manuel pour le modèle de régression multiple. Notez encore une fois l’inversion des indices
inférieurs entre la notation matricielle standard et la notation du modèle de régression multiple
utilisé dans le livre. Dans l’ième colonne de la matrice, on retrouve les observations sur la
variable explicative i − 1. Par une des hypothèses du modèle de régression multiple, nous avons
Xi 0 X j
lim = E (Xi 0 Xj ) .
n→∞ n
(X 0 X)
Ceci veut dire qu’il y a convergence en probabilité vers l’espérance de Xi 0 Xj . Donc, n
converge en probabilité à Qx , qui est définie comme
X 0X

Qx ≡ E .
n
C’est donc une matrice des deuxièmes moments des variables explicatives. Notez que ce n’est pas
une matrice variance-covariance des variables explicatives puisque nous ne soustrayons pas les
moyennes. 9 Une des hypothèses du modèle est que la matrice (X 0 X) est inversible (absence de
multicollinéarité complète). Si c’est le cas, X 0 X satisfait les conditions du théorème de Slutsky, et
donc la limite de probabilité de l’inverse de la matrice est l’inverse de la limite de probabilité.
9. Comme nous avons vu dans le chapitre de rappel sur la théorie des probabilités, nous pouvons en général faire
une distinction entre l’énième moment brut d’une variable aléatoire Y donné par E (Y n ) et l’énième moment centré
n
donné par E ((Y − E(Y )) ). Revoir le chapitre sur la théorie des probabilités pour un rappel. La covariance entre deux
variables aléatoires X et Y , E ((Y − E(Y )) (X − E(X))), est donc un moment centré, et notre Qx est un moment
brut.
40
Donc, le premier terme converge en probabilité à
(Qx )−1
Le deuxième terme converge en probabilité à zéro. Je ne vais pas faire la preuve formelle de cet
énoncé. Par contre, nous avons déjà vu que son espérance est nulle :
(X 0 U ) (X 0 E (U |X))

E =E = 0.
n n
Sa variance est donnée par

(X 0 U )

Var
n
2
1
= Var (X 0 U ) .
n
Il s’agit de la variance d’un vecteur de dimensions (k + 1) × 1. Si on considère l’ième colonne de

la matrice X, nous avons

1 0
Var Xi U
n
2
1
= Var (Xi 0 U )
n
2 n
!
1 X
= Var Xi−1,l Ul
n l=1
2 Xn
1
= Var (Xi−1,l Ul ) .
n l=1
Définissons Xi−1,l Ul ≡ Vi,l . Nous avons

1 0
Var Xi U
n
2 Xn
1
= Var (Vi,l )
n l=1
41
2
1
= nVar (Vi )
n

1
= Var (Vi ) .
n
Nous avons fait des hypothèses de quatrième moments finis et d’observations i.i.d., et donc la
variance Var (Vi ) est finie et constante. Nous avons

1
lim Var (Vi ) = 0.
n→∞ n
Avec une espérance de zéro et une variance qui tend vers zéro, on a (presque) la preuve de la
convergence :
(X 0 U ) p
→
− 0.
n
Les hypothèses du théorème de Slutsky sont satisfaites, donc la limite de probabilité du produit
est le produit des limites de probabilité. Donc, nous avons :

p
β̂ − β →− 0.
Interprétation alternative de l’estimateur MCO
Nous avons maintenant étudié la convergence en probabilité de l’estimateur MCO, ce qui

nous permet de mentionner une autre interprétation possible de l’estimateur. Je vous
encourage fortement à lire cet encadré et même à retenir les étapes algébriques, qui sont
extrêmement simples.
Nous savons que nous pouvons écrire le modèle de régression multiple comme
Y = Xβ + U.
42
Nous pouvons prémultiplier les deux membres de l’équation par X 0 pour obtenir
X 0 Y = X 0 Xβ + X 0 U.
Maintenant, laissons tomber le dernier terme X 0 U et remplaçons tout de suite β par β̂ pour
obtenir
X 0 Y = X 0 X β̂.
Prémultipliant l’équation par (X 0 X)−1 nous obtenons
−1
β̂ = (X 0 X) X 0Y
Il faut avouer que ceci est une dérivation ultra simple de l’estimateur. Quelle est la
justification de procéder ainsi ? Nous avons tout de suite que

X X β̂ − β = X 0 Y − X 0 Y + X 0 U = X 0 U.
0
Avec les hypothèses statistiques que nous faisons nous avons
1 0 p
XU→
− 0
n
et donc
1 0
p
X X β̂ − β →− 0
n

p
⇒ β̂ − β →− 0.
Avec nos hypothèses de base nous avons, en quelques lignes seulement, la dérivation de
l’estimateur MCO (sans même résoudre un problème de minimisation !) et une démonstration
de sa convergence.
43
Cette logique va aussi nous permettre de dériver facilement l’estimateur IV (variables
instrumentales) vers la fin du cours et vers la fin du chapitre sur les tests diagnostics.
Encore une interprétation alternative
Parmi nos hypothèses statistiques de base nous avons celle concernant la moyenne
conditionnelle du terme d’erreur :
E (U |X) = 0.
Par la loi des espérances itérées nous avons
E (U ) = E (E (U |X)) = 0
et
E (X 0 U ) = E (E (X 0 U |X)) = E (X 0 E (U |X)) = 0.
Pour cette raison nous avons
Cov (X, U ) = E (X 0 U ) − E (X 0 ) E (U ) = 0.
Donc, nous avons

E (X 0 Y ) = E (X 0 (Xβ + U ))
= E (X 0 Xβ) + E (X 0 U ) = E (X 0 X) β
−1
⇒ β = (E (X 0 X)) E (X 0 Y )
Les vraies valeurs des β doivent être égales à cette fonction de matrices d’espérances
(moments). Ceci suggère que l’on pourrait trouver un estimateur convergent de β en
remplaçant les espérances (moments) dans la population par leurs équivalents
44
échantillonnaux :
−1
1 0 1 −1
β̂IV ≡ (X X) (X Y ) = (X 0 X) X 0 Y.
0
n−1 n−1
Donc, selon cette interprétation, l’estimateur IV est un estimateur où on estime des moments
dans la population par leurs équivalents échantillonnaux. En fait, c’est un exemple d’un
estimateur dans la classe d’estimateurs par la méthode des moments.
5.4 Petite note sur les covariances en notation matricielle
En guise de préparation pour la sous-section suivante, on va se pencher dans cette sous-section

sur comment écrire des covariances en notation matricielle. Prenons un vecteur de k variables
aléatoires Y de dimensions k × 1. Nous pouvons écrire les espérances de toutes les variables
aléatoires en notation matricielle tout simplement comme :
E(Y ).
Considérons maintenant la matrice suivante :
(Y − E(Y )) (Y − E(Y ))0 .
Cette matrice est de dimensions k × k. L’élément dans l’i-ième rangée et la j-ième colonne de
cette matrice est :
(Yi − E (Yi )) (Yj − E (Yj )) .
Par définition,
E ((Yi − E (Yi )) (Yj − E (Yj )))
45
nous donne la covariance entre les variables aléatoires Yi et Yj . Dans le cas où i = j, nous avons
par définition la variance de Yi .
Donc, la matrice suivante :
E (Y − E(Y )) (Y − E(Y ))0 ,

est une matrice qui contient toutes les variances des variables aléatoires dans Y (le long de la
diagonale) et toutes les covariances possibles entre les variables aléatoires dans Y . En fait,
puisque
Cov (Yi , Yj ) = Cov (Yj , Yi ) ,
la matrice est symétrique, avec l’élément i, j égal à l’élément j, i. Donc, nous pouvons écrire de
façon succincte toutes les variances et covariances possibles entre les variables aléatoires
regroupés dans un vecteur Y .
5.5 Propriétés statistiques : distribution en grand échantillon
Cette section est un peu ardue. Son but est de développer une expression pour la matrice
variance-covariance de l’estimateur β̂, et de contraster la variance robuste (lorsque on ne fait
pas d’hypothèse particulière concernant l’homoscédasticité) avec la variance en présence
d’homoscédasticité. Dans votre travail pratique de tous les jours d’économètres, vos logiciels
(comme R, STATA ou GRETL) vont faire les calculs développés dans cette sous-section
automatiquement. Par contre, si jamais vous voulez utiliser un logiciel comme MATLAB ou Excel
où la matrice variance-covariance robuste n’est pas calculée automatiquement, vous allez pouvoir
programmer son calcul vous-mêmes.
Nous voulons travailler avec une expression dont la variance ne diminue pas vers zéro lorsque

n → ∞. Donc, au lieu de travailler avec β̂ − β , qui converge vers une constante (convergence
en probabilité), nous avons :
√
n β̂ − β
46
−1
(X 0 X) (X 0 U )

= √ .
n n
Le dernier terme, au lieu de converger à une constante, a maintenant une variance qui ne décroı̂t
pas avec n. Nous avons donc quelque chose qui va converger en distribution, et non quelque
chose qui va converger en probabilité vers un vecteur de constantes.
Nous avons déjà vu dans la sous-section sur l’absence de biais que

E β̂ − β = 0.
√
Donc, une expression qui nous donne la matrice de variance-covariance de n β̂ − β est
donnée par :
0
E n β̂ − β β̂ − β
√
Notez bien la multiplication de β̂ − β par n. Dans le modèle de régression simple, nous
avons vu que la variance de l’estimateur β̂1 décroı̂t au rythme 1/n et donc tend vers zéro lorsque
n tend vers l’infini. Nous voulons travailler avec une variable aléatoire (plutôt un vecteur de
variables aléatoires) qui reste une variable aléatoire même lorsque la taille de l’échantillon tend
√
vers l’infini. Pour cette raison, nous multiplions par n, ce qui nous laissera avec une variance
qui ne tend pas vers zéro et, d’autre part, reste finie lorsque n tend vers l’infini.
√
Pour évaluer la matrice variance-covariance de n β̂ − β , nous devons examiner le
comportement en grand échantillon de
−1 ! −1 !0

(X 0 X) (X 0 U ) (X 0 X) (X 0 U )

√ √
n n n n
−1 0 0 0 0 −1
(X 0 X)

(X U ) (X U ) (X X)
= √ √ .
n n n n
0 −1
Nous avons déjà vu que (XnX) converge en probabilité à (Qx )−1 . Donc, nous devons nous
47
pencher sur le comportement de
0
(X 0 U ) (X 0 U )

√ √ .
n n
(X 0 U ) est un vecteur de dimensions (k + 1) × 1, puisque X est de dimensions n × (k + 1) et U

est de dimensions n × 1. Nous avons :
 
ui
 
 
 X1i ui 
Xn  n
 X
0
 
(X U ) =  X u ≡ Vi .
 2i i 
i=1
 ..  i=1
 
 . 
 
Xki ui
Par hypothèse, selon le Key Concept 18.1 , les Vi sont i.i.d. Cela veut dire que
n
1X
Vi
n i=1
converge en probabilité à un vecteur de zéros, et que (par une version du théorème de la limite
centrale),
n
1 X
√ Vi
n i=1
converge en distribution à un vecteur de variables normales dont la moyenne est zéro (on sait cela
puisque nous avons montré l’absence de biais) et dont la variance est donnée par :
E (Vi Vi 0 ) ≡ ΣV .
Donc, nous pouvons encore une fois invoquer le théorème de Slutsky pour dire que
√
d
− N 0k+1 , Qx −1 ΣV Qx −1 ,

n β̂ − β →
48
où nous utilisons 0k+1 pour dénoter un vecteur de zéros de dimensions (k + 1) × 1.
5.5.1 Cas homoscédastique
Dans le cas homoscédastique, la variance de ui est constante et indépendante des Xi .

Formellement, nous pouvons écrire :
E (U U 0 |X) = E (U U 0 ) = σu2 In .
Nous avons :
0 0
(X 0 U )

(X U )
√ √
n n
0
X U U 0X p

1 2 0 1 2 0
= →
− E σ X In X = E σ XX
n n u n u
= σu2 Qx .
√
Donc, l’expression pour la variance de n β̂ − β se simplifie beaucoup. Nous avons :
√
d
− N 0k+1 , σu2 Qx −1 Qx Qx −1 = N 0k+1 , σu2 Qx −1 .

n β̂ − β →
6 Variance échantillonnale de β̂
√
Comme d’habitude, notre dérivation de la distribution en grand échantillon de n β̂ − β
dépend de quantités que nous ne connaissons pas, par exemple de
X 0X

Qx ≡ E .
n
Il est (presque) toujours le cas que nous ne connaissons pas les vrais moments (moyennes,
variances, moments bruts – voir la note de bas de page à la page 15) de nos variables aléatoires.
Que faire alors si nous voulons développer une expression pour la variance de notre estimateur β̂,
49
basée sur des quantités que nous pouvons mesurer ? Nous suivons la stratégie habituelle, que nous
avons déjà utilisée à maintes reprises, de remplacer les moments non connus de la population par
des estimateurs convergents. Donc, nous remplaçons Qx par :
(X 0 X)
Q̂x ≡ .
n
Nous remplaçons ΣV par :

n
1 X
Σ̂V ≡ Xi 0 Xi (ûi )2 , (2)
n − k − 1 i=1
où Xi est l’ième rangée de la matrice X. 10 Comme d’habitude, nous divisons par (n − k − 1) ici
et non par n afin d’obtenir un estimé non biaisé. Nous n’allons pas montrer explicitement que
cette expression est un estimateur convergent de ΣV , mais nous aurions pu le faire.
Nous pouvons dire un peu plus sur la justification d’utiliser cet estimateur de la matrice
variance-covariance ΣV . Nous avons vu que ΣV peut s’écrire
ΣV = E (Vi Vi 0 )
  0 
 ui   ui  
  
 X1i ui   X1i ui 
   
 
    
= E 
 
X2i ui   X2i ui  
  
 
 . .

 ..   .. 
   
 
  
 
Xki ui Xki ui
10. J’utilise la notation matricielle standard ici. Stock et Watson à la page 699 du manuel définissent Xi comme un
vecteur colonne, ce qui n’est pas conforme à la notation matricielle standard. Pourquoi introduire encore une autre
incohérence entre la notation standard et la leur ?
50
 
2 2 2 2
ui X1i ui X2i ui ... Xki ui
 
 X1i ui 2 X1i 2 ui 2 X1i X2i ui 2
 
 . . . X1i Xki ui 2 

 
= E 2
 X2i ui X2i X1i ui
 2
X2i 2 ui 2 . . . X2i Xki ui 2  .

.. .. .. ... ..
 
. . . .
 
 
 
Xki ui 2 Xki X1i ui 2 Xki X2i ui 2 ... Xki 2 ui 2
Il est maintenant possible de voir clairement que l’estimateur défini dans (2) revient à remplacer
les espérances des produits de variables aléatoires dans la matrice par leurs équivalents
échantillonnaux. Donc, c’est une application de la stratégie habituelle de remplacer un moment
dans la population par le moment échantillonnal équivalent.
Nous pouvons finalement écrire :

1 −1 −1
β̂ ≈ N β, Q̂x Σ̂v Q̂x ≡ N β , Σ̂β̂ .
n
J’utilise ici la notation ≈ pour capter l’idée que β̂ suit une distribution qui est
approximativement normale. Notez que c’est encore le théorème de Slutsky qui nous permet de
dire que si nous avons un produit de trois estimateurs convergents, la limite en probabilité (ou
dans ce cas-ci la limite en distribution) du produit est le produit de la limite en probabilité des
trois termes.
Notez que tous les éléments de la matrice variance-covariance de notre estimateur β̂ diminuent au
rythme 1/n, comme nous avons vu dans la section précédente. Ceci reflète le fait que, sous les
hypothèses statistiques utilisées, β̂ est un estimateur convergent des vraies valeurs de β.
Tout bon logiciel de régression, comme R, STATA ou GRETL, calcule la matrice
variance-covariance de β̂ automatiquement. Mais attention ! Nous avons développé ici une
expression pour la matrice variance-covariance robuste (où la variance du terme d’erreur ui n’est
pas forcément constante et indépendante des Xi ). Il faut en général vérifier dans la documentation
du logiciel s’il calcule par défaut la matrice robuste où la matrice qui impose une hypothèse
d’homoscédasticité (sous-section suivante). Si l’option par défaut est la matrice
51
variance-covariance sous l’hypothèse d’homoscédasticité, il faut spécifier dans le code de son
programme le calcul de la matrice robuste.
Habituellement, l’output du logiciel de régression ne donne pas la matrice variance-covariance au
complet, mais se limite plutôt à donner l’écart type robuste associé à chaque coefficient
individuel. L’écart type de β̂i est la racine carrée de l’i-ième élément diagonal de Σ̂β̂ . Par contre,
le logiciel a besoin de la matrice variance-covariance au complet lorsqu’il s’agit d’effectuer un
test d’hypothèses jointes. Nous nous pencherons sur cette question dans la dernière section de ces
notes.
6.1 Cas homoscédastique
Encore une fois, nous suivons la stratégie général de remplacer les moments inconnus par des
estimateurs convergents. Un estimateur convergent de σu2 est donné par :
n
1 X
s2u ≡ û2 .
n − k − 1 i=1 i
Il s’agit de la même expression que nous avons vue qui mène à la définition de l’écart type de la
régression.
Nous avons déjà rencontré l’estimateur convergent de Qx :
(X 0 X)
Q̂x ≡ .
n
Donc, nous avons le résultat suivant :

1 2 −1
β̂ ≈ N β , su Q̂x ≡ N β , Σ̃β̂ ,
n
où j’utilise Σ̃β̂ pour dénoter la matrice variance-covariance dans le cas spécial de
l’homoscédasticité.
Cet estimateur de la matrice variance-covariance est très facile à programmer si vous devez le
52
faire. En notation MATLAB, si X est la matrice contenant les observations sur les variables
explicatives et si Uhat est le vecteur de résidus de la régression, nous avons :
Sigmahat = (Uhat0 ) ∗ Uhat ∗ inv(X 0 X)/(n − k − 1); .
6.2 Homoscédasticité versus Hétéroscédasticité
Suivant la philosophie du livre de Stock et Watson, nous avons mis l’accent sur le calcul d’écarts
types pour nos coefficients estimés qui sont robustes à la présence d’erreurs hétéroscédastiques.
J’accepte complètement l’argument de Stock et Watson que les données que nous utilisons la
plupart du temps pour estimer nos modèles économétriques n’ont pas des erreurs
homoscédastiques.
Par contre, on peut se poser la question suivante : y a-t-il des façons de détecter la présence de
l’hétéroscédasticité ? La réponse est Oui , mais le livre de Stock et Watson est totalement muet
à cet égard. Commençons par une méthode informelle ou graphique.
Il s’agit de regarder un graphique avec les résidus de l’équation estimée sur l’axe vertical et une
des variables explicatives du modèle sur l’axe horizontal. Si la grandeur absolue des résidus varie
systématiquement avec la variable explicative, c’est un signe de la présence de
l’hétéroscedasticité. On peut aussi regarder un graphique où on mesure les résidus au carré sur
l’axe vertical. Si les points on une pente non nulle évidente (positive ou négative), c’est un signe
de la présence de l’hétéroscédasticité. Si c’est le cas, il est fortement conseillé d’effecteur un ou
plusieurs tests formels.
1. L’article Wikipedia qui s’intitule Heteroscedasticity est une bonne introduction au sujet.
2. Le test Goldfeld-Quandt.
3. Le test Breusch-Pagan. On régresse les résidus au carré sur les variables explicatives du
modèle. Il y a un bon article sur Wikipedia qui explique le test.
4. Le test de White. C’est peut-être le test le plus fréquemment utilisé. L’économètre qui l’a
53
développé a aussi proposé la version robuste de la matrice variance-covariance que l’on
présente dans le manuel. Pour effectuer le test, on utilise les résidus au carré comme la
variable dépendante dans une régression multiple (qu’on appelle une régression
auxiliaire ), ou les variables explicatives sont les variables explicatives du modèle
original, tous les co-produits possibles des variables explicatives, et les variables
explicatives au carré. White a montré que la statistique R2 de cette régression suit (en
grand échantillon) une distribution χ2 avec un nombre de degrés de liberté égal au nombre
de variables explicatives dans la régression auxiliaire moins un. Il y a un article sur ce test
chez Wikipedia, mais il est moins complet que l’article sur le test Breusch-Pagan.
5. Le test de Glesjer.
Voir l’article Heteroscedasticity chez Wikipedia pour plus de détails sur les tests différents et
pour des renvois. Nous allons revenir sur cette question dans le dernier chapitre du plan de cours
sur les tests diagnostics.
Bon nombre de logiciels économétriques modernes effectuent le test de White, ou un ou plusieurs
des autres tests lors de l’estimation d’un modèle de régression multiple, soit automatiquement soit
en spécifiant une option simple.
En présence d’hétéroscédasticité, si sa forme est connue (si on connaı̂t comment dépend la
variance de l’erreur en fonction des variables explicatives du modèle), il y a des estimateurs plus
efficients des coefficients du modèle. Il s’agit de l’estimateur moindres carrés généralisés
( Generalized Least Squares en anglais). Nous n’avons pas le temps d’étudier cet estimateur
dans ce cours. Il fait partie des sujets étudiés dans le cours ECO5272.
7 Efficience de l’estimateur MCO sous l’homoscédasticité
Sous les hypothèses de base du modèle de régression multiple, et dans le cas de

l’homoscédasticité, on peut montrer que l’estimateur MCO β̂ a une variance au moins aussi petite
que n’importe quel autre estimateur linéaire (en Y ) et non biaisé. C’est le théorème
54
Gauss-Markov. Dans le cas d’un vecteur de paramètres, la notion de variance au moins aussi
petite que est ambiguë pusiqu’il y a plusieurs éléments dans β. Il faut la comprendre de la
manière suivante. Si β̃ est n’importe quel estimateur linéaire et non biaisé de β, il faut que

Var c0 β̂ ≤ Var c0 β̃
pour toute combinaison linéaire c0 β. Ici, c est un vecteur de constantes de dimensions (k + 1) × 1

et donc c0 β est un scalaire. Il y a une preuve du théorème dans l’annexe 18.5 du manuel. Notez
qu’il ne faut pas supposer la normalité du terme d’erreur pour montrer l’efficience de l’estimateur
MCO. Voir Giles (2011b) pour une discussion détaillée.
Le théorème Gauss-Markov explique l’importance de l’estimateur MCO dans l’histoire de
l’économétrie et de la statistique.
Tel qu’indiqué à la fin de la section précédente, il est possible, si on connaı̂t la forme de
l’hétéroscédasticité (comment elle est reliée aux variables explicatives du modèle), l’estimateur
MCG (moindres carrés généralisés) sera typiquement plus efficient que l’estimateur MCO.
7.1 Preuve du théorème Gauss-Markov
Je reprends ici une preuve relativement simple tirée de l’article Wikipedia sur le Théorème
Gauss-Markov. Il est très important de noter que pour les fins de cette preuve, les variables
explicatives X sont considérées comme étant fixes ou non stochastiques.
Soit β̃ = CY un autre estimateur linéaire de β. 11 On suppose que C peut être ećrite comme
(X 0 X)−1 X 0 + D, où D est une matrice non nulle de dimensions (k + 1) × n. Notre but est de
montrer que sa variance doit être au moins aussi élevée que celle de β̂, l’estimateur MCO.
L’espérance de β̃ est donnée par
(X 0 X)−1 X 0 + D (Xβ + U )

E (CY ) = E
11. Il faut aussi prendre les éléments de C comme étant fixes ou non stochastiques.
55
= (X 0 X)−1 X 0 + D Xβ + E (X 0 X)−1 X 0 + D U

(X 0 X)−1 X 0 + D E (U |X)

= β + DXβ + E
= β + DXβ,
où nous avons utilisé la loi des projections itérées. Nous voulons prouver que β̂ a la plus petite
variance parmi tous les estimateurs linéaires non biaisés. Pour que notre estimateur soit non
biaisé, il faut que
DX = 0.
Calculons maintenant sa variance. Il s’agit de la variance conditionnelle (étant donné les valeurs
de D et de X). Nous avons
Var (CY |X, D) = CVar(Y |X, D)C 0
= CVar(U |X)C 0
2
= σ CC 0
2 0
(X 0 X)−1 X 0 + D (X 0 X)−1 X 0 + D

=σ
= σ 2 (X 0 X)−1 X 0 X(X 0 X)−1 + (X 0 X)−1 X 0 D0 + DX(X 0 X)−1 + DD0

2
(X 0 X)−1 + DD0

=σ
2
= σ 2 (X 0 X)−1 + σ DD0
puisqu’il faut que DX = 0 si notre estimateur est non biaisé.

La matrice DD0 est une matrice positive semi-définie. Nous avons

Var β̃ − Var β̂ = σ 2 DD0
56

⇒ Var c0 β̃ − Var c0 β̂ = σ 2 c0 DD0 c ≥ 0,
la dernière inégalité étant la définition même d’une matrice positive semi-définie. Ce qui fut à
démontrer.
8 Biais dû à des variables omises (bis)
Montrer le biais qui provient de variables omises est beaucoup plus facile en notation matricielle
qu’avec des sommations. Supposons que le vrai modèle peut être écrit comme :
 
 β1 

Y = X1 X2  +U
β2
≡ X1 β1 + Ū .
Ici, X1 et X2 ont l’interprétation de sous-matrices et β1 et β2 ont l’interpétation de sous-vecteurs.

Donc, la dernière équation indique nous avons, de façon erronée, regroupé des variables
explicatives du modèle avec le terme d’erreur.
Si nous estimons le modèle erroné, nous avons :
β̂1 = (X10 X1 )−1 (X10 Y ) = (X10 X1 )−1 (X10 (Xβ + U ))
    
 β1 

= (X10 X1 )−1 X10  X1 X2   + U 
  
β2
= (X10 X1 )−1 X10 X1 β1 + (X10 X1 )−1 X10 X2 β2 + (X10 X1 )−1 X10 U
= β1 + (X10 X1 )−1 X10 X2 β2 + (X10 X1 )−1 X10 U
57
Nous avons :

E βˆ1 = β1 + E (X10 X1 )−1 X10 X2 β2 + E (X10 X1 )−1 X10 E (U |X)

= β1 + E (X10 X1 )−1 X10 X2 β2

= β1 + E (X10 X1 )−1 X10 X2 β2 .

Interprétation : le biais dépend de X1 0 X2 , la matrice de comouvements bruts entre les éléments de

X1 et les éléments de X2 ainsi que des vraies valeurs des coefficients β2 .
Notez que
(X10 X1 )−1 X10 X2
serait tout simplement la matrice de coefficients obtenus si on régressait chaque variable dans X2
sur X1 . C’est essentiellement la formule d’un estimateur MCO, mais c’est une généralisation
puisque X2 est une matrice et non un vecteur.
Vous devriez vérifier que l’expression développée pour le biais au début du chapitre 6 du manuel
est tout simplement un cas spécial de cette expression.
Afin de mieux cerner le concept de biais dû à des variables omises, je développe dans l’encadré le
sujet du modèle de régression partitionné qui suit.
Régression partitionnée
Pour de plus amples renseignements, voir Pollock (2007). Reprenons le modèle de régession
multiple en faisant la distinction entre le sous-ensemble de variables explicatives X1 et le
sous-ensemble X2 .  
 β1 

Y = X1 X2  +U
β2
= X1 β1 + X2 β2 + U.
58
Au lieu de regrouper les variables X2 avec le terme d’erreur comme nous avons fait dans la
section précédente, nous allons regarder explicitement comment notre estimé MCO de β1 , soit
β̂1 , est affecté par β̂2 . Rappelons ce que nous avons appelé les équations normales lorsque
nous avons trouvé la solution pour l’estimateur MCO pour le modèle de régression multiple :
X 0 Xβ = X 0 Y.
Nous pouvons écrire ces équations commme deux sous-ensembles d’équations :
X10 X1 β1 + X10 X2 β2 = X10 Y
et
X20 X1 β1 + X20 X2 β2 = X20 Y.
Du premier de ces 2 ensembles d’équations, nous avons
X10 X1 β1 = X10 (Y − X2 β2 )

−1
⇒ β̂1 = (X10 X1 ) X10 Y − X2 β̂2 .
Nous devons maintenant trouver une solution pour β̂2 . Multiplions le premier sous-ensemble
par X20 X1 (X10 X1 )−1 pour obtenir
−1 −1
X20 X1 β1 + X20 X1 (X10 X1 ) X10 X2 β2 = X20 X1 (X10 X1 ) X10 Y.
Maintenant, soustrayons cette équation du deuxième sous-ensemble d’équations, obtenant

ainsi
−1 −1
X20 X2 β2 − X20 X1 (X10 X1 ) X10 X2 β2 = X20 Y − X20 X1 (X10 X1 ) X10 Y.
59

−1 −1
⇒ X20 X2 − X20 X1 (X10 X1 ) X10 X2 β2 = X20 − X20 X1 (X10 X1 ) X10 Y.
Définissons
−1
P1 ≡ X1 (X10 X1 ) X10 .
Nous pouvons écrire

(X20 (I − P1 ) X2 ) β2 = X20 (I − P1 ) Y
où I est la matrice identité conformable à P1 , et donc
−1
β̂2 = (X20 (I − P1 ) X2 ) X20 (I − P1 ) Y.
Notez que nous avons suivi une méthodologie semblable à celle dans le chapitre sur le modèle
de régression simple. Nous avons trouvé une solution pour β̂1 en fonction de β̂2 , et ensuite
nous avons éliminé β̂1 dans la solution pour β̂2 par substitution.
Ces solutions permettent de réinterpréter l’estimateur MCO comme un estimateur en deux

étapes. Considérons d’abord la régression de la variable Y sur X1 seulement. Si on appelle
les coefficients estimés β̃1 , nous avons
−1
β̃1 ≡ (X10 X1 ) X10 Y,
−1
Ỹ = X1 β̃1 = X1 (X10 X1 ) X10 Y
les valeurs prédites de Y sur la base de cette régression, et

−1 −1
Ũ ≡ Y − X1 (X10 X1 ) X10 Y = I− X1 (X10 X1 ) X10 Y
le vecteur de résidus de cette régression. Considérons maintenant la régression des variables
60
X2 sur les X1 . Appelons les coefficients γ̃. Nous avons
−1
γ̃ ≡ (X10 X1 ) X10 X2 .
Notez qu’il s’agit d’une matrice de coefficients estimés puisqu’il y a tout un vecteur de
variables dépendantes au lieu d’une seule. Appelons X̃2 les valeurs prédites des variables X2 .
Nous avons
−1
X̃2 = X1 γ̃ = X1 (X10 X1 ) X10 X2 ,
et
−1
Ū ≡ X2 − X1 (X10 X1 ) X10 X2

−1
= I − X1 (X10 X1 ) X10 X2
= (I − P1 ) X2
la matrice de résidus de ces régressions. (Il y a autant de colonnes dans Ū que dans X2 .)
Maintenant, considérons la régression de Ũ sur Ū . Appelons le vecteur de coefficients estimés

γ̄. Nous avons
−1
γ̄ = Ū 0 Ū Ū 0 Ũ .
Nous avons

−1 −1
Ū 0 Ū = X20 I − X1 (X10 X1 ) X10 I − X1 (X10 X1 ) X10 X2
= X20 (I − P1 ) (I − P1 ) X2
= X20 (I − P1 ) X2
puisque
(I − P1 ) (I − P1 )
61
= (I − P1 ) .
Vous pouvez vérifiez cette égalité facilement. La matrice (I − P1 ) est une matrice
idempotente. Donc, finalement nous avons
−1
γ̄ = (X20 (I − P1 ) X2 ) X20 (I − P1 ) Y.
Mais ceci n’est rien d’autre que la solution que nous avions trouvée pour β̂2 .
En régressant Y sur X1 et X2 sur X1 , on purge l’effet des X1 sur la variable dépendante Y et

sur les autres variables explicatives X2 . Avec la régression de Ũ sur Ū , on estime l’effet des
X2 (purgées de l’influence des X1 ) sur Y (purgée aussi de l’influence des X1 ). Mais c’est
exactement ce que fait l’estimation MCO lorsqu’on inclut les deux sous-ensembles de
variables explicatives dans le modèle en même temps. Ce résultat s’appelle le théorème
Frisch-Waugh-Lovell. Pour de plus amples renseignements, voir Lovell (2010).
Supposons maintenant que notre modèle de régression est sans constante. Nous pouvons
toujours réécrire le modèle de régression linéaire de la façon suivante :
Y = Xβ + U
Ȳ = X̄β + Ū

⇒ Y − Ȳ = X − X̄ β + U − Ū .
Si, comme d’habitude, la première colonne contient une constante, elle va disparaı̂tre de ce
système d’équations et nous aurons
Ỹ = X̃ β̃ + Ũ
62
où
Ỹ ≡ Y − Ȳ ,
X̃ ≡ X − X̄
et
Ũ ≡ U − Ū
et où X̃ peut être redéfinie comme une matrice n × k puisque sa première colonne est une
colonne de zéros. Autrement dit, il est toujours possible de réécrire le modèle de régression
linéaire sans une constante en exprimant toutes les variables (explicatives et dépendante)
comme des déviations par rapport à leurs moyennes échantillonnales.
Donc, supposons que notre modèle est effectivement sans constante. Qu’est-ce qui arrive
lorsque la corrélation échantillonnale entre X1 et X2 est zéro ? Dans ce cas, nous avons
X10 X2 = 0, puisque les variables dans X1 et X2 sont mesurées en déviations par rapport à
leurs moyennes échantillonnales. Autrement dit, X1 et X2 sont orthogonales. Nous avons
dans ce cas particulier
−1
β̂ = (X 0 X) X 0Y
 −1  
0 0 0
 X1 X 1 X 1 X2   X1 
=   Y
X20 X1 X20 X2 0
X2
 −1  
0 0
 X1 X 1 0  X1 
= Y

 
0 X20 X2 0
X2
  
(X10 X1 )−1 0 X10
= Y
  

0 (X20 X2 )−1 X20
 
0 −1
 (X1 X1 ) X1 Y 
= .
0 −1
(X2 X2 ) X2 Y
63
On aurait pu montrer le même résultat à partir des solutions développées ici pour β̂1 et β̂2 .
Faisons-le ici. Nous avons

−1
β̂1 = (X10 X1 ) X10 Y − X2 β̂2
−1 −1
= (X10 X1 ) X10 Y − (X10 X1 ) X10 X2 β̂2
−1
= (X10 X1 ) X10 Y
dans le cas de l’orthogonalité. Dans le cas de β̂2 , nous avons
−1
β̂2 = (X20 (I − P1 ) X2 ) X20 (I − P1 ) Y
−1
−1 −1
= X20 X2 − X20 X1 (X10 X1 ) X10 X2 X20 Y − X20 X1 (X10 X1 ) X10 Y
−1
= (X20 X2 ) X20 Y
dans le cas de l’orthogonalité. Dans le cas général (lorsque X1 et X2 ne sont pas

orthogonales), les solutions ne sont évidemment pas aussi simples.
Ceci veut dire que, dans le cas de l’orthogonalité, on peut estimer un modèle de régression
(avec Y comme variable dépendante) contenant seulement les variables X1 , seulement les
variables X2 , ou avec toutes les variables ensemble, et on va obtenir exactement les mêmes
valeurs pour les coefficients estimés. Le théorème Frisch-Waugh-Lovell est assez
remarquable.
Nous pouvons aussi réinterpréter ces résultats à la lumière de ce que nous avons trouvé
concernant le biais dû à des variables omises. Dans le cas de l’orthogonalité, X10 X2 = 0 et il
n’y a pas de biais. On peut régresser Y sur seulement X1 ou sur seulement X2 et il n’y a pas
de biais. On obtient des estimateurs non biaisés.
On peut aussi réinterpréter tout ceci en termes géométriques. Voir Davidson et MacKinnon
64
(1999) et Sosa Escudero (2001) pour plus de détails.
Tel que noté par Pollock (2007), les coûts reliés au biais dû à des variables omises dépendent des
buts de notre modélisation. Si parmi les variables X1 il y a des variables qui seront utilisées
comme des instruments de politique économique, il est très important d’obtenir des estimés non
biaisés de leur impact. Si ce qui nous intéressent est surtout la prédiction de l’espérance de Y
conditionnelle aux valeurs des X, l’absence de biais est sans doute moins importante.
9 Tests d’hypothèses et ensembles de confiance
Tel qu’indiqué dans l’introduction, le seul élément vraiment novateur est le test d’hypothèses
jointes. Sinon, on peut effectuer des tests d’hypothèses simples de la même manière que dans le
cas de la régression simple.
9.1 Tests d’hypothèses simples par rapport à un seul coefficient
Il n’y a strictement aucun changement par rapport à la façon de tester une hypothèse simple dans
le cadre du modèle de régression simple. La statistique t de base, pour n’importe quel test, peut
s’écrire :
β̂i − βiH0
t= ,
sβ̂i
où βiH0 est la valeur du coefficient i sous l’hypothèse nulle, β̂i est la valeur du coefficient obtenue
lors de l’estimation, et sβ̂i est un estimé convergent de l’écart type de l’estimé du coefficient.
Dans le cas de la régression multiple, c’est la racine carrée de l’i-ième élément diagonal de Σ̂β̂
(cas hétéroscédastique) ou Σ̃β̂ (cas homoscédastique).
Toute la discussion du chapitre 4 concernant les p-values et les taux de significativité marginaux
s’applique. La statistique t suit approximativement une loi normale centrée réduite (si, bien sûr,
l’échantillon est suffisamment grand).
65
Dans le cas d’une hypothèse alternative à deux extrémités (bilatérale), une grande valeur absolue
de la statistique t (peu importe son signe) constitue de l’évidence contre H0 . Soit Φ (−|ta |) la
valeur de la distribution normale cumulée pour moins la valeur absolue de la valeur calculée de la
statistique t. Nous avons :
Φ (−|ta |) = Pr (t ≤ −|ta |)
!
β̂i − βiH0
= Pr t ≤ −
sβ̂i

= Pr t sβ̂i ≤ − β̂i − βiH0 .
Dans le cas où β̂i − βiH0 > 0 ceci est égal à

Pr t sβ̂i ≤ − β̂i − βiH0

= Pr t sβ̂i − βiH0 ≤ −β̂i

= Pr β̂i ≤ βiH0 − t sβ̂i ,
qui est donc égale à la probabilité d’obtenir une valeur au moins aussi petite qu’une valeur qui est
inférieure à βiH0 par t fois son écart type. Dans le cas où β̂i − βiH0 < 0 ceci est égal à

Pr t sβ̂i ≤ β̂i − βiH0

= Pr β̂i ≥ βiH0 + t sβ̂i ,
qui est donc égale à la probabilité d’obtenir une valeur au moins aussi grande qu’une valeur qui
est supérieure à βiH0 par t fois son écart type.
Tout cela revient à dire que la p-value du test avec hypothèse alternative bilatérale est donnée par
2 × Φ (−|ta |).
Le cas de tests avec hypothèse alternative unilatérale est semblable. L’analyse des tests
d’hypothèse présentée dans le chapitre sur le modèle de régression simple est pertinente. Dans le
66
cas où on a
H0 : βi = βiH0
et
H1 : βi > βiH0 ,
la p-value du test est donnée par
p = Pr z > tact = 1 − Φ tact .

Dans le cas où on a

H0 : βi = βiH0
et
H1 : βi < βiH0 ,
la p-value du test est donnée par
p = Pr z < tact = Φ tact .

9.2 Tests d’hypothèses simples par rapport à une combinaison linéaire de
coefficients
9.2.1 Méthode indirecte
Souvent, il est possible de tester une telle restriction en estimant une version transformée du
modèle. Si on procède de cette façon, on réécrit le modèle pour redéfinir la combinaison linéaire
de paramètres comme un paramètre simple du modèle transformé. De cette façon, on peut
appliquer la méthodologie standard pour tester une hypothèse simple avec un test t, telle que
développée dans la sous-section précédente. Nous illustrons l’idée avec un exemple. Reprenons le
67
modèle de régression multiple de base en notation non matricielle :
Supposons que nous voulons tester la restriction suivante :
H0 : β1 + β2 = 1,
contre l’hypothèse alternative

H1 : β1 + β2 6= 1.
Considérons la version suivante du modèle, qui est équivalente à la version originale :
Yi = β0 + X1i (β1 + β2 ) + (X2i − X1i ) β2 + . . . + Xki βk + ui .
L’équivalence vient du fait que nous avons tout simplement ajouté et soustrait le même terme
X1i β2 . Nous pouvons réécrire le modèle de la façon suivante :
Yi = β0 + X1i γ1 + Zi β2 + . . . + Xki βk + ui ,
où Zi ≡ X2i − X1i et γ1 ≡ β1 + β2 . Maintenant, tester l’hypothèse H0 : β1 + β2 = 1 revient à

tester l’hypothèse H0 : γ1 = 1. La méthodologie à suivre est identique à celle étudiée dans le
cadre du modèle de régression simple.
Effectuer ce test utilisant un logiciel de régression comme R, STATA ou GRETL revient à créer la
variable Z et à estimer l’équation transformée par MCO. Rien n’empêche bien sûr d’utiliser les
écarts types robustes pour effectuer le test.
68
9.2.2 Méthode directe
Sans estimer une version équivalente du modèle, nous pouvons tester la restriction directement.
Supposons que nous pouvons écrire la restriction portant sur la combinaison linéaire des
paramètres sous la forme suivante :
Rβ = r
où R est un vecteur de dimensions 1 × (k + 1) et r est une constante (scalaire). 12 Comme

d’habitude, nous pouvons écrire la statistique t comme la valeur calculée de la statistique (Rβ̂),
moins sa valeur sous l’hypothèse nulle (r), le tout divisé par la racine carrée de sa variance. Nous
savons déjà calculer la variance d’une combinaison linéaire de variables aléatoires. Donc, nous
avons
Rβ̂ − r
t= r .
Var Rβ̂
Si chaque élément dans β̂ converge en distribution vers une loi normale, la combinaison linéaire

converge en distribution vers une loi normale. Puisqu’on soustrait r (qui est égal à E Rβ̂ sous
r
l’hypothèse nulle) et on divise par Var Rβ̂ , la statistique normalisée converge en distribution
vers une loi normale centrée réduite :
Rβ̂ − r d
r →− N (0, 1) .
Var Rβ̂
Dans la section sur les tests d’hyothèses jointes, nous allons voir (comme des cas spéciaux) un ou
deux exemples de calcul de la variance de combinaisons linéaires de coefficients.
12. Notez que nous allons généraliser cette façon d’écrire des restrictions sur les valeurs de paramètres dans la
section sur comment tester des hypothèses jointes.
69
9.3 Pourquoi les tests séquentiels ne sont pas valides
Supposons que nous voulons tester l’hypothèse jointe suivante :
H0 : β1 = β2 = 0.
L’hypothèse nulle dit que les deux coefficients sont nuls. L’hypothèse alternative naturelle dans ce
contexte est que au moins un des deux coefficients est non nul :
H1 : ∃i, i = 1, 2 tel que βi 6= 0.
Pourquoi pas tout simplement tester les deux hypothèses de façon séquentielle, où les statistiques
t données par :
β̂1 − β1H0
t1 = ,
sβ̂1
et ensuite
β̂2 − β2H0
t2 = .
sβ̂2
Le problème avec cette idée est qu’il s’agit de distributions de probabilité jointes. Supposons pour
simplifier que les deux coefficients estimés sont indépendamment distribués l’un par rapport à
l’autre. Dans les deux cas, on ne rejetterait pas l’hypothèse nulle à un niveau de significativité
marginal de 5% si |t1 | < 1.96 et |t2 | < 1.96 si notre échantillon est suffisamment grand (pour que
les statistiques soient distribuées approximativement selon une loi normale). Avec ce taux de
significativité marginal et étant donnée l’indépendance, la probabilité d’obtenir au moins un rejet
en effectuant deux tests si les hypothèses nulles sont vraies serait égale à 1 − 0.952 . (Pourquoi ?
Vous devez être capable de répondre à cette question.) Il faudrait au moins ajuster le niveau de
significativité marginal pour tenir compte de ce fait. Si les deux coefficients estimés ne sont pas
indépendants, cet ajustement serait encore plus compliqué. L’idée derrière les tests d’hypothèse
jointes développés ci-dessous est précisément de tenir compte du fait que les coefficients sont
tirés d’une distribution de probabilité jointe.
70
Notez que l’annexe (7.1) du livre décrit une façon d’ajuster les niveaux de significativité
marginaux pour tenir compte de la corrélation non nulle entre les coefficients. Cette méthodologie
peut être utile dans certains cas, notamment lorsqu’on lit les résultats de régressions rapportés
dans des articles publiés ou des cahiers de recherche. Dans la plupart des cas on rapporte les
écarts types associés aux coefficients individuels, mais on ne rapporte pas la matrice
variance-covariance complète des coefficients estimés (ce dont on aurait besoin pour calculer les
statistiques définies dans la sous-section suivante). En suivant cette méthodologie le lecteur peut
effectuer des tests d’hypothèses jointes même s’il n’a pas accès à la matrice variance-covariance
complète des coefficients estimés.
9.4 Tests d’hypothèses jointes
Tel qu’indiqué dans l’introduction à ces notes, je vais mettre l’accent ici sur l’approche
matricielle, qui est beaucoup plus générale et, je crois, plus simple à comprendre.
Pour commencer à saisir en quoi consiste cette méthodologie, reprenons l’exemple de la
sous-section précédente. L’hypothèse nulle à tester est :
H0 : β1 + β2 = 1,
Nous pouvons écrire cette hypothèse sous forme matricielle de la façon suivante :
 
 β0 
 

 β1 
 
β2 
 

0 1 1 0 ... 0  =1
 

 β3 
 .. 

 . 

 
βk
71
Ceci est de la forme :
Rβ = r,
où R est une matrice de constantes et r est un vecteur de constantes. Dans ce cas particulier, où il
y a une seule restriction portant sur une combinaison linéaire de coefficients, R est en fait un
vecteur et r est un scalaire. Mais, dans le cas général, R ainsi que r auront le même nombre de
rangées que le nombre de restrictions.
Prenons un cas plus concret, un cas où le nombre de variables explicatives (à part la constante) est
plus grand que deux. Comment tester l’hypothèse nulle jointe
H0 : β1 = β2 = 0
contre l’hypothèse alternative
∃i, i = 1, 2 tel que βi 6= 0.
Sous forme matricielle, nous pouvons écrire : H0 :

 
 β0 
 
 β1 
 

  

 0 1 0 0 ... 0  β2   0 
 
   =  .
 
0 0 1 0 ... 0  β3  0
 .. 


 . 
 
βk
On peut montrer que la statistique suivante obéit, en grand échantillon et sous H0 , à une loi Fq,∞
(révisez la sous-section sur cette distribution à la page 44 du manuel ou dans les notes de cours) :
0 h i−1
0
F ≡ Rβ̂ − r RΣ̂β̂ R Rβ̂ − r /q,
72
où q est le nombre de restrictions que l’on veut tester, et où Σ̂β̂ est la matrice variance-covariance
de l’estimé β̂. Dans l’exemple que nous venons d’étudier, q = 2. Autrement dit,
d
F →
− Fq,∞ .
Puisque la convergence est asymptotique (lorsque le nombre d’observations tend vers l’infini), le
deuxième indice inférieur indique un nombre de degrés de liberté infini.
L’argument pourquoi la statistique F converge en distribution à une loi Fq,∞ se trouve à la page
714 du manuel. L’argument est très succinct (pour ne pas dire très dense). Je vous invite à le lire
mais, bien sûr, il ne faut pas le retenir pour les fins de l’examen final. Un argument plus simple,
pour le cas de 2 restrictions, se trouve à la page 228.
Comme d’habitude, le manuel met l’accent sur le cas où l’échantillon est suffisamment grand
pour parler de convergence approximative en probabilité et/ou en distribution. Pour que nos
statistiques F suivent une loi F même en petit échantillon, il faudrait pouvoir les exprimer
comme des ratios de variables aléatoires χ2 même en petit échantillon (voir la page 44), et donc il
faudrait supposer la normalité des erreurs (il faut aussi supposer l’homoscédasticité). Dans la
mesure où ceci est rarement plausible dans des contextes appliqués, il est mieux de se tourner vers
l’inférence asymptotique si nous avons suffisamment d’observations.
La loi F dépend de deux paramètres. Typiquement on parle d’une variable aléatoire qui obéit à
une loi Fm,n , où le paramètre m fait référence au nombre de restrictions imposées, et n fait
référence au nombre de degrés de liberté (le nombre d’observations moins le nombre de
paramètres estimés). Notez en consultant les Tables 5A, 5B et 5C dans le manuel les petits écarts
entre les valeurs critiques lorsque n = 120 et lorsque n → ∞.
La plupart des logiciels de régression, dont R, STATA et GRETL, offrent à l’utilisateur la
possibilité de spécifier les équivalents de R et r afin de tester des hypothèses jointes quelconques.
73
9.5 Que faire lorsque Σ̂β̂ n’est pas disponible ?
Il y a des situations où on n’a pas toute la matrice variance-covariance des paramètres estimés à sa
disposition. Par exemple, quand on lit des articles publiés qui résument les résultats de
l’estimation d’un modèle de régression multiple, il est souvent le cas qu’on rapporte les écarts
types associés aux coefficients individuels, mais non les covariances entre les coefficients estimés.
Il est possible de contourner ce problème en utilisant la correction de Bonferroni , qui tient
compte de la simultanéité lorsque on fait un test d’hypothèses jointes. Notez que cette
méthodologie donne des tests qui sont moins puissants (qui ont une probabilité moins élevée de
rejeter l’hypothèse nulle lorsqu’elle est fausse) que si on utilise la matrice Σ̂β̂ pour effectuer le
test. Ce que fait la correction est de donner la bonne p-value de tests séquentiels (la bonne
probabilité de rejeter les hypothèses nulles jointes lorsqu’elles sont vraies).
Le test de Bonferroni permet de tester des hypothèses jointes sur la base des statistiques t
pour les hypothèses individuelles. Il faut choisir la valeur critique afin d’être sûr que la
probabilité de rejeter l’hypothèse nulle jointe ne dépasse pas la probabilité de la rejeter si on
tient compte de la non-indépendance entre les hypothèses faisant partie de l’hypothèse jointe.
On rejette l’hypothèse nulle si on rejette au moins une des hypothèses individuelles. Dans le
cas d’une hypothèse jointe qui comporte deux hypothèses simples, appelons A l’événement
que nous rejetons la première des deux hypothèses, et B l’événement que nous rejetons la
deuxième hypothèse simple. Nous savons que
Pr (A ∪ B) ≤ Pr (A) + Pr (B) ,
où le symbole ∪ indique l’union des deux événements, autrement dit l’événement que A se
produit, ou que B se produit, ou que les deux se produisent. Si on choisit des p-values
identiques pour les deux tests des hypothèses individuelles, on va choisir des p-values tel que
leur somme soit égale à la p-value désirée du test joint. Par exemple, si on veut être sûr de ne
74
pas rejeter l’hypothèse nulle jointe plus que 5% du temps lorsqu’elle est vraie, on va choisir
des p-values de 2.5% pour chacune des tests individuels.
Le test Bonferroni est très conservateur. Son but est de minimiser la probabilité de rejeter les
hypothèses jointes si elles sont vraies. En général, il fait augmenter la probabilité d’accepter
les hypothèses lorsqu’elles sont fausses. Ainsi, il n’a pas beaucoup de puissance (définie
comme la probabilité de rejeter une hypothèse lorsqu’elle est fausse). Il y a des techniques
pour augmenter la puissance du test lorsqu’on doit tester une hypothèse jointe avec une
séquence de tests d’hypothèses simples. Voir Simes (1986).
Pour de plus amples renseignements concernant cette méthodologie, consultez l’annexe 7.1
au Chapitre 7 du manuel.
9.6 Une seule restriction comme un cas spécial
On peut montrer dans le cas d’une seule restriction portant sur un coefficient (q = 1), la statistique
F est le carré de la statistique t. Ceci revient à dire par contre que nous ne pouvons pas faire la
distinction entre une statistique t qui serait grande en valeur absolue et négative et une statistique
t grande en valeur absolue et positive. Cela veut dire qu’il n’y aurait pas de différence entre les
résultats avec une statistique F et une statistique t si l’hypothèse alternative est une hypothèse
alternative à deux extrémités (bilatérale), mais nous ne pouvons pas vraiment tester l’hypothèse
nulle contre l’hypothèse alternative H1 : β̂i < βi où ce ne sont que les grandes valeurs négatives
de la statistique t qui nous amènent à rejeter l’hypothèse nulle.
Pour montrer l’équivalence entre la statistique F et le carré de la statistique t dans un cas simple,
prenons l’exemple de l’hypothèse nulle H0 : β1 = 0. Dans ce cas, nous pouvons écrire la
75
restriction sous forme matricielle comme
 
β0
 
 


 β1 

 
0 1 0 ... 0 
 β2 

..
 
.
 
 
 
βk
= β1 = 0.
Dans ce cas Rβ̂ − r prend la forme de la statistique calculée (la valeur estimée de β̂1 ) moins sa
valeur sous l’hypothèse nulle, ou tout simplement le numérateur de la statistique t que l’on
utiliserait pour tester l’hypothèse. Nous avons dans ce cas
  −1
0
  
  
  1 

  
 
F = β̂1 − 0 
 0 1 0 . . . 0 Σ̂β̂
 0 
  β̂1 − 0 .
 .. 
  
 . 


  
0
On peut facilement vérifier que dans ce cas-ci (vous devriez le faire sur papier pour être sûr)
 
0
 
 


 1 

 
0 1 0 . . . 0 Σ̂β̂  0  = s2 ,
  β̂1
..
 
.
 
 
 
0
l’élement (scalaire) sur la diagonale de Σ̂β̂ qui correspond à l’estimateur convergent de la
76
variance de β̂1 . Donc, nous avons
!2
β̂1 − 0
F = = t2 .
sβ̂1
La statistique F est effectivement le carré de la statistique t qu’on utiliserait pour effectuer le test.
On peut aussi considérer un deuxième exemple pour montrer ce que donne la formule générale
lorsqu’il n’y a qu’une seule restriction testée. Considérons l’hypothèse nulle suivante :
H0 : β1 + β2 = 1,
qui peut être écrite sous forme matricelle comme

 
 β0 
 

 β1 
 
β2 
 

0 1 1 0 ... 0 




 β3 
 .. 

 . 

 
βk
= β1 + β2 = 1.
Encore une fois, Rβ̂ − r prend la forme de la statistique calculée (β̂1 + β̂2 ) moins sa valeur sous
77
l’hypothèse nulle. Nous avons dans ce cas
  −1
  0 
  
  1 
  
  
 1 

  
F = β̂1 + β̂2 − 1 
 0 1 1 0 . . . 0 Σ̂β̂
 
  β̂1 + β̂2 − 1 .
  0 
  
  . 
  .. 
  
  
0
On peut vérifier (encore une fois ce serait un bon exercice de le faire sur papier) que
 
 0 
 

 1 
 
1 
 

0 1 1 0 . . . 0 Σ̂β̂   = s2 + s2 + 2s
  β̂1 β̂2 β̂1 ,β̂2

 0 
 .. 

 . 

 
0
où sβ̂1 ,β̂2 est l’élément hors-diagonale de la matrice variance-covariance, qui est un estimé
convergent de la covariance entre β̂1 et β̂2 . Il s’agit donc de l’estimateur convergent de la variance
de β̂1 + β̂2 , qui suit les règles de base pour le calcul de variances de combinaisons linéaires de
variables aléatoires. La statistique F devient
2
β̂1 + β̂2 − 1
F = = t2 .
s2β̂ + s2β̂ + 2sβ̂1 ,β̂2
1 2
Encore une fois, on voit l’équivalence entre la statistique F et le carré de la statistique t.
78
9.7 Significativité de la régression
Souvent, on veut tester l’hypothèse nulle selon laquelle tous les coefficients de la régression sauf
la constante sont égaux à zéro. Nous pouvons écrire l’hypothèse nulle de la façon suivante :
H0 : β1 = β2 = . . . = βk = 0,
avec
H1 : ∃i, i = 1 . . . k tel que βi 6= 0.
Nous pouvons écrire cette restriction sous forme matricielle sans problème, avec :
 
0 1 0 0 ... 0
 
 

 0 0 1 0 ... 0 

 
R=
 0 0 0 1 ... 0 ,

.. .. .. .. . . ..
 
. . . . . .
 
 
 
0 0 0 0 ... 1
une matrice de dimensions k × (k + 1) et
 
0
 
 

 0 

 
r=
 0 ,

..
 
.
 
 
 
0
un vecteur de dimensions (k + 1) × 1. Chaque fois qu’on fait référence à tester la significativité

de la régression , on fait référence à cette hypothèse nulle.
Avec cette écriture, tester la significativité jointe de tous les coefficients sauf la constante (β0 )
n’est qu’un cas particulier de la règle générale.
79
9.8 Tests d’hypothèse en présence d’homoscédasticité
Le cas de l’homoscédasticité ne présente en principe rien de différent par rapport au cas général.
On peut en principe remplacer Σ̂β̂ dans la formule ci-dessus pour F par Σ̃β̂ qui provient de la
sous-section 6.1 ci-dessus. Donc, nous avons :
0 h i−1
F ≡ Rβ̂ − r RΣ̃β̂ R0 Rβ̂ − r /q,
Par contre, dans le cas homoscédastique, il y a une façon plus simple d’effectuer des tests
d’hypothèse. On peut estimer le modèle sous l’hypothèse nulle et sous l’hypothèse alternative, et
utiliser la formule suivante :
(SSRrestricted − SSRunrestricted ) /q
F = ,
SSRunrestricted / (n − kunrestricted − 1)
où SSRrestricted est la somme des résidus carrés du modèle estimé en imposant les contraintes et
SSRunrestricted est la somme des résidus carrés du modèle estimé sans imposer les contraintes.
L’hypothèse nulle que l’on veut tester revient à imposer des contraintes sur les valeurs des
coefficients. Une formule équivalente est la suivante :
2 2
(Runrestricted − Rrestricted ) /q
F = 2
,
(1 − Runrestricted ) / (n − kunrestricted − 1)
2
où Rrestricted est la mesure de l’ajustement statistique R2 du modèle estimé en imposant les
contraintes et SSRunrestricted est le R2 du modèle estimé sans imposer les contraintes. Vous
devriez montrer algébriquement comment passer de la première à la deuxième version de ce test.
La démonstration est en fait très simple.
Nous n’allons pas montrer formellement pourquoi les statistiques F dans le cas homoscédastique
peuvent être transformées pour être écrites sous cette forme. On peut trouver une démonstration
dans la plupart des manuels d’économétrie avancés comme Greene (2000, section 7.2.3). Je
reproduis la preuve dans l’encadré qui suit. La lecture de cet encadré est recommandé seulement à
80
ceux qui s’y intéressent vraiment.
Dans cet encadré je montre l’équivalance

La preuve passe par l’estimation du modèle de régression multiple sujet aux contraintes que
nous voulons tester. Le problème peut s’écrire
min (Y − Xβ)0 (Y − Xβ)

β
sujet à la contrainte
Rβ = r.
Nous pouvons écrire le problème de minimisation à l’aide d’un vecteur de multiplicateurs de

Lagrange λ comme suit, définissant S comme l’expression lagrangienne à minimiser.
min S = (Y − Xβ)0 (Y − Xβ) + 2λ0 (Rβ − r) .

β,λ
Les conditions du premier ordre du problème sont
∂S
= 0 = 2X 0 (y − Xβ) + 2R0 λ;
∂β
∂S
= 0 = 2 (Rβ − r) .
∂λ
Je vous invite à faire le lien entre ces conditions du premier ordre et les règles de
différentiation matricielle que nous avons vues en début de chapitre.
Nous pouvons regrouper les CPO ensemble en notation matricielle comme suit.
    
0 0 0
 X X R   β̃   X Y 
   =  
R 0 λ̃ r
où j’ai écrit des ˜ sur les inconnus du problème pour souligner le fait que les solutions au
81
problème constituent notre estimateur MCO sous contraintes.
La solution est donnée par
   −1  
0 0 0
 β̃   X X R   XY 
 =   .
λ̃ R 0 r
Je suppose ici que la matrice qu’il faut inverser est non singulière. Pour trouver l’inverse de la
matrice, nous pouvons utiliser la formule suivante pour les matrices partitionnées.
 −1
 A11 A12 
 
A21 A22
=  
−1 −1 −1

 A11 I + A12 F2 A21 A11 −A11 A12 F2 
 
−F2 A21 A11 −1 F2
où
−1
F2 ≡ A22 − A21 A11 −1 A12 .
Je vous invite à vérifier qu’il s’agit bel et bien de l’inverse de la matrice originale en faisant
les multiplications matricielles appropriées pour retrouver la matrice identité. Appliquant
cette formule dans le cas qui nous préoccupe, nous obtenons
h i−1
−1 −1
β̃ = β̂ − (X 0 X) R0 R (X 0 X) R0 Rβ̂ − r
et
h i−1
−1
λ̃ = R (X 0 X) R0 Rβ̂ − r

0 −1 0
où β̂ = (X X) X Y . Notez que la solution pour λ̃ contient Rβ̂ − r . Si l’estimateur
satisfait ces restrictions exactement (autrement dit si Rβ̂ = r), alors nous avons λ̃ = 0 et
82
l’estimateur des MCO sous contraintes devient égal à l’estimateur MCO sans contrainte.
Nous sommes sur le point de pouvoir montrer que la formule générale pour la statistique F se
réduit au cas spécial sous l’hypothèse de l’homoscédasticité. Je prends à ce stade-ci un
raccourci en faisant appel à un résultat développé dans l’article de Greene et Seaks (1991),
qui montrent que la variance de l’estimateur β̃ (sous l’hypothèse de l’homoscédasticité) est
donnée par
h i−1
−1 −1 −1
Var β̃|X = σ 2 (X 0 X) − σ 2 R0 R (X 0 X) R0 R (X 0 X) .
où
σ 2 ≡ Var (ui |Xi ) .
Notez que le premier terme est la variance de l’estimateur MCO β̂ sous l’hypothèse
d’homoscédasticité. Pour calculer la variance de β̃, il faut soustraire une matrice qui (on peut
montrer) est une matrice positive-définie. Cela veut dire que la variance de β̃ est plus petite
que la variance de β̂, la différence étant une matrice positive-définie. L’interprétation, c’est
que le fait d’imposer les contraintes et donc d’imposer de l’information additionnelle
concernant les valeurs des paramètres β réduit la variance de l’estimateur.
Après cette petite parenthèse, procédons maintenant à notre démonstration. Définissons
Ũ ≡ Y − X β̃

= Y − X β̂ − X β̃ − β̂

= Û − X β̃ − β̂ .
Nous avons
0
Ũ 0 Ũ = Û − X β̃ − β̂ Û − X β̃ − β̂
83

0 0 0 0
= Û Û − Û X β̃ − β̂ − β̃ − β̂ X Û + β̃ − β̂ X X β̃ − β̂

= Û 0 Û + β̃ − β̂ X 0 X β̃ − β̂
où les deux termes dans l’avant dernière expression sont égaux à zéro puisque les résidus
MCO sont orthogonaux à X. Donc
0
Ũ 0 Ũ = Û 0 Û + β̃ − β̂ X 0 X β̃ − β̂ ≥ Û 0 Û .
Notez que dans ce cas Ũ 0 Ũ et Û 0 Û sont des scalaires, et donc l’inégalité est une inégalité
ordinaire. Le dernier terme du côté droit dans cette équation est une forme quadratique est
donc doit être positif. À moins que β̃ = β̂, il va être strictement positif. Ceci est logique. Ũ 0 Ũ
est une somme de résidus au carré qui résulte de la solution d’un problème de minimisation
sous contrainte, tandis que Û 0 Û est une somme de résidus au carré qui résulte de la solution
du même problème de minimisation, sans imposer la contrainte. Il est normal que le minimum
trouvé comme solution au problème non contraint soit inférieur au minimum trouvé au
problème sous contrainte.
Cela veut dire que Ũ 0 Ũ − Û 0 Û est une mesure de la détérioration de l’ajustement en imposant
les restrictions, et peut être utilisé pour construire le test F . La solution que nous avons
trouvée pour β̃ nous donne
h i−1
−1 −1
β̃ − β̂ = − (X 0 X) R0 R (X 0 X) R0 Rβ̂ − r .
Substituant, on a
0
Ũ 0 Ũ − Û 0 Û = β̃ − β̂ X 0 X β̃ − β̂
0 h i−1
0 −1 0 −1
= Rβ̂ − r R (X X) R (X 0 X)
−1 −1
R (X 0 X) X 0 X (X 0 X) R0
84
h i−1
−1
R (X 0 X) R0 Rβ̂ − r
0 h i−1 h i
−1 −1
= Rβ̂ − r R (X 0 X) R0 R (X 0 X) R0
h i−1
0 −1 0
R (X X) R Rβ̂ − r
0 h i−1
−1
= Rβ̂ − r R (X 0 X) R0 Rβ̂ − r .
Notez aussi que dans ce cas,

Ũ 0 Ũ ≡ SSRrestricted
et
Û 0 Û ≡ SSRunrestricted .
Voici la dernière étape dans l’argument. Sous l’hypothèse nulle (que Rβ = r), puisque β̂ suit

(asymptotiquement ou approximativement) une distribution normale, alors Rβ̂ = r suit
une distribution asymptotiquement normale aussi, puisqu’il s’agit d’une combinaison linéaire
de variables aléatoires (asymptotiquement) normales. Sa variance est donnée par

−1
Var Rβ̂ − r = R Varβ̂ R0 = σ 2 R (X 0 X) R0
sous l’hypothèse d’homoscédasticité. Pour cette raison, nous pouvons montrer que
0
2 0 −1 0
Rβ̂ − r σ R (X X) R Rβ̂ − r
suit (asymptotiquement ou approximativement en échantillon fini) une distribution chi-carré

avec q degrés de liberté, où comme d’habitude q est le nombre de restrictions. Le problème,
c’est que σ 2 n’est pas observable. La dernière étape est de convertir en une statistique que
85
nous pouvons calculer avec les données que nous avons. Nous pouvons montrer que
F ≡
0
Rβ̂ − r σ 2 R (X 0 X)−1 R0 Rβ̂ − r /q
[(n − k − 1) s2 /σ 2 ] / (n − k − 1)
est le ratio de deux variables chi-carré (encore une fois asymptotiquement ou

approximativement en échantillon fini), chacune divisée par son nombre de degrés de liberté.
Les σ 2 au numérateur et au dénominateur s’annulent, et nous savons que notre estimateur
(convergent et non biaisé) s2 est donné par
Û 0 Û
s2 ≡ = SSRunrestricted / (n − k − 1) .
(n − k − 1)
⇒ (n − k − 1) s2 = SSRunrestricted
Donc nous avons 0

0 −1 0

Rβ̂ − r R (X X) R Rβ̂ − r /q
F =
(SSRrestricted − SSRunrestricted ) /q
= ,
ce qui fut à montrer. Le ratio de ces variables chi-carré, les deux divisées par les degrés de
liberté, suit une distribution F . Encore une fois, si nous ne sommes pas prêts à faire
l’hypothèse que les erreurs du modèle non contraint ui sont générées par une loi normale, ce
résultat est un résultat asymptotique et ne tient que de façon approximative en échantillon fini.
Puisque nous utilisons un résultat qui tient asymptotiquement ou approximativement en grand
échantillon, nous utilisons la fonction de distribution cumulée de Fq,∞ .
Ces tests sont faciles à calculer et ont une interprétation intuitive simple. Par contre, ils ne sont
valides que dans le cas d’erreurs homoscédastiques.
86
Un exemple concret pourrait aider à rendre plus clair le concept estimer le modèle en imposant
les contraintes . Soit le modèle de régression multiple standard, écrit en notation non matricielle :
Nous voulons tester l’hypothèse nulle que β1 + β2 = 1. Notez que l’hypothèse nulle revient à
imposer une restriction (contrainte) sur la valeur de ces deux coefficients. Isolant β2 nous donne
β2 = 1 − β1 .
Maintenant, substituant dans le modèle, nous avons :
Yi = β0 + X1i β1 + X2i (1 − β1 ) + . . . + Xki βk + ui ,
que nous pouvons réécrire comme :
Yi − X2i = β0 + (X1i − X2i ) β1 + X3i β3 + . . . + Xki βk + ui .
On peut estimer ce modèle (la version contrainte) avec un logiciel comme R, STATA ou GRETL
en définissant une nouvelle variable dépendante Ỹi ≡ Yi − X2i et une nouvelle variable
explicative Zi ≡ X1i − X2i . Le modèle à estimer devient :
Ỹi = β0 + Zi β1 + X3i β3 + . . . + Xki βk + ui .
Notez bien que ce que nous venons de faire n’est pas la même chose que ce que nous avons fait
pour transformer le modèle pour tester une seule hypothèse dans le cadre d’une combinaison
linéaire de coefficients. Dans ce dernier cas, nous avons proposé d’estimer un modèle équivalent
au modèle initial. Puisqu’il était équivalent, l’estimation était valide sans imposer des hypothèses
additionnelles. Dans le présent contexte, le modèle transformé n’est pas équivalent au modèle
87
initial. Il n’est valide que sous les contraintes de H0 .
Nous savons que la loi F est définie seulement pour des valeurs positives de la variable aléatoire.
Dans ce cas, les estimés MCO du modèle contraint proviennent de la solution à un problème de
minimisation contraint, où la contrainte est l’hypothèse nulle que nous voulons tester. Les estimés
MCO du modèle non contraint proviennent de la solution à un problème de minimisation où cette
contrainte n’est pas imposée. Pour cette raison, la somme des résidus carrés du modèle contraint
doit être au moins aussi élevée que pour le modèle non contraint, et la statistique F calculée par
une des formules ou par l’autre doit être positive. 13
L’extension au cas d’hypothèses jointes est directe.
9.9 Test de significativité de la régression dans le cas homoscédastique
Dans ce cas, la version contrainte du modèle prend une forme spéciale. D’abord, nous avons
q = k. Ensuite, si tous les coefficients sauf la constante sont égaux à zéro, le modèle est (sous
forme non matricielle)
Yi = β0 + ui .
Nous avons déjà vu (dans le chapitre de rappel sur la théorie des probabilités et la statistique) que
dans ce cas l’estimateur MCO de β0 est tout simplement la moyenne échantillonnale de Y , soit Ȳ .
Autrement dit,
β̂0 = Ȳ .
Nous savons que la somme totale des carrés (T SS) est donnée par
n
X 2
T SS = Yi − Ȳ ,
i=1
13. Ce résultat est dû tout simplement aux propriétés algébriques de la minimisation sous contrainte. La valeur mi-
nimale d’une fonction sous une contrainte doit être au moins aussi élevée que la valeur minimale lorsque la contrainte
n’est pas imposée.
88
et dans ce cas-ci nous avons
Yi = Ȳ + ûi
n n
X 2 X
⇒ T SS ≡ Yi − Ȳ = û2i ≡ SSR
=1 i=1
Donc, dans ce cas nous avons forcément une statistique R2 égale à zéro. Nous n’avons pas besoin
d’estimer le modèle contraint, sachant que son R2 est forcément zéro. La deuxième forme de la
statistique F devient dans ce cas
(R2 ) /k
F =
(1 − R2 ) / (n − k − 1)
R2 (n − k − 1)
= ,
(1 − R2 ) k
2
où je n’ai pas écrit explicitement Runrestricted puisqu’il n’y a pas d’ambiguı̈té (on estime
seulement le modèle non contraint).
9.10 Tests exacts
Tous les tests développés dans cette section des notes sont valides en grand échantillon. Ils
reposent sur l’idée de la convergence en distribution. Si on est prêt à faire les hypothèses
héroı̈ques que les erreurs sont homoscédastiques, i.i.d., et distribuées selon une loi normale, nous
pouvons montrer que la statistique F est distribuée selon une loi Fq,n−kunrestricted −1 même en petit
échantillon. Donc, ces hypothèses nous permettent de faire ce que j’ai appelé de l’inférence
exacte (basée sur des formes distributionnelles connues) au lieu de faire ce que j’ai appelé de
l’inférence approximative ou asymptotique (basée sur l’hypothèse que l’échantillon est
assez grand pour penser qu’une version de la loi des grands nombres et/ou le théorème de la
limite centrale tient approximativement). Vous devriez comparer les valeurs tablées de Fq,∞ et
Fq,n−kunrestricted −1 pour des valeurs différentes de n afin de développer une idée de la taille
d’échantillon où les différences entre les deux deviennent négligeables.
Je partage l’opinion des auteurs du manuel qu’il est mieux de privilégier l’inférence
89
approximative, surtout dans le cas de banques de données microéconomiques avec des milliers
sinon des dizaines de milliers d’observations.
9.11 Ensembles de confiance
Comme dans le cas du modèle de régression simple, l’idée d’ensembles de confiance est une
extension naturelle de l’idée de tests d’hypothèse. Il faut parler d’ensembles au lieu
d’intervalles parce qu’il s’agit de plus qu’un coefficient. Un point (des valeurs données des
coefficients) est dans l’ensemble de confiance de X% si nous ne pouvons rejeter ces valeurs à un
niveau de significativité marginal de (100 − X)% sous l’hypothèse nulle que les vraies valeurs
des coefficients sont égales à celles obtenues par l’estimation MCO.
Géométriquement, un ensemble de confiance prend la forme d’une ellipse dans le plan des
coefficients pour lesquels on le calcule (donc, si on calcule un ensemble de confiance pour plus
que deux coefficients, le plan aura plus que deux dimensions).
Supposons que nous voulons établir un ensemble de confiance pour les coefficients β1 , β2 et β4 ,
pour une régression où le nombre de variables explicatives à part la constante est au moins égal à
quatre. Si nous voulons savoir si le point (β1,0 , β2,0 , β4,0 ) est dans l’ensemble de confiance
autour des valeurs estimées de ces paramètres, nous testons, étant donné l’échantillon
d’observations, l’hypothèse nulle jointe suivante :
H0 : β1,0 = β̂1 , β2,0 = β̂2 , β4,0 = β̂4 .
Si H0 est acceptée à un niveau de significativité marginal de (100 − X)%, le point est dans
l’ensemble de confiance.
Dans le cas d’un intervalle de confiance, il est très facile de décrire explicitement ses bornes,
puisqu’il s’agit de 2 points. Dans le cas d’un ensemble de confiance, même lorsqu’il s’agit d’une
ellipse en seulement deux dimensions, le nombre de points dans la borne de l’ellipse est infini.
Pour cette raison, il est beaucoup plus difficile de décrire explicitement les ensembles de
90
confiance. Nous venons de résumer tout ce qu’il est nécessaire de savoir en principe pour calculer
les ensembles de confiance. Il y a des formules explicites, basées sur la formule pour la statistique
F utilisée pour tester si un point fait partie de l’ensemble de confiance, mais nous n’allons pas
étudier ces formules dans ce cours.
10 Multicollinéarité
Il faut distinguer entre ce qu’on appelle la multicollinéarité parfaite et la multicollinéarité

imparfaite.
10.1 Multicollinéarité parfaite
Dans ce cas, il existe une relation linéaire exacte qui relie un sous-ensemble des variables
explicatives. Dans la majorité des cas, il résulte d’un problème logique dans le choix des
régresseurs. Il y a plusieurs types de situations où cela peut arriver.
• L’exemple le plus connu de ce problème est la soi-disant trappe des variables
dichotomiques , que nous pouvons illustrer avec un exemple simple. Supposons que nous
avons un échantillon avec des individus, et une des caractéristiques est le sexe de
l’individu. Nous pourrions construire deux variables dichotomiques, dont la première
prend la valeur de un lorsque l’individu est une femme et zéro autrement, et la deuxième
prend la valeur de un lorsque l’individu est un homme et zéro autrement. Appelons ces
91
deux variables X1 et X2 . Nous pourrions avoir, par exemple :
   
 1   0 
   

 0 

 1 
   
1  0 
   
 
   
X1 =  1 , X2 =  0 .
   
   
   

 0 

 1 
 ..   .. 

 . 


 . 

   
0 1
Il est évident que  

1
 
 
 1 
 
 
 1 
 
 
X1 + X 2 =  1  .
 
 
 
 1 
 
 . 
 .. 
 
 
1
Maintenant, si nous essayons d’estimer une régression et d’inclure une constante, X1 et

X2 comme variables explicatives, la constante sera tout simplement la somme de X1 et
X2 . Donc, c’est le cas que nous pouvons exprimer une des variables explicatives comme
une combinaison linéaire des autres variables explicatives du modèle de régression.
• Il y a plusieurs autres exemples classiques de multicollinéarité parfaite. Voir la section 6.7
du manuel.
La multicollinéarité parfaite nous empêchera même d’estimer notre régression. Il est facile de
montrer que, en présence d’un problème de multicollinéarité parfaite, la matrice X 0 X n’est pas de
rang plein. Il est impossible que calculer (X 0 X)−1 , et l’estimateur β̂ = (X 0 X)−1 X 0 Y n’existe
même pas. Un logiciel de régression comme R, STATA ou GRETL va tout simplement imprimer
92
un message d’erreur. En fait, un message d’erreur signalant que la matrice X 0 X est singulière est
presque toujours un signe de multicollinéarité parfaite. Le remède est de réexaminer le choix des
variables explicatives du modèle.
10.2 Multicollinéarité imparfaite
Il s’agit maintenant d’une situation où ce n’est pas le cas qu’une variable explicative est une
combinaison linéaire exacte des autres variables explicatives du modèle, mais plutôt une situation
où une variable explicative est très fortement corrélée avec une autre variable explicative ou avec
une combinaison linéaire de ces variables. Dans ce cas, la matrice X 0 X n’est pas singulière, mais
elle peut souvent être presque singulière. Elle aura une valeur caractéristique près de zéro, et
beaucoup plus faible que les autres valeurs caractéristiques de la matrice X 0 X.
La multicollinéarité imparfaite n’est typiquement pas un signe d’une erreur logique dans le choix
des variables explicatives du modèle, mais est due aux données utilisées et à la question à laquelle
on essaie de répondre en spécifiant le modèle de régression multiple.
Il y a une conséquence de cette situation qui est strictement dans le domaine de l’analyse
numérique. Avec une matrice X 0 X qui est presque singulière, même si l’ordinateur est capable de
calculer son inverse, le résultat du calcul sera en général sujet à des erreurs numériques
importantes. Les coefficients estimés seront imprécis non au sens statistique mais plutôt au sens
numérique. Souvent, dans ces cas, un logiciel de régression comme R, STATA ou GRETL va
calculer les résultats de la régression, mais il va indiquer parmi l’output que la matrice X 0 X est
presque singulière ou mal conditionnée .
L’autre conséquence de la multicollinéarité imparfaite est que les écarts types des coefficients
estimés risquent d’être plutôt élevés. Par conséquent, les intervalles de confiance pour les
coefficients individuels seront très larges et les tests d’hypothèse n’auront pas beaucoup de
puissance.
Il est difficile de montrer rigoureusement ce résultat (que les écarts types des coefficients estimés
seront grands) dans le cas général. L’Annexe 6.2 du manuel présente un exemple spécifique qui
93
illustre le principe. Dans le cas d’un modèle de régression multiple avec deux variables
explicatives et erreurs homoscédastiques (Var (ui |X1,i , X2,i ) = σu2 ), nous avons

d
− N β1 , σβ̂21
β̂1 →
où " #
1 1 σu2
σβ̂21 = ,
n 1 − ρ2X1 ,X2 σX2
1
où ρX1 ,X2 est la corrélation (dans la population) entre les deux variables explicatives de la
régression. On voit à partir de cette équation que, toutes choses étant égales par ailleurs, plus
élevée est la corrélation entre les deux variables explicatives, plus élevée est la variance de β̂1 .
Dans ce cas, le modèle de régression n’est pas forcément mal spécifié. Par contre, il peut être très
difficile sinon impossible d’estimer avec précision et d’établir la significativité d’un coefficient
d’une variable dont la corrélation avec au moins une autre variable explicative est très forte.
La preuve de cette formule dans le cas où k = 2 est relativement facile. Le modèle au départ
est donné par
Yi = β0 + β1 X1i + β2 X2i + ui .
Nous avons
Ȳ = β0 + β1 X̄1 + β2 X̄2 + ū
où, comme d’habitude, une barre indique la moyenne échantillonnale d’une variable. Ceci
nous donne

Yi − Ȳ = β1 X1i − X̄1 + β2 X2i − X̄2 + (ui − ū)
ou  
 β1 
Y =X +U
β2
où par construction la variable dépendante et les variables explicatives ont des moyennes
94
échantillonnales de zéro et où on soustrait la moyenne échantillonnale des erreurs de chaque
ui (bien sûr, puisque nous n’observons pas les ui nous n’observons pas non plus ū.
L’estimateur MCO est donné par la formule habituelle
 
 β̂1  0 −1 0
  = (X X) X Y
β̂2
Dans ce cas, la matrice variance-covariance du vecteur de paramètres estimés est donnée par
 −1
2
σu2  σX1 σX1 ,X2 
Σ2β̂ = .
n
 
2
σX1 ,X2 σX 2
Notez que cette formule repose sur une hypothèse d’homoscédasticité de l’erreur. Puisque
nous avons soustrait les moyennes des variables X1 et X2 , la matrice Q qui normalement est
une matrice de moments bruts s’avère être aussi la matrice variance-covariance des variables
X1 et X2 . Aussi, puisqu’il s’agit dans ce cas d’une matrice de dimensions 2 × 2, on sait
comment écrire une expression algébrique pour son inverse. Il est facile de vérifier que dans
ce cas-ci nous avons  −1
2
 σX 1
σX1 ,X2 
 
2
σX1 ,X2 σX 2
 
2
1  σX2 −σX1 ,X2 
= 2 2  ,
σX σ2
1 X2
− (σX1 ,X2 ) −σX1 ,X2 2
σX1
ce qui donne " #

2
σu2 σX
σβ̂21 = 2
2
n σX 2
σ 2
1 X2
− (σX1 ,X2 )
 
1 1  2
=  2  σu

n 2 (σX1 ,X2 )
σX 1
− 2
σX
2
95
 
1 1  σu2
=  2

n (σX1 ,X2 )  σ2X1
1− 2 σ2
σX X
1 2
" #
1 1 σu2
= ,
n 1 − ρ2X1 ,X2 σX2
1
où ρ2X1 ,X2 est le coefficient de corrélation entre X1 et X2 au carré. En regardant cette
expression, il est clair que la variance σβ̂2 du paramètre estimé β̂1 va croı̂tre avec la valeur
1
absolue du coefficient de corrélation entre X1 et X2 . On peut aussi montrer que la variance de

β̂2 est donnée par " #
1 1 σu2
σβ̂22 = .
n 1 − ρ2X1 ,X2 σX2
2
Encore une fois, sa variance augmente avec la valeur absolue du coefficient de corréltation
entre X1 et X2 .
La multicollinéarité imparfaite traduit le fait qu’il peut être très difficile (sinon impossible),
statistiquement parlant, d’isoler l’impact individuel de chacune de deux variables explicatives qui
sont fortement corrélées. C’est possible que chacune des deux variables soit non significative sur
la base d’un test d’hypothèse simple (basé sur une statistique t), tandis qu’un test de l’hypothèse
nulle jointe que les deux variables sont non significatives rejette cette hypothèse nulle sur la base
d’une statistique F . En interprétant les résultats d’une telle régression, il est important d’insister
sur l’importance du bloc de deux variables pour expliquer la variable dépendante, tout en
soulignant l’impossibilité d’attribuer l’importance à une variable particulière à cause du problème
de multicollinéarité imparfaite.
10.3 Trucs pratiques
96
• Si vous avez une banque de données avec plusieurs variables explicatives potentielles,
il pourrait être intéressant de calculer la matrice de tous les coefficients de corrélation
entre toutes les paires de variables. Ceci peut faire apparaı̂tre des problèmes potentiels
de multicollinéarité.
• Lorsque vous estimez un modèle de régression multiple, il pourrait être intéressant, si
votre logiciel permet de le faire facilement, de calculer la valeur du
conditionnement de la matrice (X 0 X), donnée par le ratio de la plus grande valeur
caractéristique de la matrice sur la plus petite valeur caractéristique. Si ce chiffre est
très élevée, on dit que la matrice est mal conditionnée , ce qui peut occasionner des
erreurs numériques importantes. Une matrice mal conditionnée est presque singulière.
11 Un Exemple
Je présente ici un autre exemple en code R pour illustrer sa puissance et le fait que (même en
n’utilisant pas une des interfaces graphiques disponibles) il est relativement facile à utiliser. On
peut télécharger une banque de données, estimer un modèle de régression multiple, et faire
imprimer les résultats dans un fichier en six lignes de code. Notez que les commandes
coeftest et linearHypothesis se trouvent dans les packages lmtest et car. Il faut les
charger en mémoire et il faut aussi les installer si ce n’est pas déjà fait. On peut les installer avec
les commandes suivantes.
R> install.packages("car")
R> install.packages("lmtest")
En Linux, il est toujours conseillé d’installer les packages comme administrateur ou
super-utilisateur :
R> sudo install.packages("car")
R> sudo install.packages("lmtest")
97
Par la suite, on les charge en mémoire avec les commandes suivantes.
R> library("car")
R> library("lmtest")
Voci l’exemple.
Voici un exemple d’estimation d’un modèle de régression multiple avec le logiciel R. Encore
une fois, vous pouvez facilement jouer avec le code une fois que le logiciel est installé.
R> data("CPS1988", package="AER")

R> CPS lm <- lm(log(wage) ∼ experience + I(experienceˆ2) +
education + ethnicity, data=CPS1988)
R> summary(CPS lm)
R> outfile <- file("regsumm.out", "w")
R> capture.output(summary(CPS lm), file=outfile)
R> close(outfile)
Les données sont dans une banque de données qui s’appelle CPS1988 . Il s’agit d’une
coupe transversale de 28 155 observations recueillies par le Bureau du Recensement aux États
Unis dans le cadre du sondage Current Population Survey. Les données portent sur les
hommes agés de 18 à 70 ans avec un revenu supérieur à 50 $ qui ne sont ni travailleurs
autonomes ni en train de travailler sans rémunération. Voir la description plus détaillée dans
Kleiber et Zeileis (2008, p.65).
La variable dépendante du modèle est le salaire réel (dollars par semaine) mesuré en logs. La
variable explicative experience est l’expérience de travail mesurée en années, la variable
education est le nombre d’années de formation mesuré en années, et la variable
ethnicity est une variable dichotomiques prenant les valeurs cauc (blanc) et afam
(afro-américain). Notez qu’il s’agit d’une variable dichotomique qui ne prend pas des valeurs
98
chiffrées (0 ou 1 par exemple) : R va pouvoir tenir compte de ceci automatiquement.
Il faut avoir installé le paquetage AER avec la commande suivante :
install.packages("AER")
Cette commande va télécharger et installer le paquetage automatiquement à partir d’un des

dépôts d’archives R. (Notez que sous Linux il est préférable d’installer le paquetage comme
administrateur du système, autrement dit comme super-utilisateur).
Il est possible de générer un résumé des propriétés des données avec les commande suivante.
R> data(¨CPS1988¨)
R> summary(CPS1988)
Voir Kleiber et Zeileis (2008, p.66) pour les résultats de cette commande.
• La commande data(·) charge la banque de données.
• La commande lm(·) estime le modèle de régression multiple par MCO, et la
commande jour lm<- place les résultats dans la variable jour lm.
• La commande summary(·) imprime les résultats de la régression à l’écran.
• La commande outfile<- crée un fichier texte où on peut envoyer les résultats.
• La commande capture.output(·) envoie les résultats dans le fichier qui a été créé.
• La commande close(·) ferme le fichier.
La fonction I() dit à R d’interpréter l’opérateur ˆ comme un opérateur algébrique standard,
puisqu’il a aussi une interprétation spéciale en R.
Les résultats de l’estimation sont comme suit :
Call:
lm(formula = log(wage) ∼ experience + I(experienceˆ2) + education +
ethnicity, data = CPS1988)
Residuals:
Min 1Q Median 3Q Max
-2.943 -0.316 0.058 0.376 4.383
99
Coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) 4.321395 0.019174 225.4 <2e-16
experience 0.077473 0.000880 88.0 <2e-16
I(experienceˆ2) -0.001316 0.000019 -69.3 <2e-16
education 0.085673 0.001272 67.3 <2e-16
ethnicityafam -0.243364 0.012918 -18.8 <2e-16

Residual standard error: 0.584 on 28150 degrees of freedom
Multiple R-squared: 0.335, Adjusted R-squared: 0.335
F-statistic: 3.54e+03 on 4 and 28150 DF, p-value: <2e-16
Vous devriez être en mesure de comprendre tous les éléments de l’output, à part la
signification du coefficient ethnicityafam. Ce coefficient est créé automatiquement par
R, qui a choisi de traiter la catégorie cauc comme la catégorie de référence et de créer une
variable dichotomique pour la catégorie afam. La section de ces notes sur la multicollinéarité
parfaite nous a appris que nous ne pouvons pas inclure une constante, une variable
dichotomique pour la catégorie cauc, et une variable dichotomique pour la catégorie afam.
Comme dans le cas du modèle de régression simple, le code ci-dessus estime le modèle par
MCO utilisant les options par défaut. La fonction lm utilise par défaut une hypothèse
d’homoscédasticité. Donc, les écarts types des deux coefficients ne sont pas des écarts types
robustes. Afin d’obtenir des écarts types robustes à la présence de l’hétéroscédasticité, il faut
utiliser la commande suivante :
R> coeftest(CPS lm, vcov=vcovHC)
Les résultats de cette commande sont comme suit :

t test of coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) 4.3214e+00 2.0614e-02 209.630 <2e-16
experience 7.7473e-02 1.0188e-03 76.046 <2e-16
I(experienceˆ2) -1.3161e-03 2.3486e-05 -56.035 <2e-16
education 8.5673e-02 1.3755e-03 62.283 <2e-16

100
ethnicityafam -2.4336e-01 1.3119e-02 -18.550 <2e-16
Comme dans l’exemple présenté dans le chapitre précédent, ce modèle est un exemple d’un
modèle où il n’y a pas une grande différence entre les écarts types robustes et non robustes.
Puisque l’ordinateur est capable de calculer les écarts types en une fraction de seconde, il
coûte presque rien de les calculer des deux façons afin de vérifier si les résultats sont
semblables ou non.
Nous pouvons aussi effectuer des tests de restrictions sur le modèle estimé. Nous pouvons
spécifier la matrice R et le vecteur r comme dans les notes de cours. La forme générale d’un
test d’hypothèses linéaires dans R est
linearHypothesis(unrestricted,bigr,littler)
Ici, unrestricted est le nom du modèle linéaire estimé, bigr est la matrice R,
et littler est le vecteur r des notes. Afin d’utiliser la matrice de variance-covariance
robuste, il faut spécifier la commande de la manière suivante :
linearHypothesis(unrestricted,bigr,littler,white.adjust=HC)
Voici un exemple de test dans le contexte du modèle estimé dans cet encadré. si on voulait,
par exemple, tester la significativité de l’expérience, il faut test la significativité de deux
coefficients, le terme linéaire et le terme au carrré. L’hypothèse nulle jointe serait
β1 = β2 = 0. Sous forme matricielle, on aurait
 
β
 0 
 
 β   
 1 
 0 1 0 0 0    0 
 β2  =  

 
0 0 1 0 0   0
 β3 
 
 
β4
D’abord, il faut définir les matrices R et r dans le langage R.
R> bigr <- rbind(c(0,1,0,0,0),c(0,0,1,0,0))

R> littler <- rbind(0,0)
101
Pour plus de précisions, on peut invoquer la commande help(rbind). Maintenant, on peut
invoquer la commande linearHypothesis telle que spécifiée ci-dessus.
12 Un Autre Exemple
Je présente ici un autre exemple détaillé, basé sur la dernière question du dernier tp du trimestre
d’hiver 2012. Le code R est commenté et donc les commandes devraient être compréhensible au
lecteur.
D’abord, voici la question du tp.
Préambule
L’exercice est basé sur l’article de Mankiw, Romer et Weil (1992). Soit la fonction de
production agrégée donnée par
Yt = Kt α (At Lt )(1−α)
où Yt est le PIB réel, Kt le stock de capital, At le niveau du progrès technique, et Lt l’emploi
total. On peut transformer cette équation de la manière suivante :
α
Yt Kt
= At
Lt At Lt
Supposons que le progrès technique croı̂t èn moyenne à un rythme constant et égal à travers
les pays différents :
Ai,t = Ai,0 egt
où g est le taux de croissance du progrès technique, Ai,0 le niveau initial du progrès technique
pour le pays i, et Ai,t le niveau du progrès technique au pays i en période t. Le modèle de
102
Solow prédit qu’à long terme le ratio du capital par travailleur effectif est donné par

Kt s
≡ kt = k ∗ =
At Lt n+g+δ
où n est le taux de croissance de la population active et δ est le taux de dépréciation du

capital. Supposons un niveau initial du progrès technique qui peut dépendre du pays (dotation
initiale en ressources naturelles, etc., tel que
ln (Ai,0 ) = a + εi .
Donc, nous avons qu’à long terme

Yi,t
= Ai,t ki∗ α + εi
Li,t

Yi,t
⇒ ln = a + gt + αsi − α (ni + g + δ) + εi
Li,t
où nous supposons g et δ constants à travers les pays différents. Si on suppose t = 0 pour
simplifier nous pouvons écrire

Yi
ln = a + αsi − α(ni + g + δ) + εi . (3)
Li
Si on ajoute le capital humain au modèle, la fonction de production devient
Yt = Kt α Ht β (At Lt )(1−α−β) ,
103
où Ht est le capital humain. On peut montrer (voir l’article pour les détails) que l’équivalent
de (3) devient

Yi α β α+β
ln =a+ si + shi − (ni + g + δ) + εi . (4)
Li 1−α−β 1−α−β 1−α−β
La variable shi est le taux d’investissement dans le capital humain.
Données
Téléchargez le fichier de données (en format STATA) :

http://www.er.uqam.ca/nobel/r10735/4272/GrowthDJ.dta
Vous devriez être capables de les importer facilement avec GRETL. Si vous utilisez R, la base
de données se retrouve dans la library AER. Les données sont pour un échantillon de 121
pays et sont :
• oil : pays où l’industrie pétrolière est l’industrie dominante (yes) ou non
• inter : pays avec une population au moins égale à un million en 1960 et avec des
données relativement fiables selon Heston et Summers (1987) (yes) ou non
• oecd : pays membre de l’OCDÉ (yes) ou non
• gdp60 : niveau réel du PIB par habitant en 1960
• gdp85 : niveau réel du PIB par habitant en 1985
• gdpgrowth : taux de croissance moyen du PIB réel par habitant entre 1960 et 1985
• popgrowth : taux de croissance moyen de la population entre 1960 et 1985
• invest : valeur moyenne du ratio investissement sur PIB entre 1960 et 1985
• school : ratio moyen des inscriptions à l’école secondaire sur la population en âge de
travailler.
• literacy60 : taux d’alphabétisation en 1960
Les données correspondent à l’Annexe de l’article de Mankiw, Romer et Weil (1992). Pour
104
l’identité des pays, il faut référer à cette annexe.
Exercice
1. Estimez un modèle de régression multiple où gdp85 est la variable dépendante et les
variables explicatives sont une constante, invest pour mesurer si et
(popgrowth+0.05) pour mesurer (ni + g + δ) (nous supposons
qu’approximativement g + δ = 0.05). Ce modèle équivaut au modèle de Solow sans
capital humain. Estimez en calculant des écarts types non robustes et robustes.
Commentez ce que vous trouvez. Pour les sous-questions qui suivent, vous pouvez
vous limiter à des estimations et des tests qui utilisent la matrice de
variance-covariance robuste.
2. Le modèle de Solow prédit que les coefficients sur le taux d’épargne si et le taux de
croissance de la population (ni + 0.05) devraient être de signe opposé mais égaux en
valeur absolue. Testez cette hypothèse. Le modèle prédit aussi que ces deux
coefficients devraient être égaux en valeur absolue à la part du capital dans le revenu
national (α), soit environ 1/3. Testez cette hypothèse jointe.
3. Enlevez de l’échantillon les pays où l’industrie pétrolière est l’industrie dominante.
Refaites les estimations et tests des 2 premières sous-parties.
4. Enlevez maintenant les pays où l’industrie pétrolière est dominante et les pays qui ont
une population inférieure à un million en 1960 ou qui ont des données relativement
peu fiables. Refaites les estimations et tests des 2 premières sous-parties. Gardez cet
échantillon restreint pour le reste des sous-parties. En principe vous devriez avoir 75
observations.
5. Maintenant, supposons que les pays membres de l’OCDE ont un comportement

différent des autres pays. Soit oecd la variable qui prend une valeur unitaire si le pays
est membre de l’OCDE et zéro autrement. Incluez comme variables explicatives des
105
variables d’interaction entre oecd et les autres variables explicatives à part la
constante.
6. Testez significitivité (individuelle et jointe) de ces termes d’interaction.
7. Ajoutez la variable school au modèle comme proxy pour sh , avec un terme

d’interaction pour les pays de l’OCDE. Le modèle maintenant équivaut au modèle de
Solow avec l’ajout du capital humain, avec un terme d’interaction pour les pays de
l’OCDE.
8. Testez la significativité des deux variables additionelles (school et le terme

d’interaction entre school et le fait d’être membre de l’OCDE).
9. Le modèle augmenté prédit que coefficient de la variable associé au taux d’épargne s

devrait maintenant être supérieur à la part du capital. Testez cette hypothèse en
appliquant un test avec hypothèse alternative unilatérale au coefficient associé à
school seulement.
10. Le modèle augmenté prédit que la somme des coefficients sur school et invest
devrait être égale à moins le coefficient sur (popgrowth+0.05). Testez cette
hypothèse, pour les pays non membres de l’OCDE seulement.
11. Ajoutez le niveau du PIB par habitant en 1960 au modèle mesuré par gdp60, avec un
terme d’interaction entre gdp60 et le fait d’être membre de l’OCDE. La
significatitivité du coefficient associé à cette variable nous permet de tester l’hypothèse
de convergence. Testez la significativité de la variable gdp60. Testez maintenant la
significativité jointe de cette variable et du coefficient associé au terme d’interaction.
12. Revenez au modèle sans le niveau du PIB par habitant en 1960. Construisez un
graphique avec les résidus au carré sur l’axe vertical et la variable dépendante sur
l’axe horizontal. Est-ce que vous repérez des valeurs aberrantes (outliers) ? Qu’est-ce
qui arrive si vous refaites l’analyse en enlevant les observations associées aux valeurs
aberrantes des résidus au carré ?
106
13. Commentez la validité de vos tests d’hypothèse. Est-ce qu’il y a assez d’observations
pour supposer la normalité approximative des statistiques calculées ? Par contre, basé
sur une analyse des résidus, est-ce que les erreurs du modèle semblent être normales et
homoscédastiques, ce qui permettrait d’utiliser de tests exacts en échantillon fini ?
Justifiez.
Références
Mankiw, N. Gregory, David Romer et Philippe Weil (1992), “A Contribution to the Empirics
of Economic Growth.” Quarterly Journal of Economics 107, 407–437
Heston, Alan et Robert Summers (1987), “A New Set of International Comparisons of Real
Product and Price Levels : Estimates for 130 Countries 1950–85.” Review of Income and
Wealth 34, 1–26
Maintenant, voici le code en R pour estimer le modèle et répondre aux questions du tp. Les
mêmes remarques s’appliquent que pour l’exemple précédent. Les commandes coeftest et
linearHypothesis dépendent de librarys qui doivent être installées et chargées en
mémoire.
#
# Charger en mémoire la bibliothèque AER.
#
library("AER")
#
# Charger en mémoire les bibliothèques nécessaires
# pour effectuer les tests d’hypothèses multiples.
# La bibliothèque AER requiert les autres
107
# bibliothèques, alors ces commandes ne sont pas
# strictement nécessaires, mais pourraient l’être
# pour d’autres applications.
#
library("car")
library("sandwich")
library("lmtest")
#
# Charger en mémoire les données de la banque
# GrowthDJ.
#
data("GrowthDJ",package="AER")
#
# Imprimer un résumé des données dans GrowthDJ.
#
attributes(GrowthDJ)
#
# Imprimer des statistique descriptives concernant
# les variables dans GrowthDJ.
#
summary(GrowthDJ)
#
# Estimer le premier modèle.
#
growth_mod < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05),
data=GrowthDJ)
108
#
# Imprimer les résultats sous l’homoscédasticité.
#
summary(growth_mod)
#
# Imprimer les résultats sous l’hétéroscédasticité
# pour comparaison.
#
coeftest(growth_mod,vcov=vcovHC)
#
# Tester l’hypothèse que les 2 coefficients sont
# égaux mais de signe opposé.
#
linearHypothesis(growth_mod,c(0,1,-1),0,white.adjust=FALSE)
#
# Même test, hétéroscédasticité.
#
linearHypothesis(growth_mod,c(0,1,-1),0,white.adjust=TRUE)
#
# Enlever les observations de pays qui dépendent du
# pétrole.
#
Growth2 < − subset(GrowthDJ,GrowthDJ$oil=="no")
#
# Réestimer le modèle avec l’échantillon restreint.
#
109
growth_mod2 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05),
data=Growth2)
#
# Imprimer les résultats d’estimation sous
# l’homoscédasticité.
#
summary(growth_mod2)
#
# Imprimer les résultats d’estimation avec
# écarts types robustes.
#
coeftest(growth_mod2,vcov=vcovHC)
#
# Tester l’hypothèse que les 2 coefficients sont
# égaux mais de signe opposé.
#
linearHypothesis(growth_mod2,c(0,1,-1),0,white.adjust=FALSE)
#
# Même test, matrice variance-covariance robuste.
#
linearHypothesis(growth_mod2,c(0,1,-1),0,white.adjust=TRUE)
#
# Enlever les observations de pays trop petits
# et/ou avec données non fiables.
#
Growth3 < − subset(GrowthDJ,GrowthDJ$oil=="no")
110
Growth3 < − subset(Growth3,Growth3$inter=="yes")
#
# Estimer le nouveau modèle.
#
growth_mod3 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05),
data=Growth3)
#
#
#
# pour comparaison.
#
#
# Estimer le modèle avec termes d’interaction pour
# les pays de l’OCDE.
#
growth_mod4 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05)
+
log(invest):oecd + I(popgrowth+0.05):oecd, data=Growth3)
#
#
111
#
# pour comparaison.
#
#
# Tester la significativité jointe des 2 termes
# d’interaction.
#
bigr < − rbind(c(0,0,0,1,0),c(0,0,0,0,1))
litr < − rbind(0,0)
linearHypothesis(growth_mod4,bigr,litr,white.adjust=FALSE)
#
# Même test avec matrice variance-covariance
# robuste.
#
linearHypothesis(growth_mod4,bigr,litr,white.adjust=HC)
#
# Estimer le modèle en ajoutant school.
#
growth_mod5 < − lm(log(gdp85) log(invest) + I(popgrowth+0.05)
+ school
+ log(invest):oecd + I(popgrowth+0.05):oecd + school:oecd,
data=Growth3)
#
# Tester la restriction sur les 3 coefficients
112
#
bigr < − c(0,1,1,-1,0,0,0)
litr < − 0
linearHypothesis(growth_mod5,bigr,litr,white.adjust=FALSE)
#
# Même test avec matrice variance-covariance
# robuste.
#
linearHypothesis(growth_mod5,bigr,litr,white.adjust=TRUE)
#
# Estimer le modèle avec gdp60.
#
growth_mod6 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05)
+ school + log(gdp60) + log(invest):oecd +
I(popgrowth+0.05):oecd
+ school:oecd + log(gdp60):oecd, data=Growth3)
#
# Tester la significativité de la convergence.
#
bigr < − rbind(c(0,0,0,0,1,0,0,0,0),c(0,0,0,0,0,0,0,0,1))
litr < − rbind(0,0)
linearHypothesis(growth_mod6,bigr,litr,white.adjust-FALSE)
linearHypothesis(growth_mod6,bigr,litr,white.adjust=TRUE)
L’output de ces commandes se trouve ci-dessous. J’ai converti les tableaux R en format LATEX à
l’aide du package texreg. Pour l’instant, j’ai inclus seulement les résultats d’estimation des
modèles différents sous l’hypothèse d’homoscédasticité.
113
Model 1
(Intercept) 3.95∗∗∗
(0.54)
log(invest) 1.51∗∗∗
(0.16)
I(popgrowth + 0.05) -0.01
(0.08)
R2 0.47
Adj. R2 0.46
Num. obs. 107
***
p < 0.01, ** p < 0.05, * p < 0.1
Model 2
(0.49)
(0.14)
I(popgrowth + 0.05) -0.27∗∗∗
(0.08)
R2 0.59
Adj. R2 0.59
Num. obs. 98
***
p < 0.01, ** p < 0.05, * p < 0.1
114
Model 3
(0.58)
(0.17)
I(popgrowth + 0.05) -0.28∗∗∗
(0.08)
R2 0.59
Adj. R2 0.58
Num. obs. 75
***
p < 0.01, ** p < 0.05, * p < 0.1
115
Model 4
(0.55)
(0.18)
I(popgrowth + 0.05) 0.03
(0.13)
log(invest) :oecdyes 0.34∗∗
(0.14)
I(popgrowth + 0.05) :oecdyes -0.11
(0.24)
R2 0.66
Adj. R2 0.64
Num. obs. 75
***
p < 0.01, ** p < 0.05, * p < 0.1
116
Model 5
(0.47)
(0.17)
(0.10)
school 0.14∗∗∗
(0.03)
log(invest) :oecdyes 0.42∗∗
(0.19)
(0.20)
school :oecdyes -0.05
(0.06)
R2 0.77
Adj. R2 0.75
Num. obs. 75
***
p < 0.01, ** p < 0.05, * p < 0.1
117
Model 6
(0.54)
(0.12)
(0.07)
school 0.05∗∗∗
(0.02)
log(gdp60) 0.63∗∗∗
(0.07)
log(invest) :oecdyes 0.08
(0.29)
(0.13)
school :oecdyes -0.04
(0.04)
log(gdp60) :oecdyes 0.07
(0.12)
R2 0.90
Adj. R2 0.89
Num. obs. 75
***
p < 0.01, ** p < 0.05, * p < 0.1
118
13 Concepts à retenir
• La spécification matricielle du modèle de régression multiple.

• Les hypothèses de base du modèle de régression multiple.
• Être capable de suivre et comprendre le calcul de l’estimateur MCO en notation
matricielle.
• Être capable de suivre et comprendre le calcul de l’estimateur MCO en notation non
matricielle.
• Être capable de suivre les preuves des propriétés algébriques de l’estimateur MCO et de
retenir les propriétés elles-mêmes (orthogonalité entre variables explicatives et résidus,
somme des résidus égale à 0, orthogonalité entre valeurs prédites et résidus).
• Comprendre la distinction entre la mesure R2 de l’ajustement statistique et la mesure R̄2
de l’ajustement statistique. Comprendre pourquoi le R2 ne peut qu’augmenter si on ajoute
une ou des variables explicatives au modèle de régression. Ce point est très important. Si
vous regardez les examens passés, vous allez constater qu’il y a souvent une question
courte qui porte sur ce concept.
• Les grandes lignes des propriétés de l’estimateur MCO dans le modèle de régression
multiple (absence de biais, convergence).
• Les hypothèses additionnelles qui doivent tenir pour que le théorème Gauss-Markov soit
valide et donc pour que l’estimateur MCO soit efficient. Notez bien que l’hypothèse
cruciale est celle de l’homoscédasticité du terme d’erreur du modèle.
• Comprendre la distinction entre la matrice de variance-covariance robuste des coefficients
et la matrice de variance-covariance qui suppose l’homoscédasticité des erreurs.
Comprendre l’importance de savoir quelle est la version de la matrice de
variance-covariance qui est calculée par défaut par son logiciel économétrique de choix.
• Comment effectuer un test d’hypothèse simple.
• Comment effectuer un test d’hypothèse simple portant sur une combinaison linéaire de
coefficients par une version transformée mais équivalente du modèle.
119
• Comment effectuer un test d’hypothèses jointes, et la façon générale d’exprimer les
contraintes à tester sous forme matricielle.
• L’idée que la statistique F pour tester une hypothèse simple est le carré de la statistique t
pour tester la même hypothèse. L’idée que l’utilisation d’un test F pour tester une
hypothèse simple suppose forcément un hypothèse alternative bilatérale (puisque le signe
d’une statistique F est toujours positif).
• Comment tester une ou des restrictions en estimant le modèle restreint, et les hypothèses
qui doivent être vérifiées pour que cette façon de procéder soit valide (notamment
l’homoscédasticité).
• Connaı̂tre la différence entre l’estimation d’un modèle restreint ou contraint, et
l’estimation d’un modèle équivalent.
• L’idée que les ensembles de confiance sont des ellipses, et qu’ils sont des ensembles de
valeurs pour lesquelles on ne peut rejeter l’hypothèse jointe que les coefficients sont égaux
à ces valeurs, sous l’hypothèse nulle des valeurs obtenues par le biais de notre régression
MCO.
• Le principe de base concernant comment établir si des valeurs données de plusieurs
coefficients se retrouvent dans l’ensemble de confiance de X% pour ces coefficients.
• La distinction entre multicollinéarité parfaite et multicollinéarité imparfaite.
• L’idée que la multicollinéarité parfaite indique un problème logique dans la sélection des
variables explicatives.
• L’idée que la multicollinéarité imparfaite reflète une corrélation forte entre
sous-ensembles de variables explicatives et non une erreur logique dans la sélection des
variables explicatives.
• L’idée qu’un groupe de variables puisse être significatif pour expliquer la variable
dépendante sans forcément la possibilité de pouvoir attribuer cette importance à une des
variables individuelles du groupe en particulier.
• Comprendre des techniques informelles pour détecter un problème de multicollinéarité
120
imparfaite (notamment un calcul de la matrice de toutes les corrélations possibles entre les
variables explicatives, et le calcul du conditionnement de la matrice (X 0 X)).
14 Références
Pour le calcul différentiel en notation matricielle, voir le document suivant :

“Introduction to Finite Element Methods (ASEN 5007), Appendix D.” Department of Aerospace
Engineering Sciences, University of Colorado at Boulder, 2007
Je ne retrouve plus le fichier sur le site de l’University of Colorado. Il est disponible sur mon site
à l’adresse suivante :
http://www.steveambler.uqam.ca/4272/articles/matrixcalculus.pdf
Les quatre premières pages de cet article sont particulièrement pertinentes pour les fins de ce
cours.
Pour d’autres références portant sur le modèle de régression multiple, voir :

http://www.steveambler.uqam.ca/4272/chapitres/referenc.pdf
Dernière modification : 20/03/2018
121

Reg Multiple

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Reg Multiple

Transféré par

Droits d'auteur :

Formats disponibles

ECO 4272 : Introduction à l’économétrie

Notes sur la Régression Multiple

2 Biais dû à une variable omise 4

3 Modèle de régression multiple 10

4 Propriétés algébriques de l’estimateur MCO 23

5 Propriétés statistiques de l’estimateur MCO 37

7 Efficience de l’estimateur MCO sous l’homoscédasticité 54

8 Biais dû à des variables omises (bis) 57

9 Tests d’hypothèses et ensembles de confiance 65

12 Un Autre Exemple 102

13 Concepts à retenir 119

2 Biais dû à une variable omise

L’estimateur n’est plus convergent. Il y a un biais, même asymptotiquement (lorsque le nombre

tandis que le modèle estimé est

Calculant l’espérance de β̂1 , nous obtenons

par la loi des espérances itérées. En général,

Par le théorème de Slutsky (voir la section 5.2 ci-dessous), nous avons

Nous constatons aussi que le terme qui multiplie β2 , soit

on obtiendrait l’estimateur MCO suivant :

Nous obtenons donc

3 Modèle de régression multiple

Yi = β0 + X1i β1 + X2i β2 + . . . + Xki βk + ui . (1)

3.2 Spécification matricielle

donc, Y est un vecteur colonne de dimensions n × 1, X est une matrice de dimensions

3.3 Hypothèses de base du modèle

5. Var (ui |Xi ) = σu2 .

6. La distribution de ui conditionnelle à la valeur de Xi suit une loi normale.

min (Y − Xβ)0 (Y − Xβ) ,

ce qui est équivalent à :

Cet ensemble d’équations s’appelle communément les  équations normales  de l’estimation

où I est la matrice d’identité de dimensions (k + 1) × (k + 1),

3.4.1 Différentiation matricielle

Pour illustrer le fonctionnement de ces règles de différentiation, prenons quelques exemples

Nous constatons que

ce qui est conforme à la première règle du tableau ci-dessus.

Par convention, on écrit ces quatre dérivées en notation matricielle comme

et encore une fois la première règle du tableau est respectée.

= A11 x1 2 + A21 x1 x2 + A12 x1 x2 + A22 x2 2 .

Écrivant ces résultats en notation matricielle nous avons

3.5 Approche non matricielle au problème de minimisation

Nous pouvons maintenant convertir ses équations en notation matricielle :

4 Propriétés algébriques de l’estimateur MCO

Donc, nous avons :

explicatives. Par définition, deux vecteurs Z1 et Z2 de dimensions n × 1 sont orthogonaux si et

Une preuve sur une seule ligne !

4.3 Valeurs prédites

le vecteur de valeurs prédites de la variable dépendante. Nous avons

Les valeurs prédites de la variable dépendante sont orthogonales aux résidus.

4.4 Écart type de la régression

où Ȳ est la moyenne échantillonnale des Yi , et

Nous avons supposé implicitement ici que

TSS = SSR + ESS.

Donc, nous devons montrer que

puisque nous avons montré auparavant que Ŷ 0 U

Si on prémultiplie un vecteur quelconque Y par M 0 la multiplication aura pour effet de

puisque (i0 i)−1 =

Nous avons aussi

puisque la somme des résidus est zéro. Donc, nous avons

puisque X 0 Û = 0 (orthogonalité entre les variables expicatives et les résidus).

(multipliant numérateur et dénominateur par la même chose)

On peut réécrire ceci en notation non matricielle pour obtenir

Ceci permet de réinterpréter notre mesure d’ajustement statistique. Dans un contexte de

où maintenant Xi est un scalaire. Nous avons tout de suite

Donc, un R2 élevé n’est pas toujours et partout une bonne chose.

Cet ensemble d’équations s’appelle communément les équations normales de l’estimation

−1 ! −1 !0