Vous êtes sur la page 1sur 54

ECO 4272 : Introduction à l’économétrie

Tests diagnostics

Steve Ambler∗

Département des sciences économiques

École des sciences de la gestion

Université du Québec à Montréal

c 2018 : Steve Ambler

Hiver 2018


Ces notes sont en cours de développement. J’ai besoin de vos commentaires et de vos sug-
gestions pour les améliorer. Vous pouvez me faire part de vos commentaires en personne ou en
envoyant un message à ambler.steven@uqam.ca.

1
Table des matières

1 Introduction 4

2 Diagnostics informels 7
2.1 Résidus versus valeurs prédites . . . . . . . . . . . . . . . . . . . 8
2.2 Graphique Q–Q . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Diagramme de variable ajoutée . . . . . . . . . . . . . . . . . . . 10
2.4 Diagramme de résidus partiels . . . . . . . . . . . . . . . . . . . 12
2.5 Résidus Normalisés . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 La Matrice H . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.7 Résidus  studentisés de façon externe  . . . . . . . . . . . . . . 19

3 Sensibilité à des observations particulières 19


3.1 Effets de levier . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 DFFITSi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 DFBETASj,(i) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 COVRATIO(i) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5 Distances de Cook . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6 Résidus studentisés . . . . . . . . . . . . . . . . . . . . . . . . . 25

4 Trois Commandes utiles : plot(·), influence.measures(·) et


influence(·) 25
4.1 Niveaux seuils . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2
5 Tests diagnostics formels 27
5.1 Hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2 Test Reset de Ramsey . . . . . . . . . . . . . . . . . . . . . . . . 29
5.3 Normalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.4 Indépendance des erreurs . . . . . . . . . . . . . . . . . . . . . . 33

6 Multicollinéarité 33

7 Endogénéité 37
7.1 Tests d’endogénéité . . . . . . . . . . . . . . . . . . . . . . . . . 40

8 Un exemple détaillé avec R 49

3
1 Introduction

Ce chapitre a pour but de présenter de façon relativement informelle quelques


tests diagnostics qui sont utilisés couramment en économétrie appliquée.
Les tests diagnostics ont été conçus pour détecter des problèmes reliés aux
hypothèses statistiques de base du modèle de régression linéaire. Si ces
hypothèses ne sont pas confirmées, les conclusions auxquelles on arrive en
estimant un modèle de régression peuvent être trompeuses.
Je commence avec une citation de Fox (2009), qui écrit  Linear and generalized
linear models make strong assumptions about the structure of data, assumptions
that often do not hold in applications. Especially in small samples, these models
can also be sensitive to unusual data ; in extreme cases, the results might be
determined by one or a very small number of observations. It is therefore
important to examine data carefully, both prior to and after fitting a regression
model to the data. 
Un des buts principaux de ces tests est de détecter la présence d’observations
influentes, des observations qui ont un impact majeur sur les coefficients estimés
d’un modèle ou sur les valeurs prédites de la variable dépendante.
Si on détecte la présence de telles observations, on peut aussi essayer d’en
expliquer la cause. Parfois il s’agit tout simplement d’une erreur dans la saisie
des données. Il peut aussi y avoir des causes plus profondes. Il y a aussi plusieurs
remèdes possibles. On peut changer la forme fonctionnelle du modèle (utiliser,
par exemple, une ou plusieurs variables mesurées en logs et non en niveau), et on

4
peut aussi laisser tomber la ou les observation(s) influente(s). Dans le dernier cas,
le fait de laisser tomber des observations devrait faire partie du rapport qui est
rédigé pour expliquer le modèle estimé et les résultats d’estimation.
Le livre de Stock et Watson met beaucoup d’accent sur le fait q’avec les données
utilisées en économétrie appliquée les termes d’erreur ne suivent pas forcément
une distribution normale avec variance constante. Par contre, ils mettent peu
d’accent sur des méthodes qui permettraient de vérifier les hypothèses nulles de
normalité ou d’homoscédasticité. Il n’y a pas beaucoup, d’ailleurs, sur les façons
d’évaluer un modèle de régression donné ou de détecter des problèmes avec un
modèle de régression donné. (à part le chapitre 9 dans la version en anglais sur la
validité interne et la validité externe).
Ce chapitre est basé sur les articles de Boomsma (2014) et de Fox (2009), et
surtout sur le quatrième chapitre de Kleiber et Zeileis (2008). Voir le chapitre de
références pour plus de détails.
J’ai aussi utilisé quelques articles utiles provenant de Wikipedia :

1. Breusch-Pagan Test

2. Cook’s Distance

3. Errors-in-Variables Models

4. Hat Matrix

5. Heteroscedasticity

6. Leverage (Statistics)

7. Multicollinearity

5
8. Normality Test

9. Normal Probability Plot

10. Q-Q Plot

11. Ramsey Reset Test

12. Studentized Residual

13. White Test

Il y a d’abord une section sur les diagnostics informels, qui sont essentiellement
de deux types (pas forcément exclusifs).

1. Il y a d’abord des diagnostics qui passent par une analyse (graphique ou


algébrique) des résidus d’un modèle de régression.

2. Dans la sous-section qui suit, il y a des diagnostics qui ont pour but de
détecter des observations qui ont une influence démesurée sur les résultats
de l’estimation (sur les valeurs des coefficients estimés, les valeurs
prédites de la variable dépendante, sur la variance estimée de l’erreur ou
des coefficients, etc.).

Lorsque j’écris  diagnostics informels  je veux dire qu’il ne s’agit pas de


statistiques qui suivent des lois connues que l’on pourrait utiliser formellement
pour tester une hypothèse nulle quelconque. Ce sont plutôt des techniques que
l’on peut utiliser pour détecter des problèmes potentiels dans la spécification
(choix de variables explicatives, choix de forme fonctionnelle, etc.) d’un modèle
économétrique.
Par la suite, il y a une section sur les tests plus formels.

6
1. Des tests de l’hypothèse nulle de l’homoscédasticité.

2. Des tests formels de la forme fonctionnelle du modèle de régression qui


peuvent permettre de détecter des non-linéarités.

3. Des tests de l’hypothèse de la normalité du terme d’erreur.

4. Une sous-section sur la question de la multicollinéarité.

5. Une courte sous-section sur l’indépendance des erreurs (un sujet plus
pertinent dans le cadre des séries chronologiques).

6. Une sous-section sur la question de l’endogénéité, qui nous porte aux


frontières de la matière du cours.

2 Diagnostics informels

• Il y a un certain nombre d’outils diagnostics basés sur les résidus de


l’estimation d’un modèle de régression linéaire.
• Il y a aussi des outils diagnostics qui dépendent du fait que les résidus
d’un modèle de régression estimé par moindres carrés ordinaires ne sont
pas indépendants et n’ont pas une variance constante, même si les erreurs
du modèle sont indépendantes et homoscédastiques. Ces outils sont basés
sur l’utilisation de résidus normalisés, un sujet auquel nous reviendrons
plus tard.

7
2.1 Résidus versus valeurs prédites

• Nous avons déjà vu qu’un graphique avec les ûi ou les û2i sur l’axe
vertical et les Ŷi sur l’axe horizontal peut être une façon de détecter la
présence de l’hétéroscédasticité.
• Au lieu de mesurer les valeurs des résidus sur l’axe vertical, il est aussi
possible de mesurer les valeurs des résidus au carré afin de détecter de
manière visuelle l’hétéroscédasticité.
• Un problème potentiel avec ces méthodes informelles est que même si les
erreurs du modèle de régression sont homoscédastiques et indépendantes
(autrement dit les données proviennent d’un échantillon i.i.d.), les résidus
du modèle de régression auront une variance non constante et ne seront
pas indépendants les uns par rapport aux autres. Pour cette raison, on
travaille souvent avec les résidus normalisés, un concept auquel nous
allons revenir plus tard.

2.2 Graphique Q–Q

• L’idée de base est de comparer la distribution de probabilité des résidus


d’un modèle de régression avec une distribution normale théorique.
• Il s’agit d’une méthode informelle pour analyser l’hýpothèse que les
erreurs du modèle suivent une distribution normale.
• Le  Q  est censé faire penser à quantile.
• On compare les quantiles de deux distributions de probabilité sur un

8
graphique.
• Notez que si φ(·) est la fonction de distribution normale cumulée, la
fonction φ−1 donne les quantiles de la normale cumulée.
• Si les deux distributions sont identiques, les points se retrouveront sur une
droite avec une pente de 45 degrés.
• S’il y a une relation linéaire entre les deux distributions, les points se
retrouveront sur une droite.
• La fonction en R qqnorm(x) où x est un vecteur de réalisations d’une
variable aléatoire crée un graphique qui compare x à une distribution
normale théorique.
• Deux distributions normales peuvent différer dans leurs moyennes et dans
leurs variances, et donc il doit y avoir une relation linéaire entre les deux.
Pour cette raison, si on compare la distribution empirique des résidus
avec une normale centrée réduite théorique, les points devraient se
retrouver sur une droite.
• La fonction en R plot(model,which=2) fait la même chose pour les
résidus d’un modèle estimé avec la commande model < − lm(·).
Nous allons voir plus loin que la fonction plot(·) avec le nom d’un
modèle estimé pourra sortir automatiquement plusieurs graphiques
intéressants pour détecter des problèmes potentiels associés à un modèle
estimé.

9
2.3 Diagramme de variable ajoutée

• Le but est de détecter si l’impact d’une variable individuelle (dans un


modèle de régression multiple) est bien capté par une relation linéaire.
• Il est difficile de faire ceci avec un graphique des résidus contre la
variable explicative, parce qu’il faut tenir constantes les valeurs de toutes
les autres variables explicatives (en les égalisant à leurs moyennes
échantillonnales par exemple).
• Ce que l’on voudrait faire c’est de regarder l’impact d’une variable
individuelle sur la variable dépendante, ayant purgé l’impact de toutes les
autres variables sur la variable dépendante. Un diagramme de variable
ajoutée nous permet de faire ceci.
• On procède de la façon suivante pour pouvoir tracer un  diagramme de
variable ajoutée  pour la variable explicative Xj .

1. On estime un modèle de régression multiple avec Y comme variable


dépendante et toutes les autres variables à part Xj comme variables
explicatives. On sauvegarde les résidus de cette estimation. Appelons
ces résidus ûy .

2. On estime un modèle de régression multiple avec Xj comme variable


dépendante et toutes les autres variables explicatives à part Xj
comme variables explicatives. On sauvegarde les résidus de cette
estimation. Appelons ces résidus ûj .

3. On crée un graphique avec ûy sur l’axe vertical et ûj sur l’axe

10
horizontal.

4. On peut aussi estimer le modèle de régression simple suivant :

ûyi = γ0 + γ1 ûji + i .

Il est également possible d’ajouter la ligne de régression au graphique


qu’on vient de créer, avec la commande habituelle abline(·)

• Le théorème Frisch-Waugh-Lovell (voir le chapitre des notes de cours sur


le modèle de régression multiple ou bien l’article de Lovell 2010) nous
dit que le coefficient estimé γ̂1 doit être identique à β̂j du modèle initial
(cela veut dire le modèle de régression multiple incluant toutes les
variables explicatives y compris Xj ). L’interprétation est la suivante : la
régression simple donne l’effet de Xj sur Y , lorsque les impacts des
autres variables sur Y et sur Xj ) sont purgés.
• Pour cette raison, le graphique devrait nous permettre de repérer si la
relation (partielle) entre Y et Xj est vraiment linéaire.
• Avec R, la commande avPlots(·) (provenant du package car), où
l’argument est un objet contenant les résultats d’estimation d’un modèle
de régression, crée automatiquement des diagrammes de variable ajoutée
pour toutes les variables explicatives d’un modèle de régression multiple.
Voir aussi ci-dessous.

11
2.4 Diagramme de résidus partiels

• Il s’agit d’un graphique avec ûi + β̂j Xji sur l’axe vertical et Xji sur l’axe
horizontal.
• Notez que la pente de la relation entre ces deux variables est donnée par
β̂j .
• Selon Boomsma (2014, page 19), ces diagrammes sont plus utiles pour
détecter les non-linéarités, tandis que les diagrammes de variable ajoutée
sont plus utiles pour détecter les observations aberrantes et influentes.
 Partial residual plots are better for the detection of linearity, added
variable plots are better for the detection of outliers and influential data
points. 
• Dans R, la commande prplot(·,x) qui provient du package faraway
permet de générer automatiquement des graphiques de résidus partiels
pour un modèle estimé. Le premier argument de la commande est le nom
du modèle estimé. Le deuxième argument est le nombre de la variable
explicative.

2.5 Résidus Normalisés

• Notez que même si les erreurs d’un modèle de régression sont


homoscédastiques, c’est à dire Var (ui |X) = σ 2 , les résidus (qui sont un
vecteur de variables aléatoires) ne le sont pas.
• En fait, les résidus ne peuvent être indépendants puisqu’ils doivent

12
satisfaire les restrictions suivantes :

X 0 Û = 0.

• Cette équation est tout simplement la propriété d’orthogonalité que nous


avons montrée à plus d’une reprise en classe.
• Puisque la première colonne de X est un vecteur où tous les éléments
sont égaux à un, on sait que la somme des résidus est zéro.
• Cette propriété orthogonalité impose des relations algébriques exactes
(en fait k + 1 relations exactes) entre les résidus qui les empêchent d’être
indépendantes au sens statistique du terme.
• Supposons au départ que Var (ui |X) = Var (ui ) = σu2 . Autrement dit, les
erreurs sont homoscédastiques. Nous supposons aussi (bien sûr) que
E (U |X) = 0.
• Nous avons
−1
Û ≡ Y − X β̂ = Y − X (X 0 X) X 0Y
 
−1
= I − X (X 0 X) X 0 Y

≡ (I − H) Y

où nous avons utilisé la définition

−1
H ≡ X (X 0 X) X 0.

13
La matrice (I − H) est symétrique et idempotente, ce qui veut dire

(I − H)0 = (I − H)

et
(I − H) (I − H) = (I − H) ,

où ces deux propriétés sont faciles à vérifier (je laisse ceci comme un
exercice).
Nous voulons maintenant calculer la variance (conditionnelle) du vecteur
des résidus Û . Puisque Û est un vecteur de dimensions n × 1, il s’agit
d’une matrice variance-covariance de dimensions n × n. Nous avons

 
E Û Û 0 |X = E ((I − H) Y Y 0 (I − H) |X)

= E (I − H) (Xβ + U ) (Xβ + U )0 (I − H) |X


= (I − H) Xββ 0 X 0 (I − H)

+E ((I − H) XβU 0 (I − H) |X)

+E ((I − H) U β 0 X 0 (I − H) |X)

+ (I − H) E (U U 0 |X) (I − H) .

= (I − H) Xββ 0 X 0 (I − H)

14
+ (I − H) E (U U 0 ) (I − H)

= (I − H) E (U U 0 ) (I − H)

puisque (I − H) X = 0 (ceci est facile à vérifier), et X 0 (I − H) = 0.


Dans le cas homoscédastique, nous avons

 
E Û Û 0 |X = (I − H) σ 2 I (I − H)

= σ 2 (I − H) (I − H)

= σ 2 (I − H) ,

où nous avons utilisé le fait que la matrice (I − H) est symétrique et


idempotente.
• Ce résultat montre que les résidus ont des variances qui dépendent des
éléments diagonaux de (I − H) même si les erreurs sont
homoscédastiques.
• On définit les résidus  normalisés  (ou  studentisés de façon
interne ) de la façon suivante :

ûi
ri ≡ √
σ̂ 1 − hii

où σ̂ est l’écart type de la régression où (comme d’habitude)

n
2 1 X
σ̂ ≡ û2
n − k − 1 i=1 i

15
et les hii sont les éléments sur la diagonale de H. On parle de
 studentisés de façon interne  puisqu’on utilise toutes les observations
de l’échantillon pour estimer l’écart type de la régression, par opposition
aux résidus  studentisés de façon externe  . Nous reviendrons à ce
dernier sujet un peu plus tard.
• Puisque (même dans le cas de l’homoscédasticité) la variance des résidus
n’est pas constante, l’idée ici est de normaliser les résidus en divisant par
un estimé de leurs écarts types.
• De cette façon, un graphique avec les résidus normalisés ou avec les
résidus normalisés au carré sur l’axe vertical et avec la variable
dépendante ou avec une des variables explicatives sur l’axe horizontal
peut faire ressortir mieux si l’hypothèse de l’homoscédasticité tient ou
non.
• On peut calculer les résidus normalisés en R à l’aide de la commande
rstandard(·). L’argument de la commande est l’objet utilisé pour
sauvegarder les résultats d’estimation d’un modèle de régression linéaire.
• Si les hypothèses statistiques derrière le modèle tiennent (y compris
l’homoscédasticité des erreurs), il devrait être le cas que Var (ri |X) = 1
et il devrait aussi être le cas que Corr (ri , rj |X) a tendance à être faible
(Kleiber et Zeileis 2008).
• Dans les sections qui suivent, la plupart des mesures utilisées sont basées
sur les résidus normalisés et non sur les résidus eux-mêmes.

16
2.6 La Matrice H

• Pour un article très abordable, voir Johnson (2006).


• La matrice H a été définie dans la sous-section précédente.
•  H  est censé faire penser à  hat  (chapeau).
• La matrice H est utilisée aussi pour calculer les distances de Cook et pour
mesurer les effets de levier (voir plus loin).
• Il est possible de montrer que l’on peut exprimer les valeurs prédites de la
variable dépendante comme

n
X
Ŷj = h1j Y1 + h2j Y2 + . . . + hnj Yn = hij Yi .
i=1

• Pour montrer ceci, nous avons par définition

−1
Ŷ ≡ X β̂ = X (X 0 X) X 0 Y = HY,

qui est un vecteur de dimensions (k + 1) × 1. Ŷj est l’élément j + 1 de ce


vecteur. Avec un petit abus de notation, si on appelle les éléments de la
rangée j + 1 de H comme [h1j , h2j , . . . , hnj ], alors nous avons

Ŷj = h1j Y1 + h2j Y2 + . . . + hnj Yn .

• Ainsi, le poids hij capte la contribution de l’observation Yi à la valeur


prédite Ŷj .

17
• On peut montrer que
n
X
hii = hij 2 ,
j=1

et donc la valeur hii résume l’influence potentielle de l’observation Yi sur


toutes les valeurs prédites Ŷj .
• On peut montrer que
1
≤ hii ≤ 1.
n

• On peut aussi montrer que la valeur moyenne des hii est donnée par

n
1X k+1
hii ≡ h̄ = .
n i=1 n

• Il est possible de montrer que, dans le modèle de régression simple,

2
1 Xi − X̄
hii = + Pn 2 ,
n Xj − X̄
j=1

ce qui a l’interprétation de la distance de Xi par rapport à la moyenne


échantillonnale X̄, normalisée par la somme des distances des Xj par
rapport à la moyenne échantillonnale X̄.
• Les hii peuvent être calculés en R avec la commande hatvalues(·) où
l’argument de la commande est un modèle estimé avec la commande
lm(·).
• Pour plus de détails sur les propriétés de la matrice H voir Hoaglin et
Welsch (1978).

18
2.7 Résidus  studentisés de façon externe 

• Il s’agit d’une autre façon d’estimer l’écart type de la régression. Dans


l’analyse ci-dessous sur la sensibilité à des observations particulières, si
on soupçonne qu’une observation est aberrante, on est parfois mieux
d’exclure cette observation du calcul de la variance estimée du terme
d’erreur.
• On définit les résidus studentisés de façon externe de la façon suivante :


ri(i) ≡ √ i
σ̂(i) 1 − hii

avec
2 1 X
σ̂(i) ≡ û2j .
n − k − 2 j6=i

On exclut l’ie observation de notre estimé de la variance du terme


d’erreur.

3 Sensibilité à des observations particulières

• Nous avons maintenant défini et interprété la matrice H et ces éléments,


qui seront utilisés dans les définitions de certaines des mesures qui
suivent.
• Il y a quelques techniques informelles d’essayer de détecter des
observations aberrantes ou influentes, qui ont une influence
prépondérante sur les résultats de l’estimation.

19
• L’idée de base est d’analyser ce qui arrive si on laisse tomber une seule
observation de l’échantillon.
• On peut mesurer l’impact ou bien sur les coefficients estimés ou bien sur
la valeur prédite de la variable dépendante.
• Définissons β̂(i) comme le vecteur de paramètres estimés après avoir
laissé tomber l’observation i de l’échantillon, et Ŷ(i) le vecteur de valeurs
prédites de la variable dépendante après avoir laissé tomber l’observation
i de l’échantillon.

3.1 Effets de levier

• L’effet de levier de l’observation i est donné tout simplement par la valeur


de hii .
• Parmi les autres propriétés de H,

0 ≤ hii ≤ 1,

n
X
trace (H) ≡ hii = k + 1,
i=1

où (k + 1) est le nombre de variables explicatives dans le modèle.


• Comme règle approximative, des valeurs au moins trois fois la valeur
moyenne peuvent être considérées indicatrices d’observations aberrantes
k+1
ou influentes, la valeur moyenne étant donnée par n
.

20
3.2 DFFITSi

• Définition :
DFFITi ≡ Ŷi − Ŷ(i) .

• Cette mesure calcule l’impact d’omettre l’observation i sur la valeur


prédite de la variable dépendante (aussi de l’observation i).
• Une grande valeur est un indice que l’observation est aberrante ou
influente.
• Pour savoir si la valeur du changement est  grande  ou non, il est utile
de normaliser le changement par un estimé de l’écart type du terme
d’erreur du modèle. Cette mesure normalisée s’appelle DFFITSi .
• Définition :
Ŷi − Ŷ(i)
DFFITSi ≡ √
σ̂(i) hii

où comme nous avons vu dans la section 2.7 σ̂(i) est l’écart type de la
régression estimé sans l’observation i :

2 1 X
σ̂(i) ≡ û2 ,
n − k − 2 j6=i j

• Donc DFFITSi par opposition à DFFITi normalise par un estimé de


quelque chose qui est relié à l’écart type de l’erreur de l’observation i, et
donc on l’appelle parfois le DFFIT studentisé.

• Notez que nous normalisons par σ̂(i) hii (qui dépend de l’effet de levier

hii ) et non par σ̂(i) 1 − hii .

21
• L’interprétation est l’impact normalisé d’omettre l’observation i sur la
valeur prédite de la variable dépendante.
q
k+1
• Comme règle approximative, les points où la mesure dépasse 2 × n

sont à signaler comme des observations influentes.

3.3 DFBETASj,(i)

• Pour le coefficient βj , on définit DFBETAj,(i) comme

DFBETAj,(i) ≡ β̂j − β̂j,(i) .

• C’est une mesure de l’impact de laisser tomber l’observation i sur la


valeur du coefficient estimé j.
• Pour le coefficient βj , on définit DFBETASj,(i) comme

β̂j − β̂j,(i)
DFBETASj,(i) ≡ q
σ̂ (X 0 X)−1 jj

où (X 0 X)−1 e e
jj est l’élément dans la j colonne et la j rangée de l’inverse

de (X 0 X). En fait, puisque dans la notation de Stock et Watson, βj est la


j e variable explicative à part la constante, (X 0 X)−1
jj doit être l’élément

dans la colonne j + 1 et la rangée j + 1 de la matrice (X 0 X).


• La différence entre DFBETAj,(i) et DFBETASj,(i) est semblable à la
différence entre DFFITi et DFFITSi . Avec le  S  à la fin cela signifie
que l’on normalise par quelque chose qui est relié à un estimé de l’écart

22
type.

• Une valeur supérieure à 2/ n est considérée  suspicieuse .

3.4 COVRATIO(i)

• C’est une mesure de l’impact de laisser tomber l’observation i sur la


matrice variance-covariance des coefficients estimés du modèle.
• Voici la définition :
  −1 
2 0
det σ̂(i) X(i) X(i)
COVRATIO(i) ≡
det σ̂ 2 (X 0 X)−1


où det (·) est le déterminant d’une matrice.


 
2 0
• La définition de σ̂(i) est donnée ci-dessus. Ici X(i) X(i) utilise la matrice
d’observations sur toutes les variables explicatives mais en excluant
l’observation i.
• Il faut réduire la mesure de l’impact sur la matrice variance-covariance en
un scalaire. C’est pour cette raison que l’on utilise le déterminant.
• Il est difficile de trouver dans la littérature des consignes sur les valeurs
de cette mesure qui sont  problématiques . Bellesley, Kuh et Welsch
(1980) suggèrent que des valeurs de COVRATIO(i) − 1 plus grandes
p
que 2 (k + 1)/n signalent des observations à investiguer comme
potentiellement influentes.

23
3.5 Distances de Cook

• Définition : pour l’observation i, La distance de Cook est définie comme

 0  
Ŷ − Ŷ(i) Ŷ − Ŷ(i)
Di =
(k + 1)σ̂

où (k + 1) est le nombre total de paramètres estimés et σ̂ est l’écart type


de la régression. Ici, Ŷ est le vecteur de toutes les n valeurs prédites de la
variable dépendante avec toutes les variables explicatives dans le modèle,
et Ŷ(i) est le vecteur de toutes les n valeurs prédites de la variable
dépendante en laissant tomber la ie observation de l’échantillon.
• L’interprétation de la distance de Cook est la suivante. Elle mesure
l’impact sur les valeurs prédites de Y si on laisse tomber la ie observation.
Elle ressemble à la mesure DFFITSi mais elle utilise une autre façon de
normaliser et elle calcule la somme des tous les changements des valeurs
prédites au carré lorsqu’on laisse tomber l’observation i de l’échantillon.
• Dans le modèle de régression simple, on peut montrer que les définitions
suivantes sont équivalentes algébriquement :

û2i
 
hii
Di = ,
(k + 1)σ̂ (1 − hii )2

 0  
β̂ − β̂i (X 0 X) β̂ − β̂i
Di =
(1 + k + 1)σ̂ 2

où βi est le vecteur (entier) de paramètres estimés en omettant

24
l’observation i de l’échantillon.

3.6 Résidus studentisés

• Définition :

ti ≡ √ i
σ̂(i) 1 − hii

(où σ̂(i) a la même définition que dans la sous-section sur DFFIT), qui a
l’interprétation de l’écart type estimé de l’erreur en excluant l’observation
i.
• La justification de cette mesure (par rapport aux résidus normalisés
définis plus haut) est que si on veut juger si l’observation i est une
observation aberrante ou non, il est mieux d’exclure cette observation de
l’estimation de la variance.
• La commande en R rstudent(·) où comme d’habitude l’argument est
le nom du modèle estimé va calculer les résidus studentisés
automatiquement.

4 Trois Commandes utiles : plot(·),

influence.measures(·) et influence(·)

• Une commande qui rend les calculs des sous-sections précédentes à


toutes fins pratiques automatiques est la commande plot(·) lorsque
l’argument de la commande est un objet qui contient les résultats d’une

25
estimation d’un modèle de régression linéaire par la commande lm(·).
• Une autre commande très utile : influence.measures(·) (une
commande dans le package stats), qui calcule entre autres les distances
de Cook et les mesures DFFITS et DFBETAS.
• La commande summary(influence.measures(·)), où
l’argument est un modèle estimé, va indiquer toutes les observations
influentes selon au moins un des critères. Donc, une seule commande en
R peut être utilisée pour repérer les observations potentiellement
influentes ou aberrantes.
• La commande influence(·), toujours où l’argument est un modèle
estimé va calculer les résultats suivants :

1. hat : un vecteur dont les éléments sont les hii , les éléments sur la
diagonale de la matrice H.

2. coefficients : une matrice où l’ie rangée donne le changement


des coefficients estimés lorsqu’on laisse tomber l’ie observation de
l’échantillon. Autrement dit, c’est une matrice qui contient tous les
DFBETAj,(i) (pour toutes les valeurs possibles de j).

3. sigma : un vecteur dont l’ie élément contient un estimé de l’écart


type de l’erreur de l’équation lorsqu’on laisse tomber l’ie observation
de l’échantillon.

4. wt.res : un vecteur de résidus résultant de l’estimation du modèle


par la méthode des moindres carrés pondérés. Voir la section 17.5 du

26
manuel pour plus de détails.

4.1 Niveaux seuils

• J’ai fait allusion ci-dessus à des valeurs qui sont indicatives de problèmes
potentiels. Voici un résumé qui provient de Liu, Milton et McIntosh (sans
date).
• Comme nous avons vu, avec la commande en R
summary(influence.measures(·)), le logiciel va signaler toutes
les valeurs qui sont à surveiller selon au moins une des mesures.

Fonction Description Seuil p


DFFITS changement des valeurs prédites > 2 ∗ k + 1/n

DFBETAS changement des coefficients > 2/ n
COVRATIO changement de la matrice VCOV > (1 + 3 ∗ (k + 1)/n)
(déterminant) < (1 − 3 ∗ (k + 1)/n)
HATVALUES écart standardisé par rapport à la moyenne des X > 2 ∗ (k + 1)/n
COOK changement du vecteur des valeurs prédites > 4/n

5 Tests diagnostics formels

5.1 Hétéroscédasticité

• Il y a plusieurs tests pour détecter la présence de l’hétéroscédasticité.


Pour tous ces tests, l’hypothèse nulle est l’absence d’hétéroscédasticité,
c’est à dire l’homoscédasticité.

27
• Les deux tests les plus fréquemment utilisés par les économètres sont les
tests Breusch-Pagan et White. Pour d’autres tests, voir l’article Wikipedia
 Heteroscedasticity .
• Test Breusch-Pagan. Il s’agit d’un test de significativité de tous les
coefficients (sauf la constante) dans la régression

Û 2 = Xγ + 

où Û 2 est le vecteur de résidus au carré.


• La commande bptest(·) utilise par défaut les résidus normalisés. Voir
help(bptest) à ce sujet.
• Test White. On régresse les résidus au carré du modèle estimé sur toutes
les variables explicatives du modèle, sur les produits de toutes les paires
de variables explicatives, et sur les variables explicatives au carré. On
peut montrer que la statistique nR2 suit une distribution chi-carré en
grand échantillon (asymptotiquement), où le nombre de degrés de liberté
est le nombre de paramètres estimés dans le modèle auxiliaire (celui avec
les résidus au carré comme variable dépendante). En R, la commande
white.test(·), provenant du package bstats, effectue le test sur un
modèle estimé (l’argument de la commande est l’objet où les résultats de
l’estimation sont sauvegardés).

28
5.2 Test Reset de Ramsey

• Il s’agit d’un test pour évaluer la forme fonctionnelle d’un modèle de


régression.
• Le but est de savoir s’il y a des combinaisons non linéaires des valeurs
prédites qui ajoutent du pouvoir explicatif au modèle. Si oui, c’est un
indice que la forme fonctionnelle (variables explicatives mesurées en
logs, en polynômes, en fonctions exponentielles, etc.) du modèle estimé
n’est pas adéquat.
• Le test est conçu pour détecter des non-linéarités, mais non pour suggérer
la forme fonctionnelle exacte qui serait la plus appropriée.
• Malheureusement, si on détecte un problème de non-linéarité, il faut
modifier le modèle estimé, mais trouver la bonne façon de modifier le
modèle demande une analyse approfondie de la question à laquelle on
essaie de répondre avec notre modèle économétrique.
• On effectue le test en estimant le modèle suivant :

Yi = γ0 + γ1 X1i + γ2 X2i + . . . + γk Xki

+δ1 Ŷi2 + δ2 Ŷi3 + . . . + δk−1 Ŷim + i .

• Ici, Ŷ est le vecteur de valeurs prédites de Y provenant de l’estimation du


modèle
Yi = β0 + β1 X1i + β2 X2i + . . . + βk Xki + ui .

29
• On utilise une statistique F pour tester la significativité des coefficients δ.
• Le choix de l’ordre du polynôme en Ŷi est arbitraire. On utilise souvent
seulement Ŷi au carré.
• Notez que l’hypothèse nulle est que tous les termes non linéaires dans les
valeurs prédites sont non significatifs. Donc, l’hypothèse nulle est que la
spećification initiale de l’équation est adéquate.
• Puisque le test porte sur toutes les puissances de Ŷi , la multicollinéarité
entre les puissances différentes ne devrait pas être un problème.
• L’utilisation du test Reset ne devrait pas remplacer un examen détaillé par
d’autres moyens (graphiques ou autres).
• Dans R, la commande resettest(model, power = ·) effectue le
test. Il faut fournir le nom du modèle estimé (premier argument) et aussi
les degrés du polynôme dans les valeurs prédites Ŷi (deuxième argument).
• La commande fait partie du package lmtest.

5.3 Normalité

• Test Shapiro-Wilk. L’hypothèse nulle est que l’échantillon provient d’une


distribution normale. La statistique est définie comme

Pn 2
i=1 ai x(i)
W ≡ Pn
i=1 (xi − x̄)2

où x(i) est l’observation i de l’échantillon où les observations ont été
classées dans l’ordre (c’est donc l’ie statistique d’ordre) et les ai sont

30
définis par
m0 V −1
a = (a1 , . . . , an ) ≡
(m0 V −1 V −1 m)1/2

où
m = (m1 , . . . , mn )0

sont les valeurs anticipées des statistiques d’ordre de variables i.i.d.


provenant d’une loi normale centrée réduite et V est la matrice
variance-covariance de ces statistiques d’ordre.
• Le test peut être effectué en R avec la commande shapiro.test(·),
provenant du package stats, où l’argument est le vecteur de résidus
d’un modèle de régression.
• Ce sont des petites valeurs de la statistique qui mènent au rejet de
l’hypothèse nulle. L’article de Shapiro et Wilk (1965) a une table de
points de la distribution cumulée de la statistique.
• Le test shapiro.test(·) en R calcule la p-value du test.
• La commande shapiro.test(·) est incluse dans le package stat.
• Test Jarque-Bera. Le test combine des mesures empiriques de l’asymétrie
et de l’aplatissement en une seule mesure. La statistique est définie de la
manière suivante :

 
n 2 1 2
JB ≡ S + (K − 3)
6 4

31
où (dans le contexte des résidus d’un modèle de régression)

Pn
µ̂3 1
n
(ûi )3
i=1
S≡ 3 =
σ̂ 1
Pn 2 3/2
n i=1 (ûi )

et
1
Pn 4
µ̂4 n i=1 (ûi )
K≡ 4 = 2 2
,
σ̂ 1
Pn
(û i )
n i=1

où µ̂3 et µ̂4 sont des estimés des troisième et quatrième moments centrés
des résidus et σ̂ 2 est un estimé de la variance des résidus. Notez que dans
tous ces cas nous sommes en train d’utiliser des moments centrés
puisque de toute façon la somme des résidus d’une régression est par
construction égale à zéro.
• La statistique JB suit (approximativement ou en grand échantillon) une
distribution chi-carré avec deux degrés de liberté. L’hypothèse nulle est la
normalité.
• Une grande valeur de la statistique calculée mène au rejet.
• En R, le test Jarque-Bera peut être effectué avec la commande
jarque.bera.test(·) provenant du package tseries, où
l’argument de la commande est une série de données. La commande
calcule automatiquement la p-value du test.

32
5.4 Indépendance des erreurs

• Ce sujet est beaucoup plus pertinent dans le cas où les données sont des
séries chronologiques. Il s’agit de tests pour détecter la présence
d’autocorrélation dans les erreurs.
• Sans une etude du chapitre sur les séries chronologiques il est difficile
d’élaborer sur ce sujet.
• Les tests clés dans cette sous-section sont le test Durbin-Watson, la
statistique h de Durbin, et le test Breusch-Godfrey.
• Pour des précisions sur le test Durbin-Watson et le test Breusch-Godfrey,
voir la documentation du package lmtest. Pour des précisions sur la
statistique h de Durbin, voir la documentation du package ecm.

6 Multicollinéarité

• Voir Giles (2011, 2013f). Giles est assez sarcastique au sujet de la


multicollinéarité, surtout dans son article de 2011. Il cite le manuel de
Goldberger qui a une section sur le problème de
 micronumerosity  dans le cadre de l’estimation de la moyenne d’une
variable aléatoire :  A generally reliable guide may be obtained by
counting the number of observations. Most of the time in econometric
analysis, when n is close to zero, it is also far from infinity. 
• L’interprétation : le problème de la multicollinéarité survient puisque
nous n’avons pas assez d’observations pour distinguer entre les impacts

33
de variables explicatives différentes.
• Comme nous avons déjà vu, la multicollinéarité (lorsqu’elle n’est pas
parfaite) est une propriété de l’échantillon de données qui est à notre
disposition. Tel que suggéré par Giles et Goldberger, puisque c’est une
propriété de l’échantillon que nous avons, il n’y pas forcément un remède
au problème.
• Détection de la multicollinéarité :

1. Changements importants dans les valeurs estimées de coefficients lors


de l’ajout ou du retrait d’une ou plusieurs variables.

2. Coefficients non significatifs individuellement mais significatifs en


bloc.

3.  Variance inflation factor  :

1
VIF ≡
1 − Rj2

où Rj2 est l’ajustement statistique d’une régression où la variable


explicative j est la variable dépendante et les variables explicatives
sont toutes les autres variables explicatives du modèle. On appelle

1 − Rj2 la  tolérance . La commande en R vif(·) permet
d’évaluer ce critère pour un modèle estimé.

4. Conditionnement de X 0 X. Racine carrée du ratio de la plus grande


valeur caractéristique sur la plus petite valeur caractéristique.
Généralement on dit que chiffre est supérieur à 30 c’est un indice

34
qu’il y a un problème potentiel.

5. Test Farrar-Glauber. Basé sur Farrar et Glauber (1967). Giles (2013f)


est assez critique à l’égard de ce test. Il note que dans l’article
original, les auteurs font l’hypothèse que les variables X suivent une
distribution normale multivariée. Le test peut être interprété comme
un test des corrélations entre les variables dans X dans la population.
Mais l’échantillon de données que nous avons est celui que nous
avons.

6. Construction d’une matrice de corrélations. Un coefficient de


corrélation élevée entre deux variables explicatives potentielles
indique un problème possible.

• Conséquences de la multicollinéarité.

1. Dans des cas extrêmes, l’ordinateur pourrait avoir des difficultés


(numériques) à inverser la matrice X 0 X.

2. L’estimé de l’impact d’une des variables sur la variable dépendante


peut devenir beaucoup moins précis.

3. La multicollinéarité peut aggraver les effets de variables omises.

• Remèdes possibles.

1. Vérifier la présence de la trappe aux variables dichotomiques.

2. Essayer de réestimer le modèle utilisant un sous-échantillon des


données.

35
3. Ne rien faire. Les données sont ce qu’elles sont, et essayer de faire
parler les données lorsqu’elles sont muettes sur la question que nous
leur posons.

4. Laisser tomber une variable. Attention au problème du biais dû aux


variables omises !

5. Obtenir davantage d’observations si possible.

6. Centrer les variables explicatives en soustrayant leurs moyennes.

7. Renormaliser les variables explicatives, par exemple en changeant les


unités de mesure pour que les variables explicatives soient d’un ordre
de grandeur comparable. Ceci peut affecter le conditionnement de la
matrice (X 0 X).

8. Utiliser la technique de la régression pseudo-orthogonale (ridge


regression en anglais). C’est un sujet qui est au-delà de la matière du
cours à part son idée de base. L’idée de base est d’utiliser l’estimateur

−1
β̃ ≡ (X 0 X + Γ0 Γ) X 0 Y,

où souvent la matrice Γ est une matrice diagonale définie comme

Γ ≡ αI

où α est une constante arbitraire. L’ajout de cette matrice introduit un


 
biais et donc E β̃ 6= β, mais peut réduire la variance de

36
l’estimateur. Pour cette raison, le résultat dans certains cas peut être
un estimateur avec une erreur quadratique moyenne inférieure à celle
de l’estimateur MCO (qui est un cas spécial de cet estimateur avec
α = 0). En général, la taille du biais de l’estimateur augmente avec la
valeur de α et la variance diminue (voir la section 1.4.3 de van
Wieringen 2018). Il y a donc un arbitrage entre biais et variance.
Malheureusement, il est impossible de connaı̂tre a priori la valeur
exacte de α qui va minimiser l’erreur quadratique moyenne.

9. Si les variables explicatives qui sont corrélées sont des retards (dans le
contexte de données qui sont des séries chronologiques), on peut
utiliser la technique des  retards distribués  qui impose une
structure sur les coefficients à estimer.

7 Endogénéité

• Ce sujet nous mène vraiment à la frontière de la matière du cours,


puisqu’il nous amène à parler de la technique d’estimation par variables
instrumentales. Le principe de base est (j’espère) relativement simple à
comprendre. Pour plus de détails, voir le chapitre 12 du manuel de Stock
et Watson (version en langue anglaise). Il y a aussi un encadré à la fin de
cette section où je développe l’estimateur IV (variables instrumentales).
Les développements algébriques dans l’encadré sont relativement
abordables.

37
• C’est une façon générale de résumer tout ce qui peut causer une
corrélation non nulle entre les variables explicatives du modèle et le
terme d’erreur. Nous avons déjà vu en détail le problème de variables
omises. Il y a d’autres sources possibles du problème.
• Causes possibles de l’endogénéité.

1. Variable(s) omise(s). Nous avons vu ce problème en détail.

2. Erreurs de mesure. La vraie variable explicative est X̃j mais ce qu’on


mesure est donné par
Xj = X̃j + 

où  est un vecteur d’erreurs d’observation. Le vrai modèle est

Yi = β0 + β1 X1i + . . . + βj X̃ji + . . . + βk Xki + ui

et le modèle estimé est donné par

Yi = β0 + β1 X1i + . . . + βj Xji + . . . + βk Xki + (ui − βj i ) .

Puisque Xji dépend de i , il y a évidemment une corrélation non nulle


entre Xji et le terme d’erreur.

3. Simultanéité. Une variable exogène influence simultanément la


variable dépendante Y et une ou plusieurs des variables explicatives.
L’influence de la variable exogène sur Y peut être indirecte. Pensez au
problème d’estimer la courbe d’offre du café. On pourrait estimer

38
l’équation suivante (où l’échantillon d’observations porte sur la
quantité de café vendue dans des supermarchés différents à des prix
possiblement différents) :

Y i = β0 + β1 Xi + u i

où Yi est la quantité de café et Xi est le prix par unité du café. Est-ce
que ceci est une courbe d’offre ou une courbe de demande ? En fait, Yi
et Xi dépendent en principe de facteurs exogènes et l’équation est ce
que l’on observe sont des combinaisons de quantités et de prix à
l’équilibre, l’équation est ce qu’on appelle une forme réduite et non
une équation structurelle. Pour estimer la courbe d’offre, il faut
trouver un facteur qui fait déplacer la courbe de demande (comme,
par exemple, le prix du thé, un bien qui est substitut pour le café). Si
les seuls changements exogènes sont des variations du prix du thé, on
pourra observer des combinaisons différentes de prix du café et de
quantités vendues de café qui résultent de déplacements de la courbe
de demande le long de la courbe d’offre. Ici, l’impact du prix du thé
sur la quantité vendue du café est indirect. Il affecte la quantité
vendue du café parce qu’il affecte la demande pour le café. On verra
dans la section suivante sur les estimateurs à variables instrumentales
qu’une variable comme le prix du thé serait un bon instrument à
utiliser pour estimer l’équation ci-dessus.

39
7.1 Tests d’endogénéité

Nous considérons dans cette sous-section le test Durbin-Hausman-Wu et la façon


relativement simple de l’effectuer qui provient du manuel de Woodridge (2009).
• Test Durbin-Hausman-Wu. Ce test dépend de la construction d’un
estimateur à variables instrumentales. Nous développons cette idée dans
l’encadré qui se trouve à la fin de cette section. Je conseille fortement la
lecture de cet encadré avant de lire plus loin.

1. Le test a pour but de tester si le problème d’endogénéité est sévère.


Pour le faire, il faut avoir identifié un ensemble d’instruments qui
permet d’obtenir un estimateur convergent de β.

2. Il faut avoir deux estimés différents du même ensemble de


paramètres : l’estimateur MCO β̂ et l’estimateur IV (variables
instrumentales) β̂IV .

3. Sous l’hypothèse nulle, les deux estimés sont convergents, et il y a un


estimé (donné par l’estimateur MCO) qui est plus efficient que l’autre
(qui est donné par l’estimateur IV).

4. Sous l’hypothèse alternative, le deuxième estimateur est toujours


convergent, tandis que le premier est non convergent.

5. La statistique s’écrit comme

 0  †  
DHW ≡ β̂ − β̂IV Σ̂β̂IV − Σ̂β̂ β̂ − β̂IV

40
où Σ̂β̂IV est l’estimateur convergent de la matrice variance-covariance
des paramètres estimés par la méthode IV et † dénote l’inverse
généralisée Moore-Penrose (qui généralise la notion d’inverser une
matrice).

6. La statistique en grand échantillon (asymptotiquement) suit une


distribution chi-carré avec un nombre de degrés de liberté égal au
 
rang de la matrice Σ̂β̂IV − Σ̂β̂ .

7. Le test peut être effectué en R par le bias de la commande


hausman.systemfit(·) provenant du package systemfit. La
commande prend deux arguments, qui sont les résultats du modèle
estimé de deux façons différentes (MCO et IV dans l’exemple qui
nous préoccupe).

• Il y a une façon beaucoup plus facile d’effectuer le test. Voir la section


15.5 dans Wooldridge (2009).

1. Soit le modèle linéaire donné par

Yi = β0 + β1 W1,i + . . . + βk Wk,i + βk+1 Xi + ui ,

où on sait que les variables W ne sont pas corrélées avec le terme
d’erreur u tandis que la variable X est possiblement corrélée avec le
terme d’erreur.

2. On a un ensemble de variables instrumentales qui comprennent les


variables dans le modèle initial qui ne sont pas corrélées avec U

41
(W1 , W2 , . . . , Wk ) plus possiblement d’autres variables.

3. Soit le modèle auxiliaire donné par

Xi = γ0 + γ1 W1,i + . . . + γk2 Wk2 ,i + i ,

où k2 ≥ k + 1. Donc il doit y avoir au moins une variable


instrumentale qui n’est pas incluse dans le modèle initial.

4. Par hypothèse, les variables W ne sont pas corrélées avec u, alors X


sera non corrélée avec U si et seulement si l’erreur  n’est pas corrélée
avec u.

5. On voudrait inclure  comme variable explicative additionnelle dans


le modèle initial. On ne peut le faire puisque l’erreur n’est pas
observable, mais on peut inclure les résidus d’une estimation du
modèle auxiliaire par MCO. Donc, on estime le modèle

Yi = β0 + β1 W1,i + . . . + βk Wk,i + βk+1 Xi + βk+2 ˆi + ũi .

Puisque ce n’est pas le même modèle que le modèle initial, le terme


d’erreur n’est pas identique, et donc j’ai remplacé ui par ũi .

6. On teste l’hypothèse nulle que βk+2 = 0 avec une statistique t. Si on


rejette l’hypothèse nulle, on conclut que la variable X est endogène
(corrélée avec le terme d’erreur U ) puisque  et u sont corrélées.

7. Il est possible de généraliser cette méthode au cas où il y a plus qu’une

42
variable qui est potentiellement endogène dans le modèle initial.

Estimateur à variables instrumentales

Le développement dans cet encadré est très semblable à celui de l’encadré


sur l’interprétation alternative de l’estimateur MCO dans le chapitre sur le
modèle de régression multiple.

On commence avec le modèle linéaire habituel donné par

Y = Xβ + U.

On suppose maintenant qu’il n’est plus forcément le cas que

E (U |X) = 0.

Par contre, on suppose l’existence d’une matrice de dimensions n × k2 avec


k2 ≥ k + 1 et où
E (U |W ) = 0.

Iĺ s’agit d’une matrice d’observations sur k2 variables instrumentales qui ne


sont pas corrélées avec le terme d’erreur du modèle. Un instrument par
définition est une variable corrélée avec les variables explicatives dans le
modèle et non corrélée avec le terme d’erreur du modèle. Notez que s’il y a

43
des variables parmi les variables dans X qui ne sont pas conditionnellement
corrélées avec U , ces variables peuvent être incluses dans W .

Considérez maintenant le modèle transformé

R0 W 0 Y = R0 W 0 Xβ + R0 W 0 U

où R est une matrice de pondérations (nous reviendrons sur cette matrice un
peu plus tard). Nous pouvons pour l’instat considérer R comme une matrice
de constantes.

Laissant tomber le dernier terme du membre droit pour obtenir

R0 W 0 Y = R0 W 0 Xβ

Définissons maintenant l’estimateur IV (variables instrumentales) comme

−1
β̂IV = (R0 W 0 X) R0 W 0 Y.

Nous avons tout de suite que

 
(R0 W 0 X) β̂IV − β

−1
= (R0 W 0 X) (R0 W 0 X) R0 W 0 Y − (R0 W 0 X) β

−1
= (R0 W 0 X) (R0 W 0 X) R0 W 0 (Xβ + U ) − (R0 W 0 X) β

44
= R0 W 0 U.

Nos hypothèses concernant l’espérance conditionnelle du terme d’erreur a


tout de suite pour conséquence que

1 0 0 p
RW U →
− 0
n

1 0 0  
p
⇒ (R W X) β̂IV − β →− 0
n
 
p
⇒ β̂IV − β → − 0.

Notez que dans le cas de l’estimateur IV, nous ne pouvons pas monter
l’absence de biais. Nous avons

−1
β̂IV = (R0 W 0 X) R0 W 0 Y

−1
= (R0 W 0 X) R0 W 0 (Xβ + U )

−1
= β + (R0 W 0 X) R0 W 0 U.

Nous pouvons calculer l’espérance de cet estimateur et appliquer, comme


d’habitude, la loi des espérances itérées pour obtenir

   
−1
E β̂IV = β + E (R0 W 0 X) R0 W 0 U

  
−1
= β + E E (R0 W 0 X) R0 W 0 U |W .

45
Le problème à ce stade-ci est la présence de X dans l’expression
(R0 W 0 X)−1 R0 W 0 . Même étant données les valeurs des W , le terme
(R0 W 0 X)−1 R0 W 0 est encore stochastique. Nous ne pouvons pas traiter
l’expression comme une matrice de constantes et, pour cette raison, l’écrire
du côté gauche de l’opérateur d’espérance (conditionnelle).

Donc, pour cette raison, l’estimateur IV est convergent mais il est


possiblement biaisé en échantillons finis.

Justification alternative

Une autre façon de justifier l’estimateur β̂IV est la suivante. Si les


instruments W ne sont pas corrélés avec le terme d’erreur, nous avons

Y = Xβ + U

⇒ E (R0 W 0 Y ) = E (R0 W 0 (Xβ + U ))

= E ((R0 W 0 X) β) + E (R0 W 0 U )

= E (R0 W 0 X) β + E (R0 W 0 U )

= E (R0 W 0 X) β + E (E (R0 W 0 U |W ))

= E (R0 W 0 X) β

−1
⇒ β = (E (R0 W 0 X)) (E (R0 W 0 Y )) .

46
Comme dans la section sur la justification alternative de l’estimateur MCO.
les vraies valeurs des β sont une fonction des espérances de R0 W 0 X et de
R0 W 0 Y , Un estimateur naturel serait de remplacer les moments dans la
population par leurs équivalents calculés avec notre échantillon de données.
Nous avons tout de suite

 −1  
1 1
β̂IV = (R0 W 0 X) (R0 W 0 Y )
n−1 n−1

−1
= (R0 W 0 X) R0 W 0 Y.

C’est une autre exemple d’un estimateur dans la classe de la méthode des
moments : on remplace les moments dans la population par les moments
échantillonnaux.

Estimateur des moindres carrés à deux étapes

Si les erreurs U sont indépendantes et homoscédastiques, on peut montrer


que le choix optimal de R est donné par

−1
R = (W 0 W ) W 0 X,

qui a l’interprétation de la matrice de coefficients estimés d’une régression de


toutes les variables X sur les instruments W . (C’est une autre version encore

47
du théorème Gauss-Markov.) Autrement dit, si on a

X = W ρ + ,

alors
−1
R ≡ ρ̂ = (W 0 W ) W 0 X.

De cette façon
W ρ̂ = W R ≡ X̂

a l’interprétation des valeurs prédites des X provenant de cette régression.


Notez bien que ρ̂ est une matrice de coefficients puisque X est une matrice
de dimensions (n × (k + 1)) au lieu d’être un vecteur de dimensions (n × 1).

Dans ce cas, on a

 −1
−1 −1
β̂IV = X 0 W (W 0 W ) W 0 X X 0 W (W 0 W ) W 0 Y.

 −1
≡ X̂ 0 X X̂Y.

Dans ce cas, l’estimateur IV est connu sous le nom de l’estimateur moindres


carrés à deux étapes (2SLS en anglais ce qui veut dire  two-stage least
squares ), la première étape étant la régression de toutes les variables
explicatives du modèle initial sur toutes les variables instrumentales.

48
Quelques qualifications

Le problème fondamental avec l’estimateur IV est la nécessité d’identifier


des variables instrumentales appropriées. Ceci est un grand sujet de recherche
en économétrie (le nombre de papiers sur le problème  d’instruments
faibles  est énorme). Le problème essentiellement est de trouver des
variables qui non seulement ne sont pas corrélées avec le terme d’erreur du
modèle mais aussi sont fortement corrélées avec les variables explicatives
dans le modèle qui sont endogènes (corrélées avec le terme d’erreur).
Une recherche Google ou Google Scholar avec les mots clés  weak
instruments  devrait suffire pour constater que c’est un sujet de recherche
très actif.

8 Un exemple détaillé avec R

Je donne ici un exemple très simple de calculs que l’on peut effectuer rapidement
et facilement avec R.

L’exemple est basé sur le quatrième chapitre dans Kleiber et Zeileis (2008). Voir
le livre pour des explications plus détaillées.

Les commandes peuvent être exécutées comme un script.

49
R> # Charger les packages nécessaires en mémoire.
R> library("stats")
R> library("car")
R> library("sandwich")
R> library("faraway")
R> # Les données proviennent du package sandwich.
R> # Charger les données en mémoire.
R> data("PublicSchools")
R> # Permettre d’appeler les variables directement
R> # sans utiliser le nom de la base de données.
R> attach(PublicSchools)
R> # Calculer des statistiques descriptives.
R> summary(PublicSchools)
R> # Il y a une observation manquante. L’enlever.
R> ps <- na.omit(PublicSchools)
R> attach(ps)
R> # Renormaliser la variable Income.
R> Income <- Income/10000
R> # Recalculer les statistiques descriptives.
R> summary(ps)
R> # Estimer le modèle de régression simple.
R> ps lm <- lm(Expenditure ∼ Income)

50
R> # Sortir les résultats principaux.
R> summary(ps lm)
R> # Faire un graphique de la ligne de régression.
R> plot(Expenditure ∼ Income,ylim=c(230,830))
R> abline(ps lm)
R> # Ajouter 3 noms d’état au graphique.
R> id <- c(2,24,48)
R> text(ps[id,2:1],rownames(ps)[id],pos=1,xpd=TRUE)
R> # Calculer un certain nombre de statistiques.
R> # diagnostiques.
R> # D’abord, calculer les "hatvalues".
R> ps hat <- hatvalues(ps lm)
R> # Sortir un graphique avec les hatvalues.
R> plot(ps hat)
R> # Ajouter des lignes pour la moyenne
R> # et pour trois fois la moyenne.
R> abline(h=c(1,3)*mean(ps hat),col=2)
R> # Identifier les observations aberrantes
R> # sur le graphique.
R> id <- which(ps hat>3*mean(ps hat))
R>
text(id,ps hat[id],rownames(ps)[id],pos=1,xpd=TRUE)

51
R> # Utiliser "plot(ps lm)" pour créer une
R> # série de graphiques.
R> plot(ps lm,which = 1:6)
R> # Utiliser "influence.measures(ps lm)" pour
R> # identifier les observations abberrantes
R> # ou influentes.
R> summary(influence.measures(ps lm))
R> # Réestimer en enlevant les 3 observations.
R> plot(Expenditure ∼ Income, data = ps, ylim =
c(230, 830))
R> abline(ps lm)
R> id <-
which(apply(influence.measures(ps lm)$is.inf, 1,
any))
R> text(ps[id, 2:1], rownames(ps)[id], pos = 1, xpd
= TRUE)
R> ps noinf <- lm(Expenditure ∼ Income, data =
ps[-id,])
R> abline(ps noinf, lty = 2)
R> # Utiliser avPlots(ps lm).
R> avPlots(ps lm)
R> # Utiliser prplot(ps lm).

52
R> prplot(ps lm,1)
R> # Estimer le modèle non linéaire avec
R> # Expenditure2 dans le modèle.
R> ps lm2 <- lm(Income Expenditure +
I(Expenditureˆ2))
R> summary(ps lm2)
R> plot(ps lm2,which=1:6)
R> summary(influence.measures(ps lm2))
R> avPlots(ps lm2)
R> prplot(ps lm2,1)
R> prplot(ps lm2,2)
R> # Estimer un autre modèle de régression
R> # multiple.
R> # Les données proviennent du package faraway.
R> # Les données contiennent des taux d’épargne
R> # dans 50 pays.
R> data(savings)
R> # Permettre d’appeler les variables directement
R> attach(savings)
R> summary(savings)
R> m1 <- lm(sr ∼ pop15 + pop75 + dpi + ddpi)
R> summary(m1)

53
R> plot(hatvalues(m1))
R> # Générer des graphiques de variables ajoutées.
R> avPlots(m1)
R> # Générer des graphiques de résidus partiels.
R> prplot(m1,1)
R> prplot(m1,2)
R> prplot(m1,3)
R> prplot(m1,4)

Références

Voir ce lien :
http:
//www.steveambler.uqam.ca/4272/chapitres/referenc.pdf

Dernière modification : 23/04/2018

54

Vous aimerez peut-être aussi